华侨网,有态度的华人新闻网站!

帮助中心 广告联系

華僑時報 | 華僑網

热门关键词:  央行  发顺丰  蓝狐  詩詞  习近平
热门TAG标签:

继 Google、IBM 之后,Facebook公布行为识别数据集!

来源:网络整理 作者:华侨时报 发布时间:2018-01-03
摘要:2017 年 12 月 29 日,Facebook 与麻省理工学院计算机科学与人工智能实验室(CSAIL)合作公布了一个带有标签的大型视频

(《麻省理工科技评论》中英文版APP现已上线,年度订阅用户每周直播科技英语讲堂,还有科技英语学习社区哦~)

2017年 12月 29日,Facebook与麻省理工学院计算机科学与人工智能实验室(CSAIL)合作公布了一个带有标签的大型视频数据集 SLAC(Sparsely Labeled ACtions),包括了 200个动作类别、52万个未剪辑的视频以及 175万个剪辑注释,另外 Facebook也表示,使用这个框架注释剪辑(annotating a clip)平均只要 8.8秒,相较于传统手动剪辑、动作定位的方式,能够省下 95%的标注时间,可帮助研究人员更快速、有效率的训练机器识别各种动作。

继 Google、IBM 之后,Facebook公布行为识别数据集!

图|Facebook公布的 SLAC数据集用于训练 AI识别动作,像是除草、贴壁纸、使用划船机健身器材等一连串的动作。(图片来源:Facebook)

参与这项计划的 Facebook研究科学家严志程在他的 Facebook帐号上表示:“SLAC不只是为动作识别提供了一个新的基准,也是一个能够有效预先训练视频模型(pre-train video models)的大型数据集,之后通过迁移学习转到小规模的数据集上,只要经过微调就能取得很好的效果。”

而这也是继 Google、IBM之后,又有一家 AI巨头公司公布了视频数据集,希望让机器能够理解人类生活的动作为什么这些大型公司都纷纷将注意力放到了视频上,因为对于计算机视觉技术的突破已经从静态的图像识别转向到了视频理解,甚至是希望达到人类程度的理解。

视频理解是计算机视觉的下一个前沿

计算机视觉(CV)技术发展了数十载,在 2012年出现了一个重要的分水岭,那就是深度学习技术的应用及带来的突破。2012年的大规模视觉识别竞赛(ILSVRC,ImageNet Large Scale Visual Recognition Challenge),师承深度学习之父 Geoffrey Hinton的多伦多大学研究生 Alex Krizhevsky以 GPU训练他开发的深度卷积神经网络结构 AlexNet,赢得了该届比赛的冠军。

ILSVRC挑战赛自 2010年开办,先前表现最佳的系统错误率仍超过 25%,Alex Krizhevsky通过深度学习将错误率大幅降低到只有 15.4%,这是首次有参赛者以“深度学习”架构参赛,而且还以很大的差距领先其它队伍,因此被视为是 AI Big Bang(AI大爆发)的起源,从此之后深度学习成了学界、行业界的主流,到了 2015年错误率进一步降低到只有 3.7%,比人眼识别的错误率区间 5~10%还低,2017年冠军的错误率更只有 2.3%。先不辩论计算机辨认图片是否真的比人类更精准这个问题,但至少机器识别图像可以说是接近相当完美。

众多研究人员利用深度学习并在比赛上屡创佳绩,若再继续举办类似的比赛已无太大的意义,因此,2017 ILSVRC以最后一届的身份举办,未来对于计算机视觉技术的期待将从图像识别、物体识别转向其它有待突破的领域,例如计算机视觉理解、视频理解。

像素的世界已经超过了图片

像素(pixel)的世界已经超过了图片(picture),然而多年来视频仍是机器学习研究人员面临的挑战”,“视频就像是计算机视觉里的暗数据,我们正在开始关注数字世界的暗数据问题,”Google人工智能与机器学习首席科学家李飞飞在 2017年 Google Next Cloud大会上清楚的指出。

视频在当代人的生活中越来越重要,除了观看之外,更通过智能手机、GoPro、无人机等自产了许多用户生成内容(UGC),YouTube、Facebook、Snapchat每日视频观看次数也持续升高,在未来几年还会有许多设备增加,像是智能监控摄影机到自动驾驶汽车等,这些设备都是以相机作为感知的工具、以影像作为理解世界的入口,因此,如何让机器看得懂视频,对于 AI的技术发展及商业应用只会越来越重要。

继 Google、IBM 之后,Facebook公布行为识别数据集!

责任编辑:华侨时报