华侨网,有态度的华人新闻网站!

帮助中心 广告联系

華僑時報 | 華僑網

热门关键词:  央行  发顺丰  蓝狐  詩詞  习近平
热门TAG标签:

继 Google、IBM 之后,Facebook公布行为识别数据集!(2)

来源:网络整理 作者:华侨时报 发布时间:2018-01-03
摘要:图| Snapchat 、 YouTube 、 Facebook 是视频的主要观看平台。(数据来源: RENDRFX ) 生活是动词,不是名词 有人可能会认为,机器已经可以识别图像了,会分

图| SnapchatYouTubeFacebook 是视频的主要观看平台。(数据来源:RENDRFX

生活是动词,不是名词

有人可能会认为,机器已经可以识别图像了,会分辨猫、狗、汽车、红绿灯,为什么还需要机器看懂视频,这之间有差别吗?答案是肯定的。

“生活不仅是一系列的快照,是随着时间变化在现实世界发生的事,这是关于动词,而不是名词,”专攻机器人感知的初创公司 TwentyBN产品主管 Moritz Mueller-Freitag道出重点。而 TwentyBN利用一年的时间建立两个视频数据集:一是针对人类-对象互动的 Something-something数据库,另一则是关于手势动作的 Jester数据集。

他进一步解释,深度学习近年来取得了历史性的进步,可以在静止的图像中识别物体,表现不输给人类,但是计算机理解视频的空间和时间仍然是一个未解的问题。因为照片只是一张静态图片,但一段视频则是“动作的叙述”,透露的信息包括了三维几何、材料性质、物体持久性、重力等。

继 Google、IBM 之后,Facebook公布行为识别数据集!

图|TwentyBN 建立手势动作的 Jester 数据集。(数据来源: Moritz Mueller-Freitag Medium

举例来说,一张照片上有一个人站在路边的角落,但是照片并不会告诉你“动作的叙述”:这个人在那边站了多久?是呆站着还是来回徘徊?也就是说,照片可提供的资讯在某些领域或应用是不够的,例如安防。

从事 AI安防方案开发,并在美国市场拿下不少大型订单的初创公司盾心(Umbo CV)创办人关宇翔就表示,安防领域通常关注暴力行为及犯罪行为,爬围墙、挥舞手臂等动作可能只有短短 5秒钟,另外,假设有一个人在人烟稀少的 ATM附近徘徊,系统侦测他滞留过久,就会向管理者发出警报,这些都牵涉了一段时间跟连续性的动作,因此盾心在开发并训练机器时就是同时利用照片及视频,因为只是光靠照片作为训练素材,开发出来的安防产品肯定不够聪明,品质自然就不合格。

用原子动作教机器

对我们人类来说,对于物理世界的详细理解是很直觉化的,但是在人工智能和机器人技术的当前应用中还是有很大程度被忽略了。要突破这个发展现况,首先就是要有大量的数据,就像先前李飞飞和普林斯顿大学教授李凯发起的 ImageNet计划,建立一个多达 150亿张图像的庞大数据库。帮助 AI理解视频也可以采取类似的方式,需要“视频”的训练集。

目前有一些公开的视频标签数据集,像是 UCF101、ActivityNet、或是 DeepMind的 Kinetics。不过,这些数据集主要是标注了影像的分类,而不是针对包含了多人动作的复杂场景,不过一直到 Google公布了原子视觉动作(AVA)数据集,才将人类动作分类的更为明确和细致。

责任编辑:华侨时报