华侨网,有态度的华人新闻网站!

帮助中心 广告联系

華僑時報 | 華僑網

热门关键词:  央行  发顺丰  蓝狐  詩詞  习近平
热门TAG标签:

继 Google、IBM 之后,Facebook公布行为识别数据集!(3)

来源:网络整理 作者:华侨时报 发布时间:2018-01-03
摘要:Google官方博客指出,识别人类动作仍然是一个巨大的挑战,原因在于人类动作的定义不如视频中的对象来得完善,AVA利用 YouTube上的公开视频为基础,区分

Google官方博客指出,识别人类动作仍然是一个巨大的挑战,原因在于人类动作的定义不如视频中的对象来得完善,AVA利用 YouTube上的公开视频为基础,区分出 80个原子动作(atomic actions),例如行走、踢(一个对象/东西)、握手等等,共 21万个行动标签。

继 Google、IBM 之后,Facebook公布行为识别数据集!

图|Google AVA数据集利用电影、电视为基础,区分出 80个原子动作(图片来源:Google Blog)

不久前,MIT IBM Watson AI Lab公布了一个视频数据集 Moments in Time Dataset,首先是一举扩大了数据的规模,共有 100万个 3秒钟的视频片段,同时深化动作的情境,涵盖了广泛的英语语意、以人为中心的数据,他们建立了 300多个日常生活常见的“动词”标签,而且是描绘了非常具体的情境,像是化妆、瞄准、除草或是体育赛事的跳高等,同样是采取把事情分解成原子动作的概念,希望能供研究人员使用以协助训练机器学习系统的开发及应用。

继 Google、IBM 之后,Facebook公布行为识别数据集!

图|MIT IBM Watson AI Lab公布了具有 100万个视频的数据集 Moments in Time Dataset,建立了 300个动作标签。(图片来源:MIT IBM Watson AI Lab )

继 Google、IBM 之后,Facebook公布行为识别数据集!

图|Moments in Time Dataset数据集同样是采取把事情分解成原子动作的概念,建立动作标签。(图片来源:MIT IBM Watson AI Lab )

参与这项专案的 IBM视频分析科学家 Dan Gutfreund指出,这不只是标注一些基本动作如跑、走、笑而已,如果要让机器了解差异,例如跳(jump)跟跳高(jump high),就必须考量“跳高”这一项特殊的活动,因为跳高是环绕着“跑”、“跳”、“拱桥”(arching)、“落下”到“着陆”这些基本动作的组合。

此外,这个数据集还考量到了不少独特但重要的地方,例如,有时候你看不到动作但听到声音,你还是会知道是在做什么,因此,他们也把只有背景声音的视频像是“拍手”的声音放进数据集内,“这有助于开发多模的动作识别模型,”他说。

另外,就是考量标签间的变异性(inter-label variability),例如“打开”(open),一只狗张开嘴巴、或是一个人打开门,看起来就是不一样,但都是同一个英文动词,这就是所谓的标签变异性,而这些情况就会被放进一个“开放”类别,以帮助机器理解比较棘手的动词。

另外,也可以发现 Google AVA和 Moments in Time Dataset的视频都是 3秒钟,Dan Gutfreund表示,选择 3秒并不是随意决定的,而是人类短期记忆的平均时间值,也就是说,3秒虽短但也足够长到让人类是有意识地在处理或进行某个事件。

在商业上有很大的潜力

也因为视频理解在商业上有很大的潜力,例如视频平台、自动驾驶、安防等涉及到视频的场景都很适合通过 AI技术做的更深入,目前已经有越来越多的企业投入,像是 Facebook、阿里巴巴、今日头条 AI实验室等。

责任编辑:华侨时报