华侨网,有态度的华人新闻网站!

帮助中心 广告联系

華僑時報 | 華僑網

热门关键词:  央行  发顺丰  蓝狐  詩詞  习近平
热门TAG标签:

继 Google、IBM 之后,Facebook公布行为识别数据集!(4)

来源:网络整理 作者:华侨时报 发布时间:2018-01-03
摘要:今日头条人工智能实验室对 DT君表示:“ AI在视频理解领域正处在一个高速成长期,事实上 AI在视频理解上做的要比在语音识别领域还要好一些。 ” 头条

今日头条人工智能实验室对 DT君表示:“AI在视频理解领域正处在一个高速成长期,事实上 AI在视频理解上做的要比在语音识别领域还要好一些。

头条有很多辅助创作者创作的小工具都是依赖于人工智能对视频的理解,比如帮助创作者在视频内自动选取封面图,以及从视频中自动选取优质的视频段落等等。因为很多创作者上传完视频封面都是默认的视频第一帧,但很多时候视频第一帧的效果并不好,机器可以帮助选择视频中优质的一帧或者段落作为视频封面。

同时,人工智能也参与到了审核低俗视频的工作中,因为像火山小视频、抖音都属于 UGC用户自上传,并且每天的内容上传量非常大,一些视频可能会涉及到色情或者低俗,机器可以和人工结合,帮助审核,极大地提高了效率。

另外,也有不少人锁定在运动领域,让计算机观看篮球、足球等比赛的影片,学习各种规则及动运员的技巧,通过深度学习技术让计算机能够判读球员或球队的战术,同样的,比赛也是一种涉及时间序列、连续动作的变化,利用视频训练会比图像来得适合得多。

视频理解是另一场资本竞赛?

不过,教计算机如何理解视频比理解图像要困难得多。很多事是在一瞬间发生,人类可以通过感官快速、轻松地处理,但机器需要算法才能理解物理世界以及行为者所执行的无数种行为,同时,手动替视频下标签以及机器的训练过程都得花上更多时间。

“视频比较难处理,要处理的问题复杂性比物体识别更高一步,”Dan Gutfreund说,因为物体是物体,例如一条热狗就是热狗,但是视频常有许多动作,动作往往是一个复杂概念的集合,可以是简单的行为,但也可能是带有复杂的情绪、意图。

阿里巴巴 iDST首席科学家任小枫在 2017年 10月的 AI Frontiers大会上就指出,淘宝的购物搜寻从最初的文字进展到影像,越来越多商家放上产品解说、营销的视频或是开直播,故视频理解是 iDST研究的方向之一,他举了优酷的植入式广告为例,他们内部开发了一个方案用于扫描 3D物体,并且试图加入视频理解功能,有时成功但有时则不奏效。

除了要让机器理解抽象事物本身就很难之外,还有一个实际的问题,那就是成本,视频的数据量比图像大非常多,如果又是高画质影片,就得增加更多的运算资源、储存空间,这些都是昂贵的支出。“对初创公司来说,要花更多的钱在存储和处理计算资源上,你就必须考量成本效益,客户愿不愿意买单,”关宇翔说。视频理解就是另一场资本的竞赛。

而今日头条人工智能实验室对于 AI理解视频内容的难点也提到了同样的看法,“相比图像,视频的信息更复杂,将其模型化的难度更大。其次视频内容的数据量更大,视频理解对存储计算资源以及实时性的要求也会更高。”

Google首席产品经理 Apoorv Saxena先前接受媒体采访时就指出,接下来就是做到通过视频中不同的图像、场景来描述每个场景,或是 AI看完一部影片后总结它看到了什么,至少目前看来是很有希望做到。另外一个就是将视频理解与虚拟现实(virtual reality)结合,可以创造出一些有趣的突破,这是值得继续关注的领域。

利用迁移学习扩大应用

责任编辑:华侨时报