主页 > R绿生活 >Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为 >

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为


2020-06-07


Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

上週,AlphaGo 「终极版」AlphaGo Zero 再次让世人惊讶,自学 3 天完胜李世乭、40 天登顶「世界围棋冠军」。

但这并不意味着人工智慧有能力取代人类,套用机器人界的一句话:

简单来说,要 AI 辨识人类的行为动作至今仍是难题,而 4 个月大的婴儿就能辨识各种脸部表情了。

Google 正让自家 AI 克服这个难题。最近 Google 发表了新的人类动作数据库集体 AVA(atomic visual actions),可以精準标注影片中的多人动作,而其学习的对象则是来自 YouTube 大量的影片。

据 Google Research Blog 介绍,AVA 的分析样本主要是 YouTube 的影视类影片。Google 先从这些影片收集大量不同的长序列内容,并从每个影片截取 15 分钟,并将这些 15 分钟片段再平均分成 300 个不重叠的 3 秒片段,同时採样让动作顺序和时间顺序保持一致。

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

3 秒片段边界框标注範例,範例中只显示一个边界框。

接下来则需要手动标记每个 3 秒片段中间帧边界框中的每个人,从 80 个原子动作(atomic action)中选择合适的标籤(包括行走、握手、拥抱等)标注这些人物行为。

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

sit

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

watch

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

kiss

Google 把这些行为分成 3 组,分别是姿势/移动动作、人物交互和人与人互动。目前 AVA 已分析了 570,000 个影片片段,标记了 96,000 个人类动作,并生成 21,000 个动作标籤。

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

在 AVA 的数据分析中,会辨识每个影片片段的每个人物动作,也发现人类的的行为往往不单一。

统计至少带有两个动作标籤的人物数据,就可以分析人类不同动作一起出现的频率,AVA 的文件称之为共现模式(co-occurrence pattern) 。

从 AVA 数据可看到,打架和武术、亲吻和拥抱、唱歌和弹奏乐器,这些都是比较常见的共现模式。

同时为了尽可能覆盖更大範围的人类行为,AVA 分析的电影或剧集,採用不同国家和类型的影片,这也可能是为了避免出现性别歧视和种族歧视。早在 2015 年,Google Photos 就曾因误把两名黑人标注为「大猩猩」(Gorilla)而备受诟病。

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

Google 还将对外开放资料库,最终目的是提高 AI 系统的「社交视觉智慧」,进而了解人类正在做什幺,甚至预测人类下一步要做什幺。

当然目前距离这个目标还很遥远,正如 Google 软体工程师 Chunhui Gu 和 David Ross 介绍 AVA 的文章写道:

虽然柯洁称,「对 AlphaGo 的自我进步来说人类太多余了」,可是人脑有 800 亿个神经元细胞、100 兆个连接,AI 神经网路想达到大脑的认知水準绝非易事。

目前电脑视觉技术的发展也主要集中在静态图像领域。

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

Google 从 2006 年开始用深度学习演算法代替人工辨识,Google Photos 现在已可辨识出猫狗的照片并自动分类。

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

从 a 到 b 分别是 Google Creatism 系统从街景图到最终作品的全过程。

Google 的人工智慧实验室 DeepMind 正利用人工智慧将 Google 街景图製作成专业的摄影作品,其水準甚至已媲美专业摄影师。

而 iPhone X 的 Face ID 技术,也许会让脸部辨识技术在智慧手机变得更普及。就连全球最大的色情网站 Pornhub,也宣布将引入人工智慧技术自主检测网站成人影片的内容和表演者,让 AI 演算法为成人影片内容和演员标籤分类。

Google AI 「看」了几万部电影,为的是有一天能看穿人类的行为

相比而言,电脑对人类动态行为的辨识要困难得多。最近《The New Yorker》新一期封面在美国社交媒体红了起来,封面文章《黑暗工厂:欢迎来到未来机器人帝国》(Dark Factory)描述越来越多人类的工作被机器人取代。

虽然机器人能做的事越来越多,但文中也可看到机器人对很多看似简单的工作依然无能为力,比如打开盒子和解开绳结。美国布朗大学人机实验室的 Winnie 机器人前不久才刚学会了摘下花瓣。

而 Google 这次的人类动作数据库集体 AVA,目前最直接的作用可能就是帮助 YouTube 处理和审核每天上传的大量影片,同时也能更服务广告主。

过去 Google 就曾因为无法精準辨识影片内容而吃大亏,《Wired》杂誌的一篇文章曾披露, Google 在影片植入广告的自动系统,将一些广告放在宣传仇恨和恐怖主义的影片旁边,已让沃尔玛和百事可乐等大客户放弃 Google 的广告平台。

对 90% 收入来自广告业务的 Google 来说,这问题当然不能怠慢。之前 Google 主要聘请一大群临时工监测和标记各种影片内容,并以此为 AI 的训练数据。

这样的做法除了需要高昂的人力成本,也有观点认为这些临时工不稳定的工作状态和与 Google 的缺乏沟通,会影响到 AI 辨识的精确度。

由此可见,如果 Google 这个 AI 的学习能力够强,那不久的将来,这些临时工也将统统失业。这项技术的应用当然也不局限于此。

随着 AI 对人类认知越来越深,对于人工智慧伦理的讨论也许会变得更激烈。



上一篇:
下一篇:


小编推荐