主页 > K优生活 >Google AI 打电话影片洗板网路,微软忍不住发声明彰显实力 >

Google AI 打电话影片洗板网路,微软忍不住发声明彰显实力


2020-06-07


Google AI 打电话影片洗板网路,微软忍不住发声明彰显实力

美国时间 5 月 8 日,Google 在 2018 年度开发者大会(Google I/O 2018)介绍了智慧语音助手 Google Assistant 新增的 Duplex,可以打电话给餐厅、髮廊等店家,帮用户预约时间。

AI 语音助手与人交流、完成指令已不是新鲜事。如果你常跟 Siri 对话,或你有一台亚马逊 Echo、LINE 熊大等智慧喇叭,你会发现,跟 AI 对话实在太费劲,需要字正腔圆,还要一次次说唤醒词,无法连续对话。

Duplex 让人惊讶的是:它不仅用自然流畅的词句和电话另一头的人类交流,且对方根本没有意识到打电话来的居然是个 AI。这是因为 Google Duplex 达成连续对话、加入人在对话时通常会使用的语助词 emm、uha 等,能理解对话内文,此外还具备主动提供语料的功能。

这样的双向对话,一直是微软、苹果、亚马逊、Facebook 这些做对话式人工智慧的公司努力的方向。Google 这次放了大招,获得很高的关注,微软显然坐不住了,赶紧站出来说,且慢,我们才是先做到这项技术突破的。

关于这件事,微软发了一篇技术声明。以下为声明全文:

全双工语音技术(Full Duplex)的意义在于,它能使「人机互动」进化为「人机交流」。二字之差,价值巨大。

今年 4 月 4 日,我们正式在美国和中国同步发表了 Full Duplex 感官,并预言工业将意识到这技术的价值,加快向这方向集中。我们很高兴看到越来越多同业者加入。

其实,人类历史上第一次与人工智慧进行全双工语音电话,并不是发生在美国,而是发生在中国。我们很荣幸能将这一桂冠奉献给中国。自 2016 年 8 月起,微软(亚洲)网路工程院透过人类用户主动发起的方式,已让小冰与人类用户累计完成了超过 60 万通电话。

今天,我们公布其中一通发生在两年前的实际电话录音,为珍贵的资料,奉献给全世界说中文的华人。

这技术已经完成产品落地。两年来,正是在人类的训练下,小冰已不局限于任何封闭域,而是可针对开放域进行全双工语音对话。目前,微软已落地的对话场景包括传统电话、VoIP 电话和智慧喇叭装置,微软小冰的车载路试正在进行。

如果您想要体验 Full Duplex 全双工语音,不需等待数週,今天就能。在微软小冰已落地的产品中,我们建议您使用我们与小米合作的米家生态链 Yeelight 智慧硬体产品。在随附的用户真实使用影片,您将体会到:

人工智慧时代已来,让我们持续创新。

微软的声明有了 3 个关键点:首先,在技术层面上,微软今年 4 月 4 日正式发表「全双工语音互动」技术;其次,事件事实上,微软在两年前就达成 AI 与人类通电话;最后,产品落地上,微软的全双工语音互动已具备多个场景,且搭载全双工语音互动技术的微软小冰已经出现在智慧喇叭──米家生态链 Yeelight 智慧硬体产品。

微软所说的全双工语音互动技术(Full-Deplex Voice)与 Google Duplex 的技术框架和达成功能应该类似。

微软对「全双工语音互动技术」的定义是:与既有的单轮或多轮连续语音辨识不同,这项新技术可即时预测人类将说出的内容,生成因应并控制对话节奏,能理解对话场景在诉说者/倾听者之间角色转变,还可以辨识说话人的性别、有几个人在说话。

也就是说,与只能做到单轮语音的智慧语音助手不同,能连续对话的全双工语音互动能达成和人类双向交流,而这种双向交流最常见的场景就是通电话。因为通电话是短时间内持续对话的过程,对通话双方的即时反应要求最高。

3 月 28 日,微软也在北京召开媒体交流会,详细介绍过「全双工语音互动技术」。

全双工语音互动背后主要有两个关键技术:一个是预测模型,边听边想;例如,当用户说出一句话,小冰会先回答「嗯,你说」,然后再完成指令,这样就可以填补完成指令的空白时间。

另一个是生成模型(LSTM),能理解场景,自动生成回覆。正常的对话都不是单向的一问一答,小冰也会在适当的时候主动提供内容,并能知道用户完成指令沉默几秒后自动结束对话。现在运用全双工语音互动技术的微软小冰所有回覆都是自己生成的,有别于传统的基于模组、搜寻的回覆。

Google Duplex 的技术分析也提到,Duplex 的核心是 RNN(迴圈神经)网路,由 TensorFlow Extended(RFX)构建,Google 用匿名电话对话资料训练 Duplex 的 RNN 网路,这个网路会使用 Google 自动语音辨识(ASR)的辨识结果文字档,同时也会使用音档的特徵、对话历史、对话参数(比如要预定的服务、目前时间)等。

Google AI 打电话影片洗板网路,微软忍不住发声明彰显实力

汇入语音先经过自动语音辨识系统(ASR)处理,生成的文字档会与内文资料及其他一起汇入 RNN 网路,生成的回应文字再透过文字转语音(TTS)系统读出来。

Google 用的生成模型是 RNN,微软用的是 LSTM,从体验来看,两者的效果很接近。跟 Yeelight 的微软小冰对话时,能做到一次唤醒连续对话长达 20 分钟,有适当的语气词,能主动提供预料,主动结束对话。

Google I/O 大会最后一天,获得年度图灵奖的 Alphabet 新任董事长 John Hennessy 宣布:「在预约领域,Google Duplex 通过了图灵测试。」也就是说,目前 Google Duplex 与人类对话,人类无法辨识其是机器人。这个消息,确实令人振奋。与搭载微软全双工语音互动技术的微软小冰相比,Google Duplex 的一大特色是音色和语调与真人几乎一致,这是他们花费数月採集真人声音训练的结果。

Google 称,今年夏天会开始基于 Google Assistant 测试 Duplex,从预订餐厅、预订髮廊、询问假日的营业时间这种事项开始。微软小冰则将人工智慧助手和聊天机器人结合起来,努力进入各场景,包括传统电话、VoIP 电话和智慧喇叭装置,微软小冰的车载路测也在进行。

微软全双工语音技术已在做产品落地,却被还在测试的 Google Duplex 抢占锋头,难免有点着急。

然而如果回想技术发展的历程,我们会记得,1844 年,莫尔斯从华盛顿到巴尔的摩拍了人类史上第一封电报,说的是:「上帝呀,你究竟干了些什幺?」1876 年,贝尔发明世界第一台电话,他说的第一句话「沃森先生,快来帮我」成为人类第一句透过电话传输的语音。然而,人工智慧助手与人类的第一通电话显然难以定义了,毕竟我们在人工智慧的发展上,还有很长的路要走。



上一篇:
下一篇: