阿里巴巴语音交互首席科学家鄢志杰:语音交互智能如何重塑人与Io

2018-07-21 23:58 来源:未知 责任编辑:admin

  2018年,商业创新迈进新的阶段,商业创新在业务飞速发展的同时,伴随而来的也有风口大热背后的认知沉淀与实践积累。7月10日36氪联合《零售老板内参》举办的2018商业新生态峰会在北京举行。本届峰会以“质”为主题,希望新的时代浪潮下新商业企业可以看清商业本质,最终完成新商业的革新与升级。

  “技术的进步带来交互界面的变迁,界面带来硬件的变化,变革带来世界巨头公司的兴衰”,阿里巴巴达摩院机器智能技术实验室语音交互首席科学家鄢志杰在今日举行的“2018年商业新生态峰会”上发表了“语音交互智能如何重塑人与IoT的关系”的主题演讲。在演讲中,鄢志杰主要谈到以下两个方面:

  7月10日,36氪联合零售老板内参全力打造的“2018年商业新生态峰会”在北京会议中心举行,本次大会主要探讨以下问题:“新商业”的本质是什么?我们应该用什么样的角度、眼光去看待“新商业”?以及未来这条路究竟会走向何方?

  大家上午好,首先自我介绍一下我叫鄢志杰,来自于阿里巴巴集团达摩院机器智能技术实验室,我在阿里巴巴做的工作主要就是人工智能,尤其是语音交互智能方面的产品研究和商业化。今天很高兴来到这里跟大家分享我们在人机语音交互和商业化方面的工作。

  今天这个题目叫做语音交互智能如何重塑人与IoT的关系,主要想跟大家聊一聊,在IOT的时代我们所做的语音交互智能如何改变人跟IoT连接的关系。

  让我们来回顾一下互联网的变迁。早年间我们处在PC时代,还没有真正意义的互联网,所有PC之间是一个机器的孤岛,他们用软盘、光盘等非实时的方式做连接。后来进入互联网时代,从早年间非常慢的拨号上网到现在的光纤,网络的速度越来越快,这个时代是移动互联网的时代,大家随便拿着自己的手机就可以访问互联网,不仅可以获取信息,更多的是商品服务和内容的展现。

  随着互联网的变迁,人机界面也在发生变迁,左下角老的照片,就是最开始所谓的人机交互,那个时候就是在纸袋上面打卡输入程序到计算机,最后把结果运行到计算机,那个时候基本上是没有什么交互可言的,后来出现命令行用户界面,敲入一个命令计算机会给你马上的反馈,现在很多专业的人士都在用这个界面,真正把PC推向大众我觉得还是图形用户界面,当年微软就是凭借着图形界面,windows操作系统把使用电脑的门槛大大降低。

  到现在更多的图形交互界面引发了触屏的交互方式,就像大家最熟知的触屏手机,非常方便,随着用户界面的改变,硬件也在改变。最左边这个就是我们看到的当年IBM PC机还是在软盘的时代,用键盘来跟计算机做交互。随着鼠标的出现,图形用户界面的出现,中间这台Windows电脑,微软公司也凭借着这个图形用户界面、鼠标、键盘的方式大大降低了使用电脑的门槛,使得PC更快普及,也成为了那个时代最厉害的公司。微软带着这样的Windows在移动时代就产生出了这样的东西,把大电脑缩小,甚至用一个鼠标,一根笔在上面手写的体验,这种设备很快的就被iphone,能够把触屏手机做到这样的体验给取代。

  大家回顾这个过程,技术的进步带来了人机交互界面的变迁,而人机交互界面的变迁就会带来硬件的变化,而在这个过程当中你会发现世界上的大公司在做操作,无论是硬件,做操作系统的都会随着这些变化起起伏伏,就会被新的力量取代,谁能抓住这样的变迁谁就有机会在市场上获得更大的成功。

  第一个就是互联网的内容会向个性化变迁。现在大家已经可以很容易的获得商品服务。现在不论是各式的媒体,还是音乐视频的内容,都向着个性化内容发展,每个人看到的东西以后都会是不一样的。互联网的入口从PC时代到现在移动互联网的时代,以后我觉得会向着智能硬件的方向来发展,例如各种各样的IOT设备,现在已经看到很多所谓的人工智能电视、智联网的汽车、机器人等等。最后人机交互的界面同样会发生变化,原来的鼠标、键盘到现在的触屏,未来应该是更自然的交互界面,人跟机器交互就像人跟人之间的交互那么自然,更多的是通过语音的方式、动作的方式,来做自然人的交互。

  在IoT时代,阿里巴巴同样有自己很深的战略和布局。在前不久云栖大会上,阿里巴巴宣布全面向IoT进军,这是是继集团在电商、金融、物流、云计算之后一条新的主赛道,是跟以上四个方面同一个量级的。电商是淘宝、天猫,金融是蚂蚁金服,物流是菜鸟,云计算是阿里云。IoT能够进到这么高的战略,阿里是有自己的雄心壮志的,数字化整个物理世界。我们要做IoT基础设施的搭建者,希望5年内能够连接100亿的设备。

  在这样一个时代,我们全面拥抱IoT。我自己所做语音交互的工作是其中的一环,我们提出一个叫多模态语音交互的概念,多模态不仅有语音还有计算机视觉、别的各种各样机型传感器,把人跟机器交互的过程变的无比自然。而语音是其中一个非常核心的模态,原因是人跟人之间交流的更自然,不需要学习,老人、小孩都可以使用,你在用它的时候,手也不用摸着设备,眼睛甚至不用看着设备,就可以进行交互。IoT时代多模态语音交互将会无处不在,我们将达到一个愿景随时随地能够连接人跟互联网,特别重要的就是随时随地。

  于是沿着那条随时随地的道路,我们不断扩展硬件的领域。比如说屋子,大家花了很多时间在屋子,大家可以看到阿里去年推出非常漂亮的天猫精灵音箱,右边是跟海尔电视一起推出的语音交互智能电视,原来的版本是用语音摇控器,可以对着摇控器点播任何视频的内容,可以把我们优酷的视频带给你。今年的最新版本,是只要你坐在沙发上通过唤醒的方式就可以进行交互。

  从屋子离开就得进入车子,阿里在很多年以前就跟行业最大的汽车制造厂商上汽合作,推出了荣威智联网汽车。大家可以看到在过去几年当中我们在屋子、车子都做了很多交互的改变,现在我们想,除了屋子和车子,人还有一个空间待着很多,就是公共空间,公共空间跟机器之间的交互,跟服务机器的交互将会变的越来越多,越来越普遍,这是一个非常有前景的体验。从屋子到车子再到公共空间,公共空间做语音交互会遇到很多的挑战,其中特别严重的就是干扰和噪声,公共空间不像家里、汽车,公共空间有很多的声源干扰,这就是语音交互在技术上提出了非常高的挑战,交互的智能也是非常重要的,在公共空间有一个问寻台去问问题,会得到答案。现在很少有问寻机,因为你不知道能否得到你所要问的问题答案,我们在这条路上进行探索,一开始我们做了在实验室做的研究工作,这是一块交互大屏,上面会有一个绿色的部分是很大的麦克风阵列,中间有一个光学摄像头,通过多模态,当人走到机器面前,能够测出说话人的高度、头的方向,嘴巴的轮廓,所有的模态融合在一起能够精确定位到在我交互大屏面前的目标说话人方位,于是就用很大的麦克风阵列把声源聚焦到部分说话人身上,而把旁边其他方向的声音都作为噪声屏蔽掉,从而增强目标说话人语音交互的准确率。通过多模态语音交互的形式,是第一个做到了在公共场所嘈杂环境下做到高精确度的语音交互。

  在去年底的时候在上海地铁做了一个语音售票的概念机,当时还是一个概念机,在地铁里面这么嘈杂的空间里用语音售票机会是谁?通常都是外地来的游客或者是做生意临时到上海的人,通常他们只知道自己去哪儿,并不知道自己应该去坐哪站,语音售票机很好的解决他的痛点,只需要他报出想要去哪里,用后台拿搞得的数据做物理规划,扫码,买票,完成整个买票过程非常迅速。在概念机之后这个机器就做到了落地。前一段时间我们在上海云栖大会上,跟上海地铁做了一个连线,向大家展示了概念机变成真实的售票机的落地过程。同样,这个平台也可以用在新零售领域的快餐店点餐机,前段时间我们在武汉云栖大会上也是发布了这么一个东西。咖啡店,我们的咖啡师很多时候会充当兼职收银员,你走到咖啡店里面通常会看到排很长的队,大部分都花在了点单上,在武汉云栖大会上展示的语音点餐机同样是放在公共场所,帮兼职收银员点餐的,用了不到50秒的时间点了30杯,同样的时间,人类要花2分40多秒,我们并不是想要替代掉收银员,我们只是让咖啡师站在他的咖啡面前做更多的咖啡,而不是在收银台前面做兼职收银员。

  今天想要跟大家分享的无非就是两点,第一个是语音交互将会重塑人与IoT的关系,我们的目标是在未来做到无处不在的交互,无论身处屋子,还是从屋子出来进入到你的车子到达公共空间,你会发现你所在的每一个空间都有不只一个设备,可以跟它进行语音交互,通过它来跟IoT设备进行连接。

  第二个是技术进步将驱动这一变革,多模态语音交互跟下一代对话引擎,刚才我们看到的最新的服务机器是这个领域最新的探索,我们会沿着这条路走下去,最后重塑人跟IoT的关系。

凡注明“来源:北京pk10福彩_北京pk10福彩_凤凰彩票官网推荐”的所有作品,未经本网授权,不得转载、摘编或以其他方式使用。