主页 > 书屋制作 >对话式介面:像钢铁人与JARVIS对话般的科技进展到哪了? >

对话式介面:像钢铁人与JARVIS对话般的科技进展到哪了?

2020-07-04  点赞539   浏览量:711
对话式介面:像钢铁人与JARVIS对话般的科技进展到哪了?

你可能听说过这样一个故事:1979 年,当年轻的贾伯斯拜访全录位于 Palo Alto 的 PARC 研究中心时,他看到全录新发明的的图形用户介面。相比起传统的文字介面,程式图示、视窗化、下拉选单和绚丽的图像效果,贾伯斯深感震撼。

贾伯斯回到苹果后,他立刻下令研究人员开始着手模仿他刚看到的一切。这一技术在随后上市的 Macintosh 上首次被应用,并取得了轰动效果。

在 PARC 领导自然语言研究团队的科学家叫 Ronald Kaplan。Ronald 的团队在上世纪 70 年代就设计了一个系统, 能让用户以自然语言与电脑交换讯息和订购机票。但对 Ronald 的团队来说,首当其冲的就是成本问题。“服务每个客户的成本. 嗯,我猜大概要上百万美元吧。”Ronald 如是说。不仅如此,他们还需要更快、可以更好进行分散式计算、更聪明和更高效的电脑。Ronald 认为,按摩尔定律,这或许需要 15 年的时间才能达到他们的要求。

事实上,他们等了将近 40 年

今天的 Ronald Kaplan 是一家叫做 Nuance Communication 公司的副总。Nuance 不仅是苹果 Siri 和福特专为手机配备的 SYNC 车载多功能通讯娱乐系统和的技术提供方,其合作伙伴更是涉及几乎每个科技细分领域。但 Nuance 逐步发现,近几年有越来越多的人开始进入这一领域,无论是 Amazon、Google 还是微软这样的巨头或是其他创业公司,都在试图改进 Ronald 和其团队近 40 年的研究成果:他们相信,总有一天你可以像和你的朋友对话一样和各种设备对话,而这些设备会正确理解和执行你所说的一切。这些新工具将会取代那些图形化用户介面

无法满足的安全和愉悦需求,反过来,这些日渐增长的对话式介面互动也使得你与设备之间更加亲密和个人化。

但事实是:语音输入的效果仍然不尽如人意。

例如,不少公司已经使用这一技术来做简单的客户服务,但在实际使用中,我仍然经常需要放下电话用虚拟键盘输入生日讯息等内容。

至于 Siri,如果是一些诸如问路之类的简单问题倒是可以对付,但如果你的问题逻辑太複杂把 Siri 逼急了,Siri 也会无耻地给告诉你,外事不决问 Google,然后丢一个页面给你让你自己看去。像 Tony Stark 一样和人工智慧 JARVIS 那样对话的场景,也只能出现在电影里。
不过,这一切总在朝好的方向发展。

今年 6 月初,SoundHound 的首席执行官 Keyvan Mohajer 对外展示了一个从其 2005 年初创之时就一直在打磨作品。在此之前,我们对 SoundHound 的理解是一个流行音乐辨识应用程式,如果你对着手机哼上几句歌,SoundHound 就会辨识这首歌曲的名称。但这款叫“猎犬”的原型则更进一步:一开始,Keyvan 问的是一些简单的问题,例如现在在柏林的时间、日本的人口等。突然 Keyvan 冒出一句:“它们之间相距多远?”根据之前的问题,“猎犬”对此作出了正确的回答:“大约 5536 英里”。

在接下来的测试中,“猎犬”成功回答诸如计算贷款的数额以及“告诉我首都有 Space Neddle 这个建筑物的那个国家有多少人口?”之类的问题,对于 Keyvan 一口气连珠炮发问的多个问题,一般人或许都需要想一阵才能反映过来,但对于“猎犬”来说同样不在话下。就其表现而言,仍然处于内测阶段的“猎犬”或许是迄今为止速度最快、功能最全的语音辨识系统。猎犬的牛逼之处在于可以同时进行语音辨识和自然语言处理,但对其他类似系统而言,要迎头赶上或许只是时间问题。

对于上个世纪七十年代的 Ronald 来说,他们所头疼的“门槛技术”现在已经是任何一家语音辨识公司都能轻易掌握的东西。

图形用户介面要求每一个动作和功能都有一个图示或者选单选项,但即便像我们每天都要使用的

如果想要再进一步,你可能不得不让虚拟助理来帮你解决问题——不管是 iOS 9、Android 6、Windows 10 还是 Siri、Google Now 和 Cortana,巨头们都在透过虚拟助理的方式帮助用户提高效率。哦对了,另外一家不做作业系统但具有十亿级用户的巨头 Facebook 也有智慧助手 Ask M。

这是另一个创业故事:2010 年,24 岁的有志青年 Maury 被医生告知,他的视力在衰减并最终会失明。Maury 意识到,他不得不考虑如何在看不到东西的情况下使用电脑,而这也是美国 2000 多万视力障碍人士会遇到的问题。现有的解决方案是一种叫做“Screen Reader”的技术,已经有 30 年的历史,但随着数位化环境越来越複杂,这一技术已经跟不上时代。

对话式介面:像钢铁人与JARVIS对话般的科技进展到哪了?

发现了这一需求,Maury 开始创办了一家叫做 Conversant Labs 的公司,针对视力障碍人士开发能够用语音来操作的应用程式和服务。Conversant 的第一款产品叫做 SayShopping,可以帮助视力障碍人士通过语音在 Target 上买东西,在下一步,Maury 还计划在今年年底前完成一个能为 iOS 应用程式增加对话互动的框架,便于开发者开发针对视力障碍人士的产品。

另一个例子是 Amazon 的 Echo。在刚面世时,有人这幺评价 Echo:这款产品希望同时扮演无线音乐播放器和虚拟助手两种角色,但不管哪个角色都表现一般。但随着使用时间的增加,Echo 的自动学习能力开始显现出效果,逐步适应使用者的说话速度、模式和偏好,更符合用户的需求。

这也是对话式介面和图形用户介面的不同:你的使用时间越多,它就会和你更亲近。毫无疑问,开发虚拟助手的巨头们也注意到了这一点,例如微软就给其虚拟助手 Cortana 一个邻家女孩般的个性形象。

这就好比我们生活中的水和空气,不引人注意又无处不在,一旦你已经习惯,它就会成为你生活中不可或缺的一部分,再也无法分开。

相关阅读