DuerOS2.0发布,世界级的人机交互平台野心初现

栏目:人物资讯  时间:2022-11-23
手机版

  历年百度世界大会都是百度最新的产品、技术展示,今年也不例外。在刚刚结束的 2017 百度世界大会,百度展示了从云到端、从(百度)大脑到用户体验的全链条的人工智能布局。这其中,主打下一代人机交互的 DuerOS 迎来一次重大升级,在这个 2.0 的版本里,诸多原有功能升级以及新增功能引发众多关注。

  根据百度官方提供的资料,DuerOS 2.0 主要带来了两个变化:其一是小度智能设备开放平台的升级;其二则是小度技能开放平台的全新发布。至此,基于语音交互,DuerOS 形成了两个开放式的平台,可以对接设备开发商、生态合作伙伴、线上线下服务提供商,而负责 DuerOS 的百度度秘事业部总经理景鲲也喊出了一个目标:「DuerOS 要成为世界级的人机交互平台。」

  (百度度秘事业部总经理景鲲)实现这个目标当然不可能一蹴而就,对于 DuerOS 而言,其第一步就已经押对了方向:语音。

  1. 语音交互是趋势

  在那个略显「遥远」的 2016 年 6 月,被誉为「互联网女皇」的 Mary Meeker 发表了一年一度的《互联网报告》,其中就将语音交互放在下一代人机交互的预测中。

  Meeker 做出这番预测自然有它的道理,一方面,基于机器学习、深度学习带来的巨大技术提升效应,机器语音的识别能力已经接近超过人类,下图是投资人 David Kelnar 绘制的语音识别进化速度图。这意味着,当前语音识别的准确性已经达到某个临界点,一场新的交互变革正在酝酿中。

  其次,就像 Meeker 预测中举的例子一样,自 2014 年 12 月以来,亚马逊推出搭载语音交互系统 Alexa 的 Echo,由此也打破了自 2007 年之后 iPhone 所引领的触控屏幕交互的「诅咒」。长期观察全球消费电子进展的资深媒体人 Mossberg(中国媒体喜欢称之为「莫博士」)曾毫不客气地指出:2010 年之后,唯一可以称之为创新的设备就是 Echo。

  与其说莫博士在称赞 Echo,倒不如说他是在思考新一代基于语音交互所带来的可能性。也正是这样的想象空间,让 Echo 背后的 Alexa 可以成为 2017 年 CES 上无处不在的身影,也因为这样的想象空间,DuerOS 在 CES 期间与小鱼在家的合作引发行业热议。

  而在 2017 过去的 11 个多月里,几乎中美两国所有的巨头公司,无一不在押注基于语音交互的产品/解决方案中。在智能手机掀起的移动互联网革命十周年的时间节点,语音交互的变革大幕渐渐拉开,但与 iPhone 的触摸交互颠覆过往所谓「智能手机」交互一样,新一代语音交互的发展与壮大,绝不是仅仅依靠一款硬件(如音箱)或一个万能解决方案(如某些厂商针对某个特定领域的解决方案)就能实现。

  原因也不难理解,同 iOS、App Store 重新定义了触摸交互的智能手机体验一样,推动语音交互真正发展的驱动力一定是新一代语音操作系统以及紧随其后的生态体系。在美国,亚马逊的 Alexa 已然成为一种语音交互的标准,而在中国,DuerOS 2.0 的诸多升级也让其具有成为第一梯队可能性。

  那么,既然语音交互是趋势,真正能够定义未来的语音交互平台,或者智能语音交互系统,到底应该拥有什么样的竞争力?

  2. 语音交互平台的竞争核心是什么

  正如上文所言,任何一次人机交互的革新都是一次生态级别的个创新。这其中包含三个层面:

  技术链条

  生态架构

  用户体验

  先说技术。尽管机器的语音识别已经超过了绝大多数人类,但摆在语音交互产品开发面前的困境还有很多。比如作为个人开发者,当他们想开发或改进语音交互模块时,往往因为缺乏足够多的语音数据而无法训练机器模型,而对一些传统企业来说,切入语音交互的难点是人才和基础技术的稀缺......

  这恰恰也是此次 DuerOS 正在努力解决的行业难题。以此次 2.0 版本的升级来看,DuerOS 提供了一整套围绕设备技术、解决方案和平台体系的开发体系,针对不同需求,企业或者开发者可以调取诸如语音唤醒、语音识别、语音合成或者远场语音交互等不同的技术/解决方案。

  与此次 DuerOS 2.0 同时发布的,还有一个名叫「普罗米修斯」计划。这个项目的核心是要向普通开发者开放语音数据集,这些数据集涵盖了语音对话机器人从(远场)语音唤醒、(远场)识别到交互对话的多个环节,每一个环节的数据量都非常大。比如在远场唤醒数据集里,就包含了数十万条「小度小度」(百度 DuerOS 的唤醒词)以及其他主流中文唤醒词的录音数据,还包括数百小时的错误唤醒数据,而远场识别数据集里,也包含数千个小时中文远场语音识别数据等等,这些数据集的开放,对于激发开发者的开发热情,从而加速语音交互技术普及与产品开发,意义重大。

  其次,则是语音交互平台背后的生态架构。 如果没有授权给 PC 厂商使用,Windows 操作系统不可能仅仅十几年就成为这个星球上最流行的操作系统,同样,如果不是乔布斯在 2008 年「扭扭捏捏」地推出 App Store,也成就不了 iPhone 以及苹果公司后来的辉煌。

  在语音交互层面,亚马逊 Alexa 的杀手锏是全美范围内的语音交互生态,而 DuerOS 的竞争力同样是其背后的强大生态体系。根据景鲲的介绍,自今年 7 月百度技术开发者大会发布以来,DuerOS 已经吸引到 130 多家合作伙伴,形成了 20 多个行业或设备形态的解决方案,每月至少 5 款搭载 DuerOS 的不同形态设备投放市场。

  而此次 DuerOS 2.0 中,百度还将语音交互与自动驾驶整合起来,DuerOS For Aplolo 的发布,意味着 DuerOS 将接入到自动驾驶的生态体系中,共享自动驾驶高速发展的生态红利,同时也彰显了 DuerOS 在跨设备、跨场景上的灵活性和可能性。

  第三个层面,则是语音交互带来的用户体验。 尽管语音天然是人类交流的工具,但这里往往忽略一个大前提,那就是过往的语音交互对象人与人,而现在的语音交互对象则是人与机器。这反而成了语音交互发展的「负担」,就像Siri一样,从辉煌到平庸,不过短短几年时间,用户需求在此期间并没有得到满足。

  过去几年,随着语音技术的发展,技术限制越来越少,而用户体验的打磨也越发重要。对于语音交互而言,用户体验不仅体现在与不同形态设备的交互体验中,也表现在对于某些语音交互产品的功能感知里。此次 DuerOS 2.0 新发布的小度技能开放平台中,DuerOS 已经具有了全场景多品类设备落地的可能性,更是提供包括影音娱乐、生活服务等 200+技能。

  与此同时,第三方开发者或服务提供商还可以快速接入这个平台,发布自己开发的、基于语音交互的服务。正是这种全设备、多功能、多场景的开发和优化,才能最大限度地提升用户体验,而用户体验的上升,可以大幅增加用户使用的频率,从而也进一步推动语音交互的普及,形成又一种网络效应。

  而此次百度世界大会上发布的人工智能硬件产品渡鸦raven H,不仅在设计、用料上超出行业同类产品,并通过搭载 DuerOS 2.0,在功能和用户体验上树立了一个新的标杆。作为DuerOS的标杆之作,这是渡鸦自今年 2 月被百度全资收购以来,首次推出的AI 硬件产品。

  (raven H)3. 写在最后:语音交互的变革才刚刚开始

  自 2007 年以后的十年时间,基于触摸操作的交互方式定义了一代计算设备与人类交互的方式,而当第十代 iPhone 通过 FaceID 让智能手机具备「认识用户」的功能之时,整个行业也都在重新思考围绕人与计算设备之间的全新交互方式。

  这是属于亚马逊的机会,也是属于百度的机会。尤其是百度一早就确立的「All in AI」的战略转型方向,不仅整个公司的技术产品思考都在转型,而且百度过往在互联网、移动互联网积累的技术、生态和商业化运作能力,则构成了 DuerOS 天时地利与人和的多重优势。

  (raven H)更重要的是,语音交互的变革才刚刚开始,亚马逊也好,百度也罢,整个业界的探索还处在非常早期的阶段,DuerOS 的故事也才刚刚开始,而从最早押注语音交互到对技术、生态与用户体验的完整开发能力,也让 DuerOS 具备了成为世界级人机交互平台的几乎所有条件,接下来的故事情节,或许会更精彩。

  举报/反馈

上一篇:疫情之下,“黑吉辽京沪冀”的彩票销售情况还好吗?
下一篇:家有空地,种上这2款“爬藤花卉”,花量大、好养易活