
在刚刚过去的广州车展上,很多20万级别的新车都配备了语音交互功能,语音交互有望在几年内成为汽车的基本配置。汽车设计和生产的周期日益缩短,技术迭代不断加快。去年刚刚建立的突发认知,正在克服机器对人类语言从识别到理解的飞跃。随着明年首款搭载其语音决策系统的量产车上市,汽车正在成为万物的入口。
文|奥特尔智加吴鹏飞
今天(12月20日),首届万物发出声音在北京举行。突然认知CEO戴帅祥提出,在ai新的历史机遇下,突然认知要主动承担两大使命:通过一系列AI核心技术,让机器更好地理解世界;用AI打造更自然高效的交互方式,助力传统行业的智能化升级。
在发布会上,我突然意识到莫瑞3354的升级版,新智能决策引擎莫瑞2.0发布了。VP杨平表示,莫瑞2.0版本最大的亮点是智能化,这不仅体现在桂VUI '的交互模式,而且在智能的个性化推荐和千人'的决策。此外,莫瑞2.0版本可以智能匹配场景,实现高效自然的交互和服务。
戴帅祥认为,联网为智能设备提供了必要的条件,语音对话的交互方式给设备带来了革命性的发展。以电视为智能中心的家庭场景和以汽车为智能中心的出行场景将是智能硬件发展最重要的两个部分。
在发布会上,我突然意识到舞台上搭建了一个未来主义的智能家居场景,联合创始人龚和现场演示了MorHome。"早上好,小莫和早上好,志伟,智能家居自动启动唤醒模式:窗帘缓缓拉开,落地灯显示最舒适亮度,加湿器开启。一句简单的问候开始了美好的一天。突发认知可以基于不同的场景模式进行交互决策,也就是说,当你早上醒来时,小莫会自动启动唤醒模式,并提供场景的自定义功能。
另外,突然之间,认知达到了上千人,提供了基于用户的个性化推荐。主持人说什么最近有什么新消息,而小莫则直接播报体育科技新闻,而当女主持人问什么最近有什么新消息,小莫文章《演员的诞生》和李源的短文章新闻。此外,MorUI2.0版本还支持更多的内容查询和多轮对话。女主可以就文章内容提问:《演员的诞生》最新一期什么时候播?李源演奏了什么?她获得了什么奖?她是什么星座的?
突发认知不仅要实现最自然高效的交互,还要为用户打造强大的决策引擎。突然希望转化自然语言理解、多轮对话、通用对话模型、知识图谱、个性化推荐等一系列核心技术优势。成一套完整的解决方案输入给B端客户,以开放、灵活、定制的合作方式为B端客户量身定制软硬件集成方案。
最后,戴帅翔现场发布了2018智能汽车战略3354智能互联汽车生活。在智能车载场景下,车主不仅可以控制汽车的语音,还可以快速高效地享受云端的各种服务。
作为一个高效的决策引擎,莫瑞可以利用大数据为用户做用户画像和个性化推荐,在用户下达指令的第一时间为用户提供最好最合适的解决方案。突然,我意识到,莫瑞将被同时放入家中和汽车中的智能硬件设备,从而实现汽车与家庭的互联。用户不仅可以随意控制家中的各种智能硬件,还可以在家中对汽车进行实时控制和监控。
产品将分为车主App和车机产品两部分。但是,由于项目是与原始设备制造商共同推动的,产品的具体形式
2016年5月,从百度离职的戴帅翔创办了突然认知。那一年是他在百度担任自然语言处理(NPL)首席架构师的第九年。
初创企业的老板喜欢讲故事,但戴帅祥不喜欢在百度上,他没有过多提及自己的过去,只是说在九年的时间里,我在查询语义理解的研究方面积累了很多经验。"
在当时的百度,戴帅翔负责整个搜索的查询理解,利用自然语言处理的底层算法分析词语的语义,帮助搜索引擎提供智能的搜索结果。
术业有专攻,顿时认知一头扎进了AI的蓝海。准确的说是语音交互的语义理解部分。这是戴帅祥的老工作,和他一起创业的最初团队基本都是在百度做语义理解的前员工。
在2017年人工智能风起云涌的大潮中,语音交互逐渐成为资本抢食的香饽饽。近年来,国内外可以说是科技公司数不胜数,进入这一领域的巨头有国外的亚马逊、谷歌、微软,国内的科大讯飞、Spirits、BAT,还有很多被资本追逐的初创企业。
蓝海逐渐变成红海,语音识别行业的竞争已经火上浇油。
与大多数企业希望为语音交互提供完整的解决方案不同,戴帅翔在语义理解上采取了与众不同的方式,这就是语音交互应用的末端:决策。
这是语音交互领域,最难攻克,也能带来更多想象空间。做语音处理的大脑可以克服机器从识别到理解人类语言的飞跃。
在市场中生存,专注小而精。
如今主流公司的语音识别成功率已经达到98%。
整个行业开始进入语义理解和决策语音交互最难的部分。戴帅祥说,这部分是他团队的重点。在突然认知成立的那一年,突然认知完成了智能语音对话系统的开发,接入了30个对话交互的垂直场景,开始探索AI语音交互技术的商业应用。
这款名为小莫Mor的产品已经具备了一定的语音交互决策能力。
Mor可以为汽车、家居、手机等硬件设备提供流畅的人机对话和决策服务;替代前台、导游、助理等客服工作的部分人工服务,是一种可快速移植、实时学习、多场景融合的智能交互决策解决方案。
戴帅祥告诉《AutoR智驾》:我们不不会简单的语音识别。这些工作将由第三方合作伙伴来完成。突发认知的核心技术是自然语言交互、知识表示和推理,这是我们的技术壁垒。"目前在语音交互的发展中,多轮对话、知识推理、仿人学习是行业普遍存在的痛点,各个公司也在寻求这些方面的突破,包括该领域的龙头企业,如科大讯飞、灵思等。
实现人类语言理解和决策的自然语言处理技术NLP,大致包括词法分析、句法分析和语义分析三个层次,这三个层次既递进又相互包容。词义消歧是自然语言处理技术的最大瓶颈。
例如,小晨,先给我弹首谢霆锋的歌的前妻,那…帮我找几个五道口附近评价比较好的日本料理店。""这里面哪个最便宜?""从这里开车要多长时间?"
戴帅翔在该领域深耕多年,在自然语言处理、语义搜索、自动解题等领域拥有20多项专利技术。他对自己的产品表现出极大的信心。他说,莫瑞发动机的语义理解能力强于科大讯飞等老牌厂商。他们的业务大而全,但很难专注,而我们则更专注,小而精。"
"在完整的语音识别产业上,它初创企业很难与巨头竞争,但在细分领域
但第一代产品Mor的产品形态还局限在软件层面,戴帅祥知道这远远不够。
"对话就是应用是戴经常挂在嘴边的一句话,也是他创立的一个企业理念。他向《AutoR智驾》解释了其中的含义:跨越软件边界,让语音交互应用于不同的场景和设备。"
简单就是软硬件结合,让语音交互技术在硬件设备上落地。在不同的场景下,机器可以理解人类的语言,并做出适当的决定。
从语音开始,物联网时代从这个入口开始布局,所有的智能硬件都可以说话,响应人类的指令。
目前Mor语音交互决策引擎已经登陆暴风TV,年底将大批量出货。有了Mor的赋能,电视可以开始查天气,找喜欢的电影等等,洞察用户的头脑。Mor引擎的价值在于实现语音的基本功能,让语音交互更智能,让产品更易用。
但现阶段语音交互落地产品方向的选择,首先考虑的是:用户时间。
"用户花时间最多的地方,就是我们要去的地方。需要注意的是,这里的时间并不是碎片化的。一个人在哪里度过的时间最多?在家,在办公室,在车里。"
最初,戴帅翔选择了手机。今天,手机基本上覆盖了人们的所有场景的生活,几乎可以说是最好的载体。
不过也正因为如此,用户数据也是手机厂商最敏感的领域。与手机厂商合作意味着不断的谈判和处处受限:可以说是烦,太多的妥协不利于我们的技术进步。我们想成为语音技术的推动者,而不是简单的服务提供商。"
和手机厂商的合作,让戴帅翔不知所措,很难受。
最终,戴帅翔可以说是毅然放弃了手机,改用相对开放的电视,走向了智能家居:我们现在做的就是用手机抢时间。"
两条腿走路,进入智能车。
但在智能家居之外,戴帅翔早已悄然将目光转向汽车行业,这一行业正激励着无数资本和创业者聚集。
"我们要做车机语音交互的Tier1,也就是一级供应商。"戴帅翔没不要降低公司因为他突然意识到这是一年多前才建立的。他雄心勃勃。
2018年下半年,一款搭载Mor产品的自主品牌汽车将量产上市。
"它这并不是说我们没有。t先没想过做二线供应商。"戴相湘说,公司成立之初成立,突然认知与四维图新这样的老品牌Tier 1达成战略合作,但正是这种程度的合作,让突然认知感觉束手束脚回来了。
今年,是戴帅祥的目标是摆脱至少一家标杆车企,进入供应商目录。
2018年,汽车行业的语音交互将是一个转折点。今年上市发布的20万元以上的车型很多广州车展已经配备了语音交互功能,语音交互将成为未来几年汽车的基本配置。
今天汽车设计生产周期只有两到三年,技术迭代也在加速。这样的时间节点,是一个难得的突发认知的机会。
"我们有一个成熟的框架,可以很快变成电视系统、音箱系统或者汽车系统。"一年多以后研发,Mor 的学习和分析能力有了很大的提高。
1、GUI图形用户界面和VUI的融合创造了多场景下最自然的交互。
现在的车机虽然应用丰富,但是不好用。认知突然推出的莫瑞2.0,从交互层面来说,既包含了GUI(图像交互),也包含了VUI(语音交互)。双方不是对立的,而是互补的,也就是所谓的智能UI。
如果用户想看诺兰的黑暗骑士,传统的GUI交互至少需要许多复杂的步骤才能找到结果。对于支持VUI的产品的互动,
突然,我坚信语音门户并没有抛弃GUI交互,独立运营,而是符合人类感官的自然交互。人的感官决定了交互是多模态的,所以人机交互的方式可以不要仅仅停留在语言层面。
同样,以购买电影票为例,影院的电影时间、地点等多维度搜索更适合由VUI来实现,而在列表的情况下或者选择座位页面时,用户会下意识地选择点击等GUI交互。
戴湘湘表示,希望通过在MorUI2.0上整合GUI和VUI,让人机对话更加高效便捷,给用户带来最自然的交互。
戴翔还提到,MorUI2.0将实现各种设备之间的场景联动。例如,当你在家准备点一杯咖啡,但又急着开车出门时,莫瑞2.0提供的多个设备都可以实现这一操作。从单个场景多种交互模式的自由切换,到场景间的自然过渡,再到支持场景联动的多设备调度,这一切都是为了让用户交互方式最自然。
2、深度学习,通过用户习惯让Mor用的越来越多。
同时Mor具有深度学习能力,即你用得越多,你就变得越聪明。它可以分析用户习惯,然后了解用户真正的需求,做出最贴近用户的决策愿望。
"当你第一次点咖啡时,你可能需要告诉Mor不要加牛奶和糖。点几次之后,Mor会记住你的习惯。下次会直接推荐不加奶不加糖的咖啡。你可以直接下单。"
莫瑞2.0会根据对应的设备智能判断所需场景。如果你说我想吃开车时,Mor会为你推荐周边餐厅,并提供导航服务。如果你在家里说同样的一句话,Mor会自动跳转到点外卖的场景;当用户说我我要去上海出差。Mor变身旅行助手,将指导用户进行机票/火车票、酒店、日历相关提醒等一系列操作。
就像我们用输入法和百度搜索一样,机器会根据你的习惯想到你想要的。文本理解相对简单,而语义理解要费力得多,但两者的原理是一样的,就是依赖大量的数据。
进车是为了数据。有了数据,人工智能的价值就会凸显出来。
但进入内部空间,相对来说,造车新势力的视野和理念更开放,与之合作会相对容易。然而,戴帅翔选择了一条相对艰难的道路,与传统车企进行更多的合作。与造车新势力相比,传统车企的库存车更多,能提供的样本数据也更多,可以一下子认出来。这是我们迫切需要的。"
车内交互是一个很好的学习场景。突然,要解决的问题是,让具有深度学习能力的语音决策系统为车主提供超越现有地图导航的简单功能。汽车还可以有多种应用空间,比如根据车主反映的心情推荐合适的音乐行驶中的s语音,接近目的地时自动推荐停车场等等。
简单地说,Mor将理解一个用户中的多个指令句据用户的历史行为,依靠其强大的语义识别能力,做出最佳决策。
3、定制服务,让每辆车都有自己的个性。
莫瑞2.0为B端客户提供标准化、定制化的开放服务,突然意识到要为客户提供最简洁的接入服务。戴翔认为,很多B端客户在GUI探索上还存在不足。以文章公司为例,其文章播放资源充足,但缺乏基于文章演员信息的知识图谱。
突发认知会将完善的内容数据框架整合到GUI中,为B端提供更丰富的GUI展示层次。对于想突出自己特色的客户,我们恍然大悟,我们也提供定制服务,在Mor 完美的内容数据。
比如最近流行的李源,B端cu
当时有媒体曝出阿里和SAIC组建斑马智行,表面看似温和,内部暗潮涌动。戴帅翔认为,互联网公司和传统车企的分歧由来已久,双方各有诉求,无法达成妥协。他也走过这样的弯路。
今天的突发认知团队希望通过自身的定制能力服务车企,思考原始设备制造商的想法,不要不要想。这也是为什么在上海成立了专门的汽车部门,既有汽车行业的人才,也有软件算法方面的人才。戴帅翔说:我们希望把最好的技术交给车企,定制的程度可以细分到不同的车系甚至品牌。"
探索新的商业模式,建立真正的壁垒。
不久前,百度宣布语音技术接口永久免费开放,提供语音识别、语音合成、语音唤醒等多平台SDK。在BAT大举进入语音交互市场后,似乎已经反复上演的圈地运动也将在语音交互领域上演。
百度出身的戴帅翔并没有感到威胁。
他说,语音交互的三大核心是语义理解、对话系统和学习系统。这三部分,无论是BAT这样的互联网公司,还是传统的语音技术公司,都不是绝对成熟的,开源或者免费都无从谈起。免费只能是简单的识别技术,是时候让各个公司为核心技术筑起壁垒了。"
目前,语义理解和决策是突发认知的核心技术,但戴帅祥认为突发认知的核心竞争力不能局限于技术。在他看来,随着技术进步很难有长久的壁垒,一个公司在市场立足的真正壁垒是技术产品和商业模式的结合。突然意识到,希望通过车载多场景服务中的语音交互,给用户带来好的体验,给服务商带来好的流量,从产业链的角度最大化语音交互的价值。突然,我意识到我要提供全链路服务。
"从为硬件厂商提供以对话为核心的一站式解决方案,以此作为入口连接线的线上线下服务,再到落地语音服务的闭环,更好的服务C端用户,衍生数据服务。"这是戴帅祥语音交互的应用场景和商业化前景。
未来看现在,戴帅翔有自己的物联网时代愿景,对话即应用的愿景将随着物联网时代的到来而意义深远。汽车和智能家居作为这张网络上的两个节点,成为认知团队通过语音交互切入未来的重要载体。




