人工智能的热潮带动整个行业的发展。智能语音作为最自然的交互手段,自然备受关注。今天,语音交互引起了传统交互的变革,智能汽车领域成为变革的先锋,尤其是在汽车后市场。智能语音似乎已经成为车辆场景交互的标配。

国内企业围绕智能语音的竞争越来越刚性。阿里,语音客服变成了刚需;强大的搜索资源库百度成为百度语音的后备力量;科大讯飞依托政府项目,在教育、医疗、智慧城市等领域也有市场优势。乐乐语音的引入,改变了乐乐超级电视的交互方式;爱奇艺、360等。也涉及语音技术。我们的专业语音公司凭借其独特的解决方案备受瞩目。其中,交互方式的简单便捷成为几乎所有语音交互方案所追求的一大效果。

说到语音交互的简单便捷,2016年10月20日Spirits升级的AIO3.1新一击功能引起了业界的极大关注。AIOS For Car是Spirits于2015年10月针对智能汽车后市场推出的一款对话操作系统。主要用于汽车、智能后视镜、HUD、互联网汽车。2016年6月,Spirits将其升级到AIOS 3.0版本,增加了七项功能。10月20日,Spirits再次发力,升级至AIOS 3.1版本,积累已久的一次性功能终于亮相。

一句话就能说一炮而红。

Bichi将这个一次性功能描述为一次性理论,也很生动,贴近现实。

图1一次性烈酒

一击即中说唤醒词的语义识别采用了,实现了唤醒词与语音控制的零间隔、零延迟、无缝连接,摒弃了传统的问答形式,大大减少了用户语音控制的步骤,实现了信息反馈,化繁为简,实现了操作简单。然而,这样的简单在设计之初并不简单。

一拍的特点是集识别、唤醒、语义理解于一体,保证语音交互的统一连贯,完成操控。举个简单的例子,过去智能语音的交互模式是问答模式。用户发出唤醒字指令,要求设备在交互开始前反馈待机信息,如:

用户:小迟你好(唤醒词指令)

设备:我能为您做些什么?(设备反馈,表示处于信息接收状态)

用户:我想去机场

装备:开始引导你去机场。

一次性功能可以实现唤醒词发音和语义识别,比如这样的互动:

用户:你好小迟,我我要去机场。

装备:开始引导你去机场。

相比传统,这种体验似乎更有效率。或许,在未来的人机交互中,机器通过采集用户来实现下面的对话也不是不可能行为习惯数据并跟踪用户的意图:

答:我我一直想问你一个问题

乙:我爱过.

系统的响应速度和准确性一直是用户非常关心的问题。AIOS3.1中的一拍功能采用本地云混合引擎模式。语音唤醒和常用的语音命令识别都存储在本地,所以系统接收灵敏,语音识别可以准确及时的响应。同时在云端处理连续的语音识别和语义理解。基于场景,收集用户习惯数据,通过深度学习,分析跟踪用户意图,保证语义理解的准确性。本地云加混合引擎处理,既保证了响应速度又保证了交互的准确性。即使没有网络,基本的语音交互功能依然可以使用。

GUI交互界面必然会不断进步和变化,而VUI语音交互界面是一大发展趋势。比什的一键功能显示了其在VUI产品交互设计上的深度思考。相信通过不断改进语音交互

很多车载后装产品的用户反映一个问题,就是在使用车载语音的时候说我想去天安门系统可以回应,但是当他们说去天安门,系统不会不要回应。为什么?实际上,这是因为一些语音解决方案提供商固化了单词我想去变成唤醒词,而单词走和我想去唐与不完全匹配我想去,所以系统可以我无法自然地认出他们。表面上,这种互动模式被标榜为无唤醒,但实际上恰恰相反,系统是通过使用大量的唤醒字来实现的,这导致了非常高的误唤醒率,增加了系统资源占用,可扩展性差。同时强制用户记忆,给用户带来隐患安全驾驶。

在这个问题上,烈酒的产品总监雷雄国说。Spirits使用了one-shot功能来解决这个问题,系统可以理解用户想要说的话。基于应用场景的深度学习,系统可以收集和分析用户行为和习惯在后台,准确跟踪用户意图,克服刚性关键词识别,通过大词汇量数据实现场景流畅交互。

事实上,语音技术企业的核心竞争力已经落在研发上。d语音技术的实力、产品化和市场应用,已经成为企业的生存之道。有些企业坚持自主研发,有些则擅长使用国际开源工具,如Google 开源深度学习系统张量流。该系统支持CNN、RNN、LSTM算法等流行的深度神经网络模型,大大降低了深度学习的应用难度,提高了开发速度。但是,通用的开源工具在效率和权威性上有其局限性,不能满足特定前沿算法的需求,往往可以不能满足用户基于场景的个性化需求。算法、数据、架构等。在不同的专业领域中,必须基于实际应用来构建和优化。

目前在国内智能语音行业,深耕技术研发的企业并不多。比如在深度学习方面,百度研究院推出了深度语音系统,科大讯飞推出了FSMNN算法模型,思必驰和上海交大联合实验室自主拥有VDCNN算法模型和PSD解码架构。拥有独立的研发团队。d实力,可以结合产品特性和应用场景深度定制交互方案。

图2一句话就能达到一拍灵。

不管是无论是新颖的一键功能,还是传统的语音交互,在人工智能时代,只有将技术转化为良好的产品体验,才能更好地描绘未来智能生活的图景。我们期待更多新技术的发布,以及新技术带来的惊喜。