大数据频道 频道

大厂林立,思必驰推可定制开发语音交互技术!

  【IT168 评论】一年一度的SACC大会又在金秋时节准时与大家见面了!下午的语音识别技术专场集结了来自众多大厂的技术一线专家——先声教育、阿里巴巴、搜狗、滴滴、思必驰......从Siri问世时语音识别技术的可有可无,再到今天逐渐成为某些场景的刚需。不得不承认,iOT时代已经到来!众多大厂林立,思必驰如何杀出重围呢?这条语音交互探索之路又该如何解读呢?

大厂林立,思必驰推可定制开发语音交互技术!

  三段探索经历,思必驰为啥决定搞可定制开发语音交互技术?

  一场革命的胜利通常是多个阶段性胜利的必然结果。思必驰研发总监张顺将语音交互探索经历分为了三个阶段:通用语音云、完整语音交互系统(AIOS)以及大规模定制开发(DUI平台)。

  在通用语音云阶段,语音交互领域玩家倒是不少,只是似乎都玩得不太专业。一个APP一个语音入口,各种语音助手交互方式各异,对用户而言也并不足以构成绝对吸引力。研发难度大,玩家自身需要了解语音对话相关知识,可调用的接口及库匮乏;当技术瓶颈被逐个击破,玩家们进入了第二阶段。在这个阶段,已具备了集成完整交互系统的能力,思必驰开始思考“对用户而言,语音交互在什么样的场景下才是刚需?”语音厂商开始活跃起来,模型泛滥,定制能力却不足;未来,定制开发(DUI平台)将让Skill开发者更简单,可自助式定制开发,产品接入更简单快速。

  这三个阶段既是思必驰对语音交互技术的探索和思考,似乎也是语音交互市场的部分真实写照。既然看准了,就大胆地试,大胆地闯!思必驰DUI可定制语音交互便在现场与大家见面了!

  DUI可定制语音交互,思必驰的问题与思考!

  目前,DUI的可定制语音交互主要有检索型、知识型以及任务型三种。检索型最典型的应用场景就是聊天,一般是单轮一问一答。知识型一般是特定域,可以结构化,同样是单轮一问一答。任务型的典型场景就是导航、打电话、听歌,此时对语音识别的准确度要求非常高,需要跟踪对话状态以及决策策略,会出现多轮对话,但轮数越少越好。

大厂林立,思必驰推可定制开发语音交互技术!

  随着技术深度的推进,思必驰也遇到过很多问题,比如怎样处理内容资源、语言模型和语义之间的关系?多模态交互如何处理?跨Skill的上下文怎么做?一路遇坑,一路填坑,思必驰本着让交互更自然,更智能,更鲁棒的原则一刻也不放松技术上的修炼。

  从识别、理解到交互,思必驰现在已拥有全面的AI语音技术,全面拥抱对话智能。通用模型识别率高达97%以上。张顺表示,思必驰希望和客户一起打磨产品,倾听更多的声音,不断实现产品迭代。

大厂林立,思必驰推可定制开发语音交互技术!

  结语

  众多大厂林立又如何?思必驰照样走出了自己的一条DUI全链路定制探索之路!随着人工智能、物联网、云计算等众多技术的兴起,涌出了众多新的技术方向和趋势可供企业选择,到底有没有韧劲拔得头筹就看各位厂商的实力了!

大厂林立,思必驰推可定制开发语音交互技术!
更多信息尽在IT168现场报道专题  http://sacc.it168.com/topic2017/

0
相关文章