SACC 2017：互联网大厂语音识别如何？-大数据频道专区

SACC 2017：互联网大厂语音识别如何？

作者：钰莹编辑：赵钰莹 2017-10-19 18:53 IT168网站原创

　　【IT168 评论】时光荏苒，转眼间SACC已经是第9个年头了，我们通过近十年的努力，逐渐成长为了技术人的饕餮盛宴!今年，云已成为万物智能的数字化大脑，人工智能方兴未艾，语音识别也随着这波浪潮成为了市场宠儿，布局了这么久，各大厂的语音识别做的咋样呢?

　　先声教育秦龙：人工智能助力新时代K12教育

　　在人工智能领域从业十余年，秦龙对人工智能在教育领域的应用有着自己独特的心得。解决痛点是大多数技术研发的初衷，先声教育正是抓准了教育领域的痛点，以期通过人工智能的方式来解决。

SACC2017：互联网大厂语音识别如何？

　　先声教育通过语音识别(LSTM)提取特征、语音测评(LR、SVM、NN)估计打分和实时精准反馈三步实现了智能口语测评;通过特征—Word embedding，模型—Convolutional Layer + LSTM + Linear Layer with Sigmoid activation和语法检错—Rule-based, classifier-based, MT-based methods实现智能写作批改，秦龙表示，由于人为打分会受到很多主观因素的影响，所以智能打分系统的准确程度要更高一些。但秦龙强调，虽然对话机器人、自适应学习渐渐成为主流，但AI并不是未来智能教育的全部，AI与老师的结合才是智能教育的未来。

　　搜狗陈伟：搜狗智能语音之路

　　从移动互联网时代迈向智能时代，从输入法到搜索再到知音OS，搜狗的技术研发从未掉队。所有人都在追求人工智能的时代，陈伟表示，语言才是人工智能的核心，包括语音听写—ASR，语音翻译—ASR+MT +TTS，语音交互—ASR+NLU+TTS。

SACC2017：互联网大厂语音识别如何？

　　搜狗的语音交互产品也在不断演进，针对刚需场景提供更自然的交互体验。目前，搜狗语音识别准确率已达97%，这远远超过了众多大厂。据陈伟介绍，搜狗语音深度学习的规模经历了从500小时到数万小时，从单卡3TFlops到大于1PFlops的演进，目前的深度学习算法应用了DNN、CNN、LSTM和Seq2Seq，整个深度学习平台如下所示：

SACC2017：互联网大厂语音识别如何？

　　思必驰张顺：可定制开发的语音交互技术

　　PC时代，人类通过命令行与电脑交流;移动时代，图形交互成为主流;iOT时代，众多大厂纷纷加入语音交互的浪潮。

SACC2017：互联网大厂语音识别如何？

　　张顺以《可定制开发的语音交互技术— DUI的全链路定制探索之路》为主题，从语音交互的探索经历、DUI的可定制的语音交互以及问题与思考三个方向分享了思必驰在语音交互技术研发一路走来的实践经验。

　　Siri刚出现时，似乎并没有成为生活的刚需。同时，研发难度大，基于SDK/API自己实现需要了解语音对话相关知识，自己开发，这就让很多人打了退堂鼓。这部分人当然不包括思必驰，思必驰通过对语音交互的持续探索，发掘了语音交互的刚需场景，比如车载、家居和机器人等。该阶段的特点是完整的交互系统集成简单，但定制能力不足，出现了一些语音系统方案商。接下来，思必驰开始思考如何对Skill开发者更简单，最好实现可自助式定制开发。DUI的可定制语音交互就在这种情况下诞生了。

　　经过了多年打磨，思必驰通用模型识别率在97%以上，提出了VDCNN模型, 在Aurora4噪音测试集上的识别性能达到了7.09%词错误率, 性能相对提高10%，CTC模型, 降低80%搜索空间, 识别速度提高了7倍以上.......未来，思必驰将逐个解决语音交互领域的痛点，也希望可以和众多开发者一起成长!

　　滴滴研究院李秀林：智能交互，美好出行

　　滴滴一下，让出行更美好!不知道从什么时候开始，这句标语充斥了大街小巷，成为了人人熟知的一句话。作为今年全球独角兽榜单的第二名，滴滴对技术的追求从不曾止步。李秀林表示，短短几年，滴滴已经从最初的只提供打车服务演进为一站式的移动应用平台。目前，滴滴每日新增轨迹数据达70TB+，每日处理数据达4500TB+，路径规划请求达200亿余次，日均定位数据多达150亿次。

SACC2017：互联网大厂语音识别如何？

在海量数据的支持下，滴滴形成了数据-技术-产品的持续迭代;以SDK、线上服务等形式，对接业务线;与业务深度合作，共同探索核心技术的应用模式滴滴。滴滴本着安全第一，体验第二，效率第三的原则，先后上线了众多功能，比如安全层面的语音播报、语音操纵、声纹认证;用户体验侧的语音叫车、基于神经网络的高精度电话语音识别技术，基于深度学习的自然语言处理技术，融合电话数据处理和IM数据处理的多模态框架等。整体架构如下所示：

SACC2017：互联网大厂语音识别如何？

　　李秀林透露，未来，滴滴将以智能交互，让出行更安全、司乘体验更好、运营更高效为目标，让出行更美好!

　　阿里人工智能实验室王天舟：语音识别技术回顾及应用

　　王天舟首先从“人是如何理解语音的?”切入，将神经网络技术与人脑对语音的反应进行类比，对机器人自动值守训练、语音识别相关应用等进行了介绍。

SACC2017：互联网大厂语音识别如何？

　　从有趣到实用，现在的语音识别已经从单纯的娱乐转向了教育、智能家居控制、外卖充值购物、百科查询等领域。阿里推出的天猫精灵从计算、算法和数据三个层面都进行了相当大的优化。计算层面，FPGA 云端硬件定制化逻辑电路加速，前端云端联合优化;算法方面，全球领先的语言特征表达，KDD收录全球创新的混合神经网络，conv-RNN 的通用推理混合框架，深度优化的强化学习策略，个性化产生对话策略等;数据层面，AliGenie 认识的实体超过1 亿+，中文语言标注标准CTB等。

SACC2017：互联网大厂语音识别如何？
▲更多信息尽在IT168现场报道专题 http://sacc.it168.com/topic2017/

关注我们