【IT168 评论】近日,微软在自家人工智能大会上宣布的18项核心技术持续刷屏,不少人可能还没从微软Build 2018开发者大会的余温中缓过来,紧接着又陷入“18项核心技术”的研究。自拥抱开源以来,微软变得越来越开放,无论是对开发者还是合作伙伴。一贯从不预先宣布产品,但峰会的研究演示进行了一上午,期间穿插着多位合作伙伴的落地产品分享,ROOBO就是其中一位。
微软是一家平台型和工具型企业,ROOBO是一家智能硬件科技平台类公司,二者合作恰好从研发到落地,对于微软推出的语音识别等人工智能技术,ROOBO打算如何用?除了智能音箱,语音交互技术是否有更好的落地场景?多人语音交互场景还有哪些问题需要解决?微软是如何做的?
从研发到落地,微软与ROOBO联手可以为市场带来哪些变化?
在此前的Build 2018大会上,微软CEO纳德拉就曾正式发布微软语音团队联合ROOBO研发的多MIC语音开发板MSDDK(Microsoft Speech Device SDK),这也是微软在AI领域提供的第一个开发者硬件平台。微软负责提供Speech Service开发平台,ROOBO完成MSDDK在音频,声学及硬件上的设计和实现。微软全球资深技术院士,微软云与人工智能事业部黄学东表示,目前微软已实现全线语音和翻译的个性化定制,并加入唤醒词。此外,微软还公布了最新的包括四麦线性和七麦原形的麦克风阵列技术,支持全双工语音交互。
作为一家平台型和工具型的企业,微软大中华区副总裁兼市场营销及运营总经理康容表示,微软一直以来提供各类平台和工具,这些技术会慢慢落到产品中,但这件事情并不由微软决定,而是广大合作伙伴和开发者的需求。因为用户对多人场景下语音交互解决方案的需求,微软决定和ROOBO一起做这件事情。Roobo合伙人兼CTO雷宇表示,该方案所解决的就是多人场景下的语音对话及多模态问题,做到图像与声音相结合,这对于整个市场而言是有革命性意义的,毕竟这将语音交互的使用场景从智能音箱拓宽至所有多人语音交互场景。
除了智能音箱,我们是否可以用语音交互技术搞点别的?
一提起语音交互技术的落地,大部分人的第一反应就是智能音箱。智能音箱确实是一个很棒的应用场景,但是已经“人满为患”。除此之外,我们是否可以用语音交互技术搞点别的?
ROOBO和微软在这方面做了很多,思考了很多。双方认为智能音箱主要面向的是成人市场,但儿童以及老年市场却被忽略。面向儿童的陪伴或教育型智能设备以及面向老人的医疗或康复类智能设备都可以与智能音箱形成良好的市场互补。但是,最终的决定权还在用户手里,虽然双方认可儿童及老年市场智能语音交互设备的发展前景,但用户是否买单并不能确定。
在商业场景中,双方认为智能会议将是语音交互技术生根的不错选择,毕竟在整个商业场景中,其他产品均已实现了数字化,只有会议语音目前还未实现。微软也现场演示了多人会议场景下的语音记录场景,对不同人物及其声音进行标记,对会议中所有的对话进行标记和语音转写,对重点内容或待办事项分开记录。
多人语音交互场景面对的痛点与对策!
智能会议场景基本代表了微软和ROOBO在多人语音交互场景方面的实力,这个场景主要涉及两大问题,一是多人对话场景下的噪音问题;二是多人对话场景下的语音分离及语音与图像技术的同步应用。通过两次现场演示(微软Build 2018大会),微软基本解决了语音分离及语音和图像技术同步应用方面的问题,但对于多人场景下的噪音问题,业内一直没有出现特别完美的解决方案。
微软推出的麦克风阵列技术在对抗噪音方面的效果很明显,配合360度的摄像头可以让AI技术整体上一个台阶。虽然还未达到完美程度,但微软认为解决这个问题的前景还是很乐观的。
细看涉足智能语音交互领域的大小厂商,每一家都为市场贡献了不少产品,但一款好的智能语音交互产品的定义到底是什么,没人说得清楚。微软一直以来都坚持与合作伙伴共同成长,每一场大会都会邀请众多合作伙伴。对微软而言,有多少开发者和企业愿意使用其提供的平台和工具研发解决方案和应用才是评判成功与否的标准。因为想法相同,微软和ROOBO走到一起,剩下的事情就交给市场和用户来检验吧!