大数据频道 频道

百度、苏宁、链家、微软机器学习对比

  【IT168 评论】机器学习的概念炒作时期显然已经过去了,现在该进入实践阶段了。DTCC大会的第二天下午,来自百度、苏宁、链家、微软机器学习相关领域的技术人员分享了各自在机器学习方面的进展。

  百度顾晓光:基于深度学习的图片检索应用

  如果要让机器从一堆图片中尽快找到符合条件的图片,应该怎么做呢?顾晓光表示,最常用的方式就是通过特征提取和排序算法来进行筛选。但随着场景的复杂化,很多新问题接踵而至,比如图片周边文本关键词准确率低(30%);来源于固定站点,无先验偏好;用户行为方面是冷启动,无历史数据。这时,百度就开始思考,能否训练模型直接对query和图片进行相关性打分呢?

百度、苏宁、链家、微软机器学习对比

  深度学习这时便派上了用场,比如图像方面,卷积神经网络的应用、词向量和序列模型在文本方面的应用等。之后,将提取的关键字文本特征与图片的图像特征输入打分模型,打分模型中会对文本特征和图像特征进行拼接,然后进行特征嵌入,最后整个模型呈现出如下状态:

百度、苏宁、链家、微软机器学习对比

  谈深度学习一定要谈训练数据,顾晓光透露目前的训练数据有两种来源:学术界来自于Flickr或MSCOCO;工业界主要来源于百度图搜和Google图搜,对应的形式则是文本query及对应的图片列表。模型训练主要是两种方式:分类模型和排序模型。百度基于此也开源了自己的深度学习平台PaddlePaddle,其在易用性、灵活性、高效性和可伸缩性方面均有不错的性能,开发者可自行下载体验,开源地址为https://github.com/PaddlePaddle/Paddle。

  苏宁李伟:苏宁机器人对话系统实践

  最初,人们是在图书馆里寻找资料、后来人们习惯于网络检索,现在智能机器人正在逐渐融入我们的生活。

百度、苏宁、链家、微软机器学习对比

  下图是苏宁的智能机器人-小苏,这样一个软萌的智能机器人对话系统又是如何实现的呢?李伟从对话系统概述、自然语言理解、对话管理、自然语言生成以及MI架构实现等方面对此进行了分享。

百度、苏宁、链家、微软机器学习对比

  对话系统类型大致有两种:一是聊天类机器人,这类机器人在人们的生活中比较常见,可以基于某些话题或开放性话题进行免费对话,比如微软的xiaolce和百度的Duer;另一类是任务机器人,为了完成特定任务而产生的,比如微软的Cortana和苹果的Siri。目前的对话系统主要有两种模型实现方式:一是数据驱动模型,该类模型需要大规模的语料库,同时基于检索和生成的方法实现;另一类是交互驱动类模型,该模型在用户和机器人之间形成在线交互,加强基于学习的方法。整个问答架构设计如下:

百度、苏宁、链家、微软机器学习对比

  李伟介绍,对话系统组件有如下几个:自动语音识别(ASR),识别语音信号转换成文本表示;自然语言理解(NLU)、将文本转换为语义表示;对话管理(DM),更新对话状态并执行正确的操作;自然语言世界(NLG),根据当前(状态,动作)选择非常好的答案,文本到语音合成(TTS),使用生成的文本合成自然语音。

  链家网宋鑫:链家网数据挖掘技术实践

  最近,房地产行业炒的风生水起,很多人开始琢磨起买房子这件事,但是你了解这些房屋买卖交易平台吗?链家网宋鑫主要分享了链家网为什么要做估价、估价系统的现状、估价系统总体设计、估价系统难点及解决方案等方面。

百度、苏宁、链家、微软机器学习对比

  提及整个估价系统的总体设计,宋鑫表示数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。估价系统的整体特征设计主要从交易特征、物理特征、市场供需特征三方面进行考量。目前的估价系统还面临着交易数据的稀缺、稀疏和时变,以及物理特征和数据等难点,在算法选择上,宋鑫表示,数据特点决定训练算法!

  分享最后,宋鑫表示领域知识至关重要,可以通过此弥补数据不足;在数据稀疏的情况下,很难用统计的方法去除异常点,特征平滑能够缓解脏数据带来的影响;机器学习模型强依赖数据,数据稀疏时,可能学习到违反常识的“知识”!需要领域知识进行修正;数据稀缺,特征之间的差异性大,交叉关系复杂时,模型复杂度可控性是关键,Tree Ensemble算法是首选!

  微软刘士君:微软人工智能平台Azure Machine Learning

百度、苏宁、链家、微软机器学习对比

  刘士君从机器学习的意义出发,对机器学习的优势进行了介绍,比如针对海量数据;很多问题无法通过显性指令集解决,但机器学习可以解决;效率几何倍数提高;自我学习、不断提高。微软针对机器学习也推出了自己的产品——Azure Machine Learning Studio,简单地说,Azure Machine Learning是一个通过PaaS平台快速构建机器学习算法供开发者使用的解决方案。其有很多不错的特点:通过浏览器访问,通过可视化的模块E2E支持数据流,提供多种ML算法和模型库,支持R和Python扩展,支持Web API快速部署和伸缩,只需要完成算法,不需要部署环境,具有分类、回归等模块。如果广大开发者感兴趣,可自行体验具体效果!

  虽发力点不同,但不难看出百度、苏宁、链家与微软在人工智能上都已经开始布局了,未来或许我们可以看到人工智能应用于更多领域,给我们带来更多惊喜。

0
相关文章