【IT168 评论】前段时间发布的《2017年全球独角兽企业榜单》引燃了万千中国创业者的激情,因为跻身独角兽的新公司中,中国独占了三分之一,而这些公司在2017年的独角兽新秀中融资额占比达44%,位居第一。
自从互联网兴起以来,整个商业变革的时间大大缩短,过去需要几十年甚至上百年才能打造出的商业巨头,现在依托互联网可能只需要几年时间,比如,知乎。还记得榜单刚出之时,很多人纷纷感叹“知乎终于熬出头了!”。面对众多新秀,知乎确实更为成熟,如果你细细了解知乎对技术的精益求精和对产品的匠人之心,你就会发现这七年的时光每一分都少不得。
近日,笔者探访了知乎总部,无意中与知乎机器学习团队负责人张瑞相遇,就着一瓶矿泉水聊完了知乎对深度学习的态度和应用。从通信领域到机器学习,这位跨界工程师对深度学习市场又有哪些看法和预测呢?
▲知乎机器学习团队负责人张瑞
深度学习应用:知乎推荐系统的七年变革!
近几年,很多企业在布局深度学习,很多创业公司在聊深度学习,到底互联网企业是如何用深度学习的呢?
作为一款用户体验导向的产品,知乎上大量的人工智能以及机器学习技术,归根结底是了为支撑用户的使用体验。知乎拥有 2300 万日活用户,每天有数以十万计的高质量UGC内容产生,而其中很大一部分的信息分发是通过首页推荐系统来实现的。张瑞透露,起初的推荐系统基于用户兴趣和社交关系,使用 GBDT 模型进行 Feed 召回和排序的优化,使知乎首页的整体点击率提升了70%左右,用户浏览深度提升30%左右,用户停留时长上涨了60%到70%。但对新用户会出现冷启动问题,因为新用户可能还未形成任何关注和社交关系。要想应用这类浅层模型,就需要对特征工程进行非常细致的调整,而这类调整只靠人力往往是达不到理想效果的。
张瑞团队经过一番思考,决定将深度学习应用于推荐系统之中。整个团队对当前的深度学习技术进行了深入调研,最终将整个深度学习系统构建在谷歌开源的TensorFlow之上,同时,在线内容和用户更新等部分应用了一些大数据处理技术和框架。在这之上,整个团队又对模型和策略进行了自主研发和调整。
知乎深度学习推荐系统根据大量用户行为对神经网络模型进行训练,基本策略是将用户行为表示成一组机器可以读懂的多维向量,这些向量包含着用户的关注、兴趣、点击、阅读甚至是手机型号等信息,通过与用户历史行为不断对比,最终实现精准推荐。在离线评测中,这套系统的推荐准确率要比协同过滤等方法高出 2-3 倍。
未来,知乎将逐步完成整个推荐系统的更新换代,从基于协同过滤和排序整体过渡到基于深度学习,用户指标也将更加细化,进一步满足关乎用户自我提升的优质信息获取需求。
国内机器学习数据集匮乏,知乎决定做点什么!
作为一家技术型互联网公司,知乎在对技术精益求精的过程中,也同样秉持着一颗技术分享的公益之心。相比国外的 ImageNet、Gigaword等高质量数据集,中文互联网相关的高质量数据集是相对缺乏的。知乎作为一家拥有8400多万注册用户的知识社交平台,累积了非常多高质量文本语料和数据。既然有能力,那就做吧!知乎就这么开始了......
笔者造访知乎之时,「2017知乎·看山杯机器学习挑战赛」已经接近尾声,想必机器学习领域的众多爱好者已经观摩或参与了整个过程,笔者就不再赘述详情。在与张瑞的对话中,笔者知悉本次挑战赛中应用到的数据集后期会在知乎「知识青年」和「Hacker’s Log」等专栏陆续发布,包括一些与知乎密切相关的数据集和机器学习任务,例如内容推荐、社交网络链接预测等,所有数据集都会经过严格脱敏和审核。
张瑞聊深度学习:对初学者的一些小建议!
越是深入了解,越是有话要说。对于该领域涌入的大量初学者,张瑞坦言,确实有开发者在不了解底层细节的情况下,通过调用API得到了不错效果。谷歌也在开发类似系统,旨在降低深度学习领域的入门门槛。未来,这可能会成为一种趋势,机器学习或许会变成工业界的基础能力。但对于想深入了解并从事深度学习的工程师而言,要求将会变得更高。同时,随着数据量的激增,算法的不断进步,现在与未来的深度学习复杂性不可同日而语。
对于最近正在筹备机器学习领域初学者指南的张瑞来说,对这个问题还是很有话语权的。他建议科班出身或基础牢固的工程师,可以通过实践来快速入门,在实践过程中对理论进行二次掌握和巩固,反复迭代必将有所得。对于想跨界进入机器学习领域的工程师,张瑞建议先打好基础,比如侧重数学,包括数理统计和信息论以及一些基本的机器学习理论等,再根据理论指导实践,目前也有一些不错的开源Demo可供参考。
知乎认为,算法更高价值的地方,在于算法有机会了解人的潜在需求,打破信息获取障碍,提升学习效率。在深度学习的赛场上,知乎的终点又是哪里呢?