对话张瑞：知乎用深度学习改良推荐系统二三事！-大数据频道专区

对话张瑞：知乎用深度学习改良推荐系统二三事！

作者：钰莹编辑：赵钰莹 2017-09-04 17:20 IT168网站原创

　　【IT168 评论】前段时间发布的《2017年全球独角兽企业榜单》引燃了万千中国创业者的激情，因为跻身独角兽的新公司中，中国独占了三分之一，而这些公司在2017年的独角兽新秀中融资额占比达44%，位居第一。

　　自从互联网兴起以来，整个商业变革的时间大大缩短，过去需要几十年甚至上百年才能打造出的商业巨头，现在依托互联网可能只需要几年时间，比如，知乎。还记得榜单刚出之时，很多人纷纷感叹“知乎终于熬出头了!”。面对众多新秀，知乎确实更为成熟，如果你细细了解知乎对技术的精益求精和对产品的匠人之心，你就会发现这七年的时光每一分都少不得。

　　近日，笔者探访了知乎总部，无意中与知乎机器学习团队负责人张瑞相遇，就着一瓶矿泉水聊完了知乎对深度学习的态度和应用。从通信领域到机器学习，这位跨界工程师对深度学习市场又有哪些看法和预测呢?

知乎深度学习改良推荐系统二三事！
▲知乎机器学习团队负责人张瑞

　　深度学习应用：知乎推荐系统的七年变革!

　　近几年，很多企业在布局深度学习，很多创业公司在聊深度学习，到底互联网企业是如何用深度学习的呢?

　　作为一款用户体验导向的产品，知乎上大量的人工智能以及机器学习技术，归根结底是了为支撑用户的使用体验。知乎拥有 2300 万日活用户，每天有数以十万计的高质量UGC内容产生，而其中很大一部分的信息分发是通过首页推荐系统来实现的。张瑞透露，起初的推荐系统基于用户兴趣和社交关系，使用 GBDT 模型进行 Feed 召回和排序的优化，使知乎首页的整体点击率提升了70%左右，用户浏览深度提升30%左右，用户停留时长上涨了60%到70%。但对新用户会出现冷启动问题，因为新用户可能还未形成任何关注和社交关系。要想应用这类浅层模型，就需要对特征工程进行非常细致的调整，而这类调整只靠人力往往是达不到理想效果的。

　　张瑞团队经过一番思考，决定将深度学习应用于推荐系统之中。整个团队对当前的深度学习技术进行了深入调研，最终将整个深度学习系统构建在谷歌开源的TensorFlow之上，同时，在线内容和用户更新等部分应用了一些大数据处理技术和框架。在这之上，整个团队又对模型和策略进行了自主研发和调整。

　　知乎深度学习推荐系统根据大量用户行为对神经网络模型进行训练，基本策略是将用户行为表示成一组机器可以读懂的多维向量，这些向量包含着用户的关注、兴趣、点击、阅读甚至是手机型号等信息，通过与用户历史行为不断对比，最终实现精准推荐。在离线评测中，这套系统的推荐准确率要比协同过滤等方法高出 2-3 倍。

　　未来，知乎将逐步完成整个推荐系统的更新换代，从基于协同过滤和排序整体过渡到基于深度学习，用户指标也将更加细化，进一步满足关乎用户自我提升的优质信息获取需求。

　　国内机器学习数据集匮乏，知乎决定做点什么!

　　作为一家技术型互联网公司，知乎在对技术精益求精的过程中，也同样秉持着一颗技术分享的公益之心。相比国外的 ImageNet、Gigaword等高质量数据集，中文互联网相关的高质量数据集是相对缺乏的。知乎作为一家拥有8400多万注册用户的知识社交平台，累积了非常多高质量文本语料和数据。既然有能力，那就做吧!知乎就这么开始了......

　　笔者造访知乎之时，「2017知乎·看山杯机器学习挑战赛」已经接近尾声，想必机器学习领域的众多爱好者已经观摩或参与了整个过程，笔者就不再赘述详情。在与张瑞的对话中，笔者知悉本次挑战赛中应用到的数据集后期会在知乎「知识青年」和「Hacker’s Log」等专栏陆续发布，包括一些与知乎密切相关的数据集和机器学习任务，例如内容推荐、社交网络链接预测等，所有数据集都会经过严格脱敏和审核。

　　张瑞聊深度学习：对初学者的一些小建议!

　　越是深入了解，越是有话要说。对于该领域涌入的大量初学者，张瑞坦言，确实有开发者在不了解底层细节的情况下，通过调用API得到了不错效果。谷歌也在开发类似系统，旨在降低深度学习领域的入门门槛。未来，这可能会成为一种趋势，机器学习或许会变成工业界的基础能力。但对于想深入了解并从事深度学习的工程师而言，要求将会变得更高。同时，随着数据量的激增，算法的不断进步，现在与未来的深度学习复杂性不可同日而语。

　　对于最近正在筹备机器学习领域初学者指南的张瑞来说，对这个问题还是很有话语权的。他建议科班出身或基础牢固的工程师，可以通过实践来快速入门，在实践过程中对理论进行二次掌握和巩固，反复迭代必将有所得。对于想跨界进入机器学习领域的工程师，张瑞建议先打好基础，比如侧重数学，包括数理统计和信息论以及一些基本的机器学习理论等，再根据理论指导实践，目前也有一些不错的开源Demo可供参考。

　　知乎认为，算法更高价值的地方，在于算法有机会了解人的潜在需求，打破信息获取障碍，提升学习效率。在深度学习的赛场上，知乎的终点又是哪里呢?

关注我们