大数据频道 频道

李翔:魅族广告平台算法与模型解析

  【IT168 评论】2017第八届中国数据库技术大会(DTCC2017)于2017年5月11-13日在北京举办。本届大会以“数据驱动·价值发现”为主题,汇集了来自互联网、电子商务、金融、电信、政府、行业协会等20多个领域的120多位技术专家,共同探讨Oracle、MySQL、NoSQL、云端数据库、智能数据平台、区块链、数据可视化、深度学习等领域的前瞻性热点话题与技术。

  5月13日,在《广告与推荐系统》专场,魅族工程师李翔做了精彩的演讲。作为一个拥有海量移动客户端的平台,李翔为大家分享了魅族针对互联网方向转型的战略问题,而广告平台的建设恰恰可以做为这条路上的重要的里程碑,既可以合理地利用平台海量数据带来的优势,也可以使用户和公司各取所需。

李翔:魅族广告平台算法与模型解析
▲魅族工程师李翔

  背景:战略背景和核心输出

  在互联网广告这个市场中,涉及到DSP、DMP、RTB、ADExchange、CTR,其中的技术细节都会使用到机器学习的相关方法,如何找到合适的算法并达到比较理想的效果是个具有挑战性的难题。作为一个拥有大量移动客户的公司,魅族在较短时间内经历了从无到有的过程,各个平台的建设都需要算法的支撑,比如DMP中的用户画像,以及互联网广告的核心CTR等,这样就需要针对不同的业务场景进行分析,找到合适的数据和模型,并通过不断调优使得各项指标不断刷新新的记录,从而达到用户和公司的双赢。

  算法核心输出:DMP 用户画像

  在用户画像方面,李翔举了一个例子,比如用手机测试用户的性别问题,特定APP指定虽然有不确定性,但人工挑取更困难,所以,在手机最初的设置上,可根据用户使用手机操作系统的过程中,设置可选择性的填写数据类别等基本信息,在特殊选择方面,会利用自带的APP比如音乐、视频、APP等调取信息,作为部分参考,更深层的数据应用可以选择具有代表性的APP来区分男女性别。比如:大姨妈、王者荣耀、九秀美女直播、她社区等。

  除了性别的问题,魅族在划分年龄段的方式方面和其他公司非常接近,通过不同应用来区分不同人群。从结果上来看,push活动的活跃数,使用画像标签后的效果比之前提高了30多倍。

  过程:从五个层面了解CTR

  分享中,李翔分别针对CTR五个层面进行了介绍,其中包括架构、数据准备、细节、模型评估、效果等。其中,CTR架构层面分为在线预测、模型训练、特征工程、数据准备。此外,李翔对于CTR细节做了重点介绍。

李翔:魅族广告平台算法与模型解析

  李翔介绍,CTR预估中最常用的方法就是LR(Logistic Regression),作为广义线性模型,与传统的线性模型作比较,LR使用了Sigmoid函数将函数值映射到0到1的区间,映射后的函数值就可以表示CTR的预估概率。除此之外,LR这个模型很容易并行化,分布式迭代计算快,这样就可以方便处理超大规模的训练样本。但其缺点是,作为半监督模型,学习能力比较有限,需要对训练数据进行大量的特征工程处理,分析出有价值的特征及特征组合,用来帮助LR的非线性学习能力。

  综上所述,魅族通过CTR预测到的结果是:针对应用中心的显示广告,通过A/B test的方式验证了一个月的效果,把显示广告中的各个广告位的效果拉平后进行比较,相比外部算法,可以使收入提高50%左右。

李翔:魅族广告平台算法与模型解析

  领悟:模型比人更懂数据

  李翔认为,在机器学习解决问题的过程中,恰当的数据和合适的特征往往最重要。其次,学习能力的不足需要靠特征工程来弥补,另外,模型会比我们更懂得数据,相信并证实模型的结果也是工作中不可或缺的内容。

  李翔表示,互联网广告是大多数互联网公司最大的收益来源,其核心算法就是关于CTR的预测,由于预测模型涉及的训练样本非常大,需要采用较快的模型,LR作为一个线性模型,它的易分布处理和可解释性使其非常适合这个问题的场景,但由于它的学习能力比较有限,需要做的特征工程就显得尤其重要,通过降维、组合、选择等多个处理方式使得模型可以得到充分的训练,从而预估出较为合理和准确的CTR,帮助公司的广告业务带来尽可能多的营收。

1
相关文章