【IT168 评论】不知道有多少人和笔者一样,对本来生活网的最初认知是从朋友圈开始的。有那么一段时间,朋友圈里经常看到好友分享的团购信息,诱惑实在太大,我经常也会忍不住参团。本期的采访嘉宾是未来生活网的范学蠡,不过他今天不是和大家分享团购攻略,而是正经聊聊大数据领域的相关技术,他见证了本来生活网的数据仓库从SQL Server到Hadoop生态的演变,他在这方面绝对有话语权。
范学蠡,曾在Daum负责研发,后进入贝塔斯曼负责多个数据项目,现任本来生活网BI总监。在本来生活网组建了BI团队,建立了基于SQL Server的数据仓库和数据分析体系,现今又从SQL Server转向Hadoop体系,并在此基础上建立了分析型CRM、用户行为数据分析平台等BI应用。
在采访之前,笔者对本来生活网的数据库选型做了调查,增加了解的基础上也是为同领域的公司提供一个参考。范学蠡坦言,本来生活网目前主要使用了Mysql、MongoDB 、SQL Server、HBASE、Hive数据库,其核心业务依然是SQL Server集群,大量写入比如用户行为采用Hbase,Mysql主要用于BI系统的集市层。可见,本来生活网的数据库选型很多元化,并且不同的数据库针对不同的业务场景,分工明确。
一支竹蒿难撑汪洋海,除了选择正确的数据库之外,一个优秀的大数据团队能够为企业的数据应用和实现商业洞察打下坚实的基础。当然,团队的组成要取决于业务系统的数据是否完善、业务部门对大数据的认知程度。范学蠡说道,“一般来讲从0到完善至少需要一年时间。以我所在部门为例,主要需要数据分析挖掘工程、数据仓库/ETL工程师、Java开发人员、数据产品经理,并且尽可能的培养全才。”
随着公司业务量的增大,数据量激增。数据存储系统的选择成了棘手的问题,Hadoop的HDFS长期以来一直是比较受欢迎的分布式文件系统。但据预测,对象存储今年有望替代Hadoop的HDFS代表的分布式文件系统。对于这种观点,范学蠡认为不同阶段的公司选择的存储系统会有所不同,主要考虑数据量的大小、读取与写入的工作量、单条读取还是多条复杂条件查询,对数据时效性、完整性、安全性的要求如何等因素。范学蠡建议公司结合不同的业务场景选择存储系统、甚至在数据量小的情况下用Excel也是个不错的方法。
本届DTCC大会,范学蠡分享的主题是《大数据在本来生活的应用》,主要包括BI技术体系为何要从关系型数据库转向Hadoop生态?什么样的问题导致本来生活网狠下决心走向Hadoop?相信很多还在路上的同学会和本来生活网一样遇到许多困惑和难题,范学蠡此次的分享想必会激发很多技术人的强烈共鸣。