【IT168 专稿】去年,笔者在采访Apache软件基金会总裁Ross Gardler时,了解到Apache软件基金会孵化支持的项目多达300个,其中包含162个优异项目,但这些优异项目中却没有一个来是自中国的!这让笔者很是感概!为什么中国就诞生不了一个优异项目?中国人难道就真做不出能比肩国外技术的开源项目?相信这是所有致力于开源事业的人士都在思考的一个问题。
事实上,从中国提交到Apache软件基金会的开源项目并不少,但在成为优异项目的过程中因为种种原因,最终都倒在了半路上。近日,笔者得知,这一历史终于被打破,第一个由中国团队完整贡献到Apache的优异项目诞生了,它就是Apache Kylin(麒麟)。而从最初开源到成为Apache优异项目,Apache Kylin只花了13个月。
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上超大规模数据的SQL查询接口及多维分析(OLAP)能力。该项目最早是在ebay孵化并在github.com上开源,后加入Aapche孵化器,并最终成为Apache优异项目。
Apache Kylin成为优异开源项目显然具有非同一般的意义,不仅意味着Apache Kylin与Apache Spark,Apache Kafka是一个体系,更是一个Level级别,事实证明,中国人也能做出与国外技术比肩的项目。
▲Apache Kylin项目负责人、Kyligence公司创始人韩卿
为此,笔者特意奔赴上海,专访了该项目负责人(原eBay全球分析基础架构部(ADI) 大数据产品负责人、现Kyligence公司创始人)韩卿。还原一个普通开源项目如何成长为优异项目的发展过程,Kyligence的商业模式与创业路上的故事。
老鱼:为什么会将项目取名Kylin(麒麟),有什么特殊含义?据我了解,这个名字在国内用的挺泛滥的,不少产品都叫这个名字。
韩卿:非常好的问题。
这个项目最早是在eBay孵化。大家知道,eBay是外企,外企大部分的项目命名都是以西方神话为主,比如什么神,什么山之类的。而Kylin这个项目完全是由中国这边自主设计和开发,取名字那就一定要取一个中国风的名字。这个名字我们找了很久,Phoenix(凤凰)被用掉了,龙又不是特别合适,最后发现麒麟非常合适,于是我们就叫麒麟,虽然俗是俗了点,但最重要的是在eBay内部众多项目中,这是唯一一个用中国动物来命名的一个项目。
而当我们把项目贡献到Apache后,这个名字识别度高,在Apache所有的一百多个优异项目里面,只有这个名字大家一看就知道是来自中国。
最后,麒麟嘛,在中国神话里是百兽之王,比较不错,“笑!”。
老鱼:当时研发Kylin你们是出于怎样的考虑?换句话说,Kylin解决的是用户怎样的痛点?
韩卿:大数据时代来临,越来越多的企业开始使用Hadoop管理数据,但无论是商业还是开源的,在Hadoop上始终缺乏一个很好的数据仓库与BI解决方案以支持超大规模数据集上快速交互分析能力,现有的商业智能分析工具(如Tableau,MicroStrategy等)往往存在很大的局限,如难以水平扩展、无法处理超大规模数据、缺少对Hadoop的支持;而利用Hadoop做数据分析依然存在诸多障碍,例如大多数分析师只习惯使用SQL而不习惯于使用非常工程师的方式访问大数据平台,Hadoop难以实现快速交互式查询等等。Kylin就是为了解决这些问题而设计的。
老鱼:Kylin是怎么样从一个普通的开源项目做到优异项目的?
韩卿:在最初的原型验证后, 觉得这个方向大有可为,在当时(2013年年中),业界还没有类似的解决方案,于是我们团队开始全力研发,并努力证明给管理层及寻找种子客户,经过内部一年多实际案例的验证,在正式部署到生产系统后,于2014年10月1日在github.com上开源。开源后,业界的反馈很不错,包括Hortonworks CTO等都在Twitter上赞赏我们的项目。很多的Hadoop业界专家都觉得这是一个非常好的项目,并建议Kylin申请加入Apache孵化器以获得更好的发展,于是在2014年11月Kylin加入Apache孵化器,我们从什么都不懂,到获得整个社区认可,所有导师的认可,基金会的认可,整整经历了11个月,并于2015年11月正式毕业成为Apache优异项目。说起来似乎很简单,但这个过程其实非常不容易,团队及社区付出了非常多的辛苦和努力。
老鱼:在成为优异项目过程中的最大的挑战是什么?
韩卿:最难的还是沟通和交流。 这主要是东西方文化差异导致的文化冲突,西方的文化比较直接,而中国文化比较含蓄,如何适应并学会西方开源社区的规则并融会贯通,我们经历了很多也获得了极其宝贵的经验 。另外就是发展和壮大社区,特别是吸引中国工程师,一方面是语言,社区中虽然大部分都是中国人,但整个社区都用英文交流,另一方面是如何说服更多人的贡献到这个社区,目前社区发展的不错,活跃度和贡献度都非常高。
老鱼:今年初,你从eBay离职出来创业,创建了Kyligence公司,是什么促使你下定这个决心?这个事情对你个人的意义在那里?
韩卿:创建了Kyligence公司的初衷很简单, 我们发现当社区发展到一定的阶段后,有着非常多的外部需求,这些需求已经远远超越了我们当时团队的工作职责。
其次,我认为现在是创业非常好的时间窗口,再不做就晚了,当时我们合计了下就开始做了。后来我们找到了天使投资红点,大家都还蛮看好这个方向的。
除此之外,可以说任何一个成功的开源项目背后都有一个好的创业公司,Hadoop背后是Cloudera和Hortonworks等, Spark背后是Databricks,Kafka背后是 Confluent,Kylin背后就是Kyligence!成立一个创业公司一方面可以更健康地去发展社区,另一方面可以更好地去促进生态的建设。
而这件事对我个人的意义主要有两点;一方面圆了自己的梦,创业是我很久以来的梦想 。另一方面,我认为这是一件非常有意义的事。我从十几年前开始接触数据分析领域,所有的技术都是国外的,今天终于有机会并做出了Kylin这个产品,这说明在这个领域我们完全有能力做出跟国外技术比肩的东西,这意义远远超出了工作本身,我觉得很值得去做,做了可能有机会,不做则完全没机会,对我来说不做一定会后悔。
老鱼:一个企业要发展的前提是赢利,对于创业公司首先要解决是生存问题,你们的商业模式是什么,靠什么挣钱?
韩卿:我们的商业模式其实非常简单,有几个方面;
第一、会在开源之上提供一个企业级的版本,这是我们主要的商业模式,类似Cloudera等的方式,我们还会提供一些增值服务及产品,来帮助企业用户降低运维成本和使用的难度等,并提供更多的性能,增强的安全性等高级特性。
其实对于很多企业客户而言,最重要的是除了需要开源产品降低成本外也需要厂商能够帮助他们出谋划策,因为他必然会有一些定制性的需求,也必然会在使用中有各种各样的问题,因此,他们一定需要专业的供应商帮他解决这些问题,还有什么比原厂支持更好的。
第二、对于怎么去把大数据落地,传统企业其实并没有个清晰的概念,因此,我们后续会推相应的咨询和服务,另外会有Apache Kylin全球认证培训等服务。
第三、云服务,当然云服务可能更多的是针对北美市场,北美的那边的需求和成熟度会更高 ,我们在北美的需求也很旺盛,我们的第一笔收入即来自美国客户。
老鱼:你们对标产品是?如何与巨头竞争?
韩卿:我们瞄准的机会是传统数据仓库领域及在Hadoop之上对数据仓库的需求, 一方面传统数据仓库的成本很高,另一方面数据越来越来往Hadoop等大数据平台上迁移,在Hadoop之上提供数据仓库是自然而然的切实需求,这也是我们的强项及契机。
这里我要澄清一下一些误解,我们的竞争对手并不是Hadoop发行版供应商,所有Hadoop发行版供应商都应该是我们合作伙伴,因为Kylin是跑在Hadoop之上的。目前我们跟Cloudera,Hortonworks ,MapR等都有很好的合作。
这个领域里永远都会有竞争,目前我们占据了一个的比较好的优势,至少在开源的领域里,我们是非常领先的。其次,我们的社区也非常活跃。和巨头竞争很重要的是差异化和专业化,我们会在这个方面加大投入,做出更多的增值产品与服务来提供给客户,这样客户才会愿意买我们的产品和服务。
老鱼:据你了解,传统企业与互联网企业,在数据分析上的需求有什么不同?
韩卿:互联网的巨头更倾向于找到资深的开发人员自己从头搭建各种平台。而传统企业则很少自己从头做,一大挑战是很难与互联网企业竞争相关人才,其次、传统企业更关心的能否在一个合理的成本范围内快速地把互联网有的那些技术能力复制出来以满足业务需求,传统企业是愿意付费来买技术的。
而Kylin(麒麟)所带来的好处,是大大降低了企业实施大数据分析项目对人员的技术性要求并能大大缩短项目周期。传统的数据仓库/BI工程师就可以很好的利用Kylin来快速构建大数据分析平台,通过我们的企业版产品,可以进一步降低运维及管理的成本等。
老鱼:除了技术之外,你还有哪些兴趣爱好?
韩卿:我喜欢看电影,看书,旅游等,特别喜欢一些科幻类的作品,比如这两天热映的电影《独立日》,前两天的《复仇者》等都很喜欢。 但是,我发现现在根本没有时间了,所以今天来说,兴趣爱好都已经放弃了,哈哈。
老鱼:听说8月份你们在北京会有场重大的产品发布会,能否提前透露些?
韩卿:我只能透露,8月初,我们确实会在北京有场产品发布会并作为赞助商参加Strata+Hadoop World大会,其他的暂时保密吧。