数据作为数字经济时代核心的生产要素,已经成为经济增长的动力引擎。近几年,随着国家相关数据安全法规的陆续出台,数据安全被提升到了一个新的高度,甚至上升到国家战略层面。大数据作为企业数据资产的主要载体,是数据安全能力落地的关键,同时伴随着使用场景复杂和技术多样性等众多挑战。
本文分享以货拉拉大数据平台的实际落地经验为基础,结合真实案例,系统的阐述大数据场景下的数据安全体系建设实践和方法论思考,包含了覆盖数据全生命周期的安全规范建设、安全能力建设和系统治理三方面内容,重点讲解数据使用场景、技术挑战难度下的数据(数据库表、数据报表、数据指标等)分类分级、数据的分级使用和加密存储、数据灾备等实践思路,最后全面的建设落地数据安全体系,提升数据安全能力成熟度,保障公司数据安全。
▲货拉拉大数据基础架构负责人&架构师 王海华
嘉宾介绍:王海华,货拉拉大数据架构师/基础架构负责人,现在负责公司大数据部门整体稳定性/安全/国际化和架构团队。曾在滴滴/饿了么/拼多多经历和负责过几千到几万台的超大规模数据平台架构。6年以上大数据架构经验,主要研究方向是大数据安全、大数据平台产品和系统架构、计算机体系结构和分布式系统等,在以上领域具备大规模的落地实践经验。
分享大纲:
1、背景和挑战
2、大数据安全体系
3、总结与思考
一、背景和挑战
货拉拉是一家互联网物流商城,提供同城/跨城货运服务,涵盖从面包车到17.5米货车多种车型,用户一键呼叫,司机实时抢单;企业版提供月结账期、定制配送等服务;零担物流,提供直达全国、门到门的长途物流运输服务;汽车租售,满足司机和企业租车购车需求。
目前,货拉拉拥有6个以上的业务线,包含跨城、零单、物流以及搬家等。在大数据层面,货拉拉包含了3个IDC,是一个跨云、混合云的架构,包含阿里云、华为云以及一些自建的机房。机器数包括存储量和日均任务数,在业界属于中等的位置,在快速发展中。
大数据的使命是驱动业务数智化,助力公司业务持续增长。而大量的数据存储会对我们的数据管控和数据安全带来一定的挑战。上图是货拉拉的大数据体系,自底向上,分别是基础层、接入层、平台层&数仓、服务层、应用层。基础层和接入层提供最基础的存储和接入的能力。在平台层&数仓层,包含数据研发平台、数据治理平台、数据资产。在服务层,面向服务场景开发的大数据应用,包含数据应用支撑服务工具、数据服务工具、数据智能支撑工具。在应用层,有辅助决策类应用和赋能业务类应用。整个大数据体系是相互依赖、相互支撑的体系。
数据架构自左向右分成数据采集、数据存储和计算、数据应用三个层面。通过数据采集将日志数据、埋点数据、交易类数据集成到大数据平台,先做好数据存储,然后通过实时和离线链路进行数据加工处理,针对实时和离线,我们分别建立了一个数仓体系,最后将加工好的数据会推送到数据应用里面。
货拉拉为什么要做大数据安全?一是因为数据资产保护的要求,二是因为个人信息保护法、网络安全法、数据安全法、数据安全管理办法等法律法规的要求。
大数据安全面临着众多难点和挑战,货拉拉的数据资产类型多, 数量大,涉及的场景多样,管控复杂度高,攻击面广,需要统筹考虑。
货拉拉要平衡数据安全和业务发展的关系,不同时期,安全的诉求不同。初创期业务为先;爆发期业务发展,安全投入要逐渐增加;稳定期安全投入要追平业务安全的诉求。
针对大数据场景,货拉拉建立了一套全数据生命周期的安全防护体系,防止数据泄露,满足合规需求。大数据安全体系建设思路分为“建组织、立规范、建能力、做治理”四个方面。全数据生命周期包括数据采集、数据传输、数据存储、数据处理、数据交换、数据销毁。
二、大数据安全体系
(一)大数据安全规范
大数据安全体系并不是纯粹的技术工作,包含了组织建设、制度规范、技术工具、安全治理等等。数据全生命周期安全防护能力中最重要的是数据处理场景,保证好分级使用,合理合规。
在大数据安全规范方面,数据敏感分类分级结合公司业务场景,同时参考了金融数据安全分类分级标准:《金融数据安全数据安全分级指南》(JR/T 0197—2020)。
公开数据(C1)已通过正规渠道正式对外发布的数据,不会对公司造成影响的数据。
限制数据(C2)不适合对外公开,但是对内部人员访问基本无限制的数据,一旦发生泄露,不会对数据主体造成直接损害。
商业秘密(C3)公司专有或公司保密的,一旦发生泄露,将显著影响相关业务的开展,对数据主体造成直接或者间接损害。
核心秘密(C4)具有最高安全属性要求,一旦发生泄露,可能导致公司法律或商业上造成重大影响和损失。
如何落地敏感分级?针对库表、报表、指标等数据对象提供分级的规范。库表可以做到算法定级为主,人为定级为辅;报表是研发人工定级,报表管理员审批;指标是研发人工定级,指标管理员审批。
库表安全管理规范的角色定义里分为直属负责人、一/二级部门负责人、库管理员、公司级数据管理员。流程从库表创建到权限申请,再到数据使用,数据下载。
关于报表安全管理规范,库表用于数据研发的场景,而报表用于终端使用场景,经常被下载。下载有特殊的流程管控,结合下载有效期和数据量限制,设置了报表的下载规范。
关于高敏感数据存储和使用规范,通常针对C3或者C4里更高敏感的数据。
高敏感数据存储(入仓加密、高敏明文数据独立空间存储)、高敏感数据使用(脱敏使用、解密严格审批、解密条数限制)、高敏感数据下载(脱敏下载、解密下载严格审批、下载条数限制)。
(二)大数据安全能力建设
数仓库表安全能力覆盖库表权限全生命周期,支持列级细粒度鉴权,支撑规范落地。首先建表,填写库表字段信息,然后获取库表信息,申请权限,最后库级/表级/列级鉴权。
数据报表安全能力覆盖报表权限全生命周期,包含研发、上线、使用等过程。在研发报表方面,我们采用云桌面,统一入口,统一属性。报表权限管理系统中包含报表敏感定级、报表权限管理、权限元数据等。
在高敏感数据加密和脱敏方面,在离线采集和实时采集阶段进行区分,在线加密敏感数据导入加密兼容,高敏数据和解密数据独立空间存储,加工处理,严格审批和流程管控。
大数据系统所面临的风险和威胁无处不在,人为误删、云机房故障等现象层出不穷,造成核心数据丢失。针对数仓重要原始/结果数据的异地备份,我们自研了一套备份系统,强化了数据灾备能力。我们认为,90%以上场景通过数据产品进行数据访问,10%以下场景直接通过基础组件或者云基础设施访问。
(三)大数据安全治理
我们开展了专项治理,逐部门逐项治理,最终得到治理结果。每个库必须有部门归属、数据敏感分级。报表归属和敏感分级覆盖率提升,非岗位必需敏感报表权限回收,跨部门报表权限批量回收。高敏感数据全量加密、或迁移高密域,脱敏函数推广和替代解密,非数据研发人员数据研发权限回收。
三、总结与思考
我们建立了一个大数据安全防护体系:全数据生命周期覆盖+有效防护方法(规范、能力、治理),有效预防公司的数据泄漏,保护了数据资产,符合国家的安全法规。
总结来看,安全是所有业务0前面的那个1。安全投入需要跟业务投入取得平衡,大数据安全需要数据生命周期全局和体系化保障,不能只靠局部点突破。借鉴业界和专业安全团队实践,同时结合公司实际情况落地解决问题。
关于未来,货拉拉将做三件事:一是对标行业,安全能力成熟度从中提升到高;二是安全攻防,避免事故样本太小能力效果不佳问题;三是产品能力完善,部分线下转向全面线上化。