编者按媒体融合下半场的重心将向智能化趋势发展。如何打造实用有效的媒体数据产品和服务,继而完成数智化转型,已成为媒体行业当前最为关注的问题。百分点科技大数据技术团队围绕当前媒体机构的转型需求,系统地介绍了百分点科技媒体数据中台建设方法论及实践成果。
一、媒体数据中台建设背景
以报纸、出版、广播电视等为代表的传统媒体,和以网站、新闻客户端、微博、微信公众号、IPTV、OTT等为代表的新媒体产品,无论是呈现方式、传播途径,还是建设目标、技术体系都大不相同,这就导致了系统建设重复浪费、各应用系统和发布渠道各自为政,出现业务系统之间相关割裂、隔离,数据标准不规范,以及各系统数据难以融会贯通、数据质量无保证、数据不能有效利用和无法响应快速的业务迭代创新等问题。
传统的媒体技术架构体系已经很难满足媒体行业当前业务需求,而中台恰恰可以很好地解决这些问题。媒体数据中台以内容建设为根本,基于互联网思维,汇聚社内外数据资源,围绕内容、渠道、平台、经营、管理等方面的建设需求,形成“数据整合、能力共享、应用创新”的媒体数据中台服务体系,可以为前台应用提供媒体生产辅助、媒体运营辅助、媒体发布端应用、媒体智库等能力支撑。
通过媒体数据中台的建设,能够向前赋能业务,实现业务与应用的创新;向后沉淀数据,实现数据的整合,做厚做强数据支撑。因此,媒体数据中台带来的是从新闻选题、内容生产、质量把控、发布渠道、传播效果、内容运营等多个方面进行提升与转变。通过媒体数据中台架构将“数据能力下沉、业务应用上浮”,打造“大中台、小前台”的技术布局,形成可持续的媒体数据与服务支撑平台。
二、媒体数据中台建设方法论
媒体数据中台是一个涵盖数据采集、数据处理、数据资产管理、数据治理、数据服务、数据分析和数据应用等多个层次的综合平台。不仅汇聚媒体机构内外资源,还要提供统一的数据存储、构建统一的数据标准与数据资源管理、提供统一的基础数据服务给业务方。同时,为了加强媒体机构大数据分析能力,还需要引入智能分析服务,实现满足业务需要的各类公共性智能分析应用服务。媒体数据中台整体建设目标,主要是提高服务复用率,赋予业务快速创新能力,最终打造成为平台化、资产化、智能化、场景化、服务化的“中央厨房”式融媒体数据平台。
1. 媒体数据中台四大组成部分媒体数据中台从战略构建维度来说,包括数据资产管理平台、数据智能分析平台、资源发布与展示平台、资源服务共享平台等部分:数据资产管理平台的本质是将数据资产化;数据智能分析平台的本质是将数据智能化;资源发布与展示平台的本质是将数据场景化;资源服务共享平台的本质是将数据服务化。
(1)数据资产管理平台数据资产管理平台主要是为了构建媒体数据资产的管控能力,是一个集数据采集、融合、治理、组织管理、智能分析为一体的数据平台,最终数据将以服务方式提供给前台应用,以提升业务运行效率、持续促进业务创新为目标。最终产出是适用于各个业务的主题库,辅助新闻生产、智能发布、媒体运营和舆情分析等业务场景。
数据资产管理平台可实现对媒体机构内的稿件数据、产品数据、运营数据、行为数据,以及外部互联网资源和等各类数据资源有效汇聚与管理,通过建设统一的数据标准与数据资源管理,实现统一的基础数据服务给业务方。同时,以数据多样性的全域思想为指导,媒体数据中台一般会采集与引入全业务(采编、供稿等)、多终端(PC、H5、APP等)、多形态(自身业务系统、三方购买、互联网定向抓取)的数据,实现媒体数据资源的有效利用与融合。通过AI智能技术与人工相结合的方式,开展文字、图片、音视频的数据标引工作,实现内容资源的数据化,充分挖掘数据之间的关联关系,提升数据的潜在价值。利用自动专题、定制专题等功能实现业务库、专题库的快速生成,提供敏捷建库的能力。
(2) 数据智能分析平台数据智能分析平台提供认知智能和业务智能两种类型的AI能力。其中,认知智能主要是基于机器学习、深度学习及迁移学习等人工智能技术,提供自然语言处理、图片识别、OCR识别和视频分析等基础能力。业务智能以基础智能为基础,对基础智能进行组织封装,包含一系列业务上通用的基础服务能力,对数据层面提供数据的深层次加工,对业务层面提供业务的深层次分析,业务智能包括智能推荐、用户画像、内容标引、专题分析、内容审校和智能专题等。通过大数据中心能力平台的构建,提升媒体机构智能处理能力,有助于实现能力复用,降低开发成本,实现产品创新。数据智能分析平台的目标是构建媒体AI能力,对社内外提供AI能力支撑,实现媒体从数字化到智能化的转型升级,为媒体生产、智能发布、媒体运营、传播效果评估和舆情分析提供智能辅助。
(3)资源发布与展示平台可以说资源发布与展示平台是整个媒体数据中台的脸面,对于媒体机构而言,可以将数据和能力统一封装后集中展示,是服务于相关用户的共享资源统一门户,实现共享资源的统一呈现,以及资源的检索、资源的灵活组织与页面发布,同时提供灵活的权限管理,打造“一门式”服务平台。资源发布与展示平台主要包括两个部分,前台资源展示部分和后台资源发布部分。前台展示为媒体数据中台的内容数据提供浏览和使用,包括网站门户首页、浏览频道、浏览文章和智能检索能力集成等。后台管理主要是用户和内容的管理,包括内容管理、菜单管理、模板管理、标记管理和用户管理等。
(4)资源服务共享子平台当媒体机构有效整合分散异构的信息资源,消除“信息孤岛”桎梏,形成了自己的数据资产和AI能力以后,接下来就需要将这些能力对外提供服务了,实现他们的价值,资源服务共享的需求应运而生了。目前企业资源共享主要面临三个问题,一是数据需求方因为数据格式不统一、数据提取效率低、无法直接获取数据。二是数据所有方由于开发效率低、数据授权管理体系不完善、提供数据服务方式不够快捷、调用关系复杂等问题也无法高效地管理。三是数据需求方与数据所有方无法实现无缝数据互联互通,且提供数据服务方式单一,无法满足大数据时代的多场景共享需求。
资源服务共享平台会把数据能力、分析能力以微服务的形式封装成统一口径的API服务接口,从而对外提供数据服务与能力的支撑,形成数据服务资源目录,实现数据接口的开始快速开发与对外发布,实时响应业务端的数据服务能力要求。通过简单可视化配置的方式就可以实现数据接口API的创建、API发布、API版本管理、API文档管理等问题,降低日常运维成本。因此,整个媒体数据中台由以上四个平台进行相关支撑与配合,共同构成媒体数据中台整体系统架构,贯穿数据采集、存储、分析和发布等的全流程。
2. 数据架构设计
数据中台整体架构如上图所示,可以划分为资源汇聚、数据预处理、数据入库、数据整理、数据资产、数据服务等过程。
数据资源汇聚包括数据采集和数据集成。这些资源数据主要来源于内容生产数据、第三方数据、互联网定向数据等,包括稿件、报刊、期刊、社交媒体、移动客户端、网站等数据类型。支持数据库、文件、流式等多种接入方式对多源异构数据进行接入,将数据资源汇聚整合。值得注意的是,汇聚过程需要针对目前业务系统的规划实现汇聚处理,并对数据进行统一的存储规划。
数据预处理主要是对数据进行初步的清洗和标准化等预处理工作。数据入库前的预处理会进行字段解析、映射、转换以及处理字段的残缺、错误、数据去重等工作。清洗之后的数据需要进行标准化处理,将不同格式的数据按照统一数据格式规范转换。同时,数据入库前一般需要进行自动标引、数据分类等工作:针对文本数据,会进行自动分类、自动摘要、关键词、情感分析等方面的识别和标签提取;针对图片类型数据,会进行图片人物、图片场景、图片属性、新闻事件、地标建筑等方面的识别和标签提取;针对音频数据,会进行语音识别、音频属性、新闻事件等方面的识别和内容提取;针对视频数据,会进行视频人物、视频场景、视频属性、新闻事件、地标建筑等方面的识别和标签提取。
数据入库是对解析后的文本、图片、音视频、文件等数据进行分层分区存储。待入库的数据需要保证数据的完整性、规范性和时效性,必须按照平台要求的数据格式规范统一进行转换后入库。
数据整理的主要是对入库的数据进行人工标引、数据集成等工作,通过数据选取、标引、校对等功能,对数据进行标引和有序地组织、检索和展示。同时,可以根据标签汇聚资源专区,形成服务接口供第三方系统调用,通过人工标引这种方式,来提升数据的标签准确度,为一些重要专题制作的准确性打下基础。
数据资产环节是把接入的数据基于业务现状及未来规划进行数据资产划分,对接入的数据进行深层级的加工、实现数据资源的分类管理、元数据管理、资产管理。媒体数据资产主要由内容库和主题库两个部分组成,业务库是基于业务系统构建的,为前台业务提供诸如专题库、语料库、实体库、知识库等业务为导向的数据资产。而主题库是为了应对快速建库需求,通过简单的检索筛选,形成满足业务需求的主题库,降低了数据开发成本。
数据能力和智能分析能力全部以微服务的形式对外提供调用,由数据中台保证数据服务的性能和稳定性、数据质量和准确性,实现服务的统一管控和综合治理。
3. 媒体数据中台建设的三个阶段
一次性建设完成媒体数据中台全部内容比较困难,很多公司都是分阶段进行的,特别是传统媒体单位,很多业务还没有完成数字化,别说建设数据中台了。媒体数据中台整体规划建设采用“分阶段,垂直业务分批”的思路进行。整个媒体数据中台可以分为三个阶段进行建设。
阶段1:基础平台建设阶阶段1:基础平台建
建设目标:
媒体数据中台第一阶段主要以搭框架、建标准、聚数据为主。第一阶段建设的要务是与各部门的生产数据打通,建立统一的数据接入、数据分类、数据接口、数据存储标准,优先对影响业务开展的基础性数据进行接入工作。同时梳理数据分类标准,通过文本智能处理能力实现自动分类、摘要、关键词、情感分析等方面的识别和标签提取,并支持对数据内容和分类体系进行加工与维护。同时平台面提供满足不同业务的基本数据服务与页面能力的支撑。面向数据管理人员提供资源管理功能,实现对内容的加工与分类。面向开发人员提供基础的数据服务接口,提供资源检索、查看、下载等接口服务。面向用户提供资源门户访问服务,支持用户对数据资源进行查看与检索。
建设内容:
· 整体技术架构搭建
· 建立数据接入、数据存储标准
· 分类标准梳理、分类标准体系的建立
· 重要基础性数据的接入
· 文本智能处理能力建设
· 资源管理(内容管理、分类体系管理)建设
· 资源门户(资源展示、资源检索)建设
· 基础数据服务(部分)建设
建设成果:
建设完成数据接入、数据存储、数据分类、数据服务标准;
建设完成自动分类、摘要、关键词提取、命名实体等文本智能处理能力建设;
建设完成数据资产管理平台中对入库资源的内容管理、分类体系管理功能;
建设完成资源发布与展示平台其中资源门户部分的资源展示、资源检索功能;
建设完成资源检索、资源下载等基础数据服务。
段2:数据整合能力增强
阶段2:数据整合能力增强段3
建设目标:
媒体数据中台第二阶段主要以数据深度加工整理、数据智能服务、快速建库与内容发布作为阶段目标。第二阶段会引入人工标引能力,通过标引工具可以实现数据选取、标引、校对等流程,深挖数据的价值。标引完的稿件可通过标签进行组织、检索、展示,同时可利用标签实现数据聚合,为快速生成专题库打下基础。
快速建库将专题数据自动汇聚与人工加工相结合,使用机器学习的聚类算法自动发现并生成专题类簇,通过人工对类簇打专题标签的方式,达到专题的自动发现与制作的功能。同时定制专题面向业务人员提供以“专题”为核心的资源汇聚服务,通过相关(关键词、实体词、分类标签、属性等)维度组合,实现历史数据、实时数据的快速汇聚。内容发布支持专题页面的快速生成,通过模板技术实现专题页面的呈现与访问。同时本阶段会对检索能力、推荐能力进行提升,提供智能纠错、智能补全、智能联想、语义搜索、内容推荐等功能,优化内容检索和推荐的效果,提升用户的体验。在数据服务方面,会加强对数据服务的管理与监控,对数据服务进行统一的注册与授权、形成数据服务目录,对外提供服务能力的支撑。
建设内容:
· 人工标引能力(数据选取、任务分配、数据标引、标引工作量统计)建设
· 智能检索能力(二次检索、拼音检索、智能纠错、智能补全、智能联想、语义搜索等)检索
· 智能推荐能力(内容推荐、热门推荐、关联推荐等)检索
· 数据服务目录建设
· 快速建库能力(专题聚类、专题定制、专题管理)建设
· 快速页面发布能力(模板管理、专题发布)的建设
建设成果:
建设完成数据资产管理平台中数据标引模块数据选取、任务分配、数据标引、标引工作量统计功能;
建设完成数据资产管理平台中专题管理模块专题聚类、专题定制、专题管理功能;
建设完成资源发布与展示平台其中发布管理模块的模板管理、专题发布功能;
建设完成资源检索、资源下载等基础数据服务,形成数据订阅类、数据检索类、智能分析类、数据统计类等服务目录和服务。
:能力持续提升
阶段3:能力持续提升
建设目标:
媒体数据中台第三阶段主要以辅助内容生产和媒体运营、数据的多维统计及大屏可视化、数据智能分析作为阶段目标。通过人工智能与大数据技术,赋能融媒体转型升级,为未来业务创新提供更多的技术支撑。构建驱动信息采集、选题策划、辅助生产、用户画像、渠道分发、传播效果监测、舆论监督等功能的智能化、精准化、实时化,助力媒体单位实现生产力、引导力、影响力、公信力上的提升。媒体生产辅助应用主要用来支撑选题策划、新闻采访、新闻编辑、新闻审校、新闻发布等业务流程,提供智能选题、新闻采写、媒体资源库、智能专题、个性化推荐等生产辅助能力。媒体运营辅助应用提供媒体传播分析、媒体影响力分析、用户全息画像、决策分析等运营辅助能力。
建设内容:
· 数据多维统计及大屏可视化
· 图片、音视频智能分析
· 智能勘误能力
· 用户标签画像
· 用户运营分析
· 传播效果评估分析
· 其他应用系统支持对接
· … ….
·
建设成果:建设完成资源发布与展示平台中大屏可视化、指标统计等功能;建设完成数据智能分析平台中认知智能相关功能与应用;建设完成数据智能分析平台中业务智能相关辅助内容生产和媒体运营应用。
4. 媒体数据中台落地实施流程
数据调研
通过数据盘点让数据成为资产,了解企业有哪些数据,在哪里,有多少量级。主要包含业务流程梳理、数据流程梳理、数据识别和分类等工作。
盘点需要接入的结构化、半结构化、非结构化数据,通过调研表和访谈的方式收集数据信息。数据源通常包括报纸、期刊、网站、APP、社交媒体等。确认是否需要进行历史数据迁移。
结构化数据需要收集的信息通常包括:
· 数据接入信息:重点包括系统信息、数据库信息、管理人信息、数据量信息、加密机制信息、增量信息、可接入库表信息等;
· 数据字典:表结构收集,主要包括表的主外键、各字段的定义规则、校验规则等;
· 代码表:系统中所使用的的代码表信息收集;
· 数据整合规则:数据内容冲突时整合规则的收集。
非结构化数据需要收集的信息通常包括:
· 非结构化数据用途;
· 存储位置,元数据如何获取;
· 文件种类;
· 文件内容解析、格式转换、是否需要抽取内容;
· 以何种方式返回使用。
架构设计与技术选型
根据项目需求确定总体设计思路,进行总体系统架构、技术架构和应用架构设计。在此基础上确定总体数据规划,根据数据的数据类型和业务使用场景、展现形式,设计相应的存储方式,以满足数据服务要求。必要时可以进行集中测试,通过读写速度、可靠性等指标的测试结果综合判断,最终决定数据存储选型。
数据标准体系制定
结合国家标准、行业标准和实际业务,梳理、摸底各数据源数据情况,对关键业务过程数据、业务结果数据制定数据接入标准,数据分类标准、数据存储标准、数据服务标准。
接入标准。数据接入负责将各种资源统一接入到数据中台中来。需要制定相应的数据接入规范,适配不同数据接入需求,能够提供数据库、消息队列、API、文件等常用接入方式。新增数据类型只要符合数据接入规范,都可以进行接入。通过这种标准的数据接入管道和扩展方式,可以灵活的响应业务侧的不断变化的接入需求,保证数据接入的通用性和统一性。
分类标准。参考《新闻资料分类法》、《中国新闻信息分类法》等国内外分类标准,以现有的分类体系为基础,结合数据实际特点配合客户完成设计、调整及完善分类体系工作。
存储标准。对于多种数据来源的不同数据类型需要确定相应的字段转换、存储方式,与存储标准。规范数据存储组件、存储路径、存储格式、副本策略、备份机制等内容,对数据进行分层分区设计,保证数据存储的合理性以及扩展性。
服务标准。整理需要建设的服务清单,对服务清单中的接口进行分类。根据服务接口承载业务类型,对服务进行拆分。定义数据接口访问方式、访问路径、请求格式、返回结果格式、以及返回状态码类型,保证数据服务整体的规范性和一致性。
数据模型设计
数据模型设计。媒体数据是非结构化性非常强的,与传统行业数仓最大的区别是媒体行业90%以上数据都是非结构化的,如文本、图片、视频等。因此需要根据业务场景以及多种异构数据源,数据存储采用分区分域、分层分级的设计思路,创建原始库、业务库、主题库、知识库等。
数据接入
通过数据接入,建立数据标准化流程,实现数据的采集与清洗、标准化。
数据标准化将各种资源统一接入到数据中台。
支持文字、图片、音视频、文件、结构化和非结构化等不同数据类型。
接入方式可灵活配置管理,能够适应不同数据资源接入,保证数据的完整性。
数据接口具备良好的容错性和安全性,避免因数据接口问题影响整体系统的稳定性和可靠性。
具有可视化WEB配置管理和运维管理界面,支持数据管理人员进行接入任务各要素的配置和定义,支持进行数据接入任务的监控和日常运维操作,支持数据接入过程可记录,对采集系统工作结果提供报告;支持数据接入系统异常告警能力,主动反馈数据接入故障等信息。
数据预处理
数据清洗:在接入数据时进行数据的有效性检验和过滤排重等数据预处理工作,确保数据质量。对数据进行解析、字段的映射,完成数据的标准化操作。
基于媒体行业数据的特征,数据预处理采取批流结合的方式解决业务场景对数据的要求。数据从不同数据源过来,如API、MQ、log、file等,数据要在实时计算中做文本去重、数据结构化、内容标签化和轻度的实时统计等操作,数据存储之后需要进行主题建设、关系挖掘、知识图谱计算和算法训练,因此需要通过批流结合的处理方式来满足对数据本身能力的需要。
其中内容标签化就是通过自动标引方式理解新闻,理解新闻与哪些信息相关,基于文本挖掘的手段,实现对内容数据的分类打标。
自动标引具体来说就是调用中文语义接口,对入库数据进行标签化,主要标签有关键词、文本分类、自动摘要、中文分词、词性标引、命名实体等。
文本实施流程:
· 梳理并制订文本分类体系;
· 开发文本程序;
· 部署文本程序;
· 数据接入过程中调用文本接口;
· 根据返回结果人工标引训练模型提高准确率。
数据分层存储
整个数据架构根据现有的数据资产状况,合理的选择设计相关数据架构及系统架构模型,以支撑平台现在及未来几年内对数据的存储压力要求以及对外服务的需求。
数据加工
通过数据加工,重新组织数据,让数据变得更好用。通过人工标引方式,梳理重要报道数据,建立报道标签维度。并根据需求和数据内容梳理标引规范,形成作业指导书。对标引的结果进行校对、全检、标签修改等操作,通过标引汇聚成专题。
平台会将所有数据分成不同主题,按不同主题进行建设、存放和加工。媒体是一个非常复杂的行业,对各个行业的数据都是有诉求的,媒体需要挖掘大量不同行业的数据支撑新闻生产和报道,数据进来之后,再挖掘潜在的新闻点,生成选题策划,帮助用户做选题等工作。
数据治理
数据治理贯彻执行在整个数据处理流程中每一个阶段,数据治理保证数据是被管理的,数据管理则保证被管理的数据实现指定的目标。指导和监督元数据管理、标准管理、质量管理、安全管理等功能具体数据管控。质量管理主要通过分析源系统表数据,从及时性、完整性、准确性、有效性、一致性方面对源系统数据进行数据校验,发现并记录数据质量问题,生成数据质量问题报告。元数据管理描述了数据在使用流程中的信息,通过血缘分析可以实现关键信息的追踪和记录,影响分析帮助了解分析对象的下游数据信息,快速掌握元数据变更可能造成的影响。数据管理是数据治理的延伸,包含数据资产视图、智能搜索等功能。
能力整合
整合数据资源管理、数据服务、数据发布等能力,通过体系化的平台建设,实现对业务系统和应用开发提供更加高效、简洁、灵活的数据服务,使得上层应用不会受限于底层多变的数据格式、数据类型、数据处理和管理逻辑以及复杂的基础架构建设和运维,最大限度的释放数据的价值。
数据平台能力整合与开放主要有三个方面。
第一,数据的整合与开放。任何数据进到平台之后,都会在整个大数据处理链条中进行计算、整合、内容结构化,以及加入标签等处理,同时基于用户感兴趣的数据范围,做标签的特征过滤,筛选用户想要的数据。
第二,提供智能分析能力的整合与开放。通过开放算法能力,帮助用户做数据能力和算法能力的应用,提供文本内容实体识别服务、文本去重判定服务、图像人物识别服务和图像标签化服务等。
第三,产品能力的整合与开放,例如,将用户画像、内容推荐、传播分析等能力对外开放。
5. 媒体数据中台落地实践
目前百分点科技已服务众多国家级的报业和出版客户,包括新华社、中国日报、科技日报、新华网、南方报业、人民出版社等。
比如,为南方报业建立的媒体智能数据中台,对全媒体大数据的资源进行采集,并对采集到的海量全媒体数据进行分布式存储、高效检索、智能分析。目前,南方数据服务平台已经拥有上千个数据库集,上百种数据智能应用工具,能够提供多端融合采编辅助支撑,如热点聚类、主题延展、内容摘要、机器翻译、机器人协作、实体影响力画像和个性化推荐等新技术新应用,帮助南方报业夯实数据服务能力,以数据和AI能力为策采编发各个环节赋能。
百分点科技还为新华社搭建了全媒体中台,尤其在去年疫情期间,分别仅用一个月时间便快速构建并推出了“两会报道”专题和“习总书记出访”专题两个新闻应用创新产品。通过中台提供的专业化数据服务,助力全媒体采编。
媒体融合下半场的重心将向智能化发展。从传媒到数据、从传播到服务、从采访到采集、从对内到对外,动能转换的过程需要转换思路、转换机制、转换形态,通过用数据、养数据、聚数据、管数据,从数据化运营到运营数据业务,形成媒体数据生产应用的新的闭环系统。
通过全媒体中台的建设,可以为媒体应用提供媒体生产辅助、媒体运营辅助、媒体发布端应用、媒体智库和舆情分析等能力支撑。值得注意的是,媒体数据中台的建设需要自上而下,需要进行详尽的前期规划设计,需要符合各媒体机构的实际情况,且不可全盘照搬,需要结合实际情况进行取舍调整,以达到价值最大化。
对于全媒体中台的建设,首先需要媒体机构有一定的数据基础和业务规模,这是因为只有当自身数据多样、业务规模不断扩大、业务相互独立,急需通过全媒体中台解决效率、成本和质量的问题。并且,媒体数据不能局限于现在的媒资数据,而应该是基于媒体连接能力、地缘优势、服务定位特色等形成的各类数据。
媒体的数据库建设不能停留在简单的媒资库时代。盘活媒体数据使用需要新思维,要以加快数字经济时代媒体融合创新发展为战略目标,以“数据资产增值”为考量,以市场需求为导向,围绕不同的用户需求和市场需求,打造实用有效的媒体数据产品和数据服务。
重视数据流通变现,打造有价值的数据库,数据积累是一方面,更重要的是数据变现,实现媒体数据资产增值。无论是传统媒体或是新媒体,都应该在原有的商业盈利模式基础上,把握数字经济发展的机遇,开放媒体数据服务能力,开拓盈利新渠道。