
1.1 数据要素的发展历程
1.1.1 数据1.0时代
为了深入理解数据要素,让我们将时钟往前拨一拨,回顾一下“前数据要素时代”。实际上,在数据要素成为焦点之前,我们所讨论的数据主要面向技术领域,侧重于信息处理和业务应用。
在信息处理层面,数据可以视为一种信息技术资源,如软件定义存储、数据库管理、大数据运维技术等,主要考虑的是如何有效、弹性地构建、管理数据存储基础设施,以支撑后续的数据处理和分析;而在业务应用层面,数据被当作应用的原始输入和所需资源,经加工、处理形成面向特定场景的知识库或算法,如数据分析处理技术,常见的应用场景有反欺诈、人脸识别等。
我们查阅了国内外学者对数据的不同定义,发现定义众多。例如,维基百科给出的定义如下:数据(Data)是一组离散或连续的值,用于表达信息(Information),或描述数量、质量、事实、统计等基本含义,还可能是用于形式化解释的简单序列符号(Symbol)。
数据可以是一段文字,也可以是一张图片,还可以是一个视频。从最终呈现的视角来看,数据就是一组离散值或连续值的集合,因而数据本身没有意义,数据必须经过解释(Interpret)后才有用处,经过解释的数据就变成了信息。
更进一步,如图1-1所示的DIKW金字塔,其中的D、I、K、W分别代表数据(Data)、信息(Information)、知识(Knowledge)和智慧(Wisdom)。DIKW金字塔是信息管理和知识管理领域的一个经典框架,用于描述从数据到智慧的转化过程。DIKW金字塔自底向上,每层的容量变小,但重要度、洞察度和预测力不断变强。

图1-1 DIKW金字塔
从人类认知的角度来看,数据是金字塔最底层的信息处理的原始输入,是我们观察这个世界的客观事实的记录值,而经过人类加工的信息、知识和智慧已经超越了数据本身。
从信息技术的角度分析,我们所讨论的数据是DIKW金字塔在基础设施层面的投影。比如,我们称存储在计算机中的文件为静态数据(Data At Rest),而将网络中实时传输的直播视频称为动态数据(Data In Transit)。在这些场景中,数据是信息、知识和智慧的载体。
在本书中,当我们讨论数据安全时,必然涉及各种“数据”字样的概念,这其实或多或少地关联到了信息或知识维度而非简单的原始数据。尽管我们通常统称它们为“数据”,但在不同的场景或语境下,该词所表达的含义是不同的,相应地,我们采取的处理方式和处理维度也不尽相同。就如我们在谈论数据安全方案时,有的机制关注网络安全,有的机制关注应用安全,还有一些关注的是业务安全,原因就在于这些技术所针对的“数据”本身处在不同的维度。比如,API数据安全技术需要关注作为应用层业务的数据载体的传输模式;再如,数据分类分级、敏感数据识别等技术需要关注某行业的领域知识和法律规定。
在数据1.0时代,企业的业务部门应该关心如何存放、处理和清洗数据,或如何利用预处理完的数据建模来解决特定的业务问题。数据治理部门应该关心在满足合规性和易用性的前提下,如何在数据生命周期内进行数据管理、数据监管和数据质量提升等。更进一步地,数据安全部门或负责数据安全的团队应该站在DIKW金字塔的基础设施层面,关注隐私合规和数据载体安全。此时,整个环节的利益相关方(决策者、执行者、使用者和受益者等)主要集中于企业内部的业务部门、数据治理部门、信息化支撑部门、信息安全部门、审计部门、风险合规部门等[1]。数据作为企业的资源是不会随意对外公开的[2],自然也就不会有其他外部的参与方或利益相关方。
[1]在强监管的行业,业务部门外相关的数据治理工作复杂,因而企业会设立独立的数据治理团队和组织架构,以负责企业整体的数据治理、数据安全和其他数据相关工作,该团队可以是跨部门的,也可以设置为数据治理部,或由数据中心承担相关职责;而在非强监管的行业,企业的数据治理通常由业务部门和信息安全部门负责。
[2]当然也有例外,如一些金融集团本身存在复杂的组织结构,集团外的科技公司也会使用集团数据,此时的数据治理和数据安全就会比较复杂。
1.1.2 数据要素时代到来
2019年10月31日,中国共产党第十九届中央委员会第四次全体会议通过《若干重大问题的决定》,首次在中央层面确定数据可以作为生产要素参与分配。
2020年4月,中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,将数据列入生产要素,并提出了“加快培育数据要素市场”。
至此,数据在国内成为自土地、劳动力、资本、技术之后的第五大生产要素。数据在信息知识载体的基础上,正式具备了生产要素的属性。
在数据要素时代,数据资源的经济价值在生产环节被数据加工者深度挖掘,形成数据产品(如数据集、报表、数据模型、数据应用等);数据产品在分配、流通、消费等环节被视为一种新型资产,可用于财富重分配,最终释放数据价值。这个数据要素化的过程如图1-2所示。

图1-2 数据要素化的层次图
因而,数据要素时代的关键在于数据的要素化,也就是将数据视为人们在生产经营过程中所需的资源或输入。
当一项技术对业务发展产生良性作用时,其成功便成为必然;若该技术还能与经济发展紧密结合,那么它所带来的时代红利将无限扩大。在一个每天新增海量数据、每个人都生产和消费各类数据的时代,数据要素化带来了生产效率的提升和社会财富的增加。
近年来,生成式人工智能(AIGC)大热,其背后的大模型搭载了海量参数,读取了海量数据,从而表现出惊人的智能水平。在此过程中,算力、算法和算据(计算数据的简称)缺一不可。以云计算为关键技术的算力基础设施已然成熟,因预算限制,越来越多的企业开始使用公有云的GPU(Graphics Processing Unit,图形处理单元)租赁服务进行模型微调和推理;以大模型为代表的各种人工智能算法日新月异,解决了各领域越来越多的问题;而处于最后一环的数据,特别是高质量、面向特定行业的标记数据,目前是制约各行各业智能化服务质量的关键因素。因而,将数据要素化,通过经济手段提升数据流通和汇聚的规模与质量,能极大地提升我国生成式人工智能基座模型和各类知识库的性能。
诚然,目前在学术和立法层面,关于数据要素的确权、流通、治理仍存在诸多讨论,监管机构、交易所和企业在实践数据要素化方面尚未形成成熟的标准做法,公众对数据要素化的理解还处在初级阶段,且这个领域依然存在各种不确定因素,远没有进入快车道。
纵然还存在各种不确定因素,但不可否认的是“数据要素”这一新时代已不可阻挡地到来了。数据要素化的价值,考虑到司法、技术和行业实践的不成熟,短期内被高估了,但考虑到数据要素与各行各业结合后在智能化、自动化水平上的极大提升,长期看又绝对被低估了。
1.1.3 数据与数据要素的关系
数据要素时代强调如何在社会生产、生活中使用数据,并与其他要素结合,进而发挥出更大的价值,创造出更大的经济效益和社会效益。
如前所述,数据是生成信息的输入和所需资源,数据要素是社会生产的输入和所需资源。虽然都是“输入和所需资源”,但这两个术语显然不同。数据是面向信息技术领域的,而数据要素是面向经济社会领域的。
可以说,数据是数据要素的基础,包括人工智能、大数据等技术在内的数据基础设施是数据要素化的底层技术支撑。数据要素则是数据在社会活动中的价值外在体现,数据加工者根据生产目标和业务场景需求,利用各类算法与数据结合,得到蕴含知识和智慧的数据资产。如果某类数据资产可以交易,那么它们就是数据产品。
从研究领域来看,数据是信息技术领域的一个概念,而数据要素超越了该领域,已经延展到了经济学、会计学、法学领域。读者可以访问中国知网(下文简称知网),在主题中搜索“数据要素”,将研究论文按照学科分类,如表1-1所示(数据截至2024年5月14日)。除了计算机学科,数据要素还涉及政治、行政、证券、经济、金融和法律等,绝大部分的研究是2020年以后的,且每年的研究论文数量成倍增长,可见该领域的研究涉及面广、研究者众、学科交叉复杂。
表1-1 知网上“数据要素”研究论文的学科分类

为何数据要素这么复杂呢?原因在于“数据要素”与多个领域相关。
首先,数据要素是一种生产要素,该术语属于经济学范畴。生产要素是指社会生产经营过程中所需的各类资源。在最早的经济学理论中,重农学派将生产过程解释为人口中参与阶级间的互动。在农业社会,最重要的生产要素是土地。后来发展到资本主义社会,古典经济学派在土地的基础上增加了资本和劳动力两大生产要素。经济学家亚当·斯密在其代表作《国富论》中提出,“无论在什么社会,商品的价格归根结底都可以分解为劳动、资本和土地”,形成了“生产要素三元论”。
进入现代社会,随着市场经济占主导地位,企业家或组织也被一些学者纳入了生产要素的范畴。19世纪末,西方经济学家马歇尔在其著作《经济学原理》中将组织列为第四大生产要素,提出了“生产要素四元论”。
当前,各类创新技术快速发展,技术也被视为一种生产要素(当然,技术本质上也属于劳动的一部分)。
进入21世纪后,数据作为第五大生产要素被凸显。数据已经脱离了其他生产要素,具备独特的价值,可见信息、知识和智慧这些数据衍生品正在发挥越来越大的作用,成为人类社会经济活动的重要基础。
其次,数据要素的确权、跨境问题涉及复杂的法律法规。例如,《关于构建数据基础制度更好发挥数据要素作用的意见》(又称“数据二十条”)提到了建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运营机制。如何界定给定数据集的相关产权?这既是明确法律细则和司法实践的问题,也是技术领域需要突破的难点。考虑到数据的易复制和易修改,需要在源头建立确权登记机制和流程,并具备从数据流通路径上对数据片段进行溯源和跟踪的能力。
2024年3月,国家互联网信息办公室颁布了《促进和规范数据跨境流动规定》,明确了数据在跨境流动过程中所涉及的数据安全评估、个人信息认证管理等要求。这些要求如何得到执行,还涉及组织架构、流程管理、技术支撑等方方面面。
再者,数据入表需要考虑企业的无形资产和存货计算,这涉及会计学;而数据要素的进一步推广又需要自顶向下制定政策,这涉及政治和行政学。
最后,数据要素化的核心是将数据变现,也就是要充分考虑实际应用场景和业务需求。2024年1月4日,国家数据局等17个部门联合发布《“数据要素×”三年行动计划(2024—2026年)》,提出了数据要素要赋能智能制造、智慧农业等重点行业,从而将数据要素与各行各业联系起来。可以预见,随着时间的推移,数据要素相关的研究和实践将如同IT技术一样,拓展到更多行业和应用领域,成为一种普遍的价值增长途径。
1.1.4 数据要素的发展
随着人工智能,特别是AI大模型的迅猛发展,数据的价值已经得到广泛认可。无论是出于国家间人工智能战略竞争,还是出于利用数据提升生产效率和促进经济发展,很多国家都开始制定数据赋能经济和社会发展的战略。
1.中国数据要素的发展
近年来,数据要素的发展可谓迅猛,下面我们从互联网关注度、学术研究、国家顶层设计和组织架构等方面进行分析。
从互联网关注度来看,数据要素热度方兴未艾。笔者在百度指数、巨量算数(今日头条的数据平台)和Google Trends上搜索了“数据要素”,得到图1-3~图1-5,可见数据要素的关注度在2023年之前并不高,但此后开始激增。这或许能印证数据要素的整体发展趋势:起步晚,关注度高,发展快,但落地尚早。

图1-3 “数据要素”的百度指数

图1-4 “数据要素”的头条关键词搜索指数

图1-5 Google Trends上“数据要素”的热度
从学术研究来看,数据要素的研究增长迅速。笔者同样也搜索了知网上的数据要素研究论文,如表1-2所示。自2019年以来,此类论文的数量呈现基本上每年翻一番的趋势,结合表1-1,可见数据要素的学术研究不仅在数量上增长迅速,而且研究领域也在不断延展。
表1-2 知网上“数据要素”研究论文的年度数量

数据要素发展的内在动力源于其将数据价值转化为经济价值的巨大潜力。近年来,数据要素发展的主要推动力是国家层面对数据要素顶层设计和组织架构的不断完善。实际上,自2019年数据要素这一概念诞生以来,与数据要素相关的国家机关和组织架构一直在持续优化。
2023年3月7日,国务院发布了《关于国务院机构改革方案的说明》,正式宣布国家数据局的成立。国家数据局由国家发展和改革委员会管理,负责协调推进数据基础制度建设,协调国家重要信息资源的开发利用与共享。
国家数据局主要聚焦于数据的开发,与数据要素安全相关的还有公安机关、国家安全机关和国家网信部门等。在《中华人民共和国数据安全法》中,对这些机构的职责已有说明。
公安机关、国家安全机关等依照本法和有关法律、行政法规的规定,在各自职责范围内承担数据安全监管职责。
国家网信部门依照本法和有关法律、行政法规的规定,负责统筹协调网络数据安全和相关监管工作。
国家数据局成立后,国家网信部门中与数据发展相关的职责由国家数据局统一行使,而其在网络安全、数据安全、个人信息保护、关键信息基础设施安全方面的“统筹协调”法定职能不受影响。
与此同时,各地数据管理机构也在进行相应调整。此前,各省级大数据局由各地自行组建,其职责、性质和配置等各不一样。国家数据局成立后,各地开始组建省级数据局。2024年年初,不到两个月就已成立19个省级数据局。这些地方数据局的成立,标志着国家数据局的职能在地方层面得到落实,我国对数据要素的重视程度达到了前所未有的高度。
“组织定”则“职责明”,“职责明”则“规划出”。在数据被列入生产要素之后,与数据要素相关的政策、法律法规也不断发布。
2022年6月,“数据二十条”在中央全面深化改革委员会第二十六次会议上审议通过,该文件旨在从数据产权、流通交易、收益分配、安全治理等方面构建数据基础制度。
2024年年初,国家数据局等17个部门印发《“数据要素×”三年行动计划(2024—2026年)》,提出探索多样化、可持续的数据要素价值释放路径。
可以预见,随着国家数据局数据要素相关工作的开展,国家层面的数据要素政策将会不断推出;同时,各地数据局的职责相继明确,这些地区的数据要素规划、政策将会越来越密集地推出,进一步加速相关产业的发展。
2.美国的数据战略
2019年6月,美国行政管理和预算局(OMB)发布了美国联邦数据战略(Federal Data Strategy,FDS),旨在通过有效的数据管理和共享,提升政府的效率和决策能力,推动公共服务的改进[5]。FDS强调的是责任与透明,虽然责任与安全相似,但也有区别。与传统的安全观念相比,责任更侧重于正向引导而非限制和约束。FDS的具体目标包括但不限于:
1)为公众、企业和研究人员提供一致、可靠且保护隐私的联邦政府数据;
2)增加数据在联邦决策和操作中的共享与使用;
3)通过丰富的描述和元数据提升数据的可发现性;
4)为地方政府提供安全数据访问的管理工具和协议;
5)通过风险评估和利益相关方参与,提前规划数据的二次用途。
为了实现FDS的目标,美国联邦政府规划了如图1-6所示的十年愿景,大致分为4个阶段:基础阶段(2020—2022年),聚焦于数据治理、规划和基础设施建设;企业级阶段(2023—2025年),推动标准化、预算管理和跨部门协调;优化阶段(2026—2028年),推广自助分析工具;数据驱动阶段(2029年及以后),实现基于证据的决策和自动化数据改进。

图1-6 FDS十年愿景规划
除此之外,为了落实FDS的具体行动,美国还会发布每年的行动计划:2020年行动计划,这是美国发布的首个年度行动计划,重点聚焦于数据治理、数据基础设施建设和跨部门协作等基础工作;2021年行动计划,继续推动基础设施建设,同时加强隐私保护、数据共享和跨机构合作;2022—2024年行动计划,美国目前还未正式发布或详细披露具体内容,可能会继续聚焦于数据的可用性、跨部门的数据共享以及推动数据驱动决策。
随着人工智能的广泛应用,尤其是大模型的发展极大提升了智能化水平,给各行各业提供了丰富的想象空间。2023年,美国白宫公布了《国家人工智能研发战略计划》,提出了一系列围绕人工智能使用和发展的新举措。这一战略使数据监管成为焦点,尤其是在隐私保护、数据安全和跨境数据流动等方面。随着人工智能技术的快速发展,数据已经成为驱动AI系统运转的核心要素,美国政府及相关机构逐步加强了对数据收集、存储、使用和分享的监管。出于对国家安全和经济竞争力的考量,美国在AI战略中引入了更严格的数据管控措施,以应对AI技术滥用、数据泄露及敏感信息被非法获取的风险。
基于此,美国国家标准与技术研究院于2023年发布了AI风险管理框架(AI Risk Management Framework,AI RMF),旨在帮助各类组织在开发、部署和使用AI系统时管理与之相关的风险。AI RMF强调了数据在AI系统中的核心作用,特别是针对数据的隐私和安全,提出了以下几项关键建议和要求。
● 差分隐私:AI RMF建议在处理和使用敏感数据时,采用差分隐私等技术,确保即使在分析过程中也无法识别个人身份。通过在数据集中加入“噪声”,可以保护用户隐私。
● 数据最小化:AI RMF鼓励企业和组织只收集、使用和存储实现AI系统目标所必需的最少数据,从而减少不必要数据收集导致的风险。
● 加密标准:AI RMF要求在数据的存储和传输过程中使用加密技术,以确保数据在AI系统的整个生命周期中免受未经授权的访问和篡改。
● 基于角色的访问控制:AI RMF建议实施严格的访问控制策略,确保只有授权人员才能访问和处理数据,减少内部人员泄露敏感数据的风险。
● 数据分级管理:AI RMF建议根据数据的敏感程度对其进行分级管理,并为每种类型的数据设定不同的安全和隐私保护标准。
● 数据偏见检测:AI RMF建议在使用训练数据时,对数据集中的偏见进行检测和纠正,以防止AI系统因为数据偏见而做出不公平的决策。
总的来说,美国的数据战略侧重于联邦政府相关数据的公开,以促进创新和技术发展;中国的数据要素则涵盖了更多应用场景,除了数据公开,还包括数据交易、数据共享交换等,更强调通过多元化的数据管理模式推动数字经济的发展。