
1.2 数据安全概述
1.2.1 数据1.0时代的数据安全
在数据1.0时代,数据作为信息的载体,存放在机构的数据库、文件系统、存储服务器等位置。此时的数据安全,主要对应的是信息安全的三个属性:机密性(Confidentiality)、完整性(Integrity)和可用性(Availability)。数据机密性受损的风险主要是数据泄露,数据完整性受损的风险有数据损坏,数据可用性受损的风险有数据污染或拒绝服务等。
数据泄露(data breach)是机构面临的最大的数据安全风险,特别是机构保存的自身敏感数据和个人数据被攻击者非授权访问后,可能会被其窃取。数据泄露的攻击向量有多种,比如Web安全中的SQL注入造成拖库、代码仓库中的配置文件包含AK/SK(访问密钥/秘密密钥)造成存储桶泄露、企业内部员工非法窥视系统数据等。暗网市场上售卖的大量敏感数据,以及非法推销和诈骗活动中犯罪分子所用的个人信息,都是数据泄露直接后果的明证。
数据损坏(data corruption)是指攻击者未经授权,篡改数据源、文件、网页等数据,使得业务输出结果的完整性被破坏。近年来最常见的数据损坏威胁当属勒索软件。勒索软件会寻找系统中重要的用户文件,如文档、数据、图片等,并对其加密,以此勒索用户支付赎金来获得解密密钥。在许多情况下,用户即便支付赎金也无法解密文件,此时数据的完整性遭到彻底破坏。随着人工智能的兴起,数据篡改已经扩展到对模型参数、结构的篡改,例如使用Deepfake替换源视频中的人脸,伪造具有政治或恐怖主义影响的视频;或进行定向的电信诈骗,令人防不胜防。
数据污染(data poisoning)在人工智能算法中比较常见。如果攻击者给模型提供垃圾数据或恶意数据,算法就可能输出错误的模型,使得整个模型不可用。另外,攻击者也有可能发动拒绝服务(Denial of Service,DoS)攻击,在短时间内发起大量的请求,破坏数据服务的正常运行。
这几种风险常常相伴而生,例如一些勒索软件团伙在加密文件的同时,也可能窃取这些文件。如果在一定期限内不支付赎金,则不仅用户无法解密文件,文件还会被发布到暗网。即便用户已经提前完成文件的备份,对于敏感数据,用户仍可能被迫支付赎金。
需要说明的是,在数据1.0时代,窃取数据和破坏数据往往是网络攻击的最后一环,所以在整个攻击过程中,攻击者会大量使用网络攻击、社会工程等手段,因而防守者也需要在预防、检测、响应等环节做好充分的准备。当我们谈论数据安全时,很多情况下其实是在处理网络安全问题,如入侵检测、用户行为分析、Web安全等,这都是为了避免攻击者最终访问到敏感数据。正因如此,传统的数据安全往往由企业的网络安全团队负责。当然,随着数据要素时代的到来,数据安全的内涵在向企业业务安全延展,在做好传统数据安全的同时,安全团队的职责也在不断演进,数据要素安全相关的团队和组织架构也在进行调整。
1.2.2 数据要素安全
为了推动新质生产力的发展,产业与技术升级已刻不容缓。数据要素作为一种新型生产要素,在流通、使用和共享过程中能够显著提升其使用价值和交换价值,为各行各业创造大量新业务,提升全社会的整体生产力。数据要素入表也将极大提升企业数字化转型的速度,推动社会数字经济的发展。我们已迈入数据要素时代,数据要素时代的数据安全不仅包括传统的数据安全,还包括数据要素安全。
数据要素安全蕴含了“数据流通安全”,因为数据要素化的必要条件是数据经过流通产生价值,所以其全称应为“数据要素流通安全”。“数据要素流通安全”与“数据安全”相比,变化在于多了“流通”和“要素”两个关键词。
先谈“流通”。数据流通安全应当关注数据作为信息的载体,在采集、传输、存储、共享、使用和销毁阶段的安全,确保数据的机密性、可用性和完整性,防止第三方未授权的访问、修改或破坏。虽然数据流通安全也关注信息安全的三个属性,但与传统数据安全有所区别。在一个典型的数据流通场景中,数据从数据持有者流到了第三方,此时数据的完整性和可用性是第三方所关注的,以确保这些数据可以被正确且可靠地生产或消费。而在另一些场景中,数据持有者更关注数据的机密性,即数据不能被第三方看见,也就是数据“可用不可见”,这能确保原始的敏感数据不出本地,消除数据持有者的顾虑。
再谈“要素”。数据作为生产要素,是新时代新质生产力的输入资源。确保数据要素安全,就需要在数据生产、消费的过程中,确保价值提升过程合理、合法、合规,各方权益保障公平、公开、公正,技术手段可信、可证、可控。在经济领域讨论数据要素安全,就是希望通过制度、技术体系的建立激发各方积极参与数据生产活动,以最大化经济价值和社会价值。在此过程中,通过公开透明的法律、制度保障参与方的各项权益,利用各种新技术降低信任成本,构建权益可证明、行为可审计、事件可溯源的数据要素全流程的安全底座。
综上,数据要素安全或数据要素流通安全的内涵就是在数据流通过程中,既要保证数据作为载体的信息安全,又要保障数据作为生产要素时各参与方的相关权益。
为了保持阐述上的一致,在后续章节中,我们将“数据1.0时代”和“数据要素时代”机构内部的数据自身安全机制称为“数据安全”或“传统数据安全”,而将“数据要素时代”在数据流通环节需要关注的前述数据安全流通机制称为“数据要素安全”。
在数据要素时代,数据作为生产要素,其价值的提升往往需要数据资源持有者对外开放数据,让数据被第三方使用,其中第三方包括数据加工使用者和数据产品经营者。从机构角色来看,第三方一般跟己方机构有合作关系,或是同单位的不同部门,或是同行业的其他单位,又或是其他行业的业务合作方。由于第三方是业务驱动引入的,这些单位可能是诚实的,也可能是不诚实的,甚至不排除是恶意的,特别是这些单位里可能存在有不当目的的内部员工,或是已攻陷并潜伏在数据流通链中的恶意攻击者。所以,数据要素安全的本质就是在数据要素流通过程中,使所有数据相关行为遵循持有者对数据资源操作的意愿,防止第三方未授权的操作,保证事前安全机制可信任和可证明、事中过程可控和数据可用、事后安全事件可审计和可溯源。
然而无论哪个行业,一旦涉及多方间的数据或计算任务的流通,安全机制就不容易建立。
在数据流转过程中,参与方的权益必须得到保障。经济学中的“公地悲剧”概念指出,如果数据资源是公共的,参与方的权益未得到保障,那么很可能数据资源最终产生的价值会锐减,就如过度放牧后沙化的公共场地。因此,数据资产持有权、数据加工使用权和数据产品经营权都应该受到尊重和保护。
但在实践中,保障相关权益在技术层面颇有挑战。一方面,数据易于复制,数据资源持有者对数据流转出去的不可控状态有天然的担忧;另一方面,以往的数据安全和网络安全旨在预防和检测敏感数据泄露,而非赋能数据流转,目前尚缺乏成熟高效的技术、流程和架构来支撑数据安全流转。
当前技术层面的不足造成了多方间的信息不对等,各参与方陷入经典的囚徒困境:己方担心对方作恶,因而不敢做出最有利于自己的选择——开放数据,通过数据流通创造业务价值,而是做出了次优选择——所有人不共享,以避免数据泄露或滥用所造成的安全事件。这就变成了“公地悲剧”的反面——“反公地悲剧”,即产权私有化导致资源得不到充分利用,数据价值同样无法充分实现。
以医疗体系为例,医院、卫生健康委员会和疾病预防控制中心之间会共享病例等各种数据,以进行疫情管控或学术研究;而第三方(如保险机构、科研机构)也需要相关的医疗数据做疾病预测或成本精算。因而医疗体系中数据流通的需求是真实且巨大的,但流转的数据本身高度敏感,不仅涉及个人隐私,还可能危及国家安全,数据在流转的全生命周期都应得到保护。实际上,有些机构在开放数据后没有做好相应的安全防护,造成大量公民信息在暗网售卖的严重后果。例如,2023年6月,北京市昌平区某生物技术有限公司被发现存在数据泄露的情况,其委托的另一软件公司研发的“基因外显子数据分析系统”在测试阶段未落实相关的安全措施,导致包含公民信息、技术等数据的泄露,数据总量达19.1GB。在日常业务的数据共享中,更为常见的风险是数据流转到第三方后,第三方内部的非善意员工未经授权地访问或操作数据,造成数据外泄、数据投毒或数据篡改等严重后果。
事实上,这也是当前数据流通过程中所面临的最大挑战。如果不能消除所有参与方对第三方超出合理限度使用数据的相关风险的顾虑,就无法建立真正有效的数据流通业务,也就没有办法推动数据要素化,创造更大的价值。
在数据要素时代,探索新的技术路线,帮助众多机构、企业以最低成本迁移和部署新业务,并采取必要的措施保障数据在流通、使用、共享和销毁的整个过程中安全可控,是非常有必要的。
1.2.3 数据安全与数据要素安全
如前所述,数据安全和数据要素安全之间存在较多差异。总体而言,数据安全的目标是在有限域中“抵御恶意攻击者”,数据要素安全的目标则是在去中心化的环境中“建立多方信任”。下面让我们从多个角度来做一些具体分析。
首先,从安全目标角度看,正如其他生产要素,数据要素的使用价值和交换价值的实现依赖于数据在所有者与使用者之间的流转。数据要素安全旨在保证该过程中数据不会被第三方滥用、误用,因而聚焦于数据的使用安全,本质上是业务层面的安全。然而,当前大部分组织机构的安全团队还用网络安全领域的技术和体系做数据安全,如异常检测、访问控制等,这是现阶段的数据安全,目的是保护重要数据不外泄,不被攻击组织窃取,本质上是基础设施层面的安全。
其次,从威胁模型角度看,在数据安全的威胁模型中,敌手是恶意攻击者,如APT(Advanced Persistent Threat,高级持续性威胁)组织、攻击团伙等;在数据要素安全的威胁模型中,敌手则是不诚实的第三方,如窥视数据的合作伙伴。两者风险不一致,数据安全相关技术不能成为推动数据要素安全流转的关键技术和机制,但目前的数据安全机制可以是数据要素安全的底座和基础,讨论敌手模型是诚实的还是半诚实的前提是已经解决了恶意攻击者的风险。
最后,从设计思维、安全体系和实现角度看,在传统数据安全体系中,设计思维模式倾向于逆向思维,找到突破点,进而补齐;在数据要素安全体系中,则偏正向思维,即要在多个合作方之间实现数据要素流转和安全计算,就应正向构建一个可证明的安全环境,而不是先假设对方是恶意攻击者并穷举各种攻击手段。因此,基于密码学的机密计算、可信计算、隐私计算等技术就成了赋能数据要素安全的关键技术。
数据要素安全与传统数据安全的差异点总结见表1-3。
表1-3 数据要素安全与传统数据安全的差异点总结

需要说明的是,虽然目标不同,但数据要素安全和传统数据安全在大部分场景中是相辅相成、互为倚靠的。
1.2.4 数据要素安全与个人隐私
客观上讲,西方国家先进的科学技术在近现代对中国产生了深远影响。在过去数十年,信息技术和立法领域也呈现“西风东渐”,国内一直在跟随、借鉴西方国家,安全领域也不例外。因此我们在思考数据要素安全与个人隐私未来发展方向时,会不自觉地仍期望“西风东渐”,但笔者感觉近几年已经开始发生明显的变化,识别这些变化会让我们对该领域的理解更为深刻。其中,国内外在数据安全后续发展中最大的差别在于,国外企业因合规性要求,朝着个人信息保护方向前进;国内企业则顺应国家数据要素化的政策,积极探索如何挖掘数据资源的价值。
显著的差异具体表现在多个方面,我们列举如下。
(1)合规性差异
西方国家的数据安全相关法律法规以保护个人消费者信息为主,例如GDPR、CCPA(California Consumer Privacy Act,加利福尼亚消费者隐私法案)等法律法规,旨在约束数据控制者(data controller,通常是掌握个人数据的企业)以保障消费者的权益,如数据知情权、遗忘权等。因此,前几年国外数据安全创业公司(如Big ID、securiti.ai等)的主要业务是发现、关联和管理企业内的个人信息。
国内也出台了《中华人民共和国个人信息保护法》,2024年颁布的《促进和规范数据跨境流动规定》对个人数据跨境流动做出了规定。但总体而言,个人数据安全只是数据安全的一部分。GB/T 43697—2024《数据安全技术 数据分类分级规则》将数据分为一般数据、重要数据和核心数据。重要数据是指“特定领域、特定群体、特定区域或达到一定精度和规模的,一旦被泄露或篡改、损毁,可能直接危害国家安全、经济运行、社会稳定、公共健康和安全的数据”;而核心数据是指“对领域、群体、区域具有较高覆盖度或达到较高精度、较大规模、一定深度的,一旦被非法使用或共享,可能直接影响政治安全的重要数据”。核心数据和重要数据在当前阶段是国内数据安全更为关注的保护项,在数据要素应用中需要重点考虑,运营政府公共数据时更应当考虑此类数据的安全性。
(2)政策差异
国内将数据作为新质生产力,在满足合规性要求的同时,更加强调探索和发挥数据要素的价值。例如,“数据二十条”强调“建立公共数据、企业数据、个人数据的分类分级确权授权制度,根据数据来源和数据生成特征,分别界定数据生产、流通、使用过程中各参与方享有的合法权利”。传统数据安全做数据分类分级的目的是摸清家底,重点保护敏感数据;“数据二十条”的数据分类分级对象虽然也涉及个人数据,但并非合规驱动,而是推动数据要素化的第一步——确权授权。
(3)产业差异
在国外,除了传统的数据安全风险评估和管理,隐私合规的需求驱动数据安全产业向保护个人隐私的方向前进,出现了隐私影响评估(Privacy Impact Assessment,PIA)、合成数据、主权数据策略、隐私管理工具等数据安全产品和服务。而国内隐私相关的数据安全产品相对较少,更多的是脱敏、水印、文档管控、数据防泄露等产品,目的是解决数据流通过程中的各类安全问题。
(4)技术应用差异
尽管国内外在数据安全的政策引导和产业生态上的差异日益增大,但技术层面的差距正在逐渐缩小。在人工智能、数据安全和隐私保护的技术研究和应用方面,学术界和产业界百花齐放、日新月异。
Gartner对数据安全[2] 和隐私保护[3] 两个领域的技术做了成熟度曲线分析,有意思的是,这两条曲线上有相当多的技术是重合的,如机密计算、零知识证明、合成数据、差分隐私、同态加密等隐私增强技术。也就是说,同一个技术,既可以用于解决个人隐私不被滥用的问题,也可以用于解决敏感数据不出域的问题。
实际上,隐私增强技术如差分隐私、同态加密等,在国内外的应用场景也存在显著差异。考虑到国外隐私合规是私营机构的强需求,隐私增强技术多用于涉及多方机构利用个人信息的协同计算;而在国内,隐私增强技术多用于确保敏感数据不出域的多方协同计算场景。原因很简单,个人信息也好,敏感数据也罢,都是需要重点保护的数据资源。技术本身只是工具,只要能解决问题即可。
不过,读者需要注意“隐私计算”与“隐私增强技术”和“隐私增强计算”的区别。国内李凤华等老师在《隐私计算理论与技术》[4] 一书中提出了隐私计算的概念,其定义是“面向隐私信息全生命周期保护的计算理论与方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄露代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统”。而产业界提得比较多的是隐私增强计算(Privacy-Enhancing Computation,PEC)或隐私增强技术(Privacy-Enhancing Technology,PET),目的是在保护个人隐私的前提下,合理使用个人数据,其间会用到联邦学习、安全多方计算和机密计算等技术。因此,“隐私计算”与“隐私增强计算”和“隐私增强技术”既有微妙的区别,也有交叉重合。不过随着数据要素安全的关注度日益增加,人们在日常交流中也会交替使用这三个术语。读者可以先理解相关概念,熟悉所涉及的支撑技术,再根据具体的需求去解决日常遇到的问题,而不必纠结术语的字面差别。因为本书重在实践,所以可能存在这三个术语并用的场景,但它们都是指各类隐私增强技术。
当然,除了上述有重合的技术,数据安全和隐私保护技术的差异也比较明显。数据安全明显侧重于数据流通过程中的数据安全保护,如数据安全平台(Data Security Platform,DSP)、数据防泄露(Data Loss Prevention,DLP)、数据风险评估(Data Risk Assessment,DRA)、数据安全服务(Data Security as a Service,DSaaS)、数据安全态势管理(Data Security Posture Management,DSPM)等;隐私保护则侧重于满足个人隐私合规的风险管理和技术,如隐私管理(Privacy Management)、隐私设计(Privacy by Design)、主体权利要求(Subject Right Requirement,SRR)等。
综上,国内正朝着数据要素安全的方向快速前进,国外则沿着隐私合规的方向持续推动数据安全产业发展,其间国内外都会使用相似的支撑技术来解决原始敏感数据不出域、数据可用不可见的问题。支撑技术相同,但应用场景不同,可以预见这两个赛道会演化出不同的安全架构和技术栈。