什么是隐私计算,它是怎样保护我们的隐私安全?
摘要:近年来隐私计算技术发展迅速,它作为赋能数据利用流程的核心技术之一,将成为数据流通服务的底层基础设施,为数据流通创造条件并守护数据隐私和安全。
本文分享自华为云社区《【云驻共创】隐私计算技术是什么?它是怎样保护我们的隐私安全?》,作者: feifei_active 。
一、隐私安全保护面临的挑战
数据在为人们的生活带来了种种便利的同时,也使得大家对个人数据隐私和安全产生了担忧,这俨然已经成为世界性的问题。
如何才能在遵循法规的要求下,既充分发挥数据的价值,同时又不会影响到用户的数据隐私和安全?尤其是对于依赖外部数据的企业来说,如何能够合理利用合作伙伴的数据价值,又不会见到原始数据以至于造成数据泄露?这就对企业利用数据开展业务提出了一个挑战。
近年来隐私计算技术发展迅速,它作为赋能数据利用流程的核心技术之一,将成为数据流通服务的底层基础设施,为数据流通创造条件并守护数据隐私和安全。
二、隐私计算技术概念及技术路线
隐私计算是涵盖了众多学科的交叉融合技术,是一种包含了安全多方计算、同态加密、差分隐私、零知识证明、联邦学习以及可信执行环境等主流技术子项的相关技术合集及产品方案。
因为隐私计算技术和方案的种类较多,为了便于理解和分类,业界通常将上述技术分为三大路径:以安全多方计算为代表的密码学路径、以可信任执行环境为代表的硬件路径和以联邦学习为代表的人工智能路径。下面简单介绍一下这3个路线的区别和联系。
1、安全多方计算(MPC)
安全多方计算(Secure Multi-party Computation, MPC)是一种密码学领域的隐私保护分布式计算技术。安全多方计算能够使多方在互相不知晓对方内容的情况下,参与协同计算,最终产生有价值的分析内容。
实现原理上,安全多方计算并非依赖单一的安全算法, 而是多种密码学基础工具的综合应用,包括同态加密、差分隐私、不经意传输、秘密分享等,通过各种算法的组合,让密文数据实现跨域的流动和安全计算。本文第三部分会简单介绍其中的部分算法,来阐述其具体保护原理。
下面是安全多方计算的其中一种简单实现方案示意图:
2、联邦学习(FL)
联邦学习(Federated Learning, FL)又名联邦机器学习、联合学习。相比于使用中心化方式的传统机器学习,联邦学习实现了在本地原始数据不出库的情况下,通过对中间加密数据的流通和处理,来完成多方联合的学习训练。
它一般会利用分布式数据来进行本地化的模型训练,并通过一定的安全设计和隐私算法(例如同态加密、差分隐私等), 将所得到的模型结果通过安全可信的传输通道,汇总至可信的中心节点,进行二次训练后得到最终的训练模型。
由于密码学算法的保障,中心节点无法看到原始数据,而只能得到模型结果,因此有效地保证了过程的隐私。
联邦学习和多方安全计算的区别,主要在于应用场景有较大不同。因此联邦学习的实现主要“面向模型”, 其核心理念是“数据不动模型动”,而多方安全计算则是“面向数据”,其核心理念是“数据可用不可见”。
3、可信任执行环境(TEE)
可信任执行环境(Trusted Execution Environment, TEE)指的是一个隔离的安全执行环境,在该环境内的程序和数据,能够得到比操作系统层面(OS)更高级别的安全保护。
其实现原理在于通过软硬件方法, 在中央处理器中,构建出一个安全区域,计算过程执行代码TA(Trust Applition)。
仅在安全区域分界中执行,外部攻击者无法通过常规手段获取和影响安全区的执行代码和逻辑。
同时计算数据通过相关密码学算法加密,来保证数据只能在可信区中进行计算,其简单实现示意图如下所示:
可信执行环境和前文提到的两种技术路线的区别, 在于不需要依赖过多复杂的密码学算法,因此计算效率高,且能够实现的计算逻辑更加丰富。
上述三者的详细区别和联系参见下表:
三、隐私计算底层应用的密码学算法
隐私计算三大技术路径中,除了可信任执行环境代表的硬件路径外,其他两个技术路径均用到了多个复杂的密码学算法,各算法在使用目的和手段上均有不同。这里简单介绍3种常用的密码学算法,方便大家初步认识这些算法是如何保护数据和隐私安全的。
1、同态加密(HE)
同态加密(Homomorphic Encryption, HE)指的是能够直接使用密文进行特定运算的加密技术,并保证得到的结果与明文计算结果一致。 数据进行加减、汇聚时不会发生明文数据的暴露,因此能够大大提高计算方的可靠性。
同态加密的优势在于通信量少,不需要多轮通信轮数,且在结果方密钥不泄露的情况下,计算过程是安全的,因此在多方安全计算、联邦学习等场景中得到了应用。
2、差分隐私(DP)
差分隐私(Differential Privacy, DP)是通过添加额外的随机数据“噪音”使真实信息淹没于其中,从而保护隐私的一种技术手段。当恶意用户试图通过差分攻击的手段反推原始数据时,由于噪音的存在,无法确认数据的真假,因此无法顺利还原原始数据。
其优势在于无须加解密时的巨大算力消耗,技术相对成熟,因此在各种涉及个人隐私的统计类场景中得到广泛应用。
差分隐私如何应用在安全计算中,可阅读《多方计算时,每次结果竟然都存在着巨大隐患,此文告诉你可以这样解决》进行更深入理解。
3、不经意传输(OT)
不经意传输(Oblivious Transfer, OT)由Rabin于1981年首次提出,也叫做茫然传输协议。
其作用是当数据发送方有多份数据时,可通过OT算法,来让数据接收方从中仅选取需要的数据,但无法获取其他的数据,同时数据发送方也无法得知接收方从中获取了哪些数据。因此该算法常用于隐私计算集合求交、联邦学习样本对齐、隐私信息检索等场景。
对于隐私计算集合求交的原理,可以参考《浅谈PSI隐私集合求交》或者《使用PSI解决联邦计算的数据碰撞问题》一文进行更深入的了解和学习。
四、华为云在隐私计算领域的产品与实践
华为云在2021年9月正式商用发布隐私计算产品可信智能计算服务TICS。该产品面向政务、金融、消费和医疗等行业,旨在打破组织内部、行业内部、跨行业之间的数据孤岛,基于鲲鹏TEE可信执行环境、全同态加密、安全多方计算、差分隐私、区块链等技术,实现在数据隐私保护下的多方数据联合SQL分析、横向联邦学习、纵向联邦学习,协同伙伴和客户,推动数据要素的可信流通和开发利用。
华为云可信智能计算服务TICS并不是一项单一的技术,而是一套理论框架和技术体系,是大数据、密码学、人工智能、区块链、可信硬件、安全容器等领域的交叉和融合。
在多方数据库联合查询场景中,平台既要做到保护敏感明细数据,又要实现多方数据库的联邦统计分析。在多方样本或特征的联合建模场景中,平台既要对敏感ID和特征进行保护,又要把多方样本或特征联合起来训练出更好的模型。这个过程中华为云可信智能计算服务TICS会为各参与方提供全生命周期的监控和管理,TICS和华为云区块链服务紧密配合,进行数据管理和计算过程的确权和存证,做到整个计算过程可追踪可审计。
华为云可信智能计算服务TICS极具开放性。囊括行业主流算法,支持3大任务场景、7大类可信技术、60+原子化算子,根据最佳实践,会为计算任务匹配选择最优协议组合;具有丰富的集成对接能力,开放了80+北向接口,支持与伙伴一起打造联合解决方案;支持丰富的部署形态,包括华为公有云、混合云、智能边缘、华为云金融专区等,满足不同行业和组织的合规需求。
华为云可信智能计算服务TICS还提供多种专利技术,保障数据安全,提升计算效率。首创联邦SQL分析与多方安全计算技术融合,实现SQL执行前、执行中、执行结果的全流程隐私保护能力;协同优化联邦训练和全同态加密,通过向量矩阵运算批量处理树模型的多节点,性能相比行业TOP友商提升5~10倍;鲲鹏ARM-TEE全栈自主,BMC/BIOS/TEE-OS/TICS-TA等全部自研。
为充分发挥数据价值,实现可持续发展,政企等组织在保护数据安全和个人信息的前提下实现数据要素流通就显得至关重要。尤其是关系到国计民生的重要领域,迫切需要破解数据孤岛难题,实现数据可信流通。华为云可信智能计算服务TICS的推出,让“鱼”和“熊掌”兼得成为可能。
欢迎体验最新版TICS服务。
华为可信智能计算服务 TICS 官网链接:
https://www.huaweicloud.com/product/tics.html
tics服务交流社区:
https://bbs.huaweicloud.com/forum/forum-1348-1.html
点击关注,第一时间了解华为云新鲜技术~