基于区块链的基因组数据安全共享方案
作者: 巫光福 魏泰桂 李恩宁
摘要:为了解决基因组数据共享时数据管理和隐私保护等问题,文章提出基于区块链和身份代理重加密的基因组数据共享方案。运用区块链的去中心化、不可篡改等特性,下放数据管理权限,维护用户的数据所有权。使用基于身份的代理重加密技术,并配备完善的安全认证体系,即可实现在不泄露密钥的情况下基因组数据安全共享,又可保障数据的安全性和正确性。此外还应用分布式密钥生成技术,来解决传统中心化密钥生成托管问题,并在此基础上探索了解决紧急情况下基因组数据访问问题的新方法。最后,对方案的正确性和安全性等方面进行评估,并与同类型方案进行对比,论证了方案的有效性。
关键词:区块链;代理重加密;基因组;数据共享;分布式密钥生成
中图分类号:TP399 文献标识码:A文章编号:1009-3044(2023)17-0079-06
0 引言
基因测序等技术的高速发展,大大降低了基因数据获取难度和成本,促使基因组数据持续性增长。研究员能通过基因组信息探索疾病的致病机理,尤其是在癌症诊断方面[1],进而开展特定药物研发和制定个性化医疗方案。基因组数据具有极高的隐私性,其中包含人体大量特征信息,并且通过对基因组信息分析能预测个体患病风险。基因组数据一般都是中心化云存储,其控制权一般是在第三方生物科技等公司手中[2],如23andme,数据所有者很难接触自己的数据。
同时第三方也会限制数据的访问权限,形成数据壁垒。基因组数据的共享能有效促进医疗水平的提高,加快生命科学的研究进度。但其数据共享亟须解决上述的数据隐私保护和数据壁垒及权限控制等管理问题。
区块链技术的出现为这些问题解决提供新的方案。区块链技术具有去中心化、不可篡改、分布式存储等特性,它给数据共享提供一个安全平等的平台,能将数据的管理权限下放,支持用户管控自己的数据。并且区块链还支持添加额外密码协议来保护用户的数据隐私[3]。正因为区块链这些优势,使得区块链技术在医疗领域受到广泛关注。Al Omer等人[4]提出基于区块链的电子健康记录(Electronic Health Re⁃cord, EHR)共享平台,将敏感数据加密保存在区块链上,解决传统中心化存储问题。Genesy[5]是一个基于区块链的基因组共享项目,它旨在消除第三方,给数据所有者带来用自己基因组数据获利的机会。然而,这些方案在数据共享时效率不高,甚至有隐私泄露风险,例如文献[6],患者在给医生共享生理数据时,还需选择性共享自己的私钥。如果患者重新选择共享对象时,还需更新密钥甚至重新加密上传数据。对于以上情况,Wang等人[7]提出基于代理重加密技术(ProxyRe-Encryption, PRE)的EHR共享云系统,实现细粒度数据共享,保证患者密钥安全。但此方案中EHR因云存储有被篡改和丢失风险。文献[8]中提出了一个基于区块链和PHR的文件共享方案,并创新性提出可扩展密钥管控方案,但是该文献缺少实施细节。文献[9] 提出一个基于区块链的物联网数据存储共享模型,该方案考虑物联网应用情景,引入边缘设备进行密集计算,利用PRE在保障数据安全性和完整性的情况下进行细粒度数据共享。Luo等人[10]提出一个基于区块链的EHR共享协议,该协议使用分布式密钥生成(Dis⁃tributed Key Generation, DKG)技术和PRE来实现EHR 的细粒度共享。但其DKG合成的系统私钥和用户私钥有泄露风险,且方案缺少数据认证体系。
文献[11]使用条件代理重加密和DKG来实现电子处方的细粒度共享,该方案一定程度上弥补文献[10]中认证体系缺失问题,但与文献[10]一样,存在私钥泄露风险。
受基因组数据共享需求及上述研究成果启发,本文提出一个基于区块链和身份代理重加密的基因组数据共享方案。该方案借助区块链去中心化、不可篡改等特性,保障基因组数据的完整性,使数据所有者对自己基因组数据有完整的控制权。在此方案中,根据基因组数据特点对身份代理重加密技术进行适配改进,使其在进行细粒度数据可信共享同时还具备验证性。同时,此方案还采用了DKG技术解决系统密钥托管问题,并针对文献[10]出现的问题进行解决,引入监管节点群可靠安全地进行私钥合成和管控。针对文献[12]提及的紧急情况基因组学信息访问的开放性问题,该方案给出了可行的解决方法。最后,对方案安全性和正确性进行论证,并将此方案和同类型文献进行对比分析。基因组大数据的时代即将到来,基因组测序也将纳入临床护理常规项目[13],该方案的提出为即将面临的基因组数据管理和共享问题提供解决方案,有助于促进医疗体系现代化建设。
1 背景知识
1.1 基因组信息
基因组常指个体生物遗传信息总和,通常是以DNA和RNA为载体。在医学研究中,与基因组相对应的表型数据是必不可缺的。表型是指生物性状的表现,它主要受基因的表达调控以及生存环境影响。
通过对表型信息分析才能初步定位进行性状表达的基因组片段,进而研究该疾病的致病机理,进行相关疾病的基因定点治疗。本文中所指基因组数据则包含了基因组和表型数据。对于研究人员和群众来说,最直观且最易收集的表型数据是EHR 和PHR (Per⁃sonal Health Record)。因此文章出现的表型数据以EHR和PHR为例。
1.2 身份代理重加密
代理重加密是由Blaze等人[14]首先提出,该技术通过半可信的代理来实现将数据所有者公钥加密的密文转换成数据申请者可以用私钥解密的密文。数据所有者或可信第三方生成重加密密钥。代理人运行重加密算法,用重加密密钥重新加密密文,然后发给数据申请者,进行数据共享。在数据共享的过程代理人和其他非授权的第三方是无法获取明文的任何信息。为了进一步加强PRE的性能,已由诸多尝试性方案提出,其中基于身份加密(Identity-based Encryption,IBE )技术备受青睐。IBE是指使用数据发送者以数据接收者身份作为公钥加密数据进行传递。IBE可以缓解密钥分发问题,并已基于此开发几个密码协议,例如公钥可搜索加密[15]。IBE和PRE结合能进行更细粒度的数据共享权限管理,同时可以缓解系统密钥分发问题。
1.3 区块链
区块链技术概念是由Nakamoto[16]提出,其中比特币是其代表性应用。区块链是由若干块通过hash算法链接而成。它是由参与者共同维护,数据分布式管理的,且借助hash算法实现数据校验和防篡改。对区块链本质的探讨,已有诸多文献成果,例如文献[17]。
区块链技术的进一步升华得益于以太坊的出现。以太坊给区块链技术带来了智能合约和分布式应用。
智能合约可以实现区块链底层自动化,提高区块链的性能,也能让用户对自己的数据进行细粒度访问控制。分布式应用则拓展区块链可实现的功能,它允许用户部署APIs来开发数据分析等应用,例如Nebula 基因组区块链项目[18]可以在链上系统提供基因组数据分析等服务。这些特性也正是区块链技术在医疗数据管理被广泛应用的重要因素。
2 方案实施
2.1 模型概述
基于区块链和身份代理重加密的基因组数据共享方案的主要角色有5个,如图1所示,分别是:数据所有者、数据申请者、外部存储提供方、代理者和区块链维护者。
(1)数据所有者:即拥有自身基因组测序序列和表型数据的用户。该用户可以自主选择数据存储方式,并对自己数据有绝对控制权。
(2)数据申请者:一般为医学研究所、生物科技公司等。他们可以在区块链系统维护的描述性文件数据库中搜索自己感兴趣的基因组数据,并向数据所有者发送访问请求。
(3)存储服务供应方:即基因组数据存储的供应商。基因组数据通常从几GB到上百GB,直接上传到区块链保存的可操作性偏低,这就需要外部存储。
IPFS分布式文件存储系统已成为常用存储方案,因其可以解决传统中心化存储、数据篡改以及节点宕机等问题。当然用户可以自主选择其他可信存储方式,比如华为家庭云存储设备,自己做存储供应方管理数据,管理更个性化,灵活控制访问权限。
(4)代理者:代理者主要负责对密文进行重加密操作,在此过程中数据所有者无须共享自己私钥就可实现访问权限再分配。
(5)区块链维护者:即区块链共识过程的参与者,他们共同维护区块链系统正常运转。其中,具体成员可分为以政府的监管部门和技术部门为主的监督委员、受行业或政府部门高度认可的医疗机构和研究所等权威中心以及提供相关保健诊疗服务的医疗科技公司等。
区块链系统能保证数据的完整性和不可篡改性,同时管理员可以借助其智能合约实现一定的身份认证和权限审核。监督委员和权威中心共同维护区块链系统中云服务器,该服务器提供包括文件检索等服务,其中监督委员在区块链系统中管理监管节点。
2.2 方案细节
如图1所示,基因组数据共享方案整体可分为密钥生成、数据存储和数据共享三大部分,具体过程可分为以下5大步骤。