Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

跨界大数据融合模型关键技术研究论文

发布时间:2022-05-20 11:53:01 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):

  摘要:跨界大数据融合的合作过程中,企业需要解决跨界合作中的壁垒,构建以用户为中心的生态联盟,打造基于数据驱动的企业服务平台。针对跨界复杂关联数据所呈现出的多源异构性、实体和关联类型的开放性、跨领域特征和模式以及数据质量的不确定性等特点,本文深入分析了跨界大数据融合的关键技术,包括跨界数据融合过程中的知识获取、知识融合等方法,最后阐述了数据安全融合的技术方案,为实现跨界数据融合提供了理论基础和技术方案。
 
  关键词:数据安全融合;联邦学习;知识图谱
 
  Research on Key Technologies of Cross-border Big Data Fusion Model
 
  SUN Lina
 
  (Technology and Media University of Henan Kaifeng,Kaifeng Henan 475004)
 
  【Abstract】:In the cooperation process of cross-border big data convergence,enterprises need to solve the barriers in cross-border cooperation,build a user-centered ecological alliance,and build a data-driven enterprise service platform.For cross-border complex correlation data present a multi-source heterogeneity,entities,and the openness,interdisciplinary characteristics and patterns of association types and characteristics of the uncertainty of data quality,this paper deeply analyzes the crossover the key technology of data fusion,including cross-border in the process of data fusion methods such as knowledge acquisition,knowledge fusion,finally,the technical scheme of data security fusion is described.It provides a theoretical basis and technical scheme for the realization of cross-border data fusion.
 
  【Key words】:data security fusion;federal learning;knowledge map
  0引言
 
  在众多行业应用领域中,现实情况是应用方由于自身业务方向、规模和发展阶段或者场景等原因,只掌握有一部分数据、“小数据”或者质量很差的数据,“数据孤岛”现象广泛存在。他们迫切的需要和其他数据联合,融合使用。
 
  针对跨界复杂关联数据所呈现出的多源异构性、实体和关联类型的开放性、跨领域特征和模式以及数据质量的不确定性等特点,我们需要深入分析跨界大数据融合的关键技术。其中包括跨界数据融合过程中的知识获取、知识融合和知识补全等数据融合的方法,依法合规前提下的数据隐私与安全保护方法,以及跨界数据合作机制的建立与维护等若干关键性技术为主要待解决的研究重点。
 
  1跨界大数据融合技术
 
  1.1跨界大数据的知识图谱构建
 
  针对行业知识图谱的自动化构建进行研究,寻求高效的构建方法,解决上层应用依赖底层知识的问题,从知识层面上为用户提供有效的、较完备的以及可靠的行业领域信息。
 
  融合不同行业不同类型的数据,结合领域专家知识库建立基于跨界大数据的知识图谱,不用数据源的实体属性关系分布与存储形式的不同,需要构筑面向实体属性分离存储的自动化关系抽取方法。
 
  1.2实时大数据融合的系统性能优化
 
  为实现跨界大数据融合过程中的知识图谱构建,底层处理引擎需要批处理与流处理的相互结合。针对实时数据融合的处理过程,我们采用Storm作为底层的流处理引擎。设定以用户自定义查询延迟阈值为间隔片段的微批量数据流传输机制;并利用多级别管道缓存,对相同配置的数据流进行批量处理;然后按照数据流的时间戳计算出精准查询结果;并通过使用增量的机器学习模型,提升系统的预测精度。
 
  2安全融合技术方法
 
  企业的数据融合方法是利用人工智能等技术,以智能化手段开展与第三方合作机构的联合建模过程,运用平台化的模式实现产品开发、客户引流和业务拓展的完整服务。通过多方数据融合,可丰富数据维度和深度,挖掘产品、服务等合作空间。
 
  数据安全融合主要涉及到隐私保护和信息安全的理论基础。具体技术方法可分为基于硬件的机密计算、数据加密机制以及数据扰动方法等三种类型。
 

\
 
  2.1基于硬件安全机制的可信执行环境
 
  可信执行环境(Trusted Execution Environments,TEE)是指利用硬件基础设施提供强制性的安全保障,不依赖于固件和软件的安全状态,以提供用户空间的可信执行环境。比如,Intel公司推出的软件保护扩展(Software Guard Extensions,SGX)[1]。SGX是基于CPU的实现执行环境隔离的新一代硬件安全机制,通过内置CPU的内存加密引擎(Memory Encryption Engine,MME)以及容器Enclave实现了应用程序的运行安全和数据安全。Intel SGX支持一个CPU上运行多个彼此相互独立的容器Enclave,减少了潜在的攻击面,防止由单个恶意程序影响整个系统的安全性。此外,AMD公司推出了安全加密虚拟化(Secure Encrypted Virtualization,SEV。SEV可实现每个虚拟机使用一个密钥将用户系统和虚拟机管理程序彼此隔离。密钥由AMD安全处理器管理,SEV需要在用户操作系统和管理程序中启用。用户更改允许虚拟机指示应加密内存中的具体页面信息。系统管理程序更改使用硬件虚拟化指令以及与AMD安全处理器的通信来管理内存控制器中的相应密钥。另有,ARM公司推出系统范围的安全方法TrustZone。TrustZone技术通过在CPU中内置硬件强制隔离,建立起基于平台的安全体系结构(Platform Security Architecture,PSA)。
 
  2.2数据加密
 
  针对数据加密进行安全融合的策略较多,我们将其分成两个方面:
 
  (1)互不信任前提下计算约定目标函数的多方安全计算(Secure Multi-Party Computation,SMPC)[2]。
 
  (2)基于密文进行安全计算的同态加密[3]。
 
  2.2.1安全多方计算
 
  安全多方计算最早由姚期智院士于1982年提出。安全多方计算涉及到混淆电路(Garbled Circuits,GC)[4]、秘密分享(Secret Sharing,SS)[5]、不经意传输(Oblivious Transfer,OT)[6]和零知识证明等多种密码协议。安全多方计算凭借其坚实的安全理论基础,实现了隐私保护计算过程安全性的严格定义,包括:输入数据的隐私性,计算函数的输出正确性,各参与方的计算公平性,以及可确保各参与方获取计算结果的正确性。这里,不经意传输可以使数据安全融合的参与方在不暴露自身ID的情况下,确保查询数据源方数据库的联邦学习能力;秘密共享可让多方参与者进行安全的数据统计分析。
 
  2.2.2同态加密
 
  同态加密归属于特殊类加密算法,可在加密后的密文上直接进行计算,且可保证结果解密后与明文的计算结果保持一致,支持通用的算术和逻辑运算符。同态加密技术为数据安全融合提供安全计算的能力。具体描述如公式(1)所示。
 
  Encrypt(x)⊕Encrypt(y)=Encrypt(x⊕y)
 
  Encrypt(x)⊙Encrypt(y)=Encrypt(x⊙y)
 
  当前,同态加密大多以非对称加密算法为主,即所有知道公钥的参与方都可以加密、执行密文计算,但只有私钥所有者可以解密。根据实现的不同功能而言,同态加密可分为部分同态加密(Partially Homomorphic Encryption,PHE),些许同态加密(Somewhat Hom-omorphic Encryption,SHE)和全同态加密方案(Fully Homomorphic Encryption,FHE)。其中,部分同态加密只能支持有限的密文计算深度。如,Paillier支持密文间的加法运算和有限次的乘法运算。BGN可以支持无限次的密文间的加法运算,但只能支持一次乘法计算。些许同态加密可以对密文进行有限次的任意加法和乘法的同态操作,但不能同态计算任意的函数。2009年Gentry提出了基于理想格的全同态加密概念,允许对密文进行无限次的加法和乘法运算。但由于计算代价高昂,在实践中并没有比传统的同态加密算法更好。
 
  2.3数据扰动
 
  基于数据扰动的安全融合方法,以差分隐私技术为代表。在模型训练过程中引入随机性,添加一定的随机噪声,使输出结果与真实结果具有一定程度的偏差,以防止攻击者恶意推理。

\
 
 
  差分隐私作为量化和限制个人信息泄露的一种输出隐私保护模型,最早是Dwork在2006年提出。假设有两个数据集D1和D2,他们有且仅有一条数据不一样,这两个数据集是相邻的。针对算法A,Range(A)为算法A可能输出的所有值的集合,如果对于任意的一对相邻集合D和D',任何S⊆Range(A)都满足公式(2):
 
  P(A(D)∈S)≤eεP(A(D')∈S)(2)
 
  则称算法A满足ε-差分隐私保护。ε为一个极小正值,代表隐私保护程度。一般而言ε越小,隐私保护程度越高。
 
  差分隐私最主要的实现方式是在计算结果中添加噪声,适用于数值型输出的Laplace噪声等,以及非数值型输出的指数噪声等。
 
  3安全融合技术分析
 
  整体而言,基于硬件安全机制可信执行环境的融合技术适用于限制数据资产使用的场景,如企业内部核心数据、数字版权保护等,该技术以百度的安全计算平台MesaTEE为代表。基于数据加密的融合技术可用于数据量适中但保密性要求较高的重要数据应用场景,可联合分散在用户终端的数据进行与需求相关的模型训练,以微众银行的FATE平台为代表。基于数据扰动的融合技术适用于统计分析,但不适合需要精准分析结果的应用场景。
 
  在多方数据融合过程中,会涉及到数据标识符ID的安全对齐操作。我们将ID安全对齐的安全等级、数据传输方法和时间复杂度进行了对比分析。其中,安全等级最低的L1级别,可明文传输ID。由于未使用加密算法,故其时间复杂度是O(1)。其次,目前工业界使用较多的ID对齐策略,是安全等级为L2级别的基于MD5的加密算法,该算法的时间复杂度为O(n)。为确保ID对齐操作的安全性,各参与方会往往会约定定期更换盐值,并进行多次MD5的加密。接下来,为进一步确保数据ID的安全性,可通过非对称加密RSA的方式对ID进行安全等级为L3级别的加密传输,并通过私钥解密后判断对齐结果。这里,非对称加密算法的时间复杂度是O(log2n)3。最后,为了进一步确保具有标签数据方的数据安全,我们定义了安全等级最高的L4级别的加密策略。通过引入噪声数据,构建基于混淆比例的不经意传输加密策略,其时间复杂度是O(log2n)3。根据不同的应用场景,我们可选择不同的安全等级进行ID对齐操作。
 
  4结论
 
  跨界大数据融合的合作过程中,企业需要解决跨界合作中的壁垒。本文研究数据隐私与安全的理论和方法,重点调研联邦学习和多方安全计算的技术脉络,深入探讨跨界数据主体的合作机制建立,使用联邦学习和多方安全计算技术等实现协调合作的理论和方法,为实现跨界数据融合提供了理论基础和保障。
 
  参考文献
 
  [1]Costan V,Devadas S.Intel SGX Explained[J].IACR Cryptology ePrint Archieve,2016,2016(86):1-118.
 
  [2]Yao A.How to generate and exchange secrets[C].//Proc of the 27th Annual Symp on Foundations of Computer Science,Piscataway,NJ,IEEE,1986:162-167.
 
  [3]Rivest R,Adleman L,Dertouzos M L.On data banks and privacy homomorphisms[J].Foundations of Secure Computation,1978,4(11):169-180.
 
  [4]Yao A.Protocols for secure computations[C].//Proc of the 23rd Annual Symp.On Foundations of Computer Science.Piscataway:IEEE,1982:160-164.
 
  [5]Shamir A.How to share a secret[J].Communications of the ACM,1979,22(11):612-613.
 
  [6]Rabin M.How to exchange secrets with oblivious transfer[J].IACR Cryptology ePrint Archive,2005:187-190.
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
 


文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/38220.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml