Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

医院数据存储平台关键技术研究论文

发布时间:2024-03-27 13:50:45 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com)

        摘 要 :从医院医疗数据存储的实际业务出发,建构起面向医院电子病历存储、PACS(Picture Archiving and Communication System) 影像档案存储、其他业务数据存储的分布式管理平台,利用 HDFS 文件系统、HBase 数据库等 Hadoop 存储集群, 将分类索引、读写、合并整合的列文件存储至云服务后台之中,提升医院海量化医疗数据的读取索引、挖掘与存储质量。

  0 引言

  近年来,国内各大医院诊疗数据的录入、管理模式, 通常采用电子病历、ERP 信息化管理系统作出不同类别数据的统计归档,但传统基于 Unix 服务器的数 据存储模式存在备份繁琐、安全性不足等问题。这一 情况下,利用 Hadoop 分布式框架、HDFS 文件系统、 HBase 数据库等大数据集群技术,建构医院数据存储 管理平台,面向病情诊疗、PACS 影像检查、其他业务 活动的结构化或非结构化数据,制定分布式数据挖掘、 处理、合并与存储方案,可满足海量化医院医疗数据、 业务数据的存储管理要求。

  1 医院数据存储平台建设的关键技术

  1.1 Hadoop 分布式软件框架技术

  Hadoop 框架为面向分布式应用程序、可扩展组件 开发的系统基础架构,是以 SOA 主从服务组件结构、 JavaScript 语言编写的分布式应用程序进程,通常被安 装于网络计算机 (PC) 集群中,涵盖 MapReduce 批处理模型、Yarn 资源调度管理器、HDFS 文件系统、HBase 数据库、Hive 数据仓库、Spark 内存计算组件、Pig 流 式计算组件、Flume 日志收集组件、ZooKeeper 协调 服务组件等组成结构(如图 1 所示) [1]。
 

\

  1.2 存储虚拟化技术

  基于 VMware、Microsoft Hyper-V 等 虚 拟 化 (Virtualization) 技术,将物理服务器抽象为多个逻辑服 务器。在网络计算机 (PC) 集群、后台服务器空间内,设 置包括网络虚拟化、设备虚拟化、存储服务虚拟化等组 成结构,虚拟出 CPU 处理器、RAID 内存、NAS&SAN、 I/O 通讯接口的虚拟化模块,形成网络底层硬件、数据 存储业务的信道与负载耦合,用以解决不同应用程序接 口、数据传输与存储的不兼容问题,实现网络硬件资源 的动态分配与合理利用。

  1.3 数据容错、数据加密技术

  数据容错技术为面向数据存储的 Reed-Solomon(RS) 纠删码冗余技术,通常设置 RS(k,m) 的 k 和 m 两个参数, k 个数据块、m 个校验块构成特定的码字生成矩阵 GT 向量, 若某一数据块丢失可断开或隔离该数据块, 或者用 (GT)-1 乘以码字向量作出丢失数据块的恢复操 作,而内部网络节点的其余数据块可正常被处理与存 储, RS(k,m) 最多可容错 m 个数据块的丢失。数据加密 技术为基于 TLS/SSL 协议技术的数据包加密方案,利 用 EV SSL 扩展验证证书、OV SSL 组织验证证书的身 份验证技术建构完整的 CA 安全套接字层体系 (TLS 协 议标准 ), 在 HTTP 协议基础上实施 TLS 证书协议的数 据包加密、解码控制,包括网络数据传输加密、访问用 户身份验证、网络数据完整性校验等执行流程,可有效 防范外部黑客用户的数据包拦截、病毒入侵 [2]。

  2 医院数据存储分布式系统平台的总体组成架构

  医院医疗数据、PACS 影像检查数据存储更多以关 系数据库表的形式管理,也即由医生或护士将相关病人 基本信息、就诊信息、诊断信息、医嘱信息、文书报告、 检查报告信息、手术申请单、手术报告、放射信息等结 构化数据, 录入至 ERP 信息化管理系统平台。但同时医 院会议或报告的 Word、PDF、PPT 等信息,以及医院 宣传活动图片或视频、PACS 检查影像信息、手术影像信 息等其他业务数据,由于这些文件属于结构不规则、不完整的非结构化数据,则需要通过基于 Hadoop 分布式 软件架构、存储虚拟化技术、数据容错与加密技术,建 构起分布式医院数据存储信息化系统平台 [3]。

  从分布式医院数据存储信息化系统结构可知,医疗 面向用户客户端 App 的 URL 网页界面,提供门诊业务、 PACS 影像业务、临床诊疗业务、住院业务等医疗服务。 首先基于JDBC/ODE3C 接口、Hive 数据仓库等组件对 医院结构化数据作出编译解析操作,得到可用于批量处 理的病患基本信息、医生诊疗信息、医嘱信息、PACS 影像检查信息,并存储到 HDFS 文件系统、后台服务器cd/hadoop fs -put initial-setup-ks.cfg/ 根目录下。

  而医院 PACS 检查影像信息、手术影像信息等非结 构化数据的挖掘、处理与存储,需利用 HBase 数据库的 Master、Hregion 等服务器节点,调用Java API 接口读 取、定位查询非结构化数据的映射文件,包括病患拍摄 的 PACS 影像信息、手术影像信息。随后使用 Mahout 挖掘库、MapReduce 批处理模型对特定的医疗元数据 作出挖掘、处理与整合,通常单个文件数据字表的大小 为 128M,多个分类字表按照列族 (StoreFile) 形式存储 至 HBase 数据库之中。以“病患 ID+ 病患姓名”为关 键字、时间戳为病患数据写入时间,数据字表列族依次为 PACS 检查影像文件、检查报告、“医嘱号 + 医嘱内 容”等属性,具体的医院 PACS 检查影像信息数据字表 存储模式如表 1 所示。

\

  3 Hadoop 分布式框架下医院数据文件的判定与合并存储实现

  以 [key value] 键值对为主的医院医疗文件数据存储 方式, 是利用 MapReduce 批处理模型并行执行数据块 文件的序列化合并操作,将具有相同属性、小于 128M 的小文件 Split 切片合并为大文件,降低 HDFS 分布式 文件系统的内存开销,但缺陷是数据文件合并方案未建 立索引,读取特定文件时需遍历整个源文件、整体耗时 过长。为解决小文件数据合并、访问读取的索引问题, 本文提出 HPM Part 包的小文件分级处理与合并存储方 案,根据不同医院数据文件名、MD5 值创建索引文件, 设定默认数据块为 64MB 的阈值大小,设置包括文件性 重复判定、大小判定、文件合并、文件缓存与预取等执 行流程,将索引文件模块存储至 HBase 数据库之中。

  (1)文件重复性判定。基于 MD5(Message-Digest Algorithm) 信息摘要算法对传输的医疗数据文件作出重 复性判定,将数据字符串长度为 M 的文件进行 0、1 二 进制数填充, 扩充为 448+N×512(bit) 的字符串长度, 按照 64 位字符串长度对输入的信息块求余, 得到追加 长度后的数据序列为 448+N×512+64=(N+1)×512(bit), 作为 MD5 值并与 HBase 数据库的文件内容字符串作 出比较,过滤与筛除重复的文件数据。

  (2)文件大小判定与合并。当前医院内网传输的文 件数据默认阈值为 64MB,依照 HDFS 分布式文件存储的 标准, 将小于 64MB 的“_index”“_masterindex” 格 式文件使用 HAR 封装工具作出打包,包括对数据文件 名、文件内容、文件位置等元数据信息的打包,将小文 件合并为大小相同的大文件,暂存至 HDFS 缓存区队列。

  (3)文件索引与存储。在 HPM Part 包的多级文件 读取、索引与存储中,使用 HBase 索引表建立索引文件、 使用“part-*”记录文件数据内容、使用“masterindex” 记录 Hashcode 指针,使用 HBase 索引表记录数据块 BlockID、MD5 值、存储路径等信息。对于合并后大 文件数据标记为 flag=1、小文件数据标记为 flag=0.将 归档存储的 HAR 文件进行压缩,以最大程度降低内存 占用量,根据标记选择文件数据读取的索引策略。当外 部用户访问 HDFS 系统、HBase 数据库的特定文件数据 时, 直接调用 API 接口检索 HBase 索引表、MD5 值, 即可实现对元数据文件信息的调取、置换与存储操作。

  4 结语

  随着医院各科室病患诊疗数据、业务报表数据的激 增,基于传统 Excel 电子表格、ERP 信息化管理系统的 数据存储管理模式,已难以适应海量结构化、非结构化 大数据医疗资源的存储与管理需求。通过基于 Hadoop 分布式软件架构,在海量化分布式医院数据检索、处 理与存储过程中,设置多个可靠、可扩展的存储管理组 件,利用 MapReduce 批处理计算模型对文件数据表 名、表列、表分区及其属性进行 Map/Reduce 的映射 规约,存储医院诊疗数据到 HDFS 文件系统、HBase 数据库中,提升医院数据存储与管理的安全性。

  参考文献

        [1] 郭敬鹏,冯国斌,刘艳亭,等.医院数据安全治理框架设计及实 践路径探讨[J].中国卫生信息管理杂志,2022,19(6):879-883.
        [2] 林滨.探析计算机数据库技术在医院数据管理中的应用[J]. 互联网周刊,2022(6):44-46.
        [3] 翁文炳.医院数据中心容灾备份策略研究[J].科技资讯,2022, 20(17):5-7.

关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!


文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/76265.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml