Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 计算机论文 > 正文

采用数据挖掘技术处理基因表达数据库的研究论文

发布时间:2022-12-08 10:44:08 文章来源:SCI论文网 我要评论














SCI论文(www.lunwensci.com):
 
  摘要:大数据时代产生了一系列大规模基因表达数据,生物学家通过合理恰当地处理这些数据,可以了解这些基因表达数据的规律及其携带的信息,从而探索数据背后的信息,了解疾病发病的机理。目前,诸多生物学技术都可以用于测量基因的表达,如DNA微阵列数据、基因表达序列分析等。生物学家通过生物技术可以得到大规模的基因表达数据。但是,这些数据如果未经处理,就会存在大量杂质,有较强的稀疏性、较高的噪声和强耦合性。如何正确处理这些数据已经成为教学和科研工作者的重要课题。本文介绍了基因数据库的概念和类型,并介绍了数据库处理中常用的数据挖掘方法,最后举例说明。

  关键词:基因;数据库;数据挖掘

  Data mining technology on gene expression databases

  Zhang Yan

  (Department of Accounting,Guangzhou College of Technology and Business,Guangzhou Guangdong,510850)


       Abstract:The era of big data has produced a series of large-scale gene expression data.Biologists can understand the rules of these gene expression data and the information carried by them through reasonable and appropriate processing of these data,so as to explore the information behind the data and understand the mechanism of disease pathogenesis.At present,many biological techniques can be used to measure gene expression,such as DNA microarray data,gene expression sequence analysis and so on.Biologists can obtain large-scale gene expression data through biotechnology.However,if these data are not processed,there will be a lot of impurities,strong sparsity,high noise and strong coupling.How to deal with these data correctly has become an important topic for teaching and scientific research workers.This paper introduces the concept and types of gene database,and introduces the data mining methods commonly used in database processing.

  Key words:genes;database;data mining


  一、数据库资源

  目前,市面上已经出现了诸多公共的与生物信息相关的数据库,且绝大多数的数据库可以免费使用。按照数据库的构成方式,其可以分为一级数据库和二级数据库。其中,一级数据库要求数据库中至少有一项信息来自第一手的实验数据,一般包括生物大分子的序列与结构方面的数据,且工作者要提供相应的注释等信息。一级数据库的内容比较全面、稳定,且有工作者对其进行不定时更新。常见的一级数据库(核酸数据库)有Genbank数据库、EMBL核酸数据库等[1]。二级数据库是指第二手数据组成的集合。在上述一级数据库的基础上,结合实验数据与理论分析,针对特定目标进行分析是进一步分析与整理数据库中的知识和信息的过程[2]。如今,市面上出现了各种不同类型的二级数据库,它们是根据特定的需求而形成的专门的数据库,包括人类基因组图谱库GDB等。一般而言,根据研究对象的不同,数据库可分为核酸数据库、RNA数据库、蛋白质数据库和生物通路数据库等。初学者和教学、科研工作者都可以根据自己感兴趣的方向搜索对应数据库,以便进一步细化研究。

\
 

  (一)核酸数据库

  众所周知,核酸数据库的数据量非常庞大。为了使基因组数据能尽快被科研人员获取,工作人员需及时补充、更新这些基因组数据。全球组织专门成立了相关机构专门处理这些数据。其中,最常用、也是最权威的核酸数据库有GenBank、EMBL和DDBJ[3]。为了方便研究,这些数据库的内容基本一致,只是在存储上(数据格式上)有所不同。工作人员只要采用一个算法,将不同的数据库进行转换,就能实现相同数据在不同数据库里的格式统一。(二)蛋白质数据库

  蛋白质数据库可以分为一级结构、二级结构、三级结构和四级结构。其中,一级结构一般包括UniProt/SwissProt、NCBI-Protein等;二级结构一般指预测和对应的实验;三级结构则是在二级结构的基础上加比对形成的。

  (三)基因表达数据库

  基因表达数据库是诸多教学工作者、科研工作者喜欢的一类数据库。其中,权威数据库包括微阵列数据仓库(GEO数据库)、微阵列公共知识库(ArrayExpress数据库)等。GEO数据库网站是http://www.ncbi.nlm.nih.gov/geo,目前存储了4348个数据集,能满足绝大多数教学、科研的需要[4]。

  (四)生物通路数据库

  生物通路数据对应的网站是http://www.pathguide.org/,教学工作者、科研工作者可以在该网站找到绝大多数的生物学通路,且可以检索感兴趣的数据库,查看其格式及上传时间等基本信息。

       (五)其他数据库

  目前,许多其他数据库被用于针对特定的功能、满足特定的特性的研究,常见的有蛋白质功能注释数据库(GO数据库)。

  国际上最著名的相关研究机构是美国国家生物技术信息中心,该网站涵盖的信息十分丰富,除分子生物学数据库外,还有一系列相关的检索工具。

  二、常用的数据挖掘方法

  (一)决策树法

  决策树法是给定已知的一系列方法、规则及数据,将规则应用到这些数据中,并对其进行分类的分类规则方法,是一种在已知条件下,通过计算可以得到确定值的树形结构,其能从一组无规则、无序的样本数据的集中推理中得出决策树的表示形式。

  (二)神经网络法

  神经网络方法是模拟生物神经系统的结构和功能,应用数学方法而产生的一种具有自学能力、高度并行计算机能力及容错处理能力的处理方法。这是一种能通过训练学习的非线性预测模型。它将每个连接作为一个处理单元,试图模拟人脑神经元,并能完成各种数据挖掘任务,如聚类、特征挖掘等。

       (三)遗传算法

  遗传算法是模拟自然选择和遗传学中发生的繁殖、交配和基因突变现象,基于遗传组合、遗传杂交和自然选择的机器学习方法。

  三、举例

  (一)数据来源

  在本研究中,笔者对全身性红斑狼疮疾病(SLE)进行研究,使用的微阵列数据集GSE61635,可以在GEO数据库搜索并获得。该数据集基于GPL570平台的HG-U133_PLUS_2,其中包括99个SLE血液样本和30个健康对照样品。

  (二)数据处理

  对于原始数据,工作人员需要运用R软件(版本4.0.2)进行处理与分析,并使用Limma软件包对预处理后的矩阵进行背景校正,将每个样本的中值进行标准化,然后,使用稳健的多芯片平均值,对原始数据的完美匹配进行对数转换。考虑到fdr<0.05和|log2(FC)|>1的差异表达基因(DEG),工作人员需要对这些差异表达基因分别使用GGPLOT2和热图进行处理。

\

  本研究可以从相对组织特异性基因中获得具有相关基因功能的特定基因的表达分析信息。为了筛选组织特异性的差异表达基因,本次研究使用了BioGPS数据库。如果满足以下所有标准,则可以映射到单个组织的高度组织特异性转录本:①其中的中位数表达高于所有其他组织的中位数表达30倍以上;②最高表达水平至少比第二高表达水平高三倍。

  接下来进行功能注释(GO)和KEGG通路分析。众所周知,在进行差异表达分析后,需要进行GO和KEGG通路分析。本次GO和KEGG通路分析是通过使用David 6.8在线数据库筛选出来的,且在P<0.05处设置了显着差异。

  (三)关键基因的确认

  关键基因的确认需要通过构建PPI网络完成,使用数据库String的识别构建PPI网络,且此处置信度得分设置为大于等于0.4。Cytoscape(版本号:v3.7.2)和CytoHubba插件(版本号:0.1)用于可视化和识别PPI网络。研究人员可以基于滤波算法(紧密度)获得前20个Hub基因,然后在此基础上描绘维恩图,以确认Hub基因和组织特异性基因之间的关键基因。

  在本次实验中,非常感谢工作组成员的合作(ELISA方法)。他们将SLE患者和正常受试者的数据以口头说明的形式告知了研究人员,并且收集了每位患者两毫升的血液,用EDTA聚集了抗原,在4℃下以2000rpm的离心速度,离心10分钟来收集血清样品,并根据制造商的说明,使用所有ELISA套件(CCL2,MMP9,GATA1和RSAD2)来进行检测。

  (四)分析

  为了探索这些患者的潜在治疗靶标,本次实验使用了生物信息学方法识别差异表达基因。接下来,笔者进行了组织特异性基因表达分析和富集分析法,构建了PPI网络,最后,使用ELISA验证了选定的Hub基因。因此,这项研究可能会显著提高患者的靶向治疗疗效,并丰富研究人员对其发病机理的理解。

  总的来说,本次的研究对象是99位SLE患者和30位正常人,且将GSE61635数据集中的微阵列数据标准化,按上述说明,设置了fdr<0.05和|log2(FC)|>1后,得到了584个差异表达基因。然后设置上述两个指标分别为0.005和3,提取出两组之间有19个显著表达的基因。

  以往的研究表明,大量基因与SLE相关。尽管如此,当前的SLE疗法的功效仍然有限。在这项研究中,研究人员从选定的数据集GSE61635中获得了584个差异表达基因。差异表达基因的富集分析(GO和KEGG通路分析)表明,它们主要参与血红蛋白com-plex的合成、免疫反应和金属肽酶活性的激活。与以前的研究相比,研究人员对差异基因表达进行了组织特异性分析,这能在一定程度上为更有效且有针对性的治疗剂的研发提供参考。结果表明,有110个差异表达基因参与了血液学系统、尿液/生殖器系统、神经系统、呼吸系统、皮肤系统、骨骼系统、骨骼肌系统、免疫系统、内分泌系统和循环系统。此外,Hub基因和组织特异性基因之间揭示了四个关键基因,包括CCL2、MMP9、GATA1和RSAD2。ELISA验证的统计结果表明,SLE组的CCL2,MMP9和RSAD2的水平显著增加。

  趋化因子是与细胞运输和炎症反应相关的小肽家族。目前,已经确定了大约50种不同的趋化因子,其中大多属于CC和CXC家族。单核细胞趋化蛋白-1(MCP-1或CCL2)是CC亚家族的原型。

  当然,本次研究也有一定的局限性。第一,它是在国内的一个中心进行的,地理位置相对局限。因此,研究结果需要在其他人群中进行进一步验证。第二,这项研究仅使用了一个数据集,并且需要用未来的研究数据验证其他数据集中的这些发现,因此,应进行进一步的大规模验证研究所得出的分子机制,以探索这些基因的作用。

  【参考文献】

  [1]Quinlan J.R.Induction of decision trees[J].Machine Learning,in Data:Goals and General Descrip?tion in Expert System,1986(2).

  [2]Gao Meihan,Cong Haibo,Li Chuancheng,et al.Comparison of Efficacy and Safety of Complementary and Alternative Therapies for Scapulohumeral

  Periarthritis:A Protocol for Bayesian Network Meta-analysis[J].Medicine,2021(18).

  [3]Chen Cheng,Chen Qiuwen,Li Gang,et al.A Novel Multi-source Data Fusion Method Based on Bayesian Inference for Accurate Estimation of Chlorophyll-a Concentration over Eutrophic Lakes[J].Environmental Modelling&Software,2021(4).

  [4]Ramos Daniel,Hereze-Ramirez Pablo,Toledano T.Doroteo,et al.Dynamic Bayesian Networks for Temporal Prediction of Chemical Radioisotope Levels in Nuclear Power Plant Reactors[J].Chemometrics and Intelligent Laboratory Systems,Available online 6 May,2021(5).
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!
 

文章出自SCI论文网转载请注明出处:https://www.lunwensci.com/jisuanjilunwen/47937.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 鄂ICP备2022005580号-2 | 网站地图xml | 百度地图xml