基于多组学数据的基因调控网络构建方法研究

发表时间:2021/6/10   来源:《中国科技信息》2021年7月   作者:黄雅玲
[导读] 在生物体内,几乎所有的细胞活动和功能都受到基因调控网络的控制。对基因调控网络的研究,为更深入地了解基因转录、翻译机制过程、疾病形成、药物设计等提供可能。针对大部分数据融合方法在基因调控网络构建问题上存在对多组学数据的个体差异性信息和整体整合信息建模不够的问题。

1.西南大学计算机与信息科学学院,黄雅玲1  400715

摘  要:在生物体内,几乎所有的细胞活动和功能都受到基因调控网络的控制。对基因调控网络的研究,为更深入地了解基因转录、翻译机制过程、疾病形成、药物设计等提供可能。针对大部分数据融合方法在基因调控网络构建问题上存在对多组学数据的个体差异性信息和整体整合信息建模不够的问题。本文提出一种基于集成神经网络的方法,同时对单个数据个体独立信息和整合所有数据得到的整体信息建模,利用不同数据的互补信息与不同模型之间的互补信息构建更优的基因调控网络。
关键词:基因调控网络;多组学数据;神经网络;数据融合
中图分类号:     文献标识码:A
Research on Methods for Gene Regulatory Networks Construction Based on Multi-omics Data
Huang Yaling 1
(1. College of Computer and Information Science Southwest University, Chongqing 400715, China)
Abstract: In organisms, almost all cell activities and functions are controlled by gene regulatory networks. The study of gene regulatory networks provides the possibility for a deeper understanding of gene transcription, translation mechanism, disease formation, drug design, etc. Most data integration methods have insufficient modeling of individual difference information and overall integration information of multi-omics data in the construction of gene regulatory networks. In this paper, an approach based on integrated neural networks is proposed to model both the independent information of a single data individual and the overall information obtained by integrating all the data, and to construct a better gene regulation network by using the complementary information of different data and the complementary information between different models.
Key words: Gene regulatory network; Multi-omics data; Neural network; Data integration
        0 引言
        基因调控网络在生物的生命进程中发挥着十分重要的作用[1]。正确识别基因调控关系,推断细胞内真实的基因调控网络,有助于人们了解细胞的内部调控规律,对揭示细胞内基因的相关功能机制具有重要意义[2]。大数据时代下,海量生物组学数据涌现,不同类型的组学数据能为构建基因调控网络提供互补的信息,整合多种生物数据的方法在构建基因调控网络问题上整体会比仅仅使用单个数据的方法获得更多的关于问题的指导信息[3]。数据的整合策略一般都是将多源数据的特征直接融合成一个整体特征后输入模型进行学习[4],或者是将多个数据特征通过模型嵌入进行融合[5]。由于不同层面的组学数据可能蕴含着一个特有的关于基因调控网络的独立见解,直接将各组学数据特征融合成一个整体特征可能会将每种数据的个体独特信息覆盖掉。而通过模型嵌入不同数据特征进行融合的方法对多源数据的整体信息把控不够。因此,大部分数据融合方法存在对多源数据的独立个体信息或整体信息建模不够的问题。
        基于上述分析,为构建更准确的基因调控网络,本文将蛋白质序列数据、启动子序列数据、CDS (Coding Sequence)数据等静态数据与动态的基因时间序列表达数据结合,基于机器学习中的二分类问题的思想建模问题,通过对转录因子(Transcription Factor, TF)与目标基因(Target Gene, TG)之间的调控关系进行预测从而推断基因调控网络。本文提出一种基于集成神经网络的基因调控网络构建方法-INNs(Integrated Neural Networks),通过不同神经网络模型集成转录因子-目标基因对(TF-TG)的不同数据源的个体差异信息和整体信息,利用数据互补与模型互补预测调控关系,构建更准确的基因调控网络。
        1多组学数据特征提取
        1.1基因表达数据特征
        对于基因的时间序列表达数据,首先是筛选出数据缺失率不超过5%的基因数据,然后对筛选出的数据中还存在缺失值的基因时间序列表达数据进行填充。这里采用的数据填充方式是填充序列数据中的上一个值或者下一个值。最后每个基因的时间序列表达数据可以用如下向量进行表示:


        对于每一对TF-TG,可以得到其时序表达数据特征:


        1.2蛋白质序列数据特征
        蛋白质序列是由20种不同的氨基酸组成的,这里我们采用了Shen等人[6]提出的联合三元组(Conjoint triad, CT)方法对蛋白质序列数据进行编码处理。进行CT编码处理后每条蛋白质序列可以用一个343维向量Dpep表示。对于每一对TF-TG,可以得到其蛋白质数据特征:


        1.3启动子序列数据特征
        启动子序列数据是由核苷酸序列组成的,在生物学中,连续排序的三个核苷酸被称为一个密码子。这里我们采用密码子频数编码方式进行编码,每条启动子序列可以用一个64维向量表示Dprom。对于每一对TF-TG,可以得到其启动子数据特征:


        1.4CDS数据特征
        CDS数据同样采用密码子频数编码方式进行编码,每条CDS可以用一个64维向量Dcds表示。对于每一对TF-TG,可以得到其CDS数据特征:


        1.5整体数据特征
        通过合并转录因子的时间序列数据特征向量、蛋白质数据特征向量、启动子数据特征向量和CDS特征向量我们可以得到一个转录因子的整体生物数据特征表示:

        同样,对于每一个目标基因也可以得到这样一个整体的生物数据特征表示向量Atg。对于每一对TF-TG,可以得到其整体数据特征:


        2集成神经网络模型


Fig. 1  Flowchart of INNs Predicts Gene Regulatory Relationship
       文本提出的方法的流程示意图如图1所示。多层神经网络模型能够从原始的生物学数据中自动地学习和提取数据特征,因其结构特点还能得到数据的不同层次表示,并且,在海量规模数据的处理上要优于其他的机器学习方法。由于加入了时间序列数据,引入数据动态特征,本文使用神经网络中的长短期记忆人工神经网络LSTM作为集成模型中的基础分类器。不同数据特征采用不同参数设置的LSTM,从而保证集成学习分类器的多样性。
       集成学习方法可以组合多个弱学习器以得到一个更准确和鲁棒的强学习器模型[7]。但是集成模型比单一模型更可能出现训练数据过拟合的风险,在实验中为了降低模型过拟合,对于每个LSTM,我们利用了BN(Batch Normalization)[8]和Dropout[9]技术,此外,我们使用了Adam算法[10]和小批量梯度下降策略[11]来加速模型的训练。最后,本文使用了批标准化的方法减小模型对初始化参数的依赖性。模型的交叉熵损失计算公式如下:

        其中N表示模型训练过程中每个批次输入的TF-TG对数目,h表示LSTM搭建的深度。w表示权重矩阵,b表示偏置矩阵。x表示批次的训练输入,H表示隐藏层的输出,y表示对应的期望输出。表示激活函数Sigmoid,表示激活函数ReLu。
        3实验结果与分析
        3.1数据集
        本文在玉米数据集上进行基因调控预测,玉米的基因时间序列表达数据可以从文献[12]的支持文件中获取。玉米的蛋白质序列数据、启动子序列数据和CDS数据可以从PlantTFDB(Plant Transcription Factor Database)[13]上下载。转录因子和目标基因的调控关系可以从PlantRegMap(Plant Transcriptional Regulatory Map)[14]上获取。
        4.2评价度量
        本文采用分类预测问题中常用的评价指标:准确率、召回率、马修斯相关系数和F1-Score作为方法的评价度量,分别从不同角度评价调控网络的预测精度。
        令:TP表示正确预测为正例的TF-TG对数量;FP表示错误预测为正例的TF-TG对数量;FN表示错误预测为反例的TF-TG对数量;TN表示正确预测为反例的TF-TG对数量。上述4个评价指标可以通过以下公式计算:


        4.3实验结果分析
        为了全面评估模型,本文选取回归分类问题中常用的经典算法——逻辑回归(Logistic Regression, LR)、支持向量机(Support Vector Machine, SVM)[15]和随机森林(Random Forests, RF)[16]作为对比方法。实验中,我们采用网格搜索法寻找方法的最优参数,表1中展示了本文方法和对比方法在玉米数据集上的实验结果。


 
        从表1中可以发现我们的方法在真实玉米数据集上的准确率均值为75.21%、召回率均值为71.73%、MCC的均值50.50%、F1的均值为74.15%,这4个评价度量上的实验结果都超过其他对比方法,证明了本文方法的有效性。
       为了比较不同数据融合策略对实验结果的影响,本文设计了两个实验,一个是INNs-C,另一个是INNs-S。INNs-C利用拼接所有数据的个体特征后的得到的转录因子-目标基因对的整体特征输入一个LSTM进行训练并预测调控关系,不使用数据的独立个体特征。INNs-S则是将、、和这4个数据特征输入4个不同的LSTM进行训练,最后集成不同LSTM的结果得到最终调控关系预测结果。INNs-C、INNs-S与INNs的实验结果对比情况如图2所示。

Fig. 2  Prediction Performance Comparison of INNs-C, INNs-S and INNs
        从图2我们可以发现,同INNs-C和INNs-S相比,INNs的性能最好。INNs-C的实验结果在3个方法中最差,准确率、召回率、MCC和F1分别只有72.01%、69.13%、44.05%和71.00%,这是因为INNs-C仅使用了单个模型提取数据的整体特征信息,对不同数据源的个体差异信息建模不够。INNs-S的性能显著由于INNs-C,且与INNs相差较少,主要是因为INNs-S使用不同LSTM提取不同数据特征进行融合,利用了数据信息的互补和模型的互补性,INNs-S仅比INNs少考虑了一个数据整体信息。上述实验结果证明INNs利用不同数据源的个体信息和多源数据的整体信息的有效性。
        4总结
        针对大部分数据整合方法在数据信息上的整体和个体信息建模不够的问题,本文提出一种基于多组学数据的集成神经网络模型,通过不同神经网络模型集成不同数据源的个体差异信息和整体信息,利用数据互补与模型互补对转录因子和目标基因之间的调控关系进行更准确的预测。实验结果显示,本文提出的方法总体效果高于其他对比方法,利用数据互补和模型互补可以有效提升模型的预测能力。
参考文献
[1]Defoort J, Van de Peer Y, Vermeirssen V. Function, dynamics and evolution of network motif modules in integrated gene regulatory networks of worm and plant[J]. Nucleic Acids Research, 2018, 46(13): 6480-6503.
[2]Yu X, Gao H, Zheng X, et al. A computational method of predicting regulatory interactions in Arabidopsis based on gene expression data and sequence information[J]. Computational Biology and Chemistry, 2014, 51: 36-41.
[3]孟军,周广博,黄楚冰. 基于多特征融合的基因调控网络构建方法研究[J]. 小型微型计算机系统, 2016, 37(4): 743-747.
[4]Petralia F, Wang P, Yang J, et al. Integrative random forest for gene regulatory network inference[J]. Bioinformatics, 2015, 31(12): i197-i205.
[5]Wani N, Raza K. Integrative approaches to reconstruct regulatory networks from multi-omics data: a review of state-of-the-art methods[J]. Computational Biology and Chemistry, 2019, 83: 107120.
[6]Shen J, Zhang J, Luo X, et al. Predicting protein–protein interactions based only on sequences information[J]. Proceedings of the National Academy of Sciences, 2007, 104(11): 4337-4341.
[7]Rokach L. Ensemble-based classifiers[J]. Artificial intelligence review, 2010, 33(1): 1-39.
[8]Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. ArXiv Preprint ArXiv:1502.03167, 2015.
[9]Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[10]Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. ArXiv Preprint ArXiv:1412.6980, 2014.
[11]Cotter A, Shamir O, Srebro N, et al. Better mini-batch algorithms via accelerated gradient methods [C]. Proceedings of the 24th International Conference on Neural Information Processing Systems, 2011: 1647-1655.
[12]Yi F, Gu W, Chen J, et al. High temporal-resolution transcriptome landscape of early maize seed development[J]. The Plant Cell, 2019, 31(5): 974-992.
[13]Jin JP, Tian F, Yang DC, Meng YQ, Kong L, Luo JC and Gao G. PlantTFDB 4.0: toward a central hub for transcription factors and regulatory interactions in plants[J]. Nucleic Acids Research, 2017, 45(D1): D1040-D1045.
[14]Tian, F., Yang, D.C., Meng, Y.Q., Jin, J. and Gao, G. PlantRegMap: charting functional regulatory maps in plants[J]. Nucleic Acids Research, 2020, 48(D1): D1104-D1113
[15]Cortes C, Vapnik V. Support-vector Networks[J]. Machine Learning, 1995, 20(3): 273-297.
[16]Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5–32.
作者简介:
黄雅玲(1997-)  女,四川,硕士,主要研究方向:生物信息、机器学习。

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: