骆星宇
美国乔治梅森大学研究生 22030
摘要:生物信息学是一个跨领域学科,其领域涵盖了:计算机科学、数学、统计学、生物学等学科,在所有生物学发展的今天,生物信息学起到了至关重要的作用,它为其他生物学科提供了处理大数量级的生物数据的工具以及可应用的软件。蛋白质组学作为“组学”(Omics)之一是基于现代快速累积的生物数据而产生的专业学科,在其基本的蛋白质相关研究中离不开生物信息学技术的支持。本文就生物信息学技术在蛋白质结构预测分析中的发展和应用做出综述。
关键词:生物信息学;蛋白质组学;蛋白质结构功能;预测分析
1前言
“蛋白质组学”这一概念在大量测序数据的推动下,于1995年首次被提出,意指从微观的细胞到宏观的生物体中,所有的蛋白质[1]。在这之后,科学家们重新定义了蛋白质组学,经典的定义是将基因产物的大规模分析限制在蛋白质水平,相对宽泛的定义则是将蛋白质研究与具有遗传意义的分析结合,例如基因组学,酵母双杂交,mRNA分析。[1-3]
2生物信息学在蛋白质组学研究中的进展
2.1蛋白质序列
蛋白质序列是蛋白质组学研究的基础之一,大量积累的蛋白质序列数据也为后来出现的机器学习算法提供了大量的训练数据集。蛋白质序列主要有两个来源:(1)由基因组序列计算注释获得;(2)由测序直接获得。其中蛋白质的测序主要有质谱法和Edman降解法。质谱法是应用最广的测序方法,相较于Edman降解法通量限制的缺点,质谱法的效率显著提高,并能发现蛋白质结合位点及翻译后修饰情况。最近科学家们提出了为了能够突破测序容量限制的单分子蛋白测序技术。[3]
2.2 蛋白质数据库
蛋白质相关数据快速积累,使得人们不得不借用计算机的处理能力去构建数据库以处理和使用不同功能的数据库,其中包括基于蛋白质序列的数据库,基于蛋白质结构的数据库,以及基于蛋白质同源性的家族数据库等。
2.1.1蛋白质序列数据库
在多样的蛋白质序列数据库中,不同的数据库具有不同的侧重。其中最为广泛应用的是UniProt[5],它在相对于其他数据库的优势在于,以人工或与其他数据库集成的方式在冗余度极低的情况下提供了较多的注释。[4] UniProtKB主要由三个部分组成:(1)Protein knowledgebase, 包括了Swiss-Prot和TrEMBL。Swiss-Prot 是通过人工进行蛋白质注释和审查,TrEMBL则是自动注释; (2) UniRef,通过序列聚类对蛋白质相似性进行检索; (3) UniParc,序列存档以便于对其序列和存储编号进行追查。
大部分序列数据库都有序列检索工具并且能够交叉引用其他的蛋白质数据库和基因数据库的条目。例如,The National Center for Biotechnology Information (NCBI; http://www.ncbi.nlm.nih.gov) 也提供了多样的蛋白质序列信息和工具。以nr 数据库作比对的Blast为例,它将包含来自于GenBank的无冗余翻译,UniProt, Protein Identification Resource (PIR), Protein Research Foundation (PRF),以及Protein Data Bank (PDB) 的完全相同的词条。
2.1.2蛋白质结构数据库
随着生物医学以及生物制药的快速发展,蛋白质的三维结构的作用也不仅限于蛋白质功能的阐述,同时也在药物研发生产中起到了重要作用。PDB(http://www.rcsb.org/pdb/)是国际唯一通用的蛋白质结构处理和分配的数据库。其蛋白质结构实验数据来源于X射线晶体衍射,核磁共振,电子显微镜等。其中X射线晶体衍射是PDB数据的最主要的来源。 [4] 同时,由于其政策的改变,从2002年起理论模型被从PDB中移除,即PDB中只储存了由实验得到的模型。当浏览器装有Jmol或PDB SimpleViewer等渲染工具时,PDB支持用户交互式地查看分子结构模型,并可以根据研究目的选择符合要求的模型表现形式,如二级结构卡通,球体,球棍模型等。
2.1.3蛋白质家族数据库
蛋白质由一个或多个蛋白质结构域所组成的,从结构、功能、进化的角度去聚类蛋白质是具有重要意义的,它有助于新测序蛋白质的功能和折叠的定义。[6] 当前聚类的方式是采用蛋白质序列的全序列比对的相似性图,图属性用于推断同源蛋白质或域的簇的边界。
蛋白质家族数据库根据聚类的对象被分为:基于序列,基于结构以及基于功能的蛋白质家族数据库。常用的基于序列的蛋白质家族数据库有Pfam,ProDom等;基于结构的蛋白质家族数据库有SCOP (Structural Classification of Proteins);基于功能的蛋白质家族数据库ENZYME data bank,Catalytic Site Atlas等。
3蛋白质的预测分析
生物信息学为蛋白质的相关预测及分析提供了大量的工具,ExPASy为各类蛋白质的预测分析提供了工具https://www.expasy.org/tools。虽然这个网页数据已经不再更新,但是网页内的外部资源任然在蛋白质组学中被广泛应用。其中,PROSITE数据库被广泛应用,它的词条涵盖了蛋白质结构域,家族,结构功能以及相关模板,这样使得人们可以通过检索快速地对未知功能蛋白进行功能位点的分析以及模体的搜索。
3.1 蛋白质一级结构翻译后修饰的预测
翻译后修饰在几乎所有的蛋白质中都会发生,例如甲基化,糖基化,硫酸化等。被修饰后的蛋白质其结构和功能都会受到很大影响,也大大增加了蛋白质组的多样性,进一步了解修饰后的靶向蛋白质将加深我们对蛋白质分子水平理解。[11]
预测工具大多按照翻译后修饰的种类进行开发,目前预测工具主要依靠机器学习中的神经网络,其原理简言之就是用包含确定的翻译后修饰的蛋白质序列,可能发生翻译后修饰的序列,以及一定不会发生翻译后修饰的序列作为训练集,通过梯度法获取可以使训练集的各个维度被正确归类的权重,最终构建出训练完成的预测工具。在实际应用中,氨基酸序列可以被编码为2进制的数据,并结合其他被编码为二进制的氨基酸的性质,如电荷。这些2进制的数据可作为多层感知器模型输入神经元。[12] 常用的翻译后修饰工具同样可以在ExPASy工具网站上在线使用。
3.2 蛋白质二级结构的指定及预测
3.2.1 蛋白质二级结构的指定
蛋白质二级结构的指定和三级结构是密不可分的,我们只能在已知三维结构的前体下,进行二级结构分配。就二级结构本身而言,它是为了描述空间结构中的局部共性特征而人为定义的。决定二级结构的基本因素是氢键,由主链氨基上的氢原子和主链羧基上的氧原子构成。[8] 二级结构的分类也因为算法的不同给出了不同的定义。常见的有DSSP, DEFINE, STRIDE,其中DSSP是最为广泛应用的,其算法原理是基于蛋白质骨架上非相邻残基间的空间距离,以及所形成的二面角的角度。[7,8] 在用已知二级结构数据训练下得出的蛋白质二级结构指定工具。
3.2.2 蛋白质二级结构的预测
蛋白质二级结构的预测发展至今有了近40年,基于三种状态的蛋白质二级结构(α螺旋, β链和 无规则卷曲,即除螺旋和折叠外的其他结构),预测工具的准确度从早期的不到50% 到如今超过80%。[14] 高准确度的算法不仅仅是基于氨基酸序列本身,同时也基于已知三维结构的同源注释蛋白质。需要注意的是这里的准确度是与蛋白质二级结构指定的数据进行对比,这代表了算法一定程度上的局限。 蛋白质二级结构预测的算法可以概括性的分为两类:基于知识的统计学方法和基于氨基酸性质的立体化学方法。
蛋白质二级结构预测的算法是建立在氨基酸聚类上的, P. Y. Chou and G. D. Fasman最早提出了Chou-Fasman Algorithm [15], 他们建立在四种状态的二级结构分类(α螺旋, β链,β转角和无规则卷曲)上的算法,由于β转角难以被精确预测,当今算法将其归为了无规则卷曲的一部分。目前主要的预测工具都是基于多层神经网络的机器学习算法,其中Jpred是应用最广泛的工具[13],它应用了Jnet算法,相较其他算法,Jnet的特点是将输入氨基酸序列与数据库的大量同源列并进行多重序列比对,得到了预测的结构,然后将结果再次作为输入从而得到更好的预测结果。
这样做可以避免一些系统上无法被辨别的误差,例如α螺旋的长度问题,在分子水平上,我们知道形成一个α螺旋结构需要至少6个残基长度的模板,这样才能够形成2个氢键以稳定螺旋结构,如果仅从序列直接预测结构那么这些分子生物学上的特征将变得复杂难以定义权重。
3.3 蛋白质三级结构模型预测
蛋白质三级结构的预测主要是基于“折叠漏斗(Folding funnel)”理论[16],旨在寻找全局能量较低且稳定的自然态,该理论在应用过程中需要解决两个主要问题,计算蛋白质的自由能以及找到全局的自然态能量点。目前的预测方法可分为:基于能量计算的计算机模拟,基于已知结构数据的方法和Threading法。
计算机模拟的工具软件有ECEPP,AMBER,CHARMS等,根据酶动力学和分子力学,以计算出能量最低的稳定自然态,这些工具也常常被应用与药物开发中的分子模拟实验中。[17] 由于全局能量最低点不一定是蛋白质的自然态能量点,例如β-淀粉样蛋白,使得在算法的设计上需要有更多的考量。基于已知结构的方法,是通过与模板序列进行比对并根据两者间的同一性进行模型构建。Threading法是以尽可能低的能量对输入序列进行模板检索。
结束语:从生物数据的积累,到生物数据的解析,生物信息学在不断的更新进步,如果说蛋白质组学的研究是对生命活动基本单元的解析,那么生物信息学就是这项研究提供前置条件的最重要的工具。
参考文献:
[1] P. R. Graves and T. A. J. Haystead, “Molecular Biologist’s Guide to Proteomics,” Microbiol. Mol. Biol. Rev., vol. 66, no. 1, pp. 39–63, Mar. 2002, doi: 10.1128/mmbr.66.1.39-63.2002.
[2] A. Pandey and M. Mann, “Proteomics to study genes and genomes,” Nature, vol. 405, no. 6788. Nature Publishing Group, pp. 837–846, Jun. 15, 2000, doi: 10.1038/35015709.
[3] L. Restrepo-Pérez, C. Joo, and C. Dekker, “Paving the way to single-molecule protein sequencing,” Nature Nanotechnology, vol. 13, no. 9. Nature Publishing Group, pp. 786–796, Sep. 01, 2018, doi: 10.1038/s41565-018-0236-6.
[4] D. Xu and Y. Xu, “Protein databases on the internet.,” Curr. Protoc. Mol. Biol., vol. Chapter 19, p. Unit, 2004, doi: 10.1002/0471142727.mb1904s68.
[5] R. Apweiler et al., “Ongoing and future developments at the Universal Protein Resource,” Nucleic Acids Res., vol. 39, no. SUPPL. 1, Jan. 2011, doi: 10.1093/nar/gkq1020.
[6] Uversky, V. (2014).?Protein families: relating protein sequence, structure, and function. John Wiley & Sons.
[7] N. Blom, T. Sicheritz-Pontén, R. Gupta, S. Gammeltoft, and S. Brunak, “Prediction of post-translational glycosylation and phosphorylation of proteins from the amino acid sequence,” Proteomics, vol. 4, no. 6. John Wiley & Sons, Ltd, pp. 1633–1649, Jun. 01, 2004, doi: 10.1002/pmic.200300771.
[8] Y. Zhang and C. Sagui, “Secondary structure assignment for conformationally irregular peptides: Comparison between DSSP, STRIDE and KAKSI,” J. Mol. Graph. Model., vol. 55, pp. 72–84, Feb. 2015, doi: 10.1016/j.jmgm.2014.10.005.
[9] Frishman, D., & Argos, P. (1995). Knowledge‐based protein secondary structure assignment.?Proteins: Structure, Function, and Bioinformatics,?23(4), 566-579.
[10] Eisenhaber, B., & Eisenhaber, F. (2010). Prediction of posttranslational modification of proteins from their amino acid sequence. In Data Mining Techniques for the Life Sciences (pp. 365-384). Humana Press.
[11] Xue, Y., Liu, Z., Cao, J., & Ren, J. (2011). Computational prediction of post-translational modification sites in proteins. Yang NS, Ed, 105-124.
[12] G. Bologna, C. Yvon, S. Duvaud, A.-L. Veuthey. N-terminal Myristoylation Predictions by Ensembles of Neural Networks. Proteomics. 2004 Jun;4(6):1626-32.
[13] Drozdetskiy, A., Cole, C., Procter, J., & Barton, G. J. (2015). JPred4: a protein secondary structure prediction server.?Nucleic acids research,?43(W1), W389-W394.
[14] Dor, O., & Zhou, Y. (2007). Achieving 80% ten‐fold cross‐validated accuracy for secondary structure prediction by large‐scale training.?Proteins: Structure, Function, and Bioinformatics,?66(4), 838-845.
[15] P. Y. Chou and G. D. Fasman, “Prediction of Protein Conformation,” Biochemistry, vol. 13, no. 2, pp. 222–245, Jan. 1974, doi: 10.1021/bi00699a002.
[16] Socci, N. D., Onuchic, J. N., & Wolynes, P. G. (1998). Protein folding mechanisms and the multidimensional folding funnel.?Proteins: Structure, Function, and Bioinformatics,?32(2), 136-158.
[17] P. Kumar, S. Halder, and M. Bansal, “Biomolecular structures: Prediction, identification and analyses,” in Encyclopedia of Bioinformatics and Computational Biology: ABC of Bioinformatics, vol. 1–3, Elsevier, 2018, pp. 504–534.