摘要:同源性是指在进化过程中源于同一祖先的分支之间的关系,包括直系同源和旁系同源。直系同源基因描述在不同物种中来自于共同祖先的基因,而旁系同源基因描述在同一物种内由于基因复制而分离的同源基因。同源性与相似性是两个不同的概念,前者是质的概念,后者突出量的描述,但它们之间又有一定关系,可以通过相似性来推测序列是否具有同源性。介绍了用BLAST进行序列同源性分析的方法。
关键词:同源性;直系同源;旁系同源;相似性;BLAST
中***分类号:G642.0 文献标志码:A 文章编号:1674-9324(2014)51-0184-02
在分子生物学的教学及研究中,经常对核苷酸或氨基酸序列进行比对以确定基因之间或蛋白质之间的同源关系,进而根据同源性来推测物种间的亲缘关系。基因或蛋白质之间的同源关系包括直系同源和旁系同源,序列间的同源性可用相似性或一致性来进行量化,用相似性(一致性)来判断序列是否同源。
一、同源性的概念
在生物学中,同源性(homology)是指在进化过程中源于同一祖先的分支之间的关系。我们可以在生物学的不同层次(如形态性状、分子性状等)上进行同源性分析,形态性状由于进行上或个体发育上的共同来源而呈现出本质上的相似性,但其功能不一定相同,那么它们就是同源的,如马的前肢与鸟的翅就是同源器官。在分子水平上同源性主要是指基因的核苷酸序列或蛋白质的氨基酸序列之间的相似程度。同源基因或蛋白质(homolog)指遗传上从某一共同祖先经趋异进化而形成的具有不同序列的基因或蛋白质。同源性是一个相对的概念,在一定水平和范围内对其研究才有意义[1]。
二、直系同源与旁系同源
同源关系包括两种类型:直系同源(ortholog)和旁系同源(paralog)。这里我们主要以同源基因为例来进行讨论,同源蛋白质是同样的情况。同源基因是遗传上来自某一共同祖先DNA序列的基因,包括直系同源基因和旁系同源基因。直系同源基因,又称直向或垂直同源基因,指的是这样一些基因,它们起源于这些基因所在物种的最近共同祖先的一个祖先基因。这些基因通常具有相同的功能,但并不是绝对的,当我们比较直系同源基因时,可能会发现有的基因失去了原来的功能或者进化出了新的功能[2-5]。因此,直系同源基因描述在不同物种中来自于共同祖先的基因。
旁系同源基因,又称横向或并行同源基因,指在一个特定的基因组中由于基因复制产生的同源基因。当我们比较旁系同源基因时,发现它们可能彼此具有了新的功能,也可能成为假基因了[2-4]。旁系同源基因描述在同一物种内由于基因复制而分离的同源基因。
如***1所示,祖先球蛋白基因(globin gene)经过复制后分离产生了α球蛋白和β球蛋白基因,这两类基因就是旁系同源基因。例如鼠的α球蛋白和β球蛋白基因、鼠的α球蛋白和鸡的β球蛋白基因、鼠的α球蛋白和蛙的β球蛋白基因,它们之间的关系分别是旁系同源基因。鼠、鸡、蛙的α球蛋白基因;鼠、鸡、蛙的β球蛋白基因,它们分别是直系同源基因。
三、同源性与相似性
在分子生物学的教学及一些论文中,我们发现在使用相似性和同源性这两个术语时,经常是混淆不清的,而实际是它们是两个不同的概念。同源序列指从某一共同祖先经趋异进化而形成的不同序列[6],序列间有共同的祖先。相似性是指在对DNA或蛋白质序列比对过程中,用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基所占比例的多少[7]。当序列相似性程度高于50%时,比较容易推测检测序列和目标序列可能是同源序列;而当相似性低于20%时,就难以确定序列间是否具有同源性[6]。同源性描述质的概念,而相似性突出量的描述,是对同源性的量化指标。我们可以说A基因与B基因的相似性为90%,进而推测这两个基因具有同源性,但不能说A基因与B基因的同源性为90%。譬如“序列具有90%的同源性”或“这些序列高度同源”等说法,都是不确切的,应避免使用这样的叙述。
四、序列相似性比较和同源性分析
1.序列相似性比较。就是将检测序列与目标DNA(核苷酸)或蛋白质(氨基酸)序列库进行比较,确定检测序列的生物属性,也就是找出与此序列相似的已知序列是什么。完成这个工作需要进行两两比较,常用的程序包有BLAST、FASTA等。序列同源性分析是将检测序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其他序列间的相似性大小。常用的分析工具有Clustal、BioEdit和MEGA等生物软件。
2.利用BLAST进行序列同源性分析。BLAST是Basic Local Alignment Search Tool的缩写,即是“局部相似性基本查询工具”,序列局部相似性比较,可以由局部相似得出两序列可能有相同功能或功能相关,通过相似性再确定其同源性。BLAST是由美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)开发的一个基于序列相似性的数据库搜索程序,包含了很多***的程序,这些程序是根据查询对象和数据库的不同来定义的。BLAST比对结果会列出与查询序列相似性较高、符合限定条件的序列,通过这些信息可以推测该查询序列可能具有某种生物学功能,或可能来源于某个物种,或可能是某个功能基因的同源基因等。
以家蚕膜结合海藻糖酶(GenBank登录号:BAE45249)为例说明用BLAST***进行序列同源性分析的步骤。家蚕膜结合海藻糖酶(Tre-2)由642个氨基酸残基组成。第一步,登录BLAST主页http://blast.ncbi.nlm.nih.gov/Blast.cgi,选择程序,现在查询的是蛋白质序列,可以选择blastp或tblastn。如果查询的是核酸序列,选择blastn,或blastx、tblastx。第二步,在“Enter Query Sequence”下面的框中输入登录号或序列,搜索数据库选nr(非冗余蛋白质序列库),然后点“BLAST”开始搜索。第三步,查看和分析结果。在搜索结果页面,上面是***形结果,显示保守区域***以及与查询序列相匹配的序列分布***;下面是匹配序列的列表,按相似性从高到低排列。家蚕膜结合海藻糖酶与草地夜蛾(S.frugiperda)海藻糖酶氨基酸序列的相似性为81%,可以推测它们具有同源性。
参考文献:
[1]山红艳.形态性状、分子性状与同源性[J].植物学通报,2007,24(1):71-79.
[2]Fitch WM.Distinguishing homologous from analogous proteins[J].Syst Zool,1970,19(2):99-113.
[3]Sonnhammer EL,Koonin EV.Orthology,paralogy and proposed classification for paralog subtypes[J].Trends Genet,2002,18(12):619-620.
[4]LiWH,Yang J,Gu X. Expression divergence between duplicate genes[J].Trends Genet,2005,21(11):602-607.
[5]杨婧,黄原,汪晓阳.直系同源基因的识别方法与数据库[J].生命科学研究,2013,17(3):274-277.
[6]赵国屏.生物信息学[M].北京:科学出版社,2003:70-117.
[7]宋亚珍,南红梅,刘枫,等.同源生、一致性和相似性的辨析[J].中国科技术语,2011,(2):48-50.
转载请注明出处学文网 » 关于分子生物学中的同源性分析