1990年,著名的人类基因组测序计划(Human Genome Project,HGP)正式启动,从此揭开了基因组时代的序幕。截至2006年8月,美国国立生物技术信息中心(NCBI,National Center for Biotechnology Information)收录的已完成基因组测序的物种数目为389个,正在进行序列拼接且测序完成的有341个,另外还有463个物种正在进行测序。
基因组测序的完成,为我们提供了生命的第一套密码。从基因组数据中提取蕴藏的大量信息,阐明千变万化的生命现象,是生物学家所面临的更大挑战。众所周知,生命活动的基本单位是细胞,人体中数百种细胞分工合作,形成各种组织和器官,最终组合成一个完整的个体。
生物体中,每个细胞内都有一套完整的基因组,为实现正常生物功能,生物体在不同环境、不同发育阶段,选择不同基因适度表达。即使是最简单的生物也有数百个基因,这些基因遵循一定的表达调控机制,依照特定的时空顺序进行有序的表达。在一个特定的时刻,一个特定细胞中所有表达基因的组合,最终限定了这个细胞的生物学功能。转录组学(Transcriptomics)着重研究高度复杂精确的基因表达调控过程。通过对不同细胞类型之间表达模式差异的研究,转录组学试***从动态的角度刻画出一幅生命活动的“动画”。
随着基因组数据的增长,DNA芯片(DNA Chip)技术得到广泛应用。DNA芯片也称基因芯片(Gene Chip)、生物芯片(Biochip)或微阵列(Microarray)。20世纪90年代中叶DNA芯片技术出现前,传统分子生物学技术通常只能同时对少数几个基因的表达情况进行研究。决定生物形态或某种生物现象通常是成百上千的基因共同作用的结果,作为一种能够获得大量基因表达***谱的高通量技术,DNA芯片应运而生。
一、 DNA芯片原理
DNA芯片的基本原理与生物学中Southern杂交等实验技术相似,都是利用DNA双螺旋序列的互补性,即两条寡聚核苷酸链以碱基之间形成氢键配对(A与T配对,形成两个氢键;G与C配对,形成三个氢键)。DNA芯片通常以尼龙膜、玻璃、塑料、硅片等为基质材料,固着特定序列DNA单链探针(Oligo),并与被检测序列单链cDNA序列互补结合(通常称杂交)。被检测序列用生物素或荧光染料标记,通过荧光染料信号强度,可推算每个探针对应的样品量。一张DNA芯片,可固着成千上万个探针,具体数目则取决于芯片设计和制备方法。
根据制备方法,DNA芯片主要可以分成三类:
1) 利用机械装置将cDNA序列或者其他PCR产物点在芯片上作为探针;
2) 利用机械装置将事先合成的寡核苷酸链序列点在芯片上作为探针;
3) 不事先合成寡核苷酸链,而直接在芯片上通过原位合成技术同时合成所有探针。
后两种方法,需要综合考虑探针的灵敏性(Sensitivity)和特异性(Specificity),避免非特异性杂交干扰结果;此外还需要考虑GC含量以及退火反应温度,以保证整个芯片可在相同条件下进行杂交实验,所有探针都有比较一致的杂交效率。不同方法生产的芯片探针长度不一,Affymetrix公司的芯片采用短探针,只有25个核苷酸;而NimbleGen公司所用探针相对较长,可达70个核苷酸。一般来说原位合成芯片可在同一张芯片内容纳更多探针。
除Affymetrix公司生产的芯片外,其他芯片多采用双色杂交系统,即使用Cy5(红)和Cy3(绿)两种染料分别标记所比较两种样品的cDNA序列,然后杂交至同一芯片。实验结果扫描输入计算机,通过染料荧光强度,可间接比较两种样品表达量高低。在一张芯片同时杂交两种样本,可减少用不同芯片所带来的系统误差。
二、 DNA芯片的应用
(一)传统基因表达芯片
传统基因芯片常用于检测一组细胞中全部基因在特定时刻的表达谱。换言之,基因表达产生的mRNA含量,就是DNA芯片要检测的指标。通过将提取的总mRNA反转录为cDNA并杂交到具有不同基因探针的DNA芯片上,就可得到不同基因在不同条件、不同发育阶段下的表达情况。
通过比较不同条件下的基因表达谱差异,可发现与某种疾病或者特殊处理相关的特定类型基因,并可进一步用于临床诊断或基因工程等。目前,基因表达芯片已广泛用于各个方面,如在医学研究中比较肿瘤细胞与正常细胞间、动物服用药物前后等不同情况下基因表达差异,在植物学研究中研究抗旱、抗病种系与普通种系的基因表达差异等。以双色DNA芯片系统进行基因表达量检测实验为例,一般DNA芯片实验步骤包括以下几步。
1) 准备杂交样品,一般分别从样品细胞和对照细胞中提取。
2) 提取的mRNA通过反转录得到更稳定的cDNA,这个过程中分别对样品细胞和对照细胞加入不同荧光染料(双色芯片实验)或者生物素(单色芯片实验)进行标记。
3) 两种样品同时杂交到制作好的芯片上,芯片上每个点都与分别标记有两种不同荧光的样品竞争结合。
4) 通过激光扫描仪器可以获得每个点的荧光强度,荧光强度范围为0~65536(216)。这个步骤中应注意实际荧光强度测量值是可以调节的,应该有意识控制大多数样品荧光强度处在总体范围中间偏上位置,太高易产生太多过饱和值,强度超过上限(通常为65536),扫描仪器无法测量;太低则容易受随机误差干扰。例如,若随机误差强度为50,则信号强度为100,则信噪比过低;反之,若信号强度为10000,信噪比大大加强。
5) 整合两种不同颜色强度可得到虚拟***谱,绿色点表示处理后的细胞中该基因表达量高,红色点反之,黄色点表示处理前后表达水平相当,而黑色点则说明两个颜色标记的样品均无表达,如***1所示。
***1右下角为一张DNA芯片扫描结果,左上角为局部放大。绿色点表示处理后的细胞中该基因表达量高,红色点反之,黄色点表示处理前后表达水平相当,而黑色点则说明两个颜色标记的样品均无表达。
需要注意的是杂交强度不仅代表基因表达水平实际差异,还可能受非特异性杂交影响。为尽量排除这种因素,Affymetirx芯片中设计了不匹配核苷酸探针作矫正依据。此外,染料效率不同带来的系统误差需用均一化方法进行矫正。
DNA芯片作为一种高通量实验技术,不可避免地存在较大误差,也难以像传统生物学实验那样给出确定结果。因而,最初DNA芯片技术主要用于获得大规模基因表达谱。然而,mRNA表达水平仅仅是基因调控的结果,没有代谢途径等信息,只能得到一个表达谱,而无法解释为什么会有这样的表达谱。比如同样是在光照条件下高表达基因,有些基因可能处于光信号传导通路上游,直接受光诱导;而有些基因则可能由联系光通路以及其他代谢途径的关键转录因子激活。这种信息必须结合其他相关知识及实验才能获得。
随着基因组测序计划进展,基因注释技术不断提高,以及生物实验所积累的知识不断增加,DNA芯片得到的结果可以从全局角度分析特定生命过程中的问题。例如,通过聚类分析(Clustering)可以把具有相似表达趋势的基因归类,再结合基因注释系统(Gene Ontology)和已知功能基因等注释信息对每个类别进行总结,探讨这种共表达现象在生物学上的意义,进而可以进行代谢途径分析,从全局观点和系统生物学视角探索基因转录调控乃至生命过程机理。
3) MIDAS(Microarray Data Analysis System)是数据预处理模块,支持LOWESS、Iterative Linear Regression、Slice Analysis等多种常用归一化算法。同时,MIDAS还支持通过标准的t-检验、MAANOVA、SAM等方法寻找差异表达基因。
4) MeV(MultiExperiment Viewer)用来进行聚类和分类,以及结果的可视化显示。目前支持包括层次聚类(Hierarchical clustering)、K-mean聚类、自组织***聚类(Self-Organizing Map,SOM)等多种聚类算法,以及支持向量机(Support Vector Machine,SVM)等多种分类算法。
4.BASE
BASE是一个基于Web的芯片数据管理与分析平台。与上述主要基于单机的分析软件包不同,BASE的设计目标是提供一个可以供多人协同工作的平台。因此,BASE在数据管理方面投入了很多精力,将芯片数据管理与芯片数据注释融为一体,用户可以通过浏览器方便地查询实验进度、观察实验结果,并及时和其他相关人员分享信息。
同时,BASE也提供了一组简单的工具,供研究人员对数据进行一些快速分析。BASE中包含了一个基于Java Applet的三维可视化工具,可供用户从多个角度查看数据分析结果。
5.Matlab Bioinformatics Toolbox
Matlab是经典的科学计算软件,由美国MathWorks公司开发。它集数值运算、符号运算及***形处理于一体,广泛应用于工程和科学计算。类似于R,Matlab的核心部分注重提供一个快速、高效且稳定的平台支持,通过针对不同领域与应用编写特定工具(Toolbox),满足不同客户的专门需求。最新版Matlab 7附带Bioinformatics Toolbox,是Matlab第一个专门针对生物信息应用而开发的工具箱。该工具箱为芯片数据处理提供了归一化和聚类分析,包括层次聚类和K-mean聚类。此外,通过与统计工具箱配合使用,用户还可通过经典的t-检验及ANOVA等方法寻找差异表达基因。与其他专业软件相比(见表1),目前该工具箱芯片数据分析功能还很有限,特别是很多2003年以来发展的新方法都没有包括。
除了Matlab Bioinformatics Toolbox以外,用于学术研究目的时,上述软件都可以免费获得。
四、 小结
随着大规模基因组测序的完成,生物学家开始从相对静态的基因组研究转向更为动态的基因表达过程研究。通过对不同细胞类型之间表达模式差异的研究,可以从动态的角度刻画出一幅生命活动的“动画”,来进一步探索生命的奥秘。
生物科技的迅猛发展,DNA芯片技术不断完善,使科学家可以从基因组水平对全体基因的表达谱进行分析,并进而探索转录因子的结合位点、研究基因组层面的DNA甲基化、组蛋白修饰等表观遗传学(Epigenetics)等新兴的表达调控方式提供了可能。然而,随着DNA芯片数据的迅速增长,只有善用计算机这个高效的工具,协助研究人员对数据进行分析,从中提取信息并最终转化为知识,才能适应后基因组时代的研究现状。DNA芯片数据处理和知识挖掘,也必然依赖于计算机科学技术的发展及其在生物信息学领域中的应用。
“本文中所涉及到的***表、注解、公式等内容请以PDF格式阅读原文”