2014年1月1日星期三

生物信息学中的基因序列分析软件

摘 要:近年来,随着人类基因组计划的实施,极大的推动了生物信息学的发展。随之而来的大量核酸和蛋白质数据的积累及分析这些数据中所蕴涵的生物学意义成为生物学的主要任务。这样,大量的基因组数据不得不借助生物信息学技术进行自动分析和处理,如利用开放阅读框架(Open Reading Fram)检测算法自动寻找基因组dna序列中的基因;对蛋白质、核苷酸数据库进行类似性检索或同源性检索等[1]。相应的,生物信息学各个领域中的软件层出不穷,已广泛用于基因序列数据的获取、处理、分析和管理,并得到不断的改进和完善。本文研究观察了一些本地计算机上运行的基因序列处理、分析软件,目的在于帮助生物学研究者选择最有效的基因序列分析工具。


1.引言
生物信息学各个领域中的软件数目庞大,在EBI 1997年的分子生物学程序目录中就收录了530多种常用软件。序列比对和数据库搜索软件有blast,FASTA,BLITZ等;综合序列分析软件有VCctor NTI Suite,DNA Tools,Omiga,DNASIS等;与蛋白质分析有关的程序有AnthePro,AminoXpress,DSSP等,大型分子生物学软件包如GCG。并行算法、遗传算法、面向对象算法等已被应用到最新的程序中[2]。

生物研究者期望通过他们的知识,从文献中得到的信息以及他们的经验来对基因预测的分析数据进行解释,由此来进行设计和实施实验,并对他们的解释进行确证、改进或反驳。因此,可以促进实验设计的序列分析软件有明显的优点。在如此众多的生物软件面前,什么是生物学研究者所期望的、有帮助的、高效率的序列分析软件?一般要求这些软件可以提供基因的预测、重复序列的鉴定、限制酶分析、引物设计、在线序列比对、质粒作图、结构域(motif)查找、RNA二级结构预测、克隆策略图谱、三维结构显示等方面的内容;并且要求软件的算法简洁、效率高和可移植性好[3]。目前Web站点可以对基因序列提供计算前的分析,并且这些站点允许使用者下载到客户机上分析自己的序列。随着酵母基因组序列、鼠基因组序列和人类基因组序列的完成,会产生诸如模式识别和神经网络等先进的计算方法,并应用于新的软件中,并对生物医学研究的深入发展发挥巨大的作用。

2.基因注释工具
目前,对于大多数的生物研究者,新基因的鉴定可能是基因序列分析中最重要的一方面。而完整可靠的基因注释是进行新基因鉴定的前提[4]。序列注释是指向特定生物序列的特定位置的信息,它可能包含一个特征表,一类序列比对,或一类序列的图表。基因组的功能注释总是处在不断变化之中的,一旦发现某一蛋白质的新功能,那么与之有关的氨基酸、核苷酸等的所有序列注释必须随之更新。这就对生物信息学数据库提出了新的要求,必须开发和创建基于全基因组的关系型的数据库管理系统。

迄今还没有一种普遍使用的基因组序列注释工具。美国Oak Ridge国家实验室提出了开发一种名为“Genome Channel”的基因注释工具的设想,该软件模型可从Http://compbio.ornl.gov/tools/channel/上获取。另一种正在开发的注释工具是由Argonne国家实验室的Ross Overbeek和密西根州大学的Niels Larsen合作研制(Http://wit.mcs.anl.gov/wit.html

3.综合性基因序列分析软件
该类综合性软件要求可以对核酸蛋白分子进行限制酶分析、结构域查找等多种分析和操作,生成重组分子策略和实验方法,进行限制酶片段的虚拟电泳,新建输入各种格式的分子
数据、加以注释,输出高质量的图像。软件具有良好的数据库管理(增加、修改、查找),对要操作的数据放在一个界面相同的数据库中统一管理。软件中的大部分分析可以通过在数据库中进行选定(数据)->分析一>结果(显示、保存和入库)三步完成。
代表性软件如Vector NTI Suite,它可以对DNA,RNA,蛋白质分子进行大量的分析和操作,主干部分Vector NTI可以对DNA,RNA,蛋白质分子进行大量的分析和操作,自带常规核酸、蛋白序列数据库,分支软件AlisnX作DNA或蛋白的同源分析;Bioplot进行DNA对蛋白或蛋白对DNA的同源分析;3DMol一显示PDB格式分子的三维结构;ContigExpress一将小片段拼装成长序列;GCGConverter-GCG格式文件转换成NTI的格式; PubMed/Entrez Search一搜索PubMed、PDB、GenBank等数据库;Back Translation-核酸一>蛋白一>核酸反向翻译的工具;Matrix Editor一矩阵数据编辑;Tools Manager一连接其他程序和网络连接的界面。实现相同功能的软件工具还有:DNASTAR4.03;Omiga2.0;DNASIS2.5;DNATools5.1等。

4.限制酶分析软件:
可能是最简单的功能了,用普通的文本搜索也能完成,但我们希望在结果输出上有更完美的图象。另外几乎所有的软件都没有考虑在酶切位点前应该有保护碱基。DNAssistl.0是一款能进行限制酶分析的软件,它不但可以对线性序列进行分析,对cNNNNN…NNNgaatt环状的序列也可以找出 ECORI的位点。DNAssis在输出上非常完美,除了图形、线性显示外,还有列表方式,列出有酶切的位点(按酶排列,按碱基顺序排列)、和没有酶切的位点。同类软件还有Primer Premier5.0、Vector NTI Suite6.0等多种软件。

5.引物设计软件
引物设计一般包括用于检测和用于进一步分子操作的引物。优秀的引物设计软件能从模板序列中按用户的要求挑选出一系列引物序列,同时把这些序列的所有特性(包括分子量、Tm值、二级结构、上下有引物间的错配、3’端的稳定性及GC含量等等)分析出来。当然,这里的引物包括PCR引物、测序引物和探针。Primer Premiers5.0是由加拿大的Premier公司开发的专业用于PCR或测序引物以及杂交探针的设计和评估的软件,是一款优秀的引物设计软件,可以对长达50KB的序列进行设计分析。该软件可以简单地通过手动设计出相应片段所需的引物,也可以给定条件,让软件自动搜索引物,并将引物分析结果显示出来。同类软件还有:Oligo,DNAClub等。

6.序列比对软件
序列比对包括部分完全相同序列查找和序列相似性排列两类。具有这一功能的软件或软件包很多,但功能全面,界面友好,同时输出结果美观实用的不多。GeneDoc能用亮丽的色彩来区分相互间序列的同源性,输出的格式一目了然,而且可以报告为进化树的格式。选择项多,可以达到所需的要求,功能多又强。
同类的有著名的序列比对软件MACAW,其具有几个特点:1.新的搜索算法查寻类似区,消除了先前技术的许多限制。2.应用一个最近发展的数学原理计算block类似性的统计学显著性。3.使用各种视图工具,可以评估一个候选block包含在一个多序列中的可能性。4.可以很容易地编辑每一个block。另外一款完全免费的可以运行在PC机上的多序列比较软件是ClustalX,它是用来对核酸与蛋白序列进行多序列比较(multiple sequence alignment)的软件[5]。多序列比较在分子生物学中是一个基本方法,用来发现特征序列,进行蛋白分类,证明序列间的同源性,帮助预测新序列二级结构与三级结构,确定PCR引物,以及在分子进化分析方面均有很大帮助,Clustal X很适合这些方面的要求。

7.质粒绘图软件:
就象限制酶切位点分析一样,也是最常用的功能。好的质粒绘图软件首先能对己知序列自动作图;如果是末知序列,但根据用户已知的质粒信息也能给出漂亮的图谱来。Gene Construction Kit 2.0是一个非常好的质粒构建软件包[6]。与大多数分析的软件不同,它制作并显示克隆策略中的分子构建过程;包括质粒构建,模拟电泳条带;当然还可以质粒作图(有无序列均可)。通过它绘出来的图还可以继续用来构建克隆策略图谱。
同类软件有:Winplas2.6该软件用来绘制发表质量的质粒图,可广泛应用与论文、教材的质粒插图。其特性包括:1.知道序列或不知序列结构均能绘制质粒图;2.可读入各种流行序列格式文件引入序列信息;3.自动识别限制位点,可构建序列结构,其功能包括:从文件插入序列、置换序列、序列编辑、部分序列删除等;4. 绘图功能强大,功能包括:位点标签说明、任意位置文字插入、生成彩图、线性或环形序列绘制、可输出到剪贴板、可输出到图像文件;5. 限制酶消化分析报告输出与序列输入报告功能。
Plasmid Premier2.02是由加拿大的Premier Biosoft公司推出的用于质粒作图的专业软件,主要用于进行质粒作图、质粒特征分析和质粒设计。

8.RNA二级结构预测:
RNA二级结构预测,二级结构分析和预测的软件很多,但绝大部分都只能在Mac和Unix下使用,在Windows平台下的很少。RNAdraw是一个进行RNA二级结构计算的软件,其特点有1.它是Windows下的一款多文档窗口(multiple document interface)软件,允许你同时打开多个数据处理窗口。2.RNAdraw中一个非常非常重要的特征是鼠标右键菜单打开的菜单显示的是对鼠标当前所指向的对象/窗口可以使用的功能列表。3.RNA文库(RNA Library)用一种容易操作的方式来组织你所有的RNA数据文件。
同类软件:RNAStructure3.5:RNA Structure根据最小自由能原理,将Zuker的根据RNA一级序列预测RNA二级结构的算法在软件上实现。预测所用的热力学数据是最近由Turner实验室获得。提供了一些模块以扩展Zuker算法的能力,使之为一个界面友好的RNA折叠程序。

9.结构域(motif)查找:
Primer Premier的结构域查找功能与它的引物设计一样强,结果能以图形、表格、序列三种方式输出。同时还提供了一些未知的结构域的列表;当然软件本身也提供了大量的已知结构域的序列。

10.蛋白二级结构分析:
蛋白序列分析软件包ANTHEPROT 4.5是位于法国的蛋白质生物与化学研究院(Institute of Biology and Chemistry of Proteins)用十多年时间开发出的蛋白质研究软件包[7]。软件包包括了蛋白质研究领域所包括的大多数内容,功能非常强大。应用此软件包,使用个人电脑,便能进行各种蛋白序列分析与特性预测。更重要的是该软件能够提供蛋白序列的一些二级结构信息,使用户有可能模拟出未知蛋白的高级结构。
11.生物信息学软件的前景

20世纪的科学技术是以物理学和化学的成就占主导地位,而21世纪的科学技术是以生物技术和计算机技术相结合的成就占主导地位。无论这种说法是否得到普遍的认同,但生物信息领域是当今高技术中发展最快的领域似乎是不争的事实。而计算方法和相关的生物软件的发展无疑是生物信息领域的重要部分。随着基因组部分或全面的序列测定结果的完成,迫切需要解释和破译其中的奥妙,要用日益高深的计算机技术来解释这些数据,这就要求分子生物学、化学、计算机科学、数学和统计学的各个不同学科的密切合作,共同开发专用的数据库,及其相关的软件,这些卓有成效的合作已经取得的成绩有:序列搜索和比较、遗传图谱的构建、DNA和蛋白质分析、多序列的比较等。近十年来,从商业的、学术的各种来源出现了许多可用于序列分析和数据库检索等方面的应用程序。有用于PC机和 Macintoshe机上的软件包,以及基于互联网使用的在线应用程序,大规模、综合应用软件也不断的涌现出来,它提供了一种集成环境,将大量序列分析和数据库搜索程序集成在一起,并可以访问各种来源的序列数据。生物信息学软件将随着生物数据的递增而随之得到巨大的发展。

参考文献
1. Andrew F, and Kathleen G. Genomic sequence analysis tools: a user’s guide. TRENDS in Genetics.2001,17(3),158-160.
2. 李衍达,孙之荣.生物信息学:基因和蛋白质分析的实用指南.清华大学出版社2000,8,70-84.
3. Benton D.TIBTECH 1996; 14(8): 261-272.
4. Taudien S. RUMMAGE –A highthroughput sequence annotation system. Trends Genet. 2000,16,519-521.
5. Higgins DG, Bleasby AJ. Improved software for multiple sequence alignment. Cabios, 1991,8:189.
6. Robbins RJ, Benton D, Snoddy, IEEE. Engin Med Biol, 1995; 14(6): 694-701.
7. David B. Bioinformatics tools for whole genomes. Genomics Hum. 2000,1,261-265.

原文来自:http://www.bioxxx.cn/thread-1586-1-1.html

没有评论 :

发表评论