2014年1月18日星期六

生物信息学分析实例

ORF预测的可靠性检验
设计引物:Primer Premier 5.0评估引物质量:Oligo 6.65 Oligonucleotide Properties Calculator
NCBI
blast 2 SEQUENCES程序
 http://www.ncbi.nlm.nih.gov/blast/bl2seq/wblast2.cgi

核苷酸序列=>氨基酸序列
制作密码子用法表
蛋白质理化性质分析
在线分析
ExPasy服务器上的ProtParam http://us.expasy.org/tools/protparam.html 


生物学软件
BioEdit-氨基酸成分
Seqtools-亲、疏水性残基,蛋白溶解度

蛋白质功能性区域分析
疏水性分析
在线的ProtScale 程序
http://www.expasy.org/cgi-bin/protscale.pl

使用生物学软件BioEdit7.05采用Kyte-DoolittleTGRESE算法
调整计算窗口大小n=9
   
附:该参数用于估计每种氨基酸残基的平均显示尺度,有助于对数据进行平滑。
 跨膜区分析
在线分析
TMHMM Server v. 2.0http://www.cbs.dtu.dk/services/TMHMM/
TMpredhttp://ch.embnet.org/software/TMPRED_form.html
TMPhttp://www.mbb.ki.se/tmap/

信号肽预测
SignalP 3.0 Server几种人工神经网络法的组合
G+G-、真核生物为训练集
http://www.cbs.dtu.dk/services/SignalP/

卷曲螺旋预测
卷曲螺旋是控制蛋白质寡聚化的元件
http://www.ch.embnet.org/software/COILS_form.html
亮氨酸拉链结构:亲脂性的α螺旋,包含有许多集中在螺旋一边的疏水氨基酸,两条多肽链以此形成二聚体。每隔6个残基出现一个亮氨酸。由赖氨酸(Lys)和精氨酸(Arg)组成dna结合区。

Domain分析
 结构域是蛋白序列的功能、结构和进化单元,由50-300个氨基酸组成,有独特的空间构象。
 类型:全平行结构域、反平行结构域、α+β结构域、α/β结构域及他折叠类型 
EMBL
SMART服务器

http://smart.embl-heidelberg.de/
提交序列后=>系统每隔10秒刷新一次=>结果
模体(Motif)搜索
PROSITE数据库
确定新的蛋白质序列是否属于已知家族
N-糖基化位点的模式(Pattern)N[^P][ST][^P]其中^P表示除Pro外的任意氨基酸
缺点:数量与质量上存在问题
http://www.expasy.org/prosite/ 
Profile
数据库
基于最佳的多重比对质量(包括人工校正)优点:确保重要信息不被遗漏
http://myhits.isb-sib.ch/cgi-bin/motif_scan 蛋白质二级结构预测
   蛋白质二级结构是指α螺旋、β折叠、无规则卷曲(Coils)等元件
预测方法:
基于统计的预测方法,如Chou-Fasman法、人工神经网络法等
基于知识的预测方法:Lim方法、Cohen方法
混合方法:选择性合并以上提到的各种方法
预测准确率:>70%,其中PHD神经网络预测的平均准确度及最佳残基的准确率分别高达72%90% 二级结构预测的标准:PHDhttp://www.predictprotein.org/

同源模建
原理:比较模建,利用已知结构的同源蛋白建立目的蛋白的结构模型,再用理论计算方法进化优化,最终得到合理的3D模型。
关键:模板的选择
适用:同源性>30%的同源蛋白质
步骤:(6步曲)目的序列与模板序列的匹配;
根据多重比对结果确定同源蛋白质的保守区及相应的框架结构;
目的蛋白质结构保守区的主链模建;
目标蛋白质结构变异区的主链模建;
侧链的安装和优化;
优化和评估模建的结构
系统发育分析

NJ法-邻接法:
特点:NJ法是基于最小进化原理经常被使用的一种算法,它构建的树相对准确,假设少,计算速度快 ,只得一颗树。
缺点:序列上的所有位点等同对待,且所分析的序列的进化距离不能太大 适用:进化距离不大,信息位点少的短序列

MP法-最大简约法
特点:基于进化过程中碱基替代数目最少这一假说 缺点:推测的树不是唯一的,变异大的序列会出现长枝吸引而导致建树错误。
适用:序列残基差别小,具有近似变异率,包含信息位点比较多的长序列

ML法-最大似然法
原理:考虑到每个位点出现的残基的似然值,将每个位置所有可能出现的残基替换概率进行累加,产生特定位点的似然值。ML法对所有可能的系统发育树都计算似然函数,似然函数值最大的那颗树即最可能的系统发育树
优点:在进化模型确定的情况下,ML法是与进化事实吻合最好的建树算法 缺点:计算强大非常大,极为耗时
建树相关软件:
PAUPhttp://paup.csit.fsu.edu/
PHLIPhttp://evolution.genetics.washington.edu/phylip.html
MEGAwww.megasoftware.net
TreePuzzlehttp://www.nsc.liu.se/software/biology/puzzle5/
TreeViewhttp://taxonomy.zoology.gla.ac.uk/rod/treeview.html

MEGA用法:http://raindy.ys168.com [生信相关]

PHYLIP3.65
界面


PHYLIP建树的子程序:
Dnapars-核苷酸序列最大简约法
Protpars-蛋白质序列最大简约法
Dnaml-核苷酸序列最大似然法
Dnamlk-核苷酸序列最大似然法(分子钟假说)
Proml
-蛋白质序列最大似然法

Promlk-蛋白质序列最大似然法(分子钟假说)
Dnadist
-核苷酸序列距离法->距离矩阵

Prodist-蛋白质序列距离法->距离矩阵
Seqboot-重复抽样检验
Consense-构建严格的一致树
抗原决定簇预测
抗原决定簇是指能与抗原相应抗体结合的抗原上有限部位的特殊分子结构,也称为表位(epitope)
哈佛大学的Predicting Antigenic Peptides 预测软件是使用Kolaskar Tongaonkar(1990)方法预测氨基酸序列内可能引起抗体反应的抗原片段。
生物信息学为基础的蛋白质抗原决定簇的预测对于分子生物学实验,如诊断试剂的制备、抗体制备筛选等,都是必不可少的工具,减少了了实验研究的盲目性(万涛等,1997)
据报道,运用Predicting Antigenic Peptides 预测软件并结合多种方法综合分析预测的成功率可达86%(孙沫逸等,2003)
http://bio.dfci.harvard.edu/Tools/antigenic.pl
实例:RGDV Pns9基因
RGDV S9片段可能有两个开放阅读框(ORF),另一阅读框位于主阅读框下游,但目前尚未获得该ORF表达的实验证据。
ORF转入表达载体pGEX-4T-1pET29-a均无法得到成功表达,故目前无法获取完整Pns9蛋白的抗血清。
原因分析:使用生物学软件RNAstructure 4.2采用最小自由能法(总能量值=283.3kcal/mol)折叠S9片段主ORF对应的核苷酸序列,发现核苷酸序列开始位置的第10-36碱基间形成强势的发夹状结构。
选择强抗原性肽段的原则
  • 肽段长度1215个氨基酸;
  • 肽段内无4个以上连续相邻的疏水性残基,疏水性残基数目<6,带正电荷氨基酸越多越好;
  • 亲水性及可及性参数均较高;
  • 肽段位于转角附近,易形成无规则卷曲。
  • 蛋白质的羧基端非常理想(灵活性、暴露性)

没有评论 :

发表评论