学习资料
blast的全称是Basic Local Alignment Search Tool,用于发现生物序列之间相似的区域。
blast
反之,当你不是想找跟你手上这条蛋白质序列相似的蛋白质序列,而是想找跟编码这条蛋白质序列的核酸序列相似的核酸序列的时候,就要做 tBLASTn。tBLASTn 是用蛋白质序列搜核酸序列数据库,核酸数据库中的核酸序列要按 6 条链翻译成蛋白质序列后再被搜索。你可能要问了,核酸数据库里不是已经注释了某条核酸序列能够翻译成什么蛋白质序列吗?为什么还要把这些序列可能翻译出来的 6 条蛋白质序列都翻译出来搜索呢?我们说,你看到的是已经注释的,还有没注释的呢!就算是已经注释的,你看到的也只是已经研究出来的成果,还有没研究出来的呢!别忘了,基因可以重叠,注释上说某段 DNA 序列可以编码某个蛋白,但是可能某个未被发现的基因也用到了这段 DNA 序列。而你要搜索的这个蛋白质序列可能刚好就是这个未被发现的基因的翻译产物。这样就必须把核酸序列所有可能的翻译产物都翻译出来,才能搜索得到。
上述研究方法运用到极限就是 tBLASTx。它是将核酸序列按 6 条链翻译成蛋白质序列后搜索核酸序列数据库,核酸数据库中的所有核酸序列也要按 6 条链翻译成的蛋白质序列后再被搜索。这样用 BLASTn 搜不着的,用 tBLASTx 就能搜着了。
这三种需要先翻译再搜索的 BLAST 主要是用于对新发现的序列进行搜索。那些已经研究的很透彻的序列,用前两种 BLAST 就可以。图 1 是各种 BLAST 的示意图,可以更加清晰的帮你记忆,不同的 BLAST 是用什么序列搜索什么数据库。
除了按照搜索内容分类,BLAST 还可以根据搜索算法不同分为标准 BLAST,PSI-BLAST,和 PHI-BLAST 等。
Database searching with DNA and protein sequences: An introduction