NR数据库分类搭建
最后发布时间:2024-02-07 16:45:15
浏览量:
因为完整的NR数据库下载下来后数据量非常庞大,在我们做序列比对的时候,尤其是很多很大的序列比对的时候,特别消耗计算资源和内存,最重要的是很耽误分析的周期,因此将NR数据库拆开搭建是必要的,这里拆为动物(animal)、植物(plant)、微生物(micro)
下载
分类搭建需要下载两部分,一部分为NR数据库,另一部分为Taxonomy数据库下载,Taxonomy有两个文件prot.accession2taxid和taxdump
点击下载NR数据
NR数据库下载
https://www.jianshu.com/p/4138786bc2f9
数据库
- non-redundant proteins:目前我们可以从很多数据库中获取蛋白质的序列信息,比如GenPept, Swissprot, PIR, PDB 和 NCBI RefSeq等。但是在这些数据库之间,蛋白质序列存在冗余性,为了解决这个问题,NCBI构建了一个非冗余的蛋白质序列数据库,即nr(non-redundant proteins)。完整的nr数据库。
nr库按照物种拆分及建库命令
# 2. 下载分类数据库,taxdump 目录中有两个重要文件:names.dmp:记录物种名及其分类编号;nodes.dmp:记录分类编号的分类节点信息)
wget -c https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
# 3. 下载accession与taxid的对应关系
wget -c https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz
# 4. 用到的工具taxonkit和csvtk
wget -c https://github.com/shenwei356/taxonkit/releases/download/v0.6.0/taxonkit_linux_amd64.tar.gz
wget -c https://github.com/shenwei356/csvtk/releases/download/v0.20.0/csvtk_linux_amd64.tar.gz
# 1. 病毒
taxonkit list -j 2 --ids 10239 --indent "" --data-dir ./taxdump/ >Virus.list
cat prot.accession2taxid |csvtk -t grep -f taxid -P Virus.list |csvtk -t cut -f accession.version >Virus.taxid.acc.txt
blastdb_aliastool -seqidlist Virus.taxid.acc.txt -db /mnt/nas1/wanghw/database/nr/nr -out nr_Virus -title nr_Virus
# 2. 古生菌
taxonkit list -j 2 --ids 2157 --indent "" --data-dir ./taxdump/ >Archaea.list
cat prot.accession2taxid |csvtk -t grep -f taxid -P Archaea.list |csvtk -t cut -f accession.version >Archaea.taxid.acc.txt
blastdb_aliastool -seqidlist Archaea.taxid.acc.txt -db /mnt/nas1/wanghw/database/nr/nr -out nr_Archaea -title nr_Archaea
# 3. 细菌
taxonkit list -j 2 --ids 2 --indent "" --data-dir ./taxdump/ >Bacteria.list
cat prot.accession2taxid |csvtk -t grep -f taxid -P Bacteria.list |csvtk -t cut -f accession.version >Bacteria.taxid.acc.txt
blastdb_aliastool -seqidlist Bacteria.taxid.acc.txt -db /mnt/nas1/wanghw/database/nr/nr -out nr_Bacteria -title nr_Bacteria
# 4. 真菌
taxonkit list -j 2 --ids 4751 --indent "" --data-dir ./taxdump/ >Fungi.list
cat prot.accession2taxid |csvtk -t grep -f taxid -P Fungi.list |csvtk -t cut -f accession.version >Fungi.taxid.acc.txt
blastdb_aliastool -seqidlist Fungi.taxid.acc.txt -db /mnt/nas1/wanghw/database/nr/nr -out nr_Fungi -title nr_Fungi
# 5. 动物
taxonkit list -j 2 --ids 33208 --indent "" --data-dir ./taxdump/ >Metazoa.list
cat prot.accession2taxid |csvtk -t grep -f taxid -P Metazoa.list |csvtk -t cut -f accession.version >Metazoa.taxid.acc.txt
blastdb_aliastool -seqidlist Metazoa.taxid.acc.txt -db /mnt/nas1/wanghw/database/nr/nr -out nr_Metazoa -title nr_Metazoa
# 6. 植物
taxonkit list -j 2 --ids 33090 --indent "" --data-dir ./taxdump/ >Viridiplantae.list
cat prot.accession2taxid |csvtk -t grep -f taxid -P Viridiplantae.list |csvtk -t cut -f accession.version >Viridiplantae.taxid.acc.txt
blastdb_aliastool -seqidlist Viridiplantae.taxid.acc.txt -db /mnt/nas1/wanghw/database/nr/nr -out nr_Viridiplantae -title nr_Viridiplantae