NCBI Taxonomy数据库中的nucl_gb.accession2taxid.gz、nucl_wgs.accession2taxid.gz和taxdump.tar.gz文件在功能和内容上有以下区别:

  1. ‌nucl_gb.accession2taxid.gz‌
  1. ‌nucl_wgs.accession2taxid.gz‌
  1. ‌taxdump.tar.gz‌

三者的关联与典型使用流程

总结表格

文件内容范围核心用途依赖工具/场景
nucl_gb.accession2taxid.gz非WGS核酸序列序列accession转taxidBLAST结果注释‌
nucl_wgs.accession2taxid.gzWGS项目核酸序列WGS序列accession转taxid子库提取‌
taxdump.tar.gz分类学节点与名称taxid转物种分类层级TaxonKit等工具‌

通过以上文件组合,可完成从序列比对到物种注释的全流程分析‌。

从refSeq下载物种基因组

生信小木屋

RefSeq genomes FTP可以下载refSeq的物种基因组。

生信小木屋

下载refseq所有细菌基因组

wget https://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/assembly_summary.txt 
$ cat assembly_summary.txt | wc -l
# 417112
$ du -sh  assembly_summary.txt 
# 177M    assembly_summary.txt

taxonomy中统计的细菌数

生信小木屋

‌通过Linux命令行FTP查看NCBI细菌基因组目录的步骤

ftp ftp.ncbi.nlm.nih.gov  

输入用户名 anonymous,密码留空或填写邮箱地址(如 user@example.com)完成匿名登录‌

ftp> cd genomes/refseq/bacteria