https://ftp.ncbi.nih.gov/pub/taxonomy/accession2taxid/该目录中的文件提供了来自核苷酸、蛋白质、 WGS 或 TSA 序列记录的 accession.version 与来自 NCBI Taxonomy 数据库的分类 ID (taxid)之间的映射。
nucl_wgs.accession2taxid.gz 2023-07-03 03:28 4.5G nucl_gb.accession2taxid.gz 2023-07-03 03:28 2.1G prot.accession2taxid.gz 2023-07-03 03:29 7.8G prot.accession2taxid.FULL.1.gz 2023-07-07 23:18 973M ... prot.accession2taxid.FULL.gz 2023-07-07 23:20 13G
nucl_wgs.accession2taxid.EXTRA.gz 2023-07-08 14:56 1.6M pdb.accession2taxid.gz 2023-07-03 03:28 5.4M
dead_nucl.accession2taxid.gz 2023-07-03 03:27 282M dead_prot.accession2taxid.gz 2023-07-03 03:27 1.0G dead_wgs.accession2taxid.gz 2023-07-03 03:27 748M
有两组文件可供下载:
nucl_wgs.accession2taxid.gz
nucl_gb.accession2taxid.gz
prot.accession2taxid.gz
prot.accession2taxid.FULL.gz
prot.accession2taxid.FULL.NN.gz
dead_nucl.accession2taxid.gz
dead_wgs.accession2taxid.gz
dead_prot.accession2taxid.gz
所有文件都有四列,用 TAB 字符分隔
each file is a header line: accession<TAB>accession.version<TAB>taxid<TAB>gi
Accession
Accession.version
TaxId
GI
Krakenkraken-build --standard --db db下载的文件是ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/nucl_gb.accession2taxid.gz
kraken-build --standard --db db
https://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
https://cran.r-project.org/web/packages/taxonomizr/vignettes/usage.html