- 第一步 从genome数据库中下载对应信息
- 打开NCBI,进入genome数据库
- 从Custom resources下进入Microbes,再进入Browse microbial genomes
- 输入需要的物种,可以进一步筛选(filter),然后download
- 第二步 提取csv结果文件中的biosmple列的biosample号和replicon列的chromesome号
- replicon,有一些是空的,需要筛选;chromesome号有CP、NZ、NC三种,按需提取
- NCBI使用三种不同的前缀来标识染色体序列,分别是"CP"、"NZ"和"NC"。
- "NC"表示常规的染色体序列版本,这些版本已经被经过验证的基因组计划确定,并由专家进行注释。
- "NZ"表示未通过最终验证的染色体版本。这些版本通常包含较小的修订或变异,并且需要进一步验证。
- "CP"表示参考染色体片段。这些序列通常来自于单个个体并可能包含在大多数人中特有的变异。因此,它们不适合作为一般研究的基础,但可用于对某些物种的个体进行比较研究。
要下载所有 GenBank 格式的细菌 RefSeq 基因组,请运行以下命令:
ncbi-genome-download bacteria
下载特定物种的基因组
ncbi-genome-download --genera "Streptomyces coelicolor" bacteria -d
ncbi-genome-download使用的缓存文件是https://ftp.ncbi.nih.gov/genomes/refseq/bacteria/assembly_summary.txt
KeyError: 'assembly_accession'
编辑/home/wy/.cache/ncbi-genome-download/refseq_bacteria_assembly_summary.txt,去掉assembly_accession前的#