NCBI微生物基因组下载(一)

最后发布时间:2023-10-22 21:15:40 浏览量:
  • 第一步 从genome数据库中下载对应信息
    • 打开NCBI,进入genome数据库
    • 从Custom resources下进入Microbes,再进入Browse microbial genomes
    • 输入需要的物种,可以进一步筛选(filter),然后download

生信小木屋

  • 第二步 提取csv结果文件中的biosmple列的biosample号和replicon列的chromesome号
    • replicon,有一些是空的,需要筛选;chromesome号有CP、NZ、NC三种,按需提取
      • NCBI使用三种不同的前缀来标识染色体序列,分别是"CP"、"NZ"和"NC"。
      • "NC"表示常规的染色体序列版本,这些版本已经被经过验证的基因组计划确定,并由专家进行注释。
      • "NZ"表示未通过最终验证的染色体版本。这些版本通常包含较小的修订或变异,并且需要进一步验证。
      • "CP"表示参考染色体片段。这些序列通常来自于单个个体并可能包含在大多数人中特有的变异。因此,它们不适合作为一般研究的基础,但可用于对某些物种的个体进行比较研究。

生信小木屋

使用ncbi-genome-download下载基因组

要下载所有 GenBank 格式的细菌 RefSeq 基因组,请运行以下命令:

ncbi-genome-download bacteria

下载特定物种的基因组

 ncbi-genome-download --genera "Streptomyces coelicolor" bacteria  -d

ncbi-genome-download使用的缓存文件是https://ftp.ncbi.nih.gov/genomes/refseq/bacteria/assembly_summary.txt

KeyError: 'assembly_accession'

编辑/home/wy/.cache/ncbi-genome-download/refseq_bacteria_assembly_summary.txt,去掉assembly_accession前的#