NCBI微生物基因组下载(二)

最后发布时间:2023-10-22 21:36:13 浏览量:

数据库资源

打开NCBI网站,输入Escherichia coli

点击这里

生信小木屋

点击Assembly数据库

点击这里

生信小木屋

可以看到Escherichia coli中的所有组装文件

生信小木屋

点击ASM369716v2查看组装详情

点击这里跳转到www.ncbi.nlm.nih.gov/datasets/genome/GCF_003697165.2,使用GCAwww.ncbi.nlm.nih.gov/datasets/genome/GCA_003697165.2/访问的是一个页面

生信小木屋

点击Download按钮可以看到组装的fasta文件包括RefSeqGenBank两种格式,稍后会介绍这两种格式的区别。
生信小木屋

往下拉可以看到

组装统计

生信小木屋

注释统计

生信小木屋

该基因组组装到了染色体水平

生信小木屋

可以看到GCA_003697165.2(ASM369716v2)已经组装到chromosome水平,有的assembly只组装到contig水平,例如GCA_024303745.1

生信小木屋

组装到染色体级别的GCA_003697165.2其fasta文件只有一个>;而只组装到contig级别的GCA_024303745.1其fasta文件中包括多个>

生信小木屋

RefSeqGenBank基因组的区别

GCA_003697165.2组装到了染色体级别,可以看到其包括GenBank的IDCP033092.2与RefSeq的IDNZ_CP033092.2

生信小木屋

RefSeq的详情页

生信小木屋

点击FASTA链接进入NZ_CP033092.2的fasta文件,可以看到序列文件的头部是以RefSeqID>NZ_CP033092.2开头的

生信小木屋

GenBank的详情页

生信小木屋

点击FASTA链接进入CP033092.2的fasta文件,可以看到序列文件的头部是以RefSeqID>CP033092.2开头的

生信小木屋

从NCBI 数据库下载基因组数据时,部分样本会有genbank版本的基因组和refseq版本的基因组,两者有什么区呢?

GCF是RefSeq,GCA是GenBank,GCF可能更可靠一些(F :reference sequences;A :Assembly)ACCESSION是NCBI序列数据中我们常用到编号(另一个是GI:gi genebank id),这是Genbank的收录号,也是查询号。比如提交一个基因或蛋白的序列,genbank接受后就会分配给这个基因或蛋白一个序列号,即accession number。

  • GenBank genomeaccession
    • 以 GCA_ 起始
    • 注释信息可有可无
    • 第一次提交版本默认为1,后续作者提交更新版本,会在末尾加版本号 .2
  • RefSeq genomeaccession
    • 以 GCF_ 起始
    • NCBI工作人员为某个类群指定的参考基因组
    • 必须包含注释,注释可能是原始提交者提供,也可能是NCBI工作人员根据提交序列注释。
    • NCBI负责维护
    • 序列可能与对应的GCA_版本完全相同;也可能存在差异,NCBI工作人员可能根据一些标准删除可能的污染序列,或者分类出线粒体基因组序列。

ncbi Gemone数据库与 assembly数据库区别

  • Genome数据库:

    • Genome数据库包含已发布的完整基因组序列的记录。
    • 它提供了来自不同物种的完整基因组序列的信息,包括原核生物(如细菌和古菌)和真核生物(如动物、植物和真菌)。
    • 每个记录通常包含一个物种的一个或多个染色体的完整序列。
    • 它提供了基因组注释、基因预测、功能注释等相关信息,以帮助研究人员理解基因组的结构和功能。
  • Assembly数据库:

    • Assembly数据库包含了已提交但尚未被认为是完整基因组的序列数据。
    • 它包括了基因组测序项目的原始测序数据、测序片段的组装结果以及未经注释的基因组组装。
    • Assembly数据库中的数据可能是临时性的,仍在进一步的研究和分析中。
    • 这些数据对于研究人员进行基因组比较、区域扩增分析、基因识别等分析非常有用。
      总的来说,Genome数据库提供了已发布的完整基因组序列和相关注释,而Assembly数据库则包含了尚未完整发布的基因组序列和组装数据。