NCBI微生物基因组下载(二)
最后发布时间:2023-10-22 21:36:13
浏览量:
数据库资源
- https://www.ncbi.nlm.nih.gov/datasets/taxonomy/tree/?taxon=562
- https://www.ncbi.nlm.nih.gov/datasets/genome/?taxon=562
- https://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=562&lvl=3&lin=f&keep=1&srchmode=1&unlock
打开NCBI网站,输入Escherichia coli
点击Assembly数据库
可以看到Escherichia coli中的所有组装文件
点击ASM369716v2查看组装详情
点击这里跳转到www.ncbi.nlm.nih.gov/datasets/genome/GCF_003697165.2
,使用GCAwww.ncbi.nlm.nih.gov/datasets/genome/GCA_003697165.2/
访问的是一个页面
点击Download按钮可以看到组装的fasta文件包括
RefSeq
和GenBank
两种格式,稍后会介绍这两种格式的区别。往下拉可以看到
组装统计
注释统计
该基因组组装到了染色体水平
可以看到GCA_003697165.2
(ASM369716v2)已经组装到chromosome
水平,有的assembly只组装到contig水平,例如GCA_024303745.1
组装到染色体级别的GCA_003697165.2其fasta文件只有一个>
;而只组装到contig级别的GCA_024303745.1其fasta文件中包括多个>
RefSeq
和GenBank
基因组的区别
GCA_003697165.2组装到了染色体级别,可以看到其包括GenBank的IDCP033092.2与RefSeq的IDNZ_CP033092.2
RefSeq的详情页
点击FASTA链接进入NZ_CP033092.2的fasta文件,可以看到序列文件的头部是以RefSeqID>NZ_CP033092.2
开头的
GenBank的详情页
点击FASTA链接进入CP033092.2的fasta文件,可以看到序列文件的头部是以RefSeqID>CP033092.2
开头的
从NCBI 数据库下载基因组数据时,部分样本会有genbank版本的基因组和refseq版本的基因组,两者有什么区呢?
GCF是RefSeq,GCA是GenBank,GCF可能更可靠一些(F :reference sequences;A :Assembly)ACCESSION是NCBI序列数据中我们常用到编号(另一个是GI:gi genebank id),这是Genbank的收录号,也是查询号。比如提交一个基因或蛋白的序列,genbank接受后就会分配给这个基因或蛋白一个序列号,即accession number。
- GenBank genomeaccession
- 以 GCA_ 起始
- 注释信息可有可无
- 第一次提交版本默认为1,后续作者提交更新版本,会在末尾加版本号 .2
- RefSeq genomeaccession
- 以 GCF_ 起始
- NCBI工作人员为某个类群指定的参考基因组
- 必须包含注释,注释可能是原始提交者提供,也可能是NCBI工作人员根据提交序列注释。
- NCBI负责维护
- 序列可能与对应的GCA_版本完全相同;也可能存在差异,NCBI工作人员可能根据一些标准删除可能的污染序列,或者分类出线粒体基因组序列。
ncbi Gemone数据库与 assembly数据库区别
-
Genome数据库:
- Genome数据库包含已发布的完整基因组序列的记录。
- 它提供了来自不同物种的完整基因组序列的信息,包括原核生物(如细菌和古菌)和真核生物(如动物、植物和真菌)。
- 每个记录通常包含一个物种的一个或多个染色体的完整序列。
- 它提供了基因组注释、基因预测、功能注释等相关信息,以帮助研究人员理解基因组的结构和功能。
-
Assembly数据库:
- Assembly数据库包含了已提交但尚未被认为是完整基因组的序列数据。
- 它包括了基因组测序项目的原始测序数据、测序片段的组装结果以及未经注释的基因组组装。
- Assembly数据库中的数据可能是临时性的,仍在进一步的研究和分析中。
- 这些数据对于研究人员进行基因组比较、区域扩增分析、基因识别等分析非常有用。
总的来说,Genome数据库提供了已发布的完整基因组序列和相关注释,而Assembly数据库则包含了尚未完整发布的基因组序列和组装数据。