数据库资源

打开NCBI网站,输入Escherichia coli

点击这里

生信小木屋

点击Assembly数据库

点击这里

生信小木屋

可以看到Escherichia coli中的所有组装文件

生信小木屋

点击ASM369716v2查看组装详情

点击这里跳转到www.ncbi.nlm.nih.gov/datasets/genome/GCF_003697165.2,使用GCAwww.ncbi.nlm.nih.gov/datasets/genome/GCA_003697165.2/访问的是一个页面

生信小木屋

点击Download按钮可以看到组装的fasta文件包括RefSeqGenBank两种格式,稍后会介绍这两种格式的区别。
生信小木屋

往下拉可以看到

组装统计

生信小木屋

注释统计

生信小木屋

该基因组组装到了染色体水平

生信小木屋

可以看到GCA_003697165.2(ASM369716v2)已经组装到chromosome水平,有的assembly只组装到contig水平,例如GCA_024303745.1

生信小木屋

组装到染色体级别的GCA_003697165.2其fasta文件只有一个>;而只组装到contig级别的GCA_024303745.1其fasta文件中包括多个>

生信小木屋

RefSeqGenBank基因组的区别

GCA_003697165.2组装到了染色体级别,可以看到其包括GenBank的IDCP033092.2与RefSeq的IDNZ_CP033092.2

生信小木屋

RefSeq的详情页

生信小木屋

点击FASTA链接进入NZ_CP033092.2的fasta文件,可以看到序列文件的头部是以RefSeqID>NZ_CP033092.2开头的

生信小木屋

GenBank的详情页

生信小木屋

点击FASTA链接进入CP033092.2的fasta文件,可以看到序列文件的头部是以RefSeqID>CP033092.2开头的

生信小木屋

从NCBI 数据库下载基因组数据时,部分样本会有genbank版本的基因组和refseq版本的基因组,两者有什么区呢?

GCF是RefSeq,GCA是GenBank,GCF可能更可靠一些(F :reference sequences;A :Assembly)ACCESSION是NCBI序列数据中我们常用到编号(另一个是GI:gi genebank id),这是Genbank的收录号,也是查询号。比如提交一个基因或蛋白的序列,genbank接受后就会分配给这个基因或蛋白一个序列号,即accession number。

ncbi Gemone数据库与 assembly数据库区别