数据库资源
点击这里
点击这里跳转到www.ncbi.nlm.nih.gov/datasets/genome/GCF_003697165.2,使用GCAwww.ncbi.nlm.nih.gov/datasets/genome/GCA_003697165.2/访问的是一个页面
www.ncbi.nlm.nih.gov/datasets/genome/GCF_003697165.2
www.ncbi.nlm.nih.gov/datasets/genome/GCA_003697165.2/
RefSeq
GenBank
往下拉可以看到
可以看到GCA_003697165.2(ASM369716v2)已经组装到chromosome水平,有的assembly只组装到contig水平,例如GCA_024303745.1
GCA_003697165.2
chromosome
组装到染色体级别的GCA_003697165.2其fasta文件只有一个>;而只组装到contig级别的GCA_024303745.1其fasta文件中包括多个>
>
GCA_003697165.2组装到了染色体级别,可以看到其包括GenBank的IDCP033092.2与RefSeq的IDNZ_CP033092.2
点击FASTA链接进入NZ_CP033092.2的fasta文件,可以看到序列文件的头部是以RefSeqID>NZ_CP033092.2开头的
>NZ_CP033092.2
点击FASTA链接进入CP033092.2的fasta文件,可以看到序列文件的头部是以RefSeqID>CP033092.2开头的
>CP033092.2
GCF是RefSeq,GCA是GenBank,GCF可能更可靠一些(F :reference sequences;A :Assembly)ACCESSION是NCBI序列数据中我们常用到编号(另一个是GI:gi genebank id),这是Genbank的收录号,也是查询号。比如提交一个基因或蛋白的序列,genbank接受后就会分配给这个基因或蛋白一个序列号,即accession number。
Genome数据库:
Assembly数据库: