参考基因组的选择

最后发布时间:2023-07-24 13:31:02 浏览量:

学习资料

基因组不同版本介绍

下载人类基因组信息有三大去处,ensembl、RefSeq(NCBI)和UCSC。ensembl、RefSeq(NCBI)和UCSC下载的同一版本的DNA序列是一样的,目前比较常用的有hg19、hg38、GRCh37、GRCh38,其中hg系列是UCSC的叫法,GRCh系列是NCBIENSEMBL的叫法。这些都属于genome builds,也就是基因序列,同一版本的序列是一样的(其中hg19对应GRCh37,hg38对应GRCh38),比如hg38和GRCh38的序列就是一样的。同一系列,序号大的是序号小的升级版,比如GRCh38是GRCh37的更新版。

ensembl、RefSeq(NCBI)和UCSC下载的同一版本的DNA序列虽然是一样的,但是它们的注释是不同的,更新频率也不一样。NCBI 的注释是“ refseq”数据集(UCSC 的”refGene” track), UCSC 和 ensemble 注释都将其作为其中一个子集。而UCSC 的注释比较混乱。同样ID的基因会出现在不同链或不同染色体位置上。Ensembl的注释通常比UCSC更多(所以噪音更多一点) ,但是它们的ID处理的比较好,不会像UCSC的那么混乱,因此,它们的 ID 通常更容易转换成别的(例如,基因名称、GO和pathway)。Ensembl还经常更新它的注释,更新一次作为一个版本发布,因此可以方便地告诉别人你使用的版本,增强分析的可重复性。

Ensembl的注释噪音多怎么理解呢?有哪些潜在的影响呢?
以ensembl release-74版本为例,尽管 其包含63,677个基因注释条目,但只有22,810个条目(大约三分之一)是蛋白编码基因。有17,057个条目是不同类型的 rna,包括 rRNA (566)、snoRNA (1549) 、snRNA (2067)、miRNA (3361) 、misc_rna (2174)和 lincRNA (7340)。ensemble还包含了15,583个假基因。对于大多数RNA-Seq 测序,一般只有富集和测序mRNAs,一般不会比对到诸如 miRNAs 或 lincRNAs 之类的RNA上。R74基因组包含819个经过逆转录产生的转录本,这些转录本是通过逆转录产生的,随后又重新整合到基因组中,这些转录本通常是表达不活跃的。在这种情况下,mRNA产生的reads,尤其是junction reads,可能比对到甚至唯一比对到这种“处理过的转录本”上。因此,该基因的mRNA的真实表达量可能被低估了。使用更全面的注释数据库的另一个缺点是p值,因为原始p值的需要多重校验。而多重校验后的p值的大小主要取决于模型中基因的数量。如果感兴趣的基因在不同的注释中定义不一致,建议使用不同的基因注释模型分析 RNA-Seq 的数据。

总的来说,可以遵循这么一个原则:当进行强调可重复性和稳健的基因表达估计的研究时(比如使用RNAseq来作为芯片分析的替代的时候),优先选较为简单的基因组注释,如 RefGene。但较为简单的基因组注释可能不利于识别或描述新的转录或调控机制。因此,当进行更具探索性的研究时,更全面的注释更优,比如选择Ensembl。而UCSC,emmmm不太建议使用。

Zea_mays.Zm-B73-REFERENCE-NAM-5.0.dna.toplevel.fa.gz 615M
Zea_mays.Zm-B73-REFERENCE-NAM-5.0.dna_rm.toplevel.fa.gz 123M
Zea_mays.Zm-B73-REFERENCE-NAM-5.0.dna_sm.toplevel.fa.gz 641M

   <species>.<assembly>.<sequence type>.<id type>.<id>.fa.gz

When you look at all the genome files available from Ensembl. You are presented with a bunch of options. Which one is the best to use/download?

You have a combination of choices.

  • First part options:
    • dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
    • dna_rm - Repeats masked (converts repeats to to N's)
    • dna - No masking
  • Second part options:
    • .toplevel - Includes haplotype information (not sure how aligners deal with this),这些文件包含Ensembl模式中标记为顶层的所有序列区域。这包括染色体、未组装成染色体的区域和N填充haplotype/patch区域。
    • .primary_assembly - Single reference base per position,Primary assembly包含所有不包括haplotypespatches的高级序列区域。该文件最好用于执行序列相似性搜索,其中patchhaplotype序列会混淆分析。如果不存在primary assembly文件,则表明没有haplotype/patch区域,并且“ toplevel”文件是等效的。

注意:

  • 一些染色体具有交替的单倍型,这些单倍型仅以单倍型序列出现在文件中
  • 所有alternative assemblypatch regions的序列都填充了N,以确保alignment programs能够报告正确的索引区域
  • 人类已经对Y染色体进行了测序,Y染色体上的假常染色体区域(标准杆数)被注释。根据定义,X和Y染色体上的标准杆数区域是相同的。Y染色体文件包含Y染色体减去这些重复的标准杆数区域,即Y染色体的唯一部分。

unmasked、masked、soft-masked的基因组序列解释

ensembl下载基因组fasta文件时,其中sequence type包括:unmasked genomic DNA sequencesmasked genomic DNAsoft-masked genomic DNA

  • masked genomic DNA: 使用RepeatMasker工具检测分散重复和低复杂度区域,并通过用“N”替换重复来屏蔽。
  • soft-masked genomic DNA: 所有重复序列和低复杂度区域的核酸碱基都由大写字母变成小写

Haplotypes and patches

Ensembl中的所有基因组组件都是单倍体,对于大多数物种而言,只有一条通过基因组的路径。

小鼠基因组

参考