展开

编码区预测

最后发布时间 : 2024-06-10 13:51:35 浏览量 :

学习资料

TransDecder 识别转录物序列中的候选编码区,例如使用 Trinity 由从头 RNA-Seq 转录物组装产生的候选编码区,或者使用 StringTie 基于与基因组的 RNA-Seq 比对构建的候选编码区。
TransDecder应用于一个单一的生物体的整个转录组,包括数千个转录序列作为输入。

TransDecder根据以下标准识别可能的编码序列:

  • 在转录本序列中找到最小长度的开放阅读框(ORF)
  • 类似于由 GeneID 软件计算的对数似然得分 > 0。
  • 上述编码得分是最大的时候,开放阅读框得分在第一个阅读帧相比,在其他两个正向阅读帧的得分。
  • 如果发现一个候选 ORF 被另一个候选 ORF 的坐标完全封装,则报告的候选 ORF 越长。然而,一个转录本可以报告多个 ORF (允许操作子、嵌合体等)。
  • 建立/训练/使用 PSSM 来改进起始密码子预测。
  • 可选的推定肽有一个匹配的 Pfam 域以上的噪声截止值得分。

Running TransDecoder

从文本 Fasta 文件预测编码区域

步骤1: 提取长的打开阅读框架

TransDecoder.LongOrfs -t target_transcripts.fasta

默认情况下,转换解码器。LongOrfs 将识别至少100个氨基酸长度的 ORF。您可以通过’-m’参数降低这个值,但是要知道,假阳性 ORF 预测的比率随着最小长度标准的缩短而急剧增加。

如果转录本是链特异性的,那么添加-S 标志以仅检查顶链。完整的使用信息如下:
添加--complete_orfs_only 如果您想排除部分,但是请注意,选择的起始密码子可能不正确,因为在5’部分的情况下,ORF 会向上游进一步扩展。此外,3’部分和完全读取(没有开始和没有停止)的转录序列将被排除在外。

步骤2:可选地,通过blast 或 pfam 搜索鉴定与已知蛋白质同源的 ORF。
参见下面使用同源搜索部分作为 ORF 保留标准。

步骤3: 预测可能的编码区域

TransDecoder.Predict -t target_transcripts.fasta [ homology options ]

最后一组候选编码区域可以作为文件找到 '.transdecoder.'扩展包括.pep, .cds, .gff3, and .bed

这里的过程与上述相同,除了我们必须首先生成与转录物序列相对应的 Fasta 文件外,最后,我们重新计算 GFF3格式的基因组注释文件,其描述基因组上下文中预测的编码区域。

使用基因组和转录本.gtf 文件构建转录本 Fasta 文件,如下所示:

util/gtf_genome_to_cdna_fasta.pl transcripts.gtf test.genome.fasta > transcripts.fasta 

接下来,将转录本结构的 GTF 文件转换为对齐格式的 GFF3文件(这样做只是因为我们的进程操作 gff3而不是开始的 GTF 文件——没有什么重要的结果)。使用cufflinks GTF 输出作为示例,将 GTF 转换为对齐 -gff3:

util/gtf_to_alignment_gff3.pl transcripts.gtf > transcripts.gff3

现在,运行上面描述的过程来生成最佳候选 ORF 预测:

TransDecoder.LongOrfs -t transcripts.fasta
(optionally, identify peptides with homology to known proteins)
TransDecoder.Predict -t transcripts.fasta [ homology options ]

最后,生成一个基于基因组的编码区域注释文件:

util/cdna_alignment_orf_to_genome_orf.pl \
     transcripts.fasta.transdecoder.gff3 \
     transcripts.gff3 \
     transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3

Output files explained

创建一个工作目录(ex. transcripts.transdecoder_dir/)来运行和存储管道的中间部分,其中包含:

longest_orfs.pep   : 所有符合最小长度标准的 ORF,无论编码潜力如何。
longest_orfs.gff3  : 在目标转录本中发现的所有 ORF 的位置
longest_orfs.cds   : 所有检测到的 ORF 的核苷酸编码序列

longest_orfs.cds.top_500_longest : 前500个最长的 ORF,用于训练编码序列的马尔可夫模型。

hexamer.scores                   : 每个 k-mer 的对数似然得分(编码/随机)

longest_orfs.cds.scores               : 每个 ORF 在6个阅读帧中的对数似然和得分
longest_orfs.cds.scores.selected      : 根据评分标准选择的 ORF 的加入(见顶部描述)
longest_orfs.cds.best_candidates.gff3 : 选定的 ORF 在转录本中的位置

然后,最终的输出会在你当前的工作目录中报告:

transcripts.fasta.transdecoder.pep : 最终候选 ORF 的肽序列; 所有较长 ORF 中较短的候选者都被去除。
transcripts.fasta.transdecoder.cds  : 最终候选 ORF 编码区的核苷酸序列
transcripts.fasta.transdecoder.gff3 : 在最终选定的 ORF 的目标转录本内的位置
transcripts.fasta.transdecoder.bed  : bed-formatted的文件描述 ORF 位置,最好使用 GenomeView 或 IGV 查看。


使用同源搜索部分作为 ORF 保留标准

为了进一步最大化捕获可能具有功能意义的 ORF 的敏感性,无论上述编码可能性评分如何,您都可以扫描所有 ORF 以获得与已知蛋白质的同源性,并保留所有这些 ORF。这可以通过两种流行的方式实现: 对已知蛋白质数据库进行 BLAST 搜索,以及通过搜索 PFAM 来鉴定常见的蛋白质结构域。在TransDecoder的背景下,这样做如下:

在运行转码器之后。LongOrfs 中,您将找到一个名为'${transcripts_file}.transdecoder_dir/longest_orfs.pep'的 multi-fasta protein文件。使用以下方法搜索这些候选肽的同源性:

使用 BLAST + 搜索一个蛋白质数据库,如Swissprot (fast) or Uniref90 (slow but more comprehensive)
示例命令如下:

blastp -query transdecoder_dir/longest_orfs.pep  \
    -db uniprot_sprot.fasta  -max_target_seqs 1 \
    -outfmt 6 -evalue 1e-5 -num_threads 10 > blastp.outfmt6

使用 Pfam 搜索肽的蛋白质结构域。这需要安装 hmmer3和 Pfam 数据库。

hmmsearch --cpu 8 -E 1e-10 --domtblout pfam.domtblout /path/to/Pfam-A.hmm transdecoder_dir/longest_orfs.pep

Hmmcan 和 hmmsearch 都可以在这里使用,但是由于执行速度更快,建议使用 hmmsearch。

将 Blast 和 Pfam 搜索结果集成到编码区域选择中

上述产生的输出可由 TransDecder 利用,以确保那些具有blast hits或blast hits的肽保留在一组报告的可能的编码区域中。运行转码器。这样预测:

TransDecoder.Predict -t target_transcripts.fasta --retain_pfam_hits pfam.domtblout --retain_blastp_hits blastp.outfmt6

最终的编码区域预测现在将包括那些具有与编码区域一致的序列特征的区域,以及那些已经证明爆炸同源性或 pfam 域内容的区域。