癌症基因组图谱 (TCGA)是一个具有里程碑意义的癌症基因组学计划,对超过 20,000 种原发性癌症和跨越 33 种癌症类型的匹配正常样本进行了分子表征。国家癌症研究所和国家人类基因组研究所之间的这项合作始于 2006 年,汇集了来自不同学科和多个机构的研究人员。

TARGET数据专门用于使用儿科数据的生物医学研究(即,研究目标不能使用来自成人的数据来实现),重点是开发更有效的治疗方法、诊断测试或儿童癌症的预后标志物。此外,TARGET 数据可用于与儿科癌症治疗的生物学、原因、治疗和晚期并发症相关的研究,但并非旨在用于方法和/或工具开发的唯一目的(请参阅使用 TARGET 数据部分OCG 网站)。如果您有兴趣将 TARGET 数据用于发表或其他研究目的,您必须遵循TARGET 发表指南。

基因型组织表达 (GTEx)项目是一项持续的努力,旨在建立一个全面的公共资源来研究组织特异性基因表达和调控。从近 1000 个人的 54 个非患病组织部位收集样本,主要用于分子检测,包括 WGS、WES 和 RNA-Seq。剩余样品可从 GTEx 生物库获得。GTEx 门户提供对数据的开放访问,包括基因表达、QTL 和组织学图像。

图片alt

图片alt

UCSC XENA Toil

# https://xenabrowser.net/datapages/
# https://xenabrowser.net/datapages/?dataset=TcgaTargetGtex_gene_expected_count&host=https%3A%2F%2Ftoil.xenahubs.net&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443

###  2.1 TCGA_GTEX_category ----
library(tidyverse)
TCGA_GTEX_category <- read_tsv("data/TcgaTargetGtex_UCSC/TCGA_GTEX_category.txt")

summ_TcgaGtex_category <- TCGA_GTEX_category %>% 
  add_count(TCGA_GTEX_main_category) %>% 
  mutate(project = str_sub(TCGA_GTEX_main_category, 1, 4),
         tissue_type = str_sub(TCGA_GTEX_main_category, 6),
         n_sample = n) %>% 
  arrange(tissue_type) %>% 
  select(TCGA_GTEX_main_category, project, tissue_type, n_sample) %>% 
  distinct()

###  2.2 gene_annotation data ----
gencode_v23 <- read_tsv("data/TcgaTargetGtex_UCSC/gencode.v23.annotation.gene.probemap")
id2symbol <- gencode_v23 %>% select(id = id, symbol = gene)

###  2.3 raw counts data ----

# TTG_raw_counts <- read_tsv("data/TcgaTargetGtex_UCSC/TcgaTargetGtex_gene_expected_count.gz")
# save(TTG_raw_counts, file = "data/TcgaTargetGtex_UCSC/TTG_raw_counts.Rda")
load(file = "data/TcgaTargetGtex_UCSC/TTG_raw_counts.Rda")

head(TTG_raw_counts) [ ,1:4]
sample(colnames(TTG_raw_counts), 10)

## liver noraml & cancer
# GTEx Liver
# TCGA LIHC

TcgaGtex_liver_sample <- TCGA_GTEX_category %>% 
  dplyr::filter(str_detect(TCGA_GTEX_main_category, pattern = "Liver")) %>% 
  mutate(group = ifelse(str_detect(TCGA_GTEX_main_category, pattern = "GTEX"),
                        "normal",
                        ifelse(str_sub(sample, 14, 15) == "11", 
                               "para_tumor", "tumor")))
table(TcgaGtex_liver_sample$group)

TcgaGtex_liver_counts <- TTG_raw_counts %>% 
  dplyr::select(id = sample, all_of(TcgaGtex_liver_sample$sample)) %>% 
  left_join(id2symbol, ., by = "id") %>% 
  mutate(across(.cols = where(is.numeric), 
                .fns = ~ round(2^.x-1, digits = 0)))

save(TcgaGtex_liver_counts, file = "data/TcgaTargetGtex_UCSC/TcgaGtex_liver_counts.rda")

recount2

# https://jhubiostatistics.shinyapps.io/recount/

library(SummarizedExperiment)
library(tidyverse) 

###  3.1 GTEx liver ----
load("data/recount2_liver/rse_gene_liver_GTEx.Rdata")
coldata1 <- colData(rse_gene)
rowdata1 <- rowData(rse_gene) 
sample_id1 <- coldata1$sampid

recount2_gtex_liver <- assay(rse_gene) %>% 
  as.data.frame() %>% 
  purrr::set_names(nm = sample_id1)

###  3.2 TCGA LIHC ----
load("data/recount2_liver/rse_gene_liver_TCGA.Rdata")
coldata2 <- colData(rse_gene)
rowdata2 <- rowData(rse_gene)
sample_id2 <- coldata2$gdc_cases.samples.portions.analytes.aliquots.submitter_id
recount2_tcga_lihc <- assay(rse_gene) %>%
  as.data.frame() %>% 
  set_names(sample_id2)


identical(rowdata1, rowdata2)

gene_id <- as.character(rowdata1$gene_id)

gene_symbol <- as.character(rowdata1$symbol@listData)

gene_df <- as_tibble(rowdata1$symbol) %>% 
  select(gene_id = group_name, gene_symbol = value)
###  3.3 combined data ----
TcgaGtex_recount2_liver <- cbind(recount2_gtex_liver, recount2_tcga_lihc)
group <- c(rep("GTEX", 136), str_sub(sample_id2, 14, 15))
table(group)
source("codes/custom_functions.R")
PCA_new(expr = log2(TcgaGtex_recount2_liver + 1), ntop = 5000, group = group)
#### End ----

参考