癌症基因组图谱 (TCGA)是一个具有里程碑意义的癌症基因组学计划,对超过 20,000 种原发性癌症和跨越 33 种癌症类型的匹配正常样本进行了分子表征。国家癌症研究所和国家人类基因组研究所之间的这项合作始于 2006 年,汇集了来自不同学科和多个机构的研究人员。
TARGET数据专门用于使用儿科数据的生物医学研究(即,研究目标不能使用来自成人的数据来实现),重点是开发更有效的治疗方法、诊断测试或儿童癌症的预后标志物。此外,TARGET 数据可用于与儿科癌症治疗的生物学、原因、治疗和晚期并发症相关的研究,但并非旨在用于方法和/或工具开发的唯一目的(请参阅使用 TARGET 数据部分OCG 网站)。如果您有兴趣将 TARGET 数据用于发表或其他研究目的,您必须遵循TARGET 发表指南。
基因型组织表达 (GTEx)项目是一项持续的努力,旨在建立一个全面的公共资源来研究组织特异性基因表达和调控。从近 1000 个人的 54 个非患病组织部位收集样本,主要用于分子检测,包括 WGS、WES 和 RNA-Seq。剩余样品可从 GTEx 生物库获得。GTEx 门户提供对数据的开放访问,包括基因表达、QTL 和组织学图像。
# https://xenabrowser.net/datapages/
# https://xenabrowser.net/datapages/?dataset=TcgaTargetGtex_gene_expected_count&host=https%3A%2F%2Ftoil.xenahubs.net&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443
### 2.1 TCGA_GTEX_category ----
library(tidyverse)
TCGA_GTEX_category <- read_tsv("data/TcgaTargetGtex_UCSC/TCGA_GTEX_category.txt")
summ_TcgaGtex_category <- TCGA_GTEX_category %>%
add_count(TCGA_GTEX_main_category) %>%
mutate(project = str_sub(TCGA_GTEX_main_category, 1, 4),
tissue_type = str_sub(TCGA_GTEX_main_category, 6),
n_sample = n) %>%
arrange(tissue_type) %>%
select(TCGA_GTEX_main_category, project, tissue_type, n_sample) %>%
distinct()
### 2.2 gene_annotation data ----
gencode_v23 <- read_tsv("data/TcgaTargetGtex_UCSC/gencode.v23.annotation.gene.probemap")
id2symbol <- gencode_v23 %>% select(id = id, symbol = gene)
### 2.3 raw counts data ----
# TTG_raw_counts <- read_tsv("data/TcgaTargetGtex_UCSC/TcgaTargetGtex_gene_expected_count.gz")
# save(TTG_raw_counts, file = "data/TcgaTargetGtex_UCSC/TTG_raw_counts.Rda")
load(file = "data/TcgaTargetGtex_UCSC/TTG_raw_counts.Rda")
head(TTG_raw_counts) [ ,1:4]
sample(colnames(TTG_raw_counts), 10)
## liver noraml & cancer
# GTEx Liver
# TCGA LIHC
TcgaGtex_liver_sample <- TCGA_GTEX_category %>%
dplyr::filter(str_detect(TCGA_GTEX_main_category, pattern = "Liver")) %>%
mutate(group = ifelse(str_detect(TCGA_GTEX_main_category, pattern = "GTEX"),
"normal",
ifelse(str_sub(sample, 14, 15) == "11",
"para_tumor", "tumor")))
table(TcgaGtex_liver_sample$group)
TcgaGtex_liver_counts <- TTG_raw_counts %>%
dplyr::select(id = sample, all_of(TcgaGtex_liver_sample$sample)) %>%
left_join(id2symbol, ., by = "id") %>%
mutate(across(.cols = where(is.numeric),
.fns = ~ round(2^.x-1, digits = 0)))
save(TcgaGtex_liver_counts, file = "data/TcgaTargetGtex_UCSC/TcgaGtex_liver_counts.rda")
# https://jhubiostatistics.shinyapps.io/recount/
library(SummarizedExperiment)
library(tidyverse)
### 3.1 GTEx liver ----
load("data/recount2_liver/rse_gene_liver_GTEx.Rdata")
coldata1 <- colData(rse_gene)
rowdata1 <- rowData(rse_gene)
sample_id1 <- coldata1$sampid
recount2_gtex_liver <- assay(rse_gene) %>%
as.data.frame() %>%
purrr::set_names(nm = sample_id1)
### 3.2 TCGA LIHC ----
load("data/recount2_liver/rse_gene_liver_TCGA.Rdata")
coldata2 <- colData(rse_gene)
rowdata2 <- rowData(rse_gene)
sample_id2 <- coldata2$gdc_cases.samples.portions.analytes.aliquots.submitter_id
recount2_tcga_lihc <- assay(rse_gene) %>%
as.data.frame() %>%
set_names(sample_id2)
identical(rowdata1, rowdata2)
gene_id <- as.character(rowdata1$gene_id)
gene_symbol <- as.character(rowdata1$symbol@listData)
gene_df <- as_tibble(rowdata1$symbol) %>%
select(gene_id = group_name, gene_symbol = value)
### 3.3 combined data ----
TcgaGtex_recount2_liver <- cbind(recount2_gtex_liver, recount2_tcga_lihc)
group <- c(rep("GTEX", 136), str_sub(sample_id2, 14, 15))
table(group)
source("codes/custom_functions.R")
PCA_new(expr = log2(TcgaGtex_recount2_liver + 1), ntop = 5000, group = group)
#### End ----