芯片数据的下载与清洗
最后发布时间:2021-04-29 09:08:48
浏览量:
芯片数据下载与读取
GEOquery
AnnotGPL=T
使用GPLXXX.annot.gz文件AnnotGPL=F
使用GPLXXX.soft文件
gpl_1 <- getGEO("GPL16699",AnnotGPL=T,destdir = "data")
getGPL =F
只下载表达矩阵GSEMatrix =TRUE
不从soft文件解析表达矩阵
gset_1_1 <- getGEO("GSE165004", GSEMatrix =TRUE, getGPL =F,destdir = "data")
- 下载GSEXXXX_RAW.tar原始文件
getGEOSuppFiles("GSE165004",baseDir = "data")
提取表达矩阵
- exprs from GEOquery
gset_expr <- exprs(gset[[1]])
- from GSEXXXXX_series_matrix.txt.gz
- 从原始数据提取表达矩阵
提取注释信息
- annotation from GEOquery
gpl_1 <- getGEO("GPL16699",AnnotGPL=T,destdir = "data")
gpl_1 <- Table(gpl_1)
- annotation from GPL soft file
- annotation form microarry manufacture website
- annotation from Bioconductor
提取GEO的样本及临床信息
gset_1_pd <- pData(gset_1) %>%
dplyr::select(sample_id=geo_accession,sample_name=title,tissue_type=source_name_ch1)%>%
mutate(group= case_when(tissue_type == "Endometrial_Tissue_Fertile_Control" ~"control",
tissue_type=="Endometrial_Tissue_Fertile_RPL"~"RPL",
tissue_type=="Endometrial_Tissue_Fertile_UIF"~"UIF"))
去除批次效应
批次效应的来源与评估
去除批次效应的方法
多平台数据合并分析的方法
- 先差异分析,再合并结果(不同测序平台)
- 先合并数据,后差异分析(同一个测序平台)
批次分析流程
单个芯片数据集批次效应去除流程
- 读取芯片原始数据
- 数据质控
- 背景矫正
- 标准化
- 缺失值补充
- 得到清洁的基因表达矩阵
- 批次效应的评估和可视化
- 如已知批次效应:ComBat
- 如未知批次效应:sva
同一平台多个芯片数据集批次效应去除流程
- 合并芯片原始数据,读取芯片原始数据
- 数据质控
- 背景矫正
- 标准化
- 缺失值补充
- 得到清洁的基因表达矩阵
- 批次效应的评估和可视化
- ComBat处理批次效应
跨平台数据集批次处理流程
- 分解进行差异分析后差异基因取交集(绘制韦恩图)
- 采用RRA方法整合分析各个数据集的差异基因
- RObustRankAggreg
参考
https://www.helixlife.cn/courses/class/12c03f65-2bab-42d6-9931-47e53853f4b1/learns/1766