芯片数据下载与读取

GEOquery

gpl_1 <- getGEO("GPL16699",AnnotGPL=T,destdir = "data")
gset_1_1 <- getGEO("GSE165004", GSEMatrix =TRUE, getGPL =F,destdir = "data")
getGEOSuppFiles("GSE165004",baseDir = "data")

提取表达矩阵

图片alt

图片alt

gset_expr <- exprs(gset[[1]])

提取注释信息

图片alt

图片alt

gpl_1 <- getGEO("GPL16699",AnnotGPL=T,destdir = "data")
gpl_1 <- Table(gpl_1)

提取GEO的样本及临床信息

图片alt

图片alt

gset_1_pd <- pData(gset_1) %>% 
  dplyr::select(sample_id=geo_accession,sample_name=title,tissue_type=source_name_ch1)%>%
  mutate(group= case_when(tissue_type == "Endometrial_Tissue_Fertile_Control" ~"control",
                          tissue_type=="Endometrial_Tissue_Fertile_RPL"~"RPL",
                          tissue_type=="Endometrial_Tissue_Fertile_UIF"~"UIF"))

去除批次效应

批次效应的来源与评估

图片alt

图片alt


图片alt

图片alt


图片alt

图片alt

去除批次效应的方法

图片alt

图片alt


图片alt

图片alt


图片alt

图片alt

多平台数据合并分析的方法

批次分析流程

单个芯片数据集批次效应去除流程

同一平台多个芯片数据集批次效应去除流程

跨平台数据集批次处理流程

参考

https://www.helixlife.cn/courses/class/12c03f65-2bab-42d6-9931-47e53853f4b1/learns/1766