芯片数据的下载与清洗

最后发布时间:2021-04-29 09:08:48 浏览量:

芯片数据下载与读取

GEOquery

  • AnnotGPL=T 使用GPLXXX.annot.gz文件
  • AnnotGPL=F 使用GPLXXX.soft文件
gpl_1 <- getGEO("GPL16699",AnnotGPL=T,destdir = "data")
  • getGPL =F只下载表达矩阵
  • GSEMatrix =TRUE 不从soft文件解析表达矩阵
gset_1_1 <- getGEO("GSE165004", GSEMatrix =TRUE, getGPL =F,destdir = "data")
  • 下载GSEXXXX_RAW.tar原始文件
getGEOSuppFiles("GSE165004",baseDir = "data")

提取表达矩阵

图片alt

图片alt

  • exprs from GEOquery
gset_expr <- exprs(gset[[1]])
  • from GSEXXXXX_series_matrix.txt.gz
  • 从原始数据提取表达矩阵

提取注释信息

图片alt

图片alt

  • annotation from GEOquery
gpl_1 <- getGEO("GPL16699",AnnotGPL=T,destdir = "data")
gpl_1 <- Table(gpl_1)
  • annotation from GPL soft file
  • annotation form microarry manufacture website
  • annotation from Bioconductor

提取GEO的样本及临床信息

图片alt

图片alt

gset_1_pd <- pData(gset_1) %>% 
  dplyr::select(sample_id=geo_accession,sample_name=title,tissue_type=source_name_ch1)%>%
  mutate(group= case_when(tissue_type == "Endometrial_Tissue_Fertile_Control" ~"control",
                          tissue_type=="Endometrial_Tissue_Fertile_RPL"~"RPL",
                          tissue_type=="Endometrial_Tissue_Fertile_UIF"~"UIF"))

去除批次效应

批次效应的来源与评估

图片alt

图片alt


图片alt

图片alt


图片alt

图片alt

去除批次效应的方法

图片alt

图片alt


图片alt

图片alt


图片alt

图片alt

多平台数据合并分析的方法

  • 先差异分析,再合并结果(不同测序平台)
  • 先合并数据,后差异分析(同一个测序平台)
    https://downloads.hindawi.com/journals/isrn/2014/345106.pdf

    https://downloads.hindawi.com/journals/isrn/2014/345106.pdf

批次分析流程

单个芯片数据集批次效应去除流程

  • 读取芯片原始数据
  • 数据质控
  • 背景矫正
  • 标准化
  • 缺失值补充
  • 得到清洁的基因表达矩阵
  • 批次效应的评估和可视化
  • 如已知批次效应:ComBat
  • 如未知批次效应:sva

同一平台多个芯片数据集批次效应去除流程

  • 合并芯片原始数据,读取芯片原始数据
  • 数据质控
  • 背景矫正
  • 标准化
  • 缺失值补充
  • 得到清洁的基因表达矩阵
  • 批次效应的评估和可视化
  • ComBat处理批次效应

跨平台数据集批次处理流程

  • 分解进行差异分析后差异基因取交集(绘制韦恩图)
  • 采用RRA方法整合分析各个数据集的差异基因
    • RObustRankAggreg

参考

https://www.helixlife.cn/courses/class/12c03f65-2bab-42d6-9931-47e53853f4b1/learns/1766