R语言数据特征

最后发布时间:2020-04-27 13:07:56 浏览量:

数值变量的特征和可视化

summary(x) 有6个计算数值

数据集中趋势测量

  • 均值(mean)
mean(x)
  • 中位数(median)
median(x)
  • 众数(mode)

数据分散趋势测量

  • 值域(range : max-min)
  • 方差(variance)

var(x)
  • 标准差(standard variance)

sd(x)
  • 四分位距(interquartile range)

稳健统计量(robust statistics)

  • :中位数、四分位距(受极端值影响小)

  • :均值、标准差、值域(受极端值影响大)

一个变量的可视化

  • 柱状图(histogram)

横坐标观测值可能取值,纵坐标某一个观测值出现的频率

  • 点图(dot plot)
  • 箱图

两个变量的关系

  • 散点图(scatter plot)

分类变量的特征和可视化

一个分类变量的可视化

  • 频率表(frequency table)
  • 条形图(bar plot)

两个分类变量的关系

  • 关联表(contingency table)
  • 相对频率表(relative frequencies)

一个分类变量和一个数值变量