数值变量的特征和可视化
summary(x) 有6个计算数值
数据集中趋势测量
mean(x)
median(x)
数据分散趋势测量
- 值域(range : max-min)
- 方差(variance)
var(x)
sd(x)
- 四分位距(interquartile range)
稳健统计量(robust statistics)
-
是:中位数、四分位距(受极端值影响小)
-
否:均值、标准差、值域(受极端值影响大)
一个变量的可视化
横坐标
观测值可能取值,纵坐标
某一个观测值出现的频率
两个变量的关系
分类变量的特征和可视化
一个分类变量的可视化
- 频率表(frequency table)
- 条形图(bar plot)
两个分类变量的关系
- 关联表(contingency table)
- 相对频率表(relative frequencies)
一个分类变量和一个数值变量