R语言数据特征
最后发布时间:2020-04-27 13:07:56
浏览量:
数值变量的特征和可视化
summary(x) 有6个计算数值
数据集中趋势测量
- 均值(mean)
mean(x)
- 中位数(median)
median(x)
- 众数(mode)
数据分散趋势测量
- 值域(range : max-min)
- 方差(variance)
var(x)
- 标准差(standard variance)
sd(x)
- 四分位距(interquartile range)
稳健统计量(robust statistics)
-
是:中位数、四分位距(受极端值影响小)
-
否:均值、标准差、值域(受极端值影响大)
一个变量的可视化
- 柱状图(histogram)
横坐标
观测值可能取值,纵坐标
某一个观测值出现的频率
- 点图(dot plot)
- 箱图
两个变量的关系
- 散点图(scatter plot)
分类变量的特征和可视化
一个分类变量的可视化
- 频率表(frequency table)
- 条形图(bar plot)
两个分类变量的关系
- 关联表(contingency table)
- 相对频率表(relative frequencies)