1 描述统计
差别概率分布就是差别随机现象规律性的数学描述。
统计学最常用的四大概率分布:正太分布,t分布, 卡方分布,F分布。
数据分布外形的统计量: 偏度(skewness, 是否对称), 峰度(Kurtosis,以标准正太分布为基准)
多个统计参数分析- rstatix::get_summary_stats(), dlookr::desicribe()
列联表- janitor包提供的tabyl(), 结合adorn_*() 函数
2 参数估计
多次抽样得到多个样本平均值和标准差,多个样本平均值的标准差就是这个效果的标准误。
但是假如不能多次抽样,就必要比及一个尽大概大的样本来计算标准误: SE = SD / sqrt(n).
估计的参数必要利用: 参数估计值 ± 估计误差 (n=) 。
Bootstrap 重抽样法: infer包可以很好计算置信区间。
2.1 最小二乘法(OLS): 让总的猜测误差最小, 线性是lm(), 非线性是nls(), 若不可,则利用glsnls包。
2.2 最大似然估计(MLE): 是频率派常利用的方法。先推导出对数似然函数,再做最大优化即可。另一派是贝叶斯
3 假设检验
rstatix包
4 回归分析
线性回归诊断
参数:
计算?2, 也称为可决系数,反映了自变量所能解释的方差占总方差的百分比。
多种公式表达方式
广义线性模子
5 数据清洗
重要包括: 缺失值处理处罚,数据去重,非常值处理处罚,逻辑错误检测,数据平衡检测,处理处罚不一致数据,相干性分析(剔除与题目不相干的冗余变量)、数据变更(标准/归一化,线性化,正态化等)。
缺失值:首先更换为NA:
replace_with_na(data, replace=list(x=-999)) # naniar包
vis_miss()##可视化整个数据框
单重插补: imput_<模子>(data, formula, [模子设定选项])
多重插补:插补多次: ## mice(非常好)
非常值 : rstatix包mahalanobis_distance()
6 特征工程与探索变量之间的关系
特征放缩: 标准化(变为均值为0,标准差为1), 归一化(放缩所有的值到0-1), 行规范化(1个样本所有的特征都在单位球面上,L2 范数)
特征变革:
正态性变革:
特征降维(PCA):
一连变量之间的相干性(GGally包):
|