R语言编程-Tidyverse 册本 - 数据清洗

藏宝库编辑 7 天前 3627 0 来自 中国
1 描述统计

差别概率分布就是差别随机现象规律性的数学描述。
统计学最常用的四大概率分布:正太分布,t分布, 卡方分布,F分布。
数据分布外形的统计量: 偏度(skewness, 是否对称), 峰度(Kurtosis,以标准正太分布为基准)
多个统计参数分析-  rstatix::get_summary_stats(), dlookr::desicribe()

列联表- janitor包提供的tabyl(), 结合adorn_*() 函数

2 参数估计

多次抽样得到多个样本平均值和标准差,多个样本平均值的标准差就是这个效果的标准误。
但是假如不能多次抽样,就必要比及一个尽大概大的样本来计算标准误: SE = SD / sqrt(n).
估计的参数必要利用: 参数估计值 ± 估计误差 (n=)  。
Bootstrap 重抽样法: infer包可以很好计算置信区间。
2.1 最小二乘法(OLS): 让总的猜测误差最小, 线性是lm(), 非线性是nls(), 若不可,则利用glsnls包。

2.2 最大似然估计(MLE): 是频率派常利用的方法。先推导出对数似然函数,再做最大优化即可。另一派是贝叶斯

3 假设检验

2.png rstatix包

3.png 4 回归分析

线性回归诊断

参数:
计算?2, 也称为可决系数,反映了自变量所能解释的方差占总方差的百分比。


7.png
8.png 9.png 多种公式表达方式

广义线性模子

11.png 5 数据清洗

重要包括: 缺失值处理处罚,数据去重,非常值处理处罚,逻辑错误检测,数据平衡检测,处理处罚不一致数据,相干性分析(剔除与题目不相干的冗余变量)、数据变更(标准/归一化,线性化,正态化等)。
缺失值:首先更换为NA:
replace_with_na(data, replace=list(x=-999)) # naniar包
vis_miss()##可视化整个数据框


13.png 单重插补: imput_<模子>(data, formula, [模子设定选项])

多重插补:插补多次: ## mice(非常好)


16.png 非常值 : rstatix包mahalanobis_distance()

6 特征工程与探索变量之间的关系

特征放缩: 标准化(变为均值为0,标准差为1), 归一化(放缩所有的值到0-1), 行规范化(1个样本所有的特征都在单位球面上,L2 范数)
特征变革:

19.png 正态性变革:

特征降维(PCA):

21.png
一连变量之间的相干性(GGally包):


23.png
24.png
您需要登录后才可以回帖 登录 | 立即注册

Powered by CangBaoKu v1.0 小黑屋藏宝库It社区( 冀ICP备14008649号 )

GMT+8, 2024-10-18 16:42, Processed in 0.161540 second(s), 36 queries.© 2003-2025 cbk Team.

快速回复 返回顶部 返回列表