R语言编程-Tidyverse 册本 - 数据清洗

藏宝库编辑 · 2024-10-11 14:37:06

1 描述统计

差别概率分布就是差别随机现象规律性的数学描述。
统计学最常用的四大概率分布：正太分布，t分布，卡方分布，F分布。
数据分布外形的统计量：偏度（skewness, 是否对称），峰度（Kurtosis,以标准正太分布为基准）
多个统计参数分析- rstatix::get_summary_stats(), dlookr::desicribe()

列联表- janitor包提供的tabyl(), 结合adorn_*() 函数

2 参数估计

多次抽样得到多个样本平均值和标准差，多个样本平均值的标准差就是这个效果的标准误。
但是假如不能多次抽样，就必要比及一个尽大概大的样本来计算标准误： SE = SD / sqrt(n).
估计的参数必要利用：参数估计值 ± 估计误差（n=）。
Bootstrap 重抽样法： infer包可以很好计算置信区间。
2.1 最小二乘法（OLS）: 让总的猜测误差最小，线性是lm(), 非线性是nls(), 若不可，则利用glsnls包。

2.2 最大似然估计（MLE）：是频率派常利用的方法。先推导出对数似然函数，再做最大优化即可。另一派是贝叶斯

3 假设检验

rstatix包

4 回归分析

线性回归诊断

参数：
计算?2, 也称为可决系数，反映了自变量所能解释的方差占总方差的百分比。

多种公式表达方式

广义线性模子

5 数据清洗

重要包括：缺失值处理处罚，数据去重，非常值处理处罚，逻辑错误检测，数据平衡检测，处理处罚不一致数据，相干性分析（剔除与题目不相干的冗余变量）、数据变更（标准/归一化，线性化，正态化等）。
缺失值：首先更换为NA：
replace_with_na(data, replace=list(x=-999)) # naniar包
vis_miss()##可视化整个数据框

单重插补： imput_<模子>（data, formula, [模子设定选项]）

多重插补:插补多次： ## mice（非常好）

非常值： rstatix包mahalanobis_distance()

6 特征工程与探索变量之间的关系

特征放缩：标准化（变为均值为0，标准差为1），归一化（放缩所有的值到0-1），行规范化（1个样本所有的特征都在单位球面上，L2 范数）
特征变革：

正态性变革：

特征降维（PCA）：

一连变量之间的相干性（GGally包）：

R语言编程-Tidyverse 册本 - 数据清洗

浏览过的版块

所属分类: 问答交流

新帖推荐: 30日

推荐作品