机器学习入门 | 必知必会的基础理论

藏宝库编辑 · 2024-10-11 14:36:55

一、什么是机器学习、数据发掘？

1、AI是什么？

AI（人工智能）是研究开辟用于模拟、延伸和扩展人的智能理论、方法、技能及应用系统的一门新的技能科学。人工智能是计算机科学的一个分支。
AI的应用场景：必备基础 "机器学习"
2、机器学习是什么？

机器学习就是让机器有学习的能力，让机器通过"某种计谋", 学习"汗青数据"后，可以大概举行一定"预测"和"识别"的能力。
3、数据发掘是什么？

数据发掘是指从大量数据中通过算法搜索隐藏于其中信息的过程。机器学习是支持数据发掘的本领。从关系上看，数据发掘包罗机器学习。
4、为什么需要数据发掘？

面临复杂且大量的新数据集时，传统数据分析计算经常遇到瓶颈，我们将常见瓶颈举行抽象。
1、高维性数据：随着5G及物联网的建设，数据量将会呈指数级的增长，经常遇到成百上千属性的维度，可想象，计算复杂度将灵敏增加。
2、非结构化数据：非结构化数据也包罗许多含金量的信息，例如视频、音频、文本等等，这些都是传统数据分析方法无法获取的信息。
3、自动及智能题目。传统分析方法通例流程就是"提出假设-验证假设"，但这一过程劳力费神。当前的数据分析任务经常需要产生和评估数千种假设，因此需要自动、智能的本领。
注：数据发掘非万能法则，数据分析也非所想的不堪，两者的结合应用才气更好的为业务赋能。毕竟上，数据发掘是需要数据分析举行辅助的，好比数据探索，特性工程。

二、机器学习所需要的基础理论

让机器通过"某种计谋", 学习"汗青数据"后，可以大概举行一定"预测"和"识别"的能力

1、某种计谋（模型）、损失、模型训练和标签

1）模型是什么？以"一元线性回归"为例

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号df1 = pd.DataFrame({'用户人数':[100,200,300,400,500],'销售额(元)':[1000,2000,3000,4000,5000]})df1.plot(x='用户人数',y='销售额(元)')from sklearn.linear_model import LinearRegressionx = df1['用户人数'].values.reshape(-1,1)y = df1['销售额(元)']lr = LinearRegression()lr.fit(x,y)# 模型的斜率lr.coef_

lr.predict(np.array([600]).reshape(-1,1))假设用户人数为600，那销量是 6000 ，这是模型的预测能力。

2）损失

损失是对糟糕预测的处罚。损失是一个数值，表现对于单个样本而言，模型预测的准确程度。假如模型的预测完全准确，则损失为零，否则损失会较大。如下图：那副图的损失更大？赤色箭头表现损失，蓝色线表现预测，可见图二的模型更准确（预测值-实际值），图一的损失更大。
3）模型训练

模型训练表现通过有标签样本来学习（确定）所有权重和毛病的理想值。模型训练查抄多个样本，并尝试找出可最大限度的减少损失的模型（方向）。好比：上面的线性回归，k 和 b 都是两个未知的参数，根据已有的样本 x 和 y 去训练模型。
y = kx + b4）标签

标签，白话说就是模型的 y 值，好比上面的线性回归标签就是销售额，抽象的说，标签就是结论。好比：【x，y】——【用户人数，销售额】——【100,1000】，就是一个样本。
2、代价函数（损失函数）

代价函数：是一个数学函数，可以大概以故意义的方式汇总各种损失
最常见的代价函数：MSE（均方毛病）指的是每个样本均匀平方损失。

注：MSE 常用于机器学习，但它不是唯一实用的损失函数，也不是实用于所有模型最佳的损失函数。
三、划分数据集（训练、验证、测试）

1）训练集与测试集（常见模式）

训练集：用于训练模型的子集
测试集：用于测试训练后模型的子集

举个例子：训练集相称于上课学知识，测试集相称于期末测验，用来终极评估学习效果。

2）划分注意点:

① 通常将数据集的70%作为训练集，30%作为测试集（8 : 2也行），并且挑选的测试集的特性应该与训练集的特性雷同。
② 通常需要在开始构建模型之前把数据集举行划分，防止数据窥探偏误。也就是说，我们克制了解太多关于测试集中的样本特点，防止我们以为的挑选有助于测试集数据的模型。如许的效果会过于乐观，但是实际上并没有预期的那样良好。
③ 对于时序数据集、训练集和测试集需按时间划分。好比说我目前有 1-10 月的数据，那么 1-8 月作为训练集，9-10月作为测试级。

原因：假设我们有了这个模型以后，都是用汗青的数据，去预测将来的数据的，以是我们在训练数据的时候也要符合这个模式。

3）流程:

借助这种划分，可以对一个样本集举行训练，然后利用不同的样本集测试模型。接纳两种分类以后，工作流程可能如下所示。

缺点：相称于不停的利用测试集（将来数据）去调解模型，类似数据窥探的效果会增大模型过拟合的风险。

4）优化后的流程:

缺点：① 验证集的缺点，10%数据很名贵，拿去训练模型可能会产生更好的效果。② 繁琐
通常接纳第一种（测试集和训练集），假如发现训练模型过拟合，通过本领没有低落的话，可以接纳第二种模式。

四、交织验证（Cross Validation）

交织验证的基本思想是把在某种意义下将原始数据举行分组，一部分作为训练集（train set），另一部分作为验证集（validation set or test set）。首先用训练集对分类器举行训练，再利用验证集来测试训练得到的模型（model），以此来作为评价分类器的性能指标。
目的 : 用交织验证的目的是为了得到可靠稳固的模型。
留出法(Holdout cross validation)：上面提到的按照固定比例将数据集静态的划分为训练集、验证集、测试集的方法就是留出法。
留一法(Leave one out cross validation )：每次的测试集都只有一个样本，需要举行 n 次训练和预测。这个方法用于训练的数据只比仅团体数据集少了一个样本，因此最接近原始样本的分布。但是训练复杂度增加了，因为模型的数量与原始数据样本数量雷同，一般在数据缺乏时利用。
K折交织验证(k-fold cross validation ):静态的留出法对数据的划分方式比力敏感，有可能不同的划分方式得到了不同的模型。【K折交织验证】是一种动态的验证方式，这种方式可以低落数据划分带来的影响，会得到一个更可靠的模型。详细步骤如下：
五折交织验证法：

① 将所有的数据集匀称的分成五份
② 不重复的每次取出其中一份做测试集，用其他四份做训练集训练模型，之后计算该模型在测试集上的MSE
③ 将五次的MSE取均匀得到的末了的MSE，作为评价模型的指标
五、泛化能力与过拟合

泛化能力：对未知数据 (新数据) 的预测能力。
过拟合: 指的是模型在训练集上体现的很好，但是在交织验证聚集和测试集上体现一般，也就是说模型对未知样本的预测体现一般，泛化能力较差。
举例：好比下图三个模型，绿色表现训练集样本，红线表现模型的预测能力，蓝色表现新样本点。看模型三在训练集表现很好，但是在新样本体现一般，以是说泛化能力较差，出现过拟合。模型一在训练集体现的也不好，新样本预测也不好，称之为欠拟合。终极我们选择模型二，泛化能力越好，就是越好的模型。

为什么会产生过拟合？

① 训练数据聚集训练数据集样本单一，样本不足。假如训练样本只有负样本，然后拿生成的模型去预测正样本，这肯定预测禁绝，以是训练样本要尽可能的全面，覆盖所有的数据范例。
②训练数据中噪声干扰过大，噪声指训练数据中的干扰数据，过多的干扰会导致记载了许多噪声特性，忽略了真实输入和输出之间的关系。
③ 模型过于复杂，模型太复杂，已经可以大概死记硬背记下了训练数据的信息，但是遇到没有见过的数据的时候不可以大概变通，泛化能力太差。我们希望模型对不同的模型都有稳固的输出，模型太复杂是过拟合的紧张因素。

如何低落过拟合？

① 获取和利用更多的数据（数据集加强）是办理过拟合的根天性方法。
② 接纳符合的模型，控制模型的复杂度。根据奥卡姆剃刀法则：在同样可以大概解释已知观测现象的假设中，我们应该挑选 "最简朴" 的那一个，对于模型的计划而言，我们应该选择简朴符合的模型办理复杂的题目。
③ 低落特性的数量。对于一些特性工程而言，可以低落特性的数量，删除冗余特性，人工选择保留哪些特性，这种方法也可以办理过拟合题目。
④ 正则化，正则化就是在模型的代价函数里添加一个束缚，使得可以减少模型参数的候选空间，使得模型更加简洁，本质上是控制模型复杂度。
⑤ dropout是在训练网络时用的一种本领，相称于在隐藏单元增加了到噪声。drop out指的是在训练过程中，每次按一定的概率，好比50%，随机的删除一部分隐藏单元神经元。所谓的删除不是真正意义上的删除，着实就是将该部分神经元的激活函数设为零，激活函数的输出为零，让这些神经元不计算而已。
⑥ 提前终止，对模型举行训练的过程即是对模型的参数举行学习更新的过程。这个参数学习的过程往往会用到一些迭代方法，好比梯度下降Early stopping是一种迭代次数截断的方法来阻止过拟合的方法。即在模型对训练数据及迭代收敛之前克制迭代来防止过拟合。

以是，总的来说，一个好的模型，损失函数尽可能的小，泛化能力尽可能大。

六、模型种别

监督学习
监督学习是从<x,y标签>如许的事例中学习统计规律，然后对于新的 x 给出对应的 y 。通俗的讲，就是根据已有的数据集知道输入和输出效果之间的关系，根据这种已知的关系,训练得到一个最优模型。
① 分类模型：标签为分范例数据，好比预测用户是否流失（标签 y 为【是否】）
② 回归模型：标签为数值数据，好比预测销售额。

监督学习常见模型
K-近邻（KNN）
线性回归（回归模型）
逻辑回归（分类模型）
支持向量机
决策树和随机丛林
神经网络

无监督学习
相比监督学习没有标注数据，也就是 y。无监督学习是从一堆数据中学习其内在统计规律或内在结构。学习到的模型可以是种别，转换或者概率，这些模型可以实现对数据的聚类、降维、可视化、概率估计和关联规则学习。

无监督学习常见模型
a.聚类算法
k-means算法(kmeans)
密度聚类算法
最大期望算法(EM)
b.降维
主成分分析(PCA)
c.关联规则学习
Apriori
d. 时间序列预测

半监督学习
半监督学习包罗大量未标注数据和少量标注数据，主要是利用未标注中的信息辅助标注数据举行监督学习。大多数半监督学习算法是无监督式和监督式算法的结合。

七、模型评估

不同范例的模型评估方法不一。
先讲一个常见误区，各人是否觉得评估模型就用模型准确率？

实际例子，小a是某运营商的一名数据分析师，老板最近和他说："小a，最近我们这个 xx 流量产物每月流失用户都挺多的，能不能帮助想想办法。"，小a 思考了一下，觉得假设我们能预测出下个月流失用户的名单，那我们是不是能提前对这批用户发发优惠，或者引导他们升级变更其他流量产物去挽留他们呢？

模型准确率9/10 = 90%
记得我们的任务目标吗，我们目标是不是想预测出哪些用户流失了？那这个模型在预测流失用户的体现如何，模型一个流失用户都没预测出来，只管模型的准确率是90%这么高，但对于我们的业务来说，是无效模型。

分类评估指标

① 一级指标（底层指标）
肴杂矩阵：肴杂矩阵就是分别统计分类模型、归错类、归对类的观测值个数，然后把效果放在一个表里展示出来，这个表就是肴杂矩阵。

真实值是positive，模型以为是positive的数量（True Positive =TP），真阳性。

真实值是positive，模型以为是negative的数量（False Negative = FN），这就是统计学上的第一类错误，弃真，假阴性。

真实值是negative，模型以为是positive的数量（False Positive = FP），这就是统计学上的第二类错误，纳伪，假阳性。

真实值是negative，模型以为是negative的数量（True Negative = TN），真阴性。

套上例子：
实际为流失用户，而模型预测也是流失用户的数量，即为TP
实际为流失用户，而模型预测时非流失用户的数量，即为FN
实际为非流失用户，而模型预测的是流失用户的数量，即为FP
实际为非流失用户，而模型预测黑白流失用户的数量，即为TN

肴杂矩阵怎么看？预测性分类模型肯定是希望越准越好，那么对应到肴杂矩阵中，那肯定是希望TP和TN的数量大，而FP与FN的数量小。

② 二级指标
肴杂矩阵里面统计的是个数，偶然候面对大量的数据，光凭算个数很难权衡模型的优劣。因此肴杂矩阵在基本的统计效果上又延伸了如下四个指标，我们称它为二级指标。

accuracy （准确率）:（TP + TN）/（TP + FN + FP + FN）
意义:分类模型所有判断精确的效果占总观测值的比重，一般不消

precision（准确率）：TP /（TP + FP）
意义:表现预测为正的样本数有多少是对的，可解释性强，常用越高越好。

record （召回率、查全率，真正率TPR）：TP / ( TP + FN)
意义：表现样本中的正例有多少被预测精确，可解释强，常用越高越好。

FPR （假正率）：FP / （FP + FN）
意义：表现当前被错误分到正样本种别中真实的负样本所占所有负样本总数的比例，越低越好。

③三级指标

ROC curve，这个曲线就是以下 TPR 和 FPR 为轴，取不同的阈值点画的。

模型去预测分范例任务的时候，本质上是预测分范例的概率的，好比计算流失的概率，假如这个概率大于阈值0.5的话，这即为流失，以是这里就有个阈值的存在。不同的阈值，会有不同的TP 、FP。

ROC_AUC:AUC就是曲线下面积，我们根据ROC曲线想一下，到底我们这个曲线涨什么样的模型才算好呢？TR率是越高越好，FP率是越低越好，以是我们的曲线应该是越靠近Y轴越好。（粗鲁）理解终极可抽象成，ROC曲线下面积越大越好，即AUC越大越好。

AUC评判标准 :
0.5-0.7 : 效果较低，但预测股票已经很不错了。
0.7-0.85 : 效果一般
0.85-0.95 : 效果很好
0.95-1 : 效果非常好，但不太可能

f1值2*Precision * Recall/(Precision+Record)
意义：我们的模型想recall和precision都高，但鱼与熊掌不可兼得，假如想要找到它们的平衡，那就用f1值。

分类评估指标，如何选择？
选择方针，根据你模型所办理的目的举行选择，好比我想现在。训练一个模型来识别出哪些是在逃罪犯？（宁肯错杀1000，也不放过一个）-- recall，因为recall为表现样本中的正例有多少被预测精确，对于这个模型，就是所有的在逃罪犯为分母，模型预测为在逃罪犯为分子。假设recall为1，也就是所有的在逃罪犯模型都预测精确了。
根据指标可解释性去选择。实际工作中经常要向不懂机器学习的人去解释模型的效果，类似roc_auc和f1值，这种三级指标可解释性较弱，以是我们一般是选择recall和precision。

回归评估指标

均匀绝对毛病MAE
均方毛病 MSE

相对MAE而言，MSE的数值更大。
均方根毛病 RMSE
中位绝对毛病
r^2决定系数（拟合优度）

回归评估指标如何选择？

一般选择MSE作为评估指标
MSE的毛病的量纲相对较大。若选看量纲接近业务水平的，用MSE和RMSE
若担心某个毛病较大会影响团体的评估指标，用MedAE
假如模型希望的是找到可以大概解释目标y变更的因变量，则选用R Squared更符合。

机器学习的基础概念先容到这里，懂得了基础概念，才气开始后续的学习。

机器学习入门 | 必知必会的基础理论

浏览过的版块

所属分类: 问答交流

新帖推荐: 30日

推荐作品