① 通常将数据集的70%作为训练集,30%作为测试集(8 : 2也行),并且挑选的测试集的特性应该与训练集的特性雷同。
② 通常需要在开始构建模型之前把数据集举行划分,防止数据窥探偏误。也就是说,我们克制了解太多关于测试集中的样本特点,防止我们以为的挑选有助于测试集数据的模型。如许的效果会过于乐观,但是实际上并没有预期的那样良好。
③ 对于时序数据集、训练集和测试集需按时间划分。好比说我目前有 1-10 月的数据,那么 1-8 月作为训练集,9-10月作为测试级。
监督学习
监督学习是从<x,y标签>如许的事例中学习统计规律,然后对于新的 x 给出对应的 y 。通俗的讲,就是根据已有的数据集知道输入和输出效果之间的关系,根据这种已知的关系,训练得到一个最优模型。
① 分类模型:标签为分范例数据,好比预测用户是否流失(标签 y 为【是否】)
② 回归模型:标签为数值数据,好比预测销售额。