机器学习模型为什么表现不好？理解欠拟合和过拟合

Hakuna 2025-01-13 2025-01-15 2869 字 15 minutes Model Generalization

Table of Content

****

机器学习课程的期末考试临近，峻茂、令仪和自佑三位同学各自选择了不同的复习策略。她们的选择不仅反映了对课程内容的不同理解，也深刻影响了她们的考试表现。让我们看看她们是如何备考的。

峻茂认为机器学习课程并不复杂，平时听课时他觉得自己已经掌握了大部分内容。因此，在复习时，他只是随意翻了几页课本，划了几处自己认为重要的内容，便觉得大功告成了。他并没有花时间去深入理解算法的核心原理，也没有动手做过任何练习。在他看来，考试只不过是对课本知识的简单考察，记住书上的要点就足够应对。然而，考试当天，峻茂一拿到试卷便愣住了。试卷上的题目不仅需要进行复杂的计算，还要求结合实际场景灵活运用所学知识，而他那点浅薄的复习显然不足以应对这些挑战。最终，峻茂的成绩平平，分析其原因不难发现，主要是因为他的复习方式过于表面化，未能有效掌握知识的深层次规律和应用方法。

令仪的复习策略则完全不同。她对考试充满了焦虑，害怕遗漏任何细节，因此她投入了大量时间逐字逐句地背诵课件和教材内容，甚至将所有作业题的答案一一记熟。她还特别关注课上提到的各种细枝末节，例如某些算法在极端情况下的表现，并反复研究这些细节。尽管她的复习看起来非常充分，但考试题目却并未完全按照课本或作业的“剧本”出题。面对稍有变化或嵌入新场景的题目，令仪明显感到力不从心。过于执着于细节使她忽视了知识的整体性和核心规律，最终导致她在考试中没能取得理想的成绩。尽管复习时她付出了巨大努力，但这并未转化为应对考试实际需求的能力。

自佑则选择了一种更加高效且平衡的复习方式。她认真研读教材和课件，确保每个核心概念和算法背后的原理都理解透彻。在掌握基础知识后，她通过完成课后习题和模拟试卷来巩固自己的学习成果，不仅提高了知识的熟练度，还通过实践积累了应对复杂题目的经验。同时，自佑非常注重归纳和总结，将算法的适用场景和局限性条理清晰地整理出来，而不是机械地死记硬背所有内容。考试当天，无论题目如何变化，她都能冷静分析，用学到的规律解决问题。自佑的复习方法不仅让她在考试中表现得游刃有余，也帮助她获得了优异的成绩。她的备考策略证明了有针对性地复习和灵活应用知识的重要性。

这三位同学的备考策略，展示了机器学习模型中的三种典型问题：峻茂的简单复习对应欠拟合（Underfitting），令仪的细节化复习导致过拟合（Overfitting），而自佑的平衡策略展现了理想的泛化能力（Generalization Capacity of the Model）。那么，在实际的机器学习中，我们该如何判断模型是欠拟合还是过拟合？又如何改进模型，找到性能的最佳平衡点？接下来，我们将深入探讨这些问题的核心原理与解决方法。

欠拟合、过拟合与泛化能力的本质

在机器学习中，模型的表现受多种因素影响，而欠拟合、过拟合与泛化能力是评估模型性能的关键问题。通过峻茂、令仪和自佑三位同学的复习策略，我们可以更加形象地理解这些现象的本质。

欠拟合：过于简单的模型：峻茂的复习策略就像一个欠拟合的模型。他仅仅依赖粗浅的学习方法，没有深入理解课程的核心概念，也没有通过实践巩固所学知识。这就像一个过于简单的模型，无法有效捕捉数据中的关键模式和规律。当面对考试这样的“新数据”时，模型的表现自然不尽如人意。欠拟合通常发生在模型复杂度不足、训练不足或输入特征表达能力不充分的情况下，其结果是模型的训练误差和验证误差都很高，表现明显欠佳。

过拟合：过度记忆的模型：令仪的复习策略则对应于过拟合现象。她投入了大量时间记忆细节，甚至试图掌握每一道题的答案。然而，她的复习忽略了对知识的本质理解，过于依赖训练“数据”中的每一个细枝末节，最终在考试中难以灵活应对稍作变化的题目。过拟合的模型正是如此：它在训练数据上表现优异，却无法在验证或测试数据上取得好成绩，因为它过度拟合了训练数据中的细节和噪声，而没有抓住数据的核心规律。

泛化能力：理想的平衡点：自佑的复习策略展示了理想的泛化能力。她通过扎实的理论学习和实践训练，既掌握了课程的核心规律，又通过模拟题灵活运用知识。自佑的复习方式不仅帮助她应对考试中的常规题目，还能从容解决未见过的新题。这种平衡策略与泛化能力良好的模型相似：它在训练数据中学到了关键规律，同时具备应对新数据的适应能力。模型的泛化能力是成功的关键，能够有效避免欠拟合和过拟合，找到理论与实际应用之间的最佳平衡点。

欠拟合、过拟合与泛化能力的衡量

那么，我们如何在训练机器学习模型时，运用科学的量化方法衡量模型的欠拟合、过拟合以及泛化能力呢？

这里我们需要引入一个重要的衡量标准：均方误差（Mean Squared Error, MSE）。均方误差通过衡量预测值与真实值之间的平均平方差，以此反映了模型的整体预测误差。

假设我们有一个训练数据集，由一组点 $x_1, x_2, \ldots, x_n$ 及其对应的 $y_i$ 组成，其中 $y_i$ 是与每个点 $x_i$ 相关联的真实值，他们之间有如下关系：

$$ y = f(x) + \epsilon $$

其中 $\epsilon$ 为噪声项，且满足 $\mathbb{E}[\epsilon | x] = 0$，即噪声项在统计意义上对预测值没有偏向性，从而使得 $f(x)$ 成为 $y$ 的条件期望 $\mathbb{E}[y | x] = f(x)$。此外，噪声项的方差 $Var(\epsilon) = \sigma^2$ 是固定的。

我们期望借助于某种算法，在训练集 $D$ 上找到一个函数 $\widehat{f}(x; D)$，使其尽可能的接近真实函数 $f(x)$。为了实现这一点，我们通常最小化预测值 $\widehat{f}(x; D)$ 与真实值 $y$ 之间的 均方误差 。理论上，我们希望优化以下目标函数：

$$ \min_{\widehat{f}} \text{MSE} = \mathbb{E}_{D, \varepsilon} \left[ \left( y - \widehat{f}(x; D) \right)^2 \right] $$

其中 $\mathbb{E}_{D, \varepsilon}$ 表示对数据分布和噪声分布的联合期望；$y$ 是真实值；$\widehat{f}(x; D)$ 是训练集 $D$ 上学到的预测函数。

为了评估模型对训练集之外数据的泛化能力，可以借助于偏差-方差分解（Bias-Variance Decomposition）理论将未见样本 $x$ 上的期望误差分解为三个部分：

$$ \mathbb{E}_{D, \varepsilon} \left[ \left( y - \widehat{f}(x; D) \right)^2 \right] = \left( \text{Bias}_{D} \left[ \widehat{f}(x; D) \right] \right)^2 + \text{Var}_{D} \left[ \widehat{f}(x; D) \right] + \sigma^2 $$

其中

$\text{Bias}_{D} \left[ \widehat{f}(x; D) \right] = \mathbb{E}_{D}[\widehat{f}(x; D)] - f(x)$，定义为偏差（Bias），反映的是模型在多次训练和预测中，预测的平均值（即期望）与真实值 $f(x)$ 之间的偏离程度。换句话说，偏差反映了模型在不同数据采样下预测结果的系统性误差。高偏差通常表明模型过于简单，无法捕捉数据中的复杂模式，容易导致欠拟合。
$\text{Var}_{D} \left[ \widehat{f}(x; D) \right] = \mathbb{E}_{D}\left[\left(\widehat{f}(x; D) - \mathbb{E}_{D}[\widehat{f}(x; D)]\right)^2 \right]$，定义为方差（Variance），反映的是模型预测值在不同训练数据采样下的变动程度。具体而言，方差描述了模型的预测值如何围绕其平均预测值（期望）变化，反映了模型对训练数据中随机噪声的敏感性。高方差通常表明模型过于依赖训练数据，对训练数据中的噪声过于敏感，记住了太多细节和噪声，容易导致过拟合。

当然，我们还有一不可约误差（Irreducible Error）项，$\sigma^2 = \mathbb{E}_{y|x}\left[(y-f(x))^2\right]$，这部分误差由数据本身的噪声 $\epsilon$ 引起，通常是无法基于改进模型来降低的固有误差。

在实际训练中是基于有限样本 ${(x_i, y_i)}_{i = 1}^n$，因此，我们通常使用经验均方误差作为近似：

$$ \text{Empirical MSE} = \frac{1}{n} \sum_{i = 1}^n \left(y_i - \widehat{f}(x; D)\right)^2 $$

由此，我们的优化目标可以在实际训练中表述为：

$$ \min_{\widehat{f}} \frac{1}{n} \sum_{i = 1}^n \left(y_i - \widehat{f}(x; D)\right)^2 $$

机器学习模型为什么表现不好？理解欠拟合和过拟合

欠拟合、过拟合与泛化能力的本质

欠拟合、过拟合与泛化能力的衡量

欠拟合示意图

过拟合示意图