Bias-Variance Decomposition

Постановка

Пусть выборка \(\mathbb{X} = (x_i, y_i)_{i=1}^\ell\), \(y \in \mathbb{R}\), функция потерь \(L(y, a) = (y - a)^2\). Допустим, мы заранее знаем распределение данных на \(\mathbb{X} \times \mathbb{Y}\).

Среднеквадратичный риск:

\[R(a) = \mathbb{E}_{x,y}(y - a(x))^2\]

Оптимальная модель:

\[a_*(x) = \int_\mathbb{Y} y \cdot p(y \mid x)\ dy = \mathbb{E}(y \mid x)\]

Ошибка метода обучения

Метод обучения \(\mu: (\mathbb{X} \times \mathbb{Y})^\ell \to A\) строит модель \(\mu(\mathbb{X})\) по выборке. Его ошибка:

\[L(\mu) = \mathbb{E}_x \mathbb{E}_\mathbb{X} (y - \mu(\mathbb{X})(x))^2\]

Разложение на три слагаемых

\[L(\mu) = \underbrace{\mathbb{E}_{x,y}(y - \mathbb{E}(y \mid x))^2}_{\text{шум (noise)}} + \underbrace{\mathbb{E}_x\left(\mathbb{E}_\mathbb{X}\mu(\mathbb{X}) - \mathbb{E}(y \mid x)\right)^2}_{\text{смещение (bias)}} + \underbrace{\mathbb{E}_x \mathbb{E}_\mathbb{X}(\mu(\mathbb{X}) - \mathbb{E}_\mathbb{X}\mu(\mathbb{X}))^2}_{\text{разброс (variance)}}\]
Компонента Что означает Как уменьшить
Шум (noise) Ошибка лучшей возможной модели — нижняя граница. Не зависит от алгоритма. Никак — это свойство данных.
Смещение (bias) Насколько семейство моделей подходит для задачи. Высокий bias — недообучение. Усложнить модель, добавить признаки.
Разброс (variance) Насколько метод устойчив к изменению выборки. Высокий variance — переобучение. Регуляризация, ансамблирование, больше данных.

Примеры для разных моделей

Линейные модели

Низкий variance (устойчивы к изменению выборки), но высокий bias на нелинейных задачах.

Решающие деревья

  • Глубина 2 — высокий bias, низкий variance.
  • Глубина 5 — баланс.
  • Глубина 8 — низкий bias, высокий variance.
  • Усреднение \(N\) деревьев глубины 8: bias остаётся таким же, variance уменьшается.
Усреднение моделей не меняет bias, но снижает variance. Это ключевая идея бэггинга.

Многомерная классификация (multilabel)

В задаче \(a: \mathbb{X} \to \{0, 1\}^K\) основной подход — Binary Relevance: обучаем отдельный классификатор для каждого класса и собираем вектор предсказаний.

Проблема: предсказания могут быть скоррелированы, а классификаторы ничего не знают друг о друге.

← Назад к списку тем