Bias-Variance Decomposition
Постановка
Пусть выборка \(\mathbb{X} = (x_i, y_i)_{i=1}^\ell\), \(y \in \mathbb{R}\), функция потерь \(L(y, a) = (y - a)^2\). Допустим, мы заранее знаем распределение данных на \(\mathbb{X} \times \mathbb{Y}\).
Среднеквадратичный риск:
\[R(a) = \mathbb{E}_{x,y}(y - a(x))^2\]
Оптимальная модель:
\[a_*(x) = \int_\mathbb{Y} y \cdot p(y \mid x)\ dy = \mathbb{E}(y \mid x)\]
Ошибка метода обучения
Метод обучения \(\mu: (\mathbb{X} \times \mathbb{Y})^\ell \to A\) строит модель \(\mu(\mathbb{X})\) по выборке. Его ошибка:
\[L(\mu) = \mathbb{E}_x \mathbb{E}_\mathbb{X} (y - \mu(\mathbb{X})(x))^2\]
Разложение на три слагаемых
| Компонента | Что означает | Как уменьшить |
|---|---|---|
| Шум (noise) | Ошибка лучшей возможной модели — нижняя граница. Не зависит от алгоритма. | Никак — это свойство данных. |
| Смещение (bias) | Насколько семейство моделей подходит для задачи. Высокий bias — недообучение. | Усложнить модель, добавить признаки. |
| Разброс (variance) | Насколько метод устойчив к изменению выборки. Высокий variance — переобучение. | Регуляризация, ансамблирование, больше данных. |
Примеры для разных моделей
Линейные модели
Низкий variance (устойчивы к изменению выборки), но высокий bias на нелинейных задачах.
Решающие деревья
- Глубина 2 — высокий bias, низкий variance.
- Глубина 5 — баланс.
- Глубина 8 — низкий bias, высокий variance.
- Усреднение \(N\) деревьев глубины 8: bias остаётся таким же, variance уменьшается.
Многомерная классификация (multilabel)
В задаче \(a: \mathbb{X} \to \{0, 1\}^K\) основной подход — Binary Relevance: обучаем отдельный классификатор для каждого класса и собираем вектор предсказаний.
Проблема: предсказания могут быть скоррелированы, а классификаторы ничего не знают друг о друге.