Введение в машинное обучение

Машинное обучение — это раздел искусственного интеллекта, в котором модели обучаются на данных, а не программируются вручную. Вместо того чтобы прописывать правила, мы показываем модели примеры и она сама находит закономерности.

Что такое модель

Модель — это функция \(a: \mathbb{X} \to \mathbb{Y}\), которая по объекту \(x \in \mathbb{X}\) выдаёт предсказание \(y \in \mathbb{Y}\). Задача обучения — найти такую функцию, которая хорошо обобщается на новых данных.

Три типа задач

Тип Что предсказываем Пример
Регрессия Вещественное число \(y \in \mathbb{R}\) Цена квартиры, температура завтра
Классификация Метка класса \(y \in \{1, \dots, K\}\) Спам или не спам, кот или собака
Ранжирование Порядок объектов Поисковая выдача, рекомендации

Как модель обучается

Есть обучающая выборка \(\mathbb{X} = \{(x_i, y_i)\}_{i=1}^\ell\). Мы выбираем функцию потерь \(L(y, a(x))\), которая показывает, насколько плохо модель ошибается на одном объекте, и минимизируем суммарную ошибку:

\[Q(a) = \frac{1}{\ell} \sum_{i=1}^\ell L(y_i, a(x_i)) \to \min_a\]

Обобщение и переобучение

Главный вопрос ML — не насколько хорошо модель работает на обучающей выборке, а насколько хорошо она работает на новых данных.

  • Недообучение (underfitting) — модель слишком проста и не улавливает закономерности даже на обучении.
  • Переобучение (overfitting) — модель запомнила обучающую выборку, но плохо обобщается.
Чтобы честно оценить качество модели, данные делят на train, validation и test. Модель обучается на train, гиперпараметры подбираются на validation, итоговая оценка — на test, который трогают только один раз.

Метрики качества

Функция потерь используется при обучении, метрики — для оценки результата. Они могут не совпадать.

Задача Популярные метрики
Регрессия MSE, MAE, RMSE, \(R^2\)
Бинарная классификация Accuracy, Precision, Recall, F1, AUC-ROC
Многоклассовая классификация Macro/Micro F1, Accuracy

Что дальше

В этом разделе мы последовательно разберём основные модели классического ML — от линейной регрессии до градиентного бустинга. Каждая тема строится на предыдущей, поэтому рекомендуем читать по порядку.

Классический ML хорошо работает на табличных данных с явными признаками. Для изображений, текста и звука чаще используют нейросети — см. раздел Нейросети.
← Назад к списку тем