понедельник, 27 августа 2018 г.

Логистическая регрессия: тренировка модели

Функция потери для логистической регрессии

Функция потери для линейной регрессии - это квадрат потери. Функция потери для логистической регрессии - логарифм потери, который определяется следующим образом:

где:

  • (x,y)∈D - набор данных, содержащий много примеров с метками, которые представляют собой (x,y) пары.
  • y - метка в примере с меткой. Ввиду того, что это логистическая регрессия, каждое значение y должно быть равным 0 или 1.
  • y' - спрогнозированное значение (где-то между 0 и 1), учитывающее набор свойств в x.

Уравнение для логарифма потери тесно связано измерением энтропии Шеннона из информационной теории. Это также отрицательный логарифм функции схожести, предполагающей распределение Бернулли для y. На самом деле, уменьшение функции потери выводит оценку максимального правдоподобия.

Регуляризация в логистической регрессии

Регуляризация крайне важна в моделировании логистической регрессии. Без регуляризации, асимптотная природа логистической регрессии - направлять потерю к 0 в высоких измерениях. Следовательно, большинство моделей логистической регрессии используют одну из следующих двух стратегий, чтобы уменьшить сложность модели:

  • L2 регуляризация
  • Ранняя остановка, которая ограничивает количество тренировочных шагов или скорость обучения.

Представим, что мы назначили уникальный id каждому примеру и создали карту соотвествия id и его свойств. Если не определить функцию регуляризации модель станет полностью переобученной. Это потому что модель будет пытаться приблизить потери к нулю на всех примерах и никогда не достигнет этого, увеличивая веса для каждого индикатора свойства к плюс бесконечности или минус бесконечности. Это может случиться в данных с большими измерениями с пересечениями свойств, когда существует масса редких пересечений, которые случаются только на каждом отдельном примере.

К счастью, использование L2 или ранней остановки предупредит возникновение этой проблемы.

Резюме

Модели логистической регрессии генерируют вероятности.

Логарифм потери - это функция потери для логистической регрессии.

Логистическая регрессия широко используется на практике.