вторник, 28 августа 2018 г.

Классификационный порог

Логистическая регрессия возвращает вероятность. Можно использовать возвращенную вероятность "как есть" (например, вероятность, что пользователь будет кликать на эту рекламу рана 0.00023) или преобразовать возвращенную вероятность в бинарное значение (например, это письмо спам или нет).

Модель логистической регрессии для определения спама, которая возвращает 0.9995 для отдельного письма, прогнозирует, что это письмо с очень высокой вероятностью является спамом. С другой стороны, другое письмо с предсказанным счетом 0.0003 от той же самой модели логистической регрессии - с высокой вероятностью не является спамом. Однако, что насчет письма с предсказанным счетом равным 0.6? Чтобы создать карту соответствия значения логистической регрессии и бинарной категории необходимо определить классификационный порог (также называемый порог решения). Значение выше порога обозначает спам, значение ниже порога означает не спам. Это заманчивая перспектива - предположить, что классификационный порог всегда должен быть равен 0.5, но порог зависит от ситуации и, следовательно, является значением, которое необходимо настраивать.

В следующих постах мы ближе рассмотрим метрики, которые можно использовать для оценки прогнозов модели классификации, а также влияние изменения порога классификации на прогнозирование.

"Настраивание" порога для логистической регрессии отличается от настраивания гиперпараметров, таких как скорость обучения. Этап выбора порога определяет сколько будет приносить страданий впоследствии допущение ошибки. Например, ошибочная оценка "не спам" письма как "спам" очень плохо. Но ошибочная оценка "спам" письма как "не спам" означает полный провал.