воскресенье, 19 августа 2018 г.

Генерализация: опасность переобучения

В этом посте мы поговорим о генерализации. С целью представить что это такое приведем три графика. Предположим, что каждая точка на этих графиках представляет положение дерева в лесу. Два цвета имеют следующие значения:

  • Синие точки представляют больные деревья.
  • Оранжевые точки представляют здоровые деревья.

Больные (синие) и здоровые (оранжевые) деревья.

На следующем графике показана модель машинного обучения, отделяющая больные деревья от здоровых. Следует отметить что модель имеет очень низкие потери.

Сложная модель, отделяющая больные деревья от здоровых

Следующий график показывает что случилось, когда модели были переданы новые данные. Оказалось, что модель очень слабо адаптируется к новым данным. Необходимо отметить что модель неправильно категоризировала многие примеры из новых данных.

Модель выполнила плохое предсказание по новым данным.

Модель, показанная на 2 и 3 графиках, переобучилась особенностям данных, на которых она обучалась. Переобученная модель имеет низкую потерю во время тренировки, но выполняет много ошибочных предсказаний на новых данных. Если модель хорошо предсказывает по текущим данным, как мы можем быть уверены, что она будет делать правильные предсказания на новых данных? Переобучение вызвано созданием модели сложнее, чем необходимо. Главные трения в машинном обучении - между хорошим предсказанием по данным и выполнением этого при наиболее простой структуре модели.

Цель машинного обучения состоит в том, чтобы хорошо прогнозировать новые данные. К сожалению, модель не может видеть всех вариантов примеров значений свойств - модель может обучаться только на тренировочном наборе данных. Если модель делает хорошие предсказания по текущим данным, как можем мы доверять модели, что она будет делать правильные предсказания по никогда ранее не виденным примерам?

Уильям Оккам, монах и философ, живший в 14 веке, любил простоту. Он верил, что ученым следует предпочитать более простые формулы и теории, чем сложные. Применив бритву Оккама в условия машинного обучения получим: чем менее сложна модель, тем вероятнее она даст хорошие результаты в прогнозировании, а не просто учтет особенности тренировочных данных.

На данное время бритва Оккама формализована в областях теории статистического обучения и теории вычислительного обучения. В этих областях разработаны границы генерализации - статистическое описание способности модели генерализоваться к новым данным основано на следующих факторах:

  • сложность модели
  • производительность модели на тренировочных данных

В то время как теоретический анализ предоставляет формальные гарантии в идеализированных условиях, их может быть трудно применить на практике.

Цель машинного обучения - делать правильные предсказания на новых, ранее не известных данных. Но, создавая модель по набору данных, как получить неизвестные данные? Необходимо разделить существующий набор данных на два поднабора:

  • тренировочный набор - поднабор для того чтобы тренировать модель
  • тестовый набор - поднабор для того чтобы тестировать модель

Хорошая производительность на тестовых данных служит индикатором хорошей производительности на новых данных в целом, но при условиях того что:

  • тестовый набор достаточно большой
  • тестовый набор не используется снова и снова

Главное

Переобучение происходит, когда модель идеально подходит к тренировочным данным и проявляет плохую генерализацию при встрече с новыми данными.