понедельник, 6 августа 2018 г.

Машинное обучение

Определение

В целом проблема обучения подразумевает набор из n экземпляров тестовых данных и затем попытку предсказать свойства в наборе неизвестных данных. Если каждый экземпляр данных больше чем простое число, например, многоразмерный экземпляр (то есть мнгоговариантные данные), тогда имеем дело с несколькими свойствами.

Можно разделить задачи обучения на несколько больших категорий:

Обучение с учителем

В нем данные приходят с дополнительными атрибутами, которые мы хотим предсказать. Эта задача может быть одной из двух:

Классификация

Экземпляры принадлежат двум или более классам и мы хотим научиться из набора данных с известными значениями свойств тому как предсказать класс данных, значения свойств которых неизвестны. Примером задачи классификации может быть распознавание рукописных цифр, где цель обозначить каждый экземпляр как принадлежащий к одной из заранее известных категорий с единственным значением. Другими словами классификация это дискретная (в противоположность продолженной) форма обучения с учителем где существует ограниченное число категорий и для каждого из предоставленных n экземпляров мы пытаемся определить правильную категорию или класс.

Регрессия

Если искомое значение состоит из одной или более переменных, имеющих значение, входящее в определленный промежуток, тогда задача называется регрессией. Примером задачи регрессии может служить определение длины тунца как функция от его массы и возраста.

Обучение без учителя

В нем триенировочный набор данных состоит из набора векторов без каких-либо дополнительных целевых значений. Цель в такой задаче найти группы похожих экземпляров в наборе данных - это называется кластеризацией. Или определить рапределение данных на входе - это оценка плотности. Или спроецировать данные из многомерного пространтво в два или три измерения с целью визуализации.

Тренировочный и тестовый набор данных

Машинное обучение - это обучение выявлению некоторых свойств данных в тренировочном наборе и применение этого навыка к новым данным. Вот почему общей практикой в машинном обучении чтобы применить алгоритм - разбить данные на два набора. Один называется тренировочным набором на котором мы обучаемся извлекать значения свойств данных, а другой называется тестовым набором, на котором мы тестируем навык извлечения значения свойств данных.