вторник, 14 августа 2018 г.

Термины машинного обучения

В двух словах для чего нужно машинное обучение (с учителем)? Системы машинного обучения обучаются тому как комбинировать ввод, чтобы произвести полезные предсказания на ранее не известных данных.

Фундаментальная терминология машинного обучения

Метки (labels)

Метка - это вещь, которую мы предсказываем - значение y в простой линейной регрессии. Метка может быть будущей ценой на бензин, вид животного показанного на картинке, значение аудио клипа или чем угодно.

Свойства (features)

Свойство - это входная переменная - x переменная в простой линейной регрессии. Простой проект машинного обучения может использовать единственное свойство, в то время как сложный проект может использовать миллионы свойств, определенных как:

x1,x2,...xN

Например в определении спама, свойства могут включать следующие:

  • Слова в тексте электронного письма
  • Адрес отправителя
  • Время суток, когда письмо было отправлено
  • Письмо содержит какую-то конкретную фразу, например "пушистый кот"

Примеры (examples)

Пример - это отдельный экземпляр данных. Примеры можно разделить на 2 категории:

  • Примеры с метками (labeled examples)
  • Примеры без меток (unlabeled examples)

Пример с меткой включает в себя и свойство (или свойства), и метку. Таким образом:

labeled examples: {features, label}: (x, y)

Примеры с метками используются для тренировки моделей. В примере определения спама в качестве примеров с метками будут служить конкретные письма, которые пользователи явно отметили как спам или как не спам.

Пример без метки включает в себя и свойство (или свойства), но не метку. Таким образом:

unlabeled examples: {features, ?}: (x, ?)

Натренировав нашу модель на примерах с метками, мы используем эту модель чтобы предсказать метки в примерах без меток. В определении спама, примеры без меток это новые письма, которые пользователь еще не отмечал как спам или не спам.

Модели (models)

Модель определяет взаимоотношение между свойствами и меткой. Например, модель определения спама может связывать некоторые свойства определенно с меткой спам. Модель имеет две фазы существования:

  • Тренировка - обозначает создание или обучение модели. То есть мы показываем модели примеры с метками и включаем модель постепенно обучаться взаимоотношениям между свойствами и меткой.
  • Вывод - означает применение натренированной модели к примерам без меток. То есть мы используем натренированную модель делать предположения (y'). Например, в ходе вывода, мы можем предсказать относится ли новое письмо к спаму или нет.

Регрессия и классификация

Модель регрессии предсказывает значения, имеющие значения в каком-либо диапазоне. Например, модели регрессии предсказывают ответы на такие вопросы как:

  • Какова цена дома в Подмосковье?
  • Какова вероятность того, что пользователь кликнет на рекламу?

Модель классификации предсказывает значения, входящие в определенный набор отдельных(дискретных) значений. Например, модели классификации предсказывают ответы на такие вопросы как:

  • Относится ли письмо к спаму или нет?
  • Это изображение собаки, кошки или хомяка?