Обучение с подкреплением
Суть обучения с подкреплением заключается в том, чтобы поместить машину в реальные условия, в которых она должна найти решение или выход.
Используется для:
- Самоуправляемых автомобилей
- Роботов пылесосов
- Игр
- Автоматической торговли
- Управления ресурсами предприятий
Обучение с подкреплением в какой-то степени уже можно сравнить с настоящим искусственным интеллектом. Обучение с подкреплением используют для таких задач, в которых цель не просто анализ данных, а обитание в реальной среде.
Под средой мы можем понимать и видеоигры. Существуют роботы, которые играют в игры. А также средой может быть и реальный мир. Для примера, в автомобилях марки Tesla существует автопилот, который учится не сбивать пешеходов. Либо роботы-пылесосы, у которых главная задача – пропылесосить пол с максимальной эффективностью.
Знания которые подгружаются в таких роботов в большей степени бесполезны и загружаются в него для справочного наполнения. В целом не важно сколько данных он соберёт, в конечном итоге все ситуации предусмотреть у него не получится. Именно поэтому целью является минимизировать ошибки, а не рассчитывать всевозможные ходы. Роботу необходимо учиться существовать в пространстве с максимальной выгодой.
Суть обучения с подкреплением заключается в том, чтобы научить робота выживать в среде, в которую его поместили. Наиболее умные роботы обучаются именно так: их помещают в условия схожие с реальными, населяют виртуальное пространство случайными людьми и предметами и робот начинает учиться в таком пространстве. Когда в виртуальном пространстве робот показал хорошие результаты, его направляют в реальный мир.
У машины нет необходимости запоминать город – этот подход называется Model-Free. В обучении с подкреплением робот не запоминает каждое движение, он старается обобщить ситуацию, для того чтобы выйти из неё с максимальной выгодой.
Данная идея лежит в основе алгоритма под названием Q-learning и его производных (SARSA и DQN). Буква Q означает Quality, то есть машина учиться в любой ситуации поступать наиболее качественно, а все ситуации им запоминаются, как случайный процесс.
Машиной проверяются миллионы симуляций в среде, после чего происходит запоминание всех сложившихся ситуаций и выходов из них, в которых получилась максимальная польза. Но возникает закономерный вопрос, каким образом машина определяет, когда ситуация сложилась с пользой, а когда она абсолютно новая? Ответа на этот вопрос не существует. Исследователи постоянно работают над этим вопросом, изобретая те или иные способы. В некоторых случаях прописываются всевозможные ситуации вручную, что позволяет им обрабатывать определенные исключительные случаи. В других случаях отдают данную работу нейросетям, чтобы они самостоятельно всё нашли. Таким образом, вместо Q-learning появился Deep Q-Network (DQN).
Reinforcement Learning для простых пользователей выглядит как самый настоящий интеллект, в связи с тем, что робот самостоятельно принимает решения в реальных условиях.
К сожалению ещё не получилось придумать задачи, в которых машины были бы гораздо эффективнее других, при этом отлично подходят для всевозможных экспериментов.