10-12-2018 21:18

ИИ от Uber превзошёл человека в Montezuma’s Revenge

Uber Montezuma’s RevengeUber Montezuma’s Revengegeralt

Huawei анонсировала фреймворк MAE для беспилотного транспортаВам будет интересно:Huawei анонсировала фреймворк MAE для беспилотного транспорта

Искусственный интеллект Go-Explore от компании Uber набрал в игре Montezuma’s Revenge большое количество очков, превосходящее на несколько порядков показатели других ИИ, а также живого игрока.

Что известно?

Сообщается, что Go-Explore набрал более 2 миллионов очков в игре Montezuma’s Revenge и дошёл до 159 уровня. Средние же его показатели составляют 400 тысяч баллов. Для сравнения, обычные ИИ-модели набирают в среднем 10 070, а максимально 17 500 очков. Для человека наибольший показатель равен 1 219 200.

Кроме того, в игре Pitfall ИИ Go-Explore также показал впечатляющие результаты. Средний балл системы составил более 21 000, что намного превосходит показатели человека в этой игре. Причём он набрал несколько очков с первой попытки, чего не могли добиться другие алгоритмы. В этой игре Go-Explore прошёл 40 уровней.

Разработчики заявили, что их алгоритм радикально отличается от других систем машинного обучения и превосходит все современные ИИ. Предполагается, что этот машинный интеллект станет основой для будущих «умных» роботов.

Как это работает?

Главным отличием Go-Explore является то, что этот ИИ умеет не только исследовать игровые пространства, но также определять в игре «перспективные места», которые содержат дополнительные награды. Определяя и запоминая их, в случае необходимости, ИИ возвращается к ним для получения дополнительных очков.

ИИ от Uber в Montezuma’s RevengeИИ от Uber в Montezuma’s Revenge

Другие системы, хотя и способны так же определять локации с бонусными очками, забывают о перспективных местах, пытаясь быстрее добраться до конца уровня. В случае же с Go-Explore, система сначала проводит разведку территории, а затем проходит уровни, собирая максимум наград.

В начале ноября 2018 года разработчики из OpenAI сообщили о результатах исследования машинного обучения с подкреплением, которое базируется на вознаграждении за правильные предсказания. Учёные представили метод тренировки ИИ-агентов RND (Random Network Distillation) без опоры на демонстрационные видео или другие обучающие материалы. Тестирование RND-агентов проводили на игре Montezuma’s Revenge.



Источник