Исследователи учат роботов тому, что хотят люди

Сказанное оптимизировать скорость во время гонки по дорожке в компьютерной игре, автомобиль толкает педаль в металл… и продолжает вращаться по крутому маленькому кругу. Ничто в инструкции не говорило машине ехать прямо, поэтому он импровизировал.

Этот пример — забавный в компьютерной игре, но не так уж много в жизни — один из тех, которые побудили исследователей Стэнфордского университета создать лучший способ ставить цели для автономных систем.

Дорса Сэди, доцент кафедры компьютерных наук и электротехники, и ее лаборатория объединили два разных способа задания целей для роботов в одном процессе, который показал лучшие результаты, чем любая из его частей, как в моделировании, так и в реальных экспериментах. Исследователи представили свои работы 24 июня на конференции Robotics: Science and Systems.

«В будущем я полностью ожидаю, что в мире будет больше автономных систем, и им понадобится некоторое представление о том, что хорошо, а что плохо», — сказал Энди Палан, аспирант по компьютерным наукам и со-ведущий автор бумага. «Очень важно, если мы хотим развернуть эти автономные системы в будущем, чтобы мы получили это право».

Новая система команды для обучения роботов, известная как функции вознаграждения, сочетает в себе демонстрации, в которых люди показывают роботу, что делать, и опросы пользователей, в которых люди отвечают на вопросы о том, как они хотят себя вести.

«Демонстрации носят информативный характер, но они могут быть шумными. С другой стороны, предпочтения предоставляют максимум один бит информации, но гораздо более точны», — сказал Садиг. «Наша цель — получить лучшее из обоих миров и более разумно объединить данные, поступающие из обоих этих источников, чтобы лучше узнать о предпочтительной функции вознаграждения людей».

Демонстрации и опросы

В предыдущей работе Сэди был сосредоточен только на опросах предпочтений. Они просят людей сравнить сценарии, например, две траектории для автономного автомобиля. Этот метод эффективен, но для генерации следующего вопроса может потребоваться до трех минут, который по-прежнему медленен для создания инструкций для сложных систем, таких как автомобиль.

Чтобы ускорить это, группа позже разработала способ составить несколько вопросов одновременно, на которые мог бы ответить один человек в быстрой последовательности или распределить между несколькими людьми. Это обновление ускорило процесс от 15 до 50 раз по сравнению с вопросом один на один.

Новая комбинационная система начинается с человека, демонстрирующего поведение роботу. Это может дать автономным роботам много информации, но робот часто пытается определить, какие части демонстрации важны. Люди также не всегда хотят, чтобы робот вел себя так же, как человек, который его обучил.

«Мы не всегда можем проводить демонстрации, и даже когда мы можем, мы часто не можем полагаться на информацию, которую дают люди», — сказал Эрдем Бийик, аспирант по электротехнике, который руководил работой по разработке опросов с несколькими вопросами. «Например, предыдущие исследования показали, что люди хотят, чтобы автономные автомобили управляли менее агрессивно, чем они сами».

Вот тут-то и начнутся опросы, дающие роботу возможность, например, спросить, предпочитает ли пользователь, чтобы он двигал рукой низко к земле или вверх к потолку. Для этого исследования группа использовала более медленный метод с одним вопросом, но они планируют интегрировать опросы с несколькими вопросами в более позднюю работу.

В ходе испытаний команда обнаружила, что объединение демонстраций и опросов было быстрее, чем просто указание предпочтений, и, по сравнению с одними только демонстрациями, около 80 процентов людей предпочитали поведение робота при обучении с использованием комбинированной системы.

«Это шаг к лучшему пониманию того, что люди хотят или ожидают от робота», — сказал Садиг. «Наша работа облегчает и повышает эффективность взаимодействия людей и обучения роботов, и я с нетерпением жду продолжения этой работы, особенно при изучении того, как роботы и люди могут учиться друг у друга».

Лучше, быстрее, умнее

Люди, которые использовали комбинированный метод, сообщали о трудностях в понимании того, что происходит с системой, с некоторыми из ее вопросов, которые иногда предлагали им выбрать один из двух сценариев, которые казались одинаковыми или не относились к задаче — общая проблема в обучении на основе предпочтений, Исследователи надеются устранить этот недостаток с помощью более простых опросов, которые также работают быстрее.

«Заглядывая в будущее, для меня не на 100 процентов очевидно, каков правильный способ выполнения функций вознаграждения, но реально у вас будет какая-то комбинация, которая может решать сложные ситуации с участием людей», — сказал Палан. «Возможность разрабатывать функции вознаграждения для автономных систем — большая и важная проблема, которой не уделяется должного внимания в академических кругах».

Команде также интересны изменения в их системе, которые позволили бы людям одновременно создавать функции вознаграждения для различных сценариев. Например, человек может захотеть, чтобы его автомобиль двигался более консервативно в условиях медленного движения и более агрессивно в условиях слабого движения.