Компьютерная программа смотрит в будущее на пять минут

Ученые-компьютерщики из Боннского университета разработали программное обеспечение, которое может на несколько минут заглянуть в будущее: программа сначала изучает типичную последовательность действий, например приготовление пищи, из видеопоследовательностей. Основываясь на этих знаниях, он может точно предсказать в новых ситуациях, что будет делать повар в данный момент времени. Исследователи представят свои результаты на крупнейшей в мире конференции по компьютерному зрению и распознаванию образов, которая состоится 19-21 июня в Солт-Лейк-Сити, США.

Идеальный дворецкий, как знает каждый поклонник британской социальной драмы, обладает особой способностью: он чувствует желания своего работодателя еще до того, как они были произнесены. Рабочая группа профессора доктора Юргена Галла хочет научить компьютеры чему-то похожему: «Мы хотим предсказать время и продолжительность действий — минуты или даже часы, прежде чем они произойдут», — объясняет он.

Например, кухонный робот может передать ингредиенты, как только они понадобятся, вовремя разогреть духовку — а тем временем предупредить шеф-повара, если он собирается забыть этап приготовления. В то же время автоматический пылесос знает, что в то время на кухне ему нечем заняться, а вместо этого заботится о гостиной.

Мы, люди, очень хорошо предвидим действия других. Однако для компьютеров эта дисциплина все еще находится в зачаточном состоянии. Исследователи из Института компьютерных наук в Университете Бонна теперь могут объявить о первом успехе: они разработали самообучающееся программное обеспечение, которое может с удивительной точностью оценивать время и продолжительность будущих действий в течение нескольких минут.

Учебные данные: четыре часа видео салата

Учебные данные, использованные учеными, включали 40 видеороликов, в которых исполнители готовят различные салаты. Каждая из записей длилась около 6 минут и содержала в среднем 20 различных действий. Видео также содержало точные детали того, во сколько началось действие и сколько времени это заняло.

Компьютер «смотрел» эти салаты на видео около четырех часов. Таким образом, алгоритм узнал, какие действия обычно следуют друг за другом во время этой задачи и как долго они продолжаются. Это отнюдь не тривиально: в конце концов, у каждого шеф-повара свой подход. Кроме того, последовательность может варьироваться в зависимости от рецепта.

«Затем мы проверили, насколько успешным был учебный процесс», — объясняет Галл. «Для этого мы поставили программное обеспечение на видео, которых оно раньше не видело». По крайней мере, новые короткометражные фильмы вписываются в контекст: они также показали приготовление салата. Для теста компьютеру сказали, что показано в первых 20 или 30 процентах одного из новых видеороликов. Исходя из этого, он должен был предсказать, что произойдет во время остальной части фильма.

Это сработало на удивление хорошо. Галл: «Точность составляла более 40 процентов для коротких периодов прогноза, но затем снижалась по мере того, как алгоритм должен был заглядывать в будущее». Для действий, которые были более чем на три минуты в будущем, компьютер все еще был в 15% случаев. Тем не менее, прогноз считался верным только в том случае, если как активность, так и время были правильно предсказаны.

Галл и его коллеги хотят, чтобы исследование было воспринято только как первый шаг в новую область прогнозирования активности. Тем более, что алгоритм работает заметно хуже, если ему приходится самому распознавать, что происходит в первой части видео, а не рассказывать. Поскольку этот анализ никогда не бывает на 100 процентов правильным — Галл говорит о «шумных» данных. «Наш процесс работает с ним», — говорит он. «Но, к сожалению, далеко не так хорошо».