Комп'ютерна програма розглядає майбутнє протягом п'яти хвилин

Вчені-комп'ютерники з Боннського університету розробили програмне забезпечення, яке може на кілька хвилин зазирнути в майбутнє: програма спочатку вивчає типову послідовність дій, наприклад, приготування їжі з відеопослідовностей. Грунтуючись на цих знаннях, він може точно передбачити у нових ситуаціях, що робитиме кухар у цей час. Дослідники представлять свої результати на найбільшій у світі конференції з комп'ютерного зору та розпізнавання образів, яка відбудеться 19-21 червня у Солт-Лейк-Сіті, США.

Ідеальний дворецький, як знає кожен шанувальник британської соціальної драми, має особливу здатність: він відчуває бажання свого роботодавця ще до того, як вони були сказані. Робоча група професора доктора Юргена Галла хоче навчити комп'ютери чомусь схожому: «Ми хочемо передбачити час та тривалість дій – хвилини або навіть години, перш ніж вони відбудуться», – пояснює він.

Наприклад, кухонний робот може передати інгредієнти, коли вони знадобляться, вчасно розігріти духовку - а тим часом попередити шеф-кухаря, якщо він збирається забути етап приготування. Водночас автоматичний пилосос знає, що в той час на кухні йому нема чим зайнятися, а натомість дбає про вітальню.

Ми, люди, дуже добре передбачаємо дії інших. Однак для комп'ютерів ця дисципліна все ще перебуває у зародковому стані. Дослідники з Інституту комп'ютерних наук в Університеті Бонна тепер можуть оголосити про перший успіх: вони розробили програмне забезпечення, що самонавчається, яке може з дивовижною точністю оцінювати час і тривалість майбутніх дій протягом декількох хвилин.

Навчальні дані: чотири години відео салату

Навчальні дані, використані вченими, включали 40 відеороликів, де виконавці готують різні салати. Кожен із записів тривав близько 6 хвилин і містив у середньому 20 різних дій. Відео також містило точні деталі того, о котрій почалася дія і скільки часу це зайняло.

Комп'ютер "дивився" ці салати на відео близько чотирьох годин. Таким чином, алгоритм дізнався, які дії зазвичай йдуть одна за одною під час цього завдання і як довго вони продовжуються. Це аж ніяк не тривіально: зрештою, кожен шеф-кухар має свій підхід. Крім того, послідовність може змінюватись в залежності від рецепту.

«Потім ми перевірили, наскільки успішним був навчальний процес», – пояснює Гал. "Для цього ми поставили програмне забезпечення на відео, яких воно раніше не бачило". Принаймні нові короткометражні фільми вписуються в контекст: вони також показали приготування салату. Для тесту комп'ютеру сказали, що показано у перших 20 або 30 відсотках одного з нових відеороликів. Виходячи з цього, він мав передбачити, що станеться під час решти фільму.

Це спрацювало напрочуд добре. Гал: «Точність становила понад 40 відсотків для коротких періодів прогнозу, але потім знижувалась у міру того, як алгоритм мав заглядати в майбутнє». Для дій, які були більш ніж на три хвилини у майбутньому, комп'ютер все ще був у 15% випадків. Проте прогноз вважався вірним лише у тому випадку, якщо як активність, так і час були правильно передбачені.

Гал та його колеги хочуть, щоб дослідження було сприйнято лише як перший крок у нову область прогнозування активності. Тим більше, що алгоритм працює помітно гірше, якщо йому доводиться самому розпізнавати, що відбувається у першій частині відео, а не розповідати. Оскільки цей аналіз ніколи не буває на 100 відсотків правильним – Гал говорить про «шумні» дані. «Наш процес працює з ним», – каже він. "Але, на жаль, далеко не так добре".