Видение того, как компьютеры «думают», помогает людям ставить машины в тупик

Одна из конечных целей искусственного интеллекта — это машина, которая действительно понимает человеческий язык и интерпретирует значение из сложных, детализированных отрывков. Когда компьютер IBM Уотсона победил, прославился «Опасностью!» Чемпионом Кеном Дженнингсом в 2011 году казалось, что этот рубеж пройден. Однако любой, кто пытался поговорить с виртуальным помощником Сири, знает, что компьютерам предстоит пройти долгий путь, чтобы по-настоящему понять человеческий язык. Чтобы лучше понимать язык, компьютерные системы должны тренироваться, используя вопросы, которые бросают им вызов и отражают всю сложность человеческого языка.

Исследователи из Университета Мэриленда выяснили, как надежно создавать такие вопросы с помощью совместной работы человека с компьютером, разработав набор данных из более чем 1200 вопросов, которые, хотя людям легко ответить, ставят в тупик лучшие компьютерные автоответчики на сегодняшний день. Система, которая учится справляться с этими вопросами, будет лучше понимать язык, чем любая существующая в настоящее время система. Работа описана в статье, опубликованной в выпуске журнала « Труды Ассоциации компьютерной лингвистики» за 2019 год.

«Большинство отвечающих на вопросы компьютерных систем не объясняют, почему они отвечают так, как они, но наша работа помогает нам понять, что на самом деле понимают компьютеры», — сказал Джордан Бойд-Грабер, доцент кафедры информатики в UMD и старший автор статьи., «Кроме того, мы создали набор данных для тестирования на компьютерах, который покажет, действительно ли система компьютерных языков читает и выполняет те же виды обработки, которые могут выполнять люди».

В большинстве современных работ по улучшению программ для ответов на вопросы для написания вопросов используются авторы-люди или компьютеры. Неотъемлемой проблемой этих подходов является то, что когда люди пишут вопросы, они не знают, какие конкретные элементы их вопроса путают с компьютером. Когда компьютеры пишут вопросы, они либо пишут формулу, заполняют пустые вопросы, либо делают ошибки, иногда порождая глупости.

Чтобы разработать свой новый подход к совместной работе людей и компьютеров для генерации вопросов, Бойд-Грабер и его команда создали компьютерный интерфейс, который показывает, что «думает» компьютер, когда человек-автор печатает вопрос. Затем автор может отредактировать свой вопрос, чтобы использовать слабые места компьютера.

В новом интерфейсе автор-человек печатает вопрос, в то время как догадки компьютера отображаются на экране в порядке ранжирования, а слова, которые заставили компьютер делать свои догадки, выделяются.

Например, если автор пишет «Какие вариации композитора на тему Гайдна были вдохновлены Карлом Фердинандом Полем?» и система правильно отвечает «Йоханнес Брамс», интерфейс выделяет слова «Фердинанд Пол», чтобы показать, что эта фраза привела его к ответу. Используя эту информацию, автор может отредактировать вопрос, чтобы сделать его более сложным для компьютера, не меняя смысла вопроса. В этом примере автор заменил имя человека, который вдохновил Брамса, «Карла Фердинанда Поля», описанием своей работы, «архивариус Венского Музикферайна», и компьютер не смог ответить правильно. Тем не менее, опытные игроки-викторины могут по-прежнему легко ответить на отредактированный вопрос.

Работая вместе, люди и компьютеры надежно разработали 1213 компьютерных вопросов, которые исследователи проверили во время соревнований, в которых участвовали опытные люди-игроки — от команд для мелочей в младших школьных университетах до «Опасности!» чемпионы — против компьютеров. Даже самая слабая команда людей победила сильнейшую компьютерную систему.

«В течение трех или четырех лет люди знали, что компьютерные системы ответов на вопросы очень хрупкие и их очень легко одурачить», — сказал Ши Фэн, аспирант UMD по информатике и соавтор статьи. «Но это первая известная нам статья, в которой на самом деле используется машина, чтобы помочь людям сломать саму модель».

Исследователи говорят, что эти вопросы послужат не только новым набором данных для компьютерных ученых, позволяющих лучше понять, где происходит сбой обработки естественного языка, но и обучающим набором данных для разработки улучшенных алгоритмов машинного обучения. Вопросы выявили шесть различных языковых явлений, которые последовательно заглушают компьютеры.

Эти шесть явлений делятся на две категории. К первой категории относятся лингвистические феномены: перефразирование (например, высказывание «прыжок из пропасти» вместо «прыгать со скалы»), отвлекающий язык или неожиданный контекст (например, ссылка на политического деятеля, появляющегося в подсказке о чем-то не связанном в политику). Вторая категория включает в себя навыки рассуждения: подсказки, которые требуют логики и вычисления, умственную триангуляцию элементов в вопросе или объединение нескольких шагов, чтобы сформировать заключение.

«Люди могут обобщать больше и видеть более глубокие связи», — сказал Бойд-Грабер. «У них нет безграничной памяти компьютеров, но у них все еще есть преимущество в том, что они могут видеть лес за деревьями. Каталогизация проблем, с которыми сталкиваются компьютеры, помогает нам понять проблемы, которые нам нужно решить, чтобы мы могли на самом деле получить компьютеры, чтобы начать видеть лес сквозь деревья и отвечать на вопросы так, как это делают люди".

До того, как это произойдет, предстоит пройти долгий путь, добавил Бойд-Грабер, который также имеет совместные назначения в Институте передовых компьютерных исследований Университета Мэриленда (UMIACS), а также в Центре информационных исследований и языковых наук UMD. Но эта работа предоставляет новый захватывающий инструмент, помогающий ученым в достижении этой цели.