Турбаза в бухте радости три бухты радости baikalraduga.ru.

При небольшом обучении алгоритмы машинного обучения могут раскрыть скрытые научные знания

Исследователи показали, что алгоритм без обучения в области материаловедения может сканировать тексты миллионов статей и открывать новые научные знания. Они собрали 3,3 миллиона тезисов опубликованных материалов научных работ и подали их в алгоритм под названием Word2vec. Анализируя взаимосвязи между словами, алгоритм смог предсказать открытия новых термоэлектрических материалов на годы вперед и предложить еще неизвестные материалы в качестве кандидатов на термоэлектрические материалы.

Конечно, компьютеры можно использовать для игры в шахматы на уровне гроссмейстера (chess_computer), но могут ли они делать научные открытия? Исследователи из Национальной лаборатории Лоуренса Беркли Министерства энергетики США (Berkeley Lab) показали, что алгоритм без обучения материаловедению может сканировать текст миллионов статей и открывать новые научные знания.

Команда во главе с Анубхавом Джайном, ученым из отдела хранения и распределенных ресурсов лаборатории Berkeley Lab, собрала 3,3 млн. Тезисов опубликованных научных материалов и подала их в алгоритм под названием Word2vec. Анализируя взаимосвязи между словами, алгоритм смог предсказать открытия новых термоэлектрических материалов на годы вперед и предложить еще неизвестные материалы в качестве кандидатов на термоэлектрические материалы.

«Не говоря ничего о материаловедении, он изучил такие понятия, как периодическая таблица и кристаллическая структура металлов», — сказал Джайн. «Это намекало на потенциал техники. Но, пожалуй, самое интересное, что мы выяснили, это то, что вы можете использовать этот алгоритм для устранения пробелов в исследованиях материалов, вещей, которые люди должны изучать, но до сих пор не изучали».

Результаты были опубликованы 3 июля в журнале Nature. Ведущим автором исследования «Неуправляемые вложения в слова, скрывающие скрытые знания из литературы по материаловедению» является Вахе Цитоян, научный сотрудник лаборатории Беркли, работающий в Google. Наряду с Джейном, исследователи из лаборатории Беркли Кристин Перссон и Гербранд Седер помогли провести исследование.

«В документе утверждается, что анализ текста в научной литературе может раскрыть скрытые знания, а извлечение чистого текста может создать базовые научные знания», — сказал Седер, который также назначен на факультет материаловедения и инженерии Калифорнийского университета в Беркли.

Цитоян сказал, что проект был мотивирован трудностью понимания огромного количества опубликованных исследований. «В каждой области исследований имеется более 100 лет научной литературы прошлого, и каждую неделю выходит еще десятки исследований», — сказал он. «Исследователь может получить доступ только к части этого. Мы подумали, может ли машинное обучение сделать что-то, чтобы использовать все эти коллективные знания неконтролируемым образом — без необходимости руководства со стороны исследователей-людей?»

Король — королева + человек = ?

Команда собрала 3,3 миллиона рефератов из статей, опубликованных в более чем 1000 журналах в период между 1922 и 2018 годами. Word2vec взял каждое из примерно 500 000 различных слов в этих аннотациях и превратил каждое в 200-мерный вектор или массив из 200 чисел.

«Важно не каждое число, а использование чисел, чтобы увидеть, как слова связаны друг с другом», — сказал Джейн, который возглавляет группу, работающую над открытием и разработкой новых материалов для энергетических применений, используя сочетание теории, вычислений и сбор данных. «Например, вы можете вычесть векторы, используя стандартную векторную математику. Другие исследователи показали, что если вы обучите алгоритм на ненаучных текстовых источниках и возьмете вектор, который получается из« король минус королева », вы получите тот же результат, что и« мужчина минус женщина ». ' Он выясняет отношения, а ты ничего не говоришь".

Аналогично, при обучении текстовому материаловедению алгоритм смог понять значение научных терминов и понятий, таких как кристаллическая структура металлов, основываясь просто на положениях слов в рефератах и их совпадении с другими словами. Например, точно так же, как он мог бы решить уравнение «король — королева + человек», он мог бы выяснить, что для уравнения «ферромагнитный — NiFe + IrMn» ответом будет «антиферромагнитный».

Word2vec даже смог узнать отношения между элементами в периодической таблице, когда вектор для каждого химического элемента был спроецирован на два измерения.

Прогнозирование открытий на годы вперед

Так что, если Word2vec такой умный, сможет ли он предсказать новые термоэлектрические материалы? Хороший термоэлектрический материал может эффективно преобразовывать тепло в электричество и сделан из материалов, которые безопасны, распространены и просты в производстве.

Команда лаборатории Беркли выбрала лучших термоэлектрических кандидатов, предложенных алгоритмом, который оценил каждое соединение по сходству его слов-векторов со словом «термоэлектрик». Затем они провели расчеты, чтобы проверить предсказания алгоритма.

Из 10 лучших прогнозов они обнаружили, что все рассчитанные коэффициенты мощности немного выше, чем в среднем по известным термоэлектрикам; три лучших кандидата имели коэффициенты мощности выше 95-го процентиля известных термоэлектриков.

Затем они проверили, может ли алгоритм проводить эксперименты «в прошлом», предоставляя ему рефераты только, скажем, до 2000 года. Опять же, из главных прогнозов значительная цифра обнаружилась в более поздних исследованиях — в четыре раза больше, чем если бы материалы были выбраны случайно. Например, с тех пор были обнаружены три из пяти основных прогнозов, подготовленных с использованием данных до 2008 года, а остальные два содержат редкие или токсичные элементы.

Результаты были удивительными. «Честно говоря, я не ожидал, что алгоритм будет таким прогнозирующим в отношении будущих результатов», — сказал Джейн. «Я думал, что, возможно, алгоритм мог бы описывать то, что люди делали раньше, но не придумывать эти разные связи. Я был довольно удивлен, когда увидел не только прогнозы, но и обоснование прогнозов, такие вещи, как полу-Хейслер структура, которая в наши дни является действительно горячей кристаллической структурой для термоэлектриков".

Он добавил: «Это исследование показывает, что, если бы этот алгоритм использовался ранее, некоторые материалы могли быть обнаружены за много лет». Наряду с исследованием исследователи выпускают лучшие 50 термоэлектрических материалов, предсказанных алгоритмом. Они также выпустят вложения слов, необходимые людям для создания собственных приложений, если они захотят найти, скажем, лучший материал для топологического изолятора.

Далее Джейн сказал, что команда работает над более умной и мощной поисковой системой, которая позволяет исследователям более эффективно искать рефераты.