10 ноября 2015

Новая научная библиотека ищет нужные статьи с помощью искусственного интеллекта

Онлайн-библиотеки начали появляться в 70-х годах прошлого столетия и с тех пор законно вошли в число изобретений человечества, про которые можно сказать "как мы жили без них раньше". С помощью электронных баз данных научных публикаций (таких как Google Scholar, MEDLINE, Cochrane Library и других) учёные легко ориентируются в архивах научной литературы, собирают и анализируют информацию, которая необходима для проведения новых исследований. Из стен традиционных библиотек наука вышла на новый прогрессивный уровень академических коммуникаций.

Сегодня, в эпоху электронной революции, количество информации в Интернете растёт с молниеносной скоростью, и возможность автоматизировать её анализ могла бы быть очень полезна. Растёт и необходимость развития электронных библиотек.

Новый шаг в этом направлении сделали специалисты Института искусственного интеллекта Аллена (AI2).

В ноябре программисты Института запустили новую поисковую системуSemantic Scholar (можно перевести как "Семантический учёный"). Он выполняет привычную для учёных роль архива научных данных и при этом может выдавать в ответ на запросы список публикаций по заданным ключевым фразам. Создатели отмечают, что этот ресурс обладает свойствами искусственного интеллекта, а потому значительно расширит возможности традиционных онлайн-библиотек.

Так, одной из выдающихся черт сайта Semantic Scholar, отличающих его от "собратьев", является возможность семантического понимания данных. Это означает, что поисковый алгоритм может извлекать из статьи различные элементы, такие как ключевые слова и фразы, ссылки, цитаты и другую информацию, анализировать связи между элементами текста и оценивать значимость смысла фразы, выдавая пользователю наиболее точную и полезную информацию.

Поисковая система Semantic Scholar имеет сдержанный дизайн, традиционный для академических ресурсов. Помимо стандартных инструментов она оснащена новым для научных поисковиков окном поиска по ключевым словам и фразам (Key Phrase), встречающимся в текстах статьей. При клике на ключевую фразу на экран выводится список статей, в которых, согласно семантическому анализу, эта фраза играет ключевую роль.

Например, когда человек вводит в окно поиска по ключевым фразам слова "семантический анализ" (semantic analysis, см. иллюстрацию выше), система находит статьи, посвящённые семантическому анализу. В левой части сайта выводится список релевантной информации, в том числе ключевых фраз, логически связанных с тематикой запроса — Semantic Similarity (семантическое сходство), LSA (Latent Semantic Analysis — латентно-семантический анализ) и другие. То есть пользователь может оперативно получить большое количество данных, важных для изучаемой темы и освещающих разные её аспекты.

Орен Эциони (Oren Etzioni), главный исполнительный директор Института Аллена, считает, что новый сервис будет высоко оценён пользователями научных онлайн-библиотек за удобство и глубокое "понимание смысла" статей.

База данных Semantic Scholar уже содержит более трёх миллионов публикаций на тему компьютерных технологий, и пользоваться ей можно совершенно бесплатно. Читатель также имеет доступ к полной версии материалов с возможностью скачивания их в формате PDF. В течение года, как утверждают авторы проекта, база данных будет пополняться материалами других тематик.

Разработчики проекта уверены в успехе нового ресурса, несмотря на наличие у него крупных конкурентов. В частности, гиганта среди академических поисковиков Google Scholar, базы данных которого охватывают более 100 миллионов документов. Тем не менее он не совершенен. Питер Джаско (Péter Jacsó), учёный, занимающийся исследованиями технологий поисковых машин в Гавайском Университете в Маноа, проанализировал эффективность работы Google Scholar в 2009 году и обнаружил ряд ошибок в результатах поиска. Например, отмечает Джаско, система могла "не осмысленно" процитировать не релевантные запросу публикации, придать слову "Оглавление" смысл ключевой фразы или принять номер страницы документа за год выхода статьи.

Исследователь считает, что, несмотря на то, что Google Scholar имеет доступ к большому количеству данных, технологически подобным системам ещё есть куда расти. Действительно, как замечает Орен Эциони, запрограммировать электронную систему на выполнение "интеллектуальных" действий технически не просто.

Сервис Semantic Scholar находит более 80% научных документов в свободном доступе в Интернете, в том числе материалов веб-сайтов или итогов конференций в записях академических институтов.

Внедрив новый сервис, команда Института Аллена развивает идею использования искусственного интеллекта в повседневной жизни интернет-пользователя. Так, в разработке у исследователей также находится программное обеспечение для "осмысленного" поиска данных в социальной сети Twitter. Поскольку поиск по хэштегам не всегда даёт убедительные результаты (из-за многочисленных опечаток или индивидуальных вариаций написания хэштегов), учёные AI2 работают над технологией анализа смысла непосредственно текстов записей, что позволит сделать результаты поиска более точными.

Результаты исследования по разработке Semantic Scholar были опубликованы в журнале Nature.