«Информационные Ресурсы России» №5, 2014



В. Вдовицын, Н. Крижановская, В. Старкова

Онтологически-ориентированный подход для построения систем полнотекстового информационного поиска электронных документов

Введение

В настоящее время в цифровых хранилищах накоплено огромное количество самой разнообразной электронной информации, рациональное использование которой в интересах развития науки, культуры, образования и экономики в целом вызывает определенные трудности. Эти трудности связаны, на наш взгляд, с обеспечением оперативного доступа пользователей к нужной ему в данный момент информации, в максимальной степени удовлетворяющей его информационные потребности. Для решения этой проблемы требуется разработка и применение как новых подходов к систематизации больших объемов электронной информации, так и эффективных систем полнотекстового информационного и географического поиска электронных документов в информационных хранилищах.

Исследования и разработки в области создания компьютерных систем полнотекстового информационного поиска (Information Retrieval Systems) ведутся с начала 60-х годов прошлого века. За это время разработан ряд моделей информационного поиска (логическая, векторная, вероятностная и др.) и на их основе построены поисковые системы различного назначения. Для оценки эффективности и сравнения систем полнотекстового информационного поиска предложены соответствующие метрики: полнота, точность, F-мера и др. [1]. Регулярно проводятся специальные научно-практические конференции, на которых обсуждаются результаты сравнения разработанных систем информационного поиска (например, Text Retrieval Conference – TREC, Russian Summer School in Information Retrieval и т.п.).

Типовая архитектура компьютерной системы полнотекстового информа-ционного поиска включает следующие основные компоненты [2]:
• массив электронных документов, которые индексируются системой по специальному алгоритму;
• интерфейс, с помощью которого пользователь формулирует свои информационные потребности в виде запроса к поисковой системе (например, путем указания списка ключевых слов);
• система исполнения запросов, которая, используя сформированную базу индексов и реализованную в системе процедуру поиска, находит в хранилище документов релевантные запросу документы, ранжирует их и выдает пользователю.

Многие компьютерные системы информационного поиска базируются на векторной модели, предложенной G. Salton и др. [3]. В этой модели поиска документы и запросы пользователя представляются как векторы, компонентами которых являются веса соответствующих терминов, которые обычно вычисляются по TF-IDF алгоритму. При этом процедура исполнения запроса (т.е. поиск релевантных запросу документов) в таких системах основывается, например, на вычислении косинуса угла между этими векторами.

В большинстве случаев основным способом указания своих информационных потребностей при формулировании запроса к полнотекстовой поисковой системе является задание списка ключевых слов. При этом многие специалисты отмечают, что поиск по ключевым словам обладает рядом существенных недостатков, связанных, например, с неоднозначностью ключевых слов, недостаточным знанием пользователями терминологии предметной области, сложностью формулирования запросов с использованием булевских операторов и т.п. Очень часто поисковая система выдает по запросу пользователя большой массив релевантных запросу документов и далеко не всегда ранжирует их в соответствии с информационными потребностями пользователя. Во многих поисковых системах используемые методы ранжирования базируются главным образом на применении статистической информации о распределении ключевых слов в запросе и текстах документов. Например, в системах поиска, базирующихся на векторной модели, проблема построения функции ранжирования документов в основном и сводится к задаче определения весовых коэффициентов ключевых слов.

С целью устранения недостатков традиционных систем информационного поиска разрабатываются методы семантического поиска, предназначенные для определения семантики ключевых слов, решения проблемы неоднозначности слов, а также для расширения запросов на основе формализованных знаний о данной предметной области. В качестве примера можно привести один из таких подходов к организации семантического поиска, основанный на использовании компьютерного тезауруса английского языка WordNet, который используется в ряде проектов.

В течение ряда последних лет нами разрабатывается онтологически-ориентированная технология систематизации и поиска электронных научных публикаций, апробация которой осуществляется в рамках построения и развития исследовательского прототипа информационно-аналитической системы (ИАС) «Природные ресурсы Карелии» [4–8]. В данной статье представлены некоторые результаты сравнения возможностей онтологически-ориентированной ИАС, «Яндекс. Персональный поиск» и «Apache Solr LUCENE». В качестве основных характеристик для сравнения систем мы исследовали особенности ранжирования публикаций, а также возможности автоматического расширения запроса. Такой выбор характеристик связан с тем, что автоматическое расширение запроса и качественное ранжирование публикаций играют значительную роль при поиске научных публикаций в научных информационных системах.

Текст данной статьи структурирован следующим образом. В п.1 приводится краткое описание рассматриваемых систем полнотекстового информационного поиска, а именно: разрабатываемой нами онтологически-ориентированной ИАС, «Яндекс. Персональный поиск» и «Apache Solr LUCENE». В п.2 приводятся некоторые результаты сравнения этих систем. В заключении представлен анализ полученных результатов.

1. Онтологически-ориентированная система информационного поиска ИАС

Первоначально при разработке системы ИАС мы использовали традиционный подход к решению проблемы систематизации публикаций, который заключается в том, чтобы систематизировать массив электронных публикаций в соответствии с заданным рубрикатором. Эта задача (т.е. отнесение каждой публикации к определенной рубрике – text categorization) в библиотечном деле называется предметизацией. Проведя предметизацию всего массива публикаций, получаем возможность организовать полнотекстовый поиск по заданному рубрикатору так же, как, например, это организовано сейчас в Google News, National Science Digital Library (NSDL) и др. В этих системах электронные ресурсы систематизированы в соответствии с иерархической структурой рубрикатора, что облегчает пользователю навигацию и поиск нужной информации.

В настоящее время можно выделить два основных подхода [2] для автоматизации процесса предметизации массива электронных публикаций. Первый подход базируется на применении технологии экспертных систем (knowledge engineering), а второй – на методах машинного обучения (machine learning).

Для решения задачи предметизации электронных публикаций мы использовали технологию продукционных экспертных систем. С этой целью экспертами был разработан набор логических функций, с помощью которых осуществляется процесс отнесения публикаций к соответствующим рубрикам ГРНТИ. Для формирования этих функций, по сути описывающих содержание публикаций, используется соответствующий данной рубрике словарь терминов, логические операторы (AND, OR, NOT), а в качестве информационной основы предметизации – названия публикаций, списки ключевых слов и аннотации.

Следующим нашим шагом стало применение метода концептуального индексирования, суть которого состоит в том, что индекс каждой электронной публикации формируется на основе предметной таксономии терминов, моделирующей содержание определенного тематического множества публикаций (а не на наборе слов, как это принято в большинстве систем информационного поиска) [4,5,12].

В настоящее время при создании онтологически-ориентированных систем информационного поиска большое практическое значение имеют терминологические онтологии – таксономии и тезаурусы, которые включают концепты (термины), связанные между собой различными отношениями (например, отношениями «общее-частное», «синонимии» и т.п.). Это во многом определяется тем, что построение и сопровождение практически значимых для решения проблем информационного поиска строго формализованных онтологий остается достаточно трудной задачей [9–11,13]. В качестве примера практического использования таксономий при построении систем информационного поиска можно отметить электронную библиотеку NSDL [15].

Таким образом, в основу разработанной онтологически-ориентированной технологии систематизации и полнотекстового поиска электронных научных публикаций нами положены: рубрикатор (в нашем случае ГРНТИ); набор логических функций (правил-продукций) для автоматизации процесса предметизации публикаций (отнесения публикаций к определенным рубрикам ГРНТИ), а также ряд разработанных таксономий определенных предметных областей, термины которых связаны различными отношениями (классификации, агрегации и синонимии). Два первых типа отношений определяют иерархическую структуру таксономии. Синонимия терминов образует отдельный список, элементы которого представляют собой синонимические гнезда по отношению к доминантному термину таксономии. При этом следует заметить, что предметные таксономии терминов являются «продолжением» соответствующих концевых узлов рубрикатора и с определенной степенью детализации «раскрывают» содержание рубрики.

Процедура индексации электронных научных публикаций включает два основных этапа. Сначала выполняется предварительная обработка текста: каждая публикация переводится из формата PDF в формат TXT; из текста удаляются «малоинформативные» слова; к тексту публикации и терминам соответствующего выделенного фрагмента таксономии применяется алгоритм «стемминга» (в нашем случае используется стеммер Портера).

Далее осуществляется последовательное сканирование ранее обработанного текста публикации и сопоставление каждого выделенного в тексте слова с терминами соответствующего фрагмента таксономии, характеризующего содержание данной предметной рубрики. По такой схеме последовательно обходятся поддеревья всех рубрик, к которым была отнесена публикация на этапе предметизации. При этом каждый раз производится поиск термина таксономии в тексте публикации и если обнаруживается такое вхождение термина, то индексируется не только этот термин, но и все его предки из соответствующего поддерева таксономии. То есть работает следующее общее правило: если в тексте находится как минимум пара терминов, лежащих на одной ветви таксономии, то эта ветвь помещается в индекс данной публикации.

Таким образом, индекс публикации (будем называть его «текстовым» индексом электронной публикации в отличие от так называемого «географического» индекса, который позволяет организовать географический поиск публикаций [6,14]) представляет собой упорядоченный набор терминов таксономии и, на наш взгляд, более детально характеризует ее содержание по сравнению со списком ключевых слов.

Рубрикатор, предметные таксономии и сформированная по ним база индексов публикаций обеспечивают следующую процедуру тематического поиска публикаций по запросам пользователей. Пользователю сначала предлагается выбрать рубрику ГРНТИ, которая должна содержать интересующие его публикации. Далее ему предлагается соответствующий рубрике фрагмент таксономии, в котором он может последовательно выбирать интересующие его термины. На основе указанных пользователем в таксономии терминов система автоматически формирует соответствующий запрос в виде логического выражения, определяющего конъюнктивные (по ветви дерева) и/или дизъюнктивные (между разными ветвями дерева) связи терминов, исполняет его и предоставляет пользователю релевантные запросу публикации.

Следует отметить, что поскольку поиск по запросу осуществляется в базе индексов (а не в текстах электронных публикаций), запрос автоматически расширяется включением в него конъюнкции терминов от корня и дизъюнкции терминов и их синонимов вплоть до «листьев» от указанных пользователем терминов. Тем самым обеспечивается повышение точности ответа на запрос за счет конъюнкции терминов предыдущих уровней таксономии и полноты за счет дизъюнкции терминов одного уровня таксономии и их синонимов. Список названий публикаций, найденных по запросу, выводится пользователю в виде гиперссылок для последующего просмотра и/или сохранения выбранных публикаций в «личном кабинете» пользователя.

Онтологически-ориентированная технология систематизации и полнотекстового информационного поиска электронных научных публикаций позволяет, на наш взгляд, разработать метод их ранжирования, который учитывает как специфические особенности контента и самого метода индексации, так и некоторые традиционные приемы построения функций ранжирования, основанные на использовании статистической информации о распределении терминов в запросе и текстах публикаций и ряда других параметров. К специфическим особенностям контента и метода индексации и поиска, используемым нами при построении функции ранжирования, относятся:
• структура предметной таксономии, представляющая собой иерархическую систему научных терминов, соответствующую определенной научной предметной области;
• предположение о том, что термины, расположенные на «нижних» уровнях дерева (представляющей таксономию) и обнаруженные в документе в результате исполнения запроса, в большей степени определяют для пользователя «ценность» этой научной публикации, чем термины, расположенные на «верхних» уровнях этого дерева.

Исходя из структуры предметной таксономии, можно сделать вывод о том, что указанные пользователем в запросе термины таксономии оказывают различное влияние на значение функции ранжирования публикаций. При этом можно предположить, что веса терминов любой построенной таким образом таксономии являются «частично упорядоченными» с учетом их иерархии (в отличие, скажем, от обычного списка ключевых слов, в котором обоснованное выделение более значимых для целей ранжирования терминов возлагается на пользователя и часто представляется достаточно затруднительным делом).

При построении функций ранжирования, кроме ставшего уже классическим TF-IDF алгоритма, используются и десятки других предположений, имеющих под собой более или менее разумные обоснования (например, в LUCENE в формуле ранжирования учитываются уникальность терминов и важность документа, которые задаются пользователем). При этом разработчики систем пытаются построить более совершенные и в каком-то смысле универсальные (т.е. подходящие для любого контента) функции ранжирования, что, на наш взгляд, выглядит весьма проблематичным делом.

Мы полагаем, что при построении функции ранжирования следует учитывать как сам контент (например, структуру электронных документов), так и особенности методов индексации и поиска электронных документов.

Например, разумным представляется предположение о том, что «ценность» научной публикации для ученого во многом определяется и тем, в какой зоне текста публикации наиболее часто появляются термины запроса. В научных статьях можно выделить следующие зоны: название публикации, ключевые слова, аннотация, введение, основной текст (который, в свою очередь, разбивается на подразделы с соответствующими заголовками), заключение, список литературы. Если термин запроса появляется в названии и/или в списке ключевых слов, то можно предположить, что эта публикация в большей степени соответствует информационным потребностям пользователя, чем иные публикации, в которых этого не зафиксировано (аналогичное предположение учитывается, например, в алгоритме ранжирования OKAPI BM25F). Кроме того, на наш взгляд, пользователю интересны более «свежие», более востребованные и значимые научные публикации, поэтому при построении формулы ранжирования целесообразно использовать следующие параметры: год выпуска публикации, количество скачиваний публикации, а также индекс цитирования. В данной работе предлагается модифицированный вариант функции ранжирования научных публикаций в ИАС, учитывающий данные предположения. Более ранний вариант используемой в ИАС функции ранжирования документов представлен в работе [7].

Введем следующие обозначения:
T = (Tn,Тn-1,…,T1) – расширенный вектор терминов, где T1 – корневой термин выделенного фрагмента таксономии, а Tn – термин, расположенный на «концевой» вершине дерева (представляющего таксономию терминов), и лежащий на соответствующем пути дерева от «последнего» указанного в запросе термина (таких векторов может быть несколько, все они упорядочиваются по длине, чем «длиннее» вектор, тем «ценнее» должны быть найденные системой на основе данных терминов публикации);
(vn, vn-1, … , v1) – веса компонент вектора T (vn > vn-1 > … > v1, значения весов можно вычислить, например, по следующему правилу: vi = log210*i, i = 1,2, …, n);
(ψ1,ψ2,…,ψm) – веса, приписанные определенным зонам публикации, куда могут входить термины запроса (например, если мы учитываем вхождение термина в название публикации, список ключевых слов, аннотацию, основной текст публикации, то в этом случае m = 4). Для научных публикаций логично предположить, что ψ1 > ψ2 > ψ3 > ψ4 (т.е. термины запроса, входящие в название публикации, являются более значимыми при ранжировании). В данном случае мы приписали коэффициентам следующие значения: ψ1 = 0.004, ψ2 = 0.003, ψ3 = 0.002, ψ4 = 0.001;
{xji} – число вхождений данного термина в соответствующую зону публикации, j = 1, … , 4; i = 1, … , n. Если в первых трех случаях достаточно использовать количество вхождений каждого термина в соответствующую зону публикации (таких вхождений будет немного – 1 или 2), то количество вхождений термина в основной текст публикации зависит от размера конкретной публикации («большая» публикация может содержать больше повторений одного и того же термина, чем «маленькая», но тем не менее являться более релевантной запросу пользователя). В таких случаях обычно используют параметр «вес термина», который обозначим через ω4i (вес термина i в 4 зоне – в тексте публикации) и определим его следующим образом: ω4i = 1 + log10x4i, если x4i > 0; и 0 – в противном случае;
y1 – год выпуска публикации, если документ из коллекции публикаций, и год изменения документа, если документ из другой коллекции;
y – текущий год работы системы;
d1 – количество обращений к данной публикации, т.е. суммарное количество скачиваний документа;
dm – количество скачиваний самого популярного документа данной коллекции;
w – вес публикации, вычисленный с помощью функции ранжирования.

Тогда функция ранжирования для оценки веса публикаций в нашем случае будет иметь следующий вид:

 n               4

w = Σ vi * (Σ ψj * xji + ψ4 * ω4i + y1/y + d1 / (dm + 1))                                                (1)

i=1            j=1


Таким образом, процедура ранжирования публикаций в онтологически-ориентированной системе поиска состоит в следующем. Во-первых, все найденные по запросу публикации распределяются системой по разделам (при этом наименование каждого раздела формируется из соответствующего расширенного списка терминов запроса). Во-вторых, разделы упорядочиваются в соответствии с длиной соответствующего вектора T. В-третьих, внутри каждого раздела все найденные публикации упорядочиваются в соответствии с их весами, вычисленными с помощью построенной функции ранжирования (1). Следует отметить, что в функцию ранжирования целесообразно включить и дополнительные параметры, например, индекс цитирования публикации, веса терминов в предметной таксономии, установленные пользователем и т.п. Проведенные нами эксперименты с ранжированием найденных по запросам научных публикаций показали, по оценкам экспертов, преимущества данной функции ранжирования по сравнению с ранжированием в системах ЯНДЕКС и SOLR.

На рис. 1 представлены: слева – выбранный пользователем в процессе формирования запроса фрагмент таксономии терминов (в скобках указано количество публикаций, включающих данный термин), а справа – полученный системой в результате исполнения запроса список публикаций (для каждой публикации указывается ее вес, вычисленный с помощью функции ранжирования).

Не указано

Рис. 1. Пример запроса по таксономии терминов в системе ИАС

Разрабатываемая нами онтологически-ориентированная технология систематизации и поиска электронной информации также представлена в работах [4–8].

2. Результаты сравнения систем полнотекстового информационного поиска

С целью сравнения и анализа возможностей компьютерных систем полнотекстового информационного поиска: ИАС, «Яндекс. Персональный поиск» (ЯНДЕКС) и «Apache Solr LUCENE» (SOLR) были проведены вычислительные эксперименты, анализ результатов которых приведен ниже. Для проведения этих экспериментов были сгенерированы системы ЯНДЕКС [16] и SOLR [17–20], отобраны массивы научных статей и сформулирован ряд следующих запросов.

Запрос 1. «Биология AND Зоология AND Ихтиология AND Рыбы AND Экология рыб AND Паразиты рыб».

Для поиска системами ЯНДЕКС и SOLR по запросу 1 мы сформировали каталог, содержащий 211 документов (в системе ИАС это документы, отнесенные при предметизации к рубрике ГРНТИ 34.33.33. Ихтиология).

Запрос 2. «Геофизика AND Океанология AND Региональная океанология AND Моря AND Гидрохимия моря AND Общая характеристика воды AND Классификация Алекина AND По минерализации AND Классы AND Пресные».

Поиск по запросу 2 системами ЯНДЕКС и SOLR проводился в каталоге, содержащем 27 документов (в системе ИАС это документы, отнесенные при предметизации к рубрике ГРНТИ 37.25.33. Региональная океанология).

По запросу 1 системой ИАС было найдено 42 документа, Solr и Яндекс нашли по 5 документов. При уменьшении количества терминов в запросе, объединенных оператором AND, системы ЯНДЕКС и SOLR обнаруживали все большее количество документов, а упрощение запроса до одного термина «Паразиты рыб» привело к обнаружению практически такого же количества документов, что и системой ИАС по полному запросу 1.

По запросу 2 система ИАС обнаружила 5 документов, ЯНДЕКС и SOLR — ни одного. При «упрощении» запроса до одного термина «Пресные» поисковая выдача ЯНДЕКС и SOLR содержала 5 статей из списка ИАС по полному запросу и еще один документ с термином «пресно-солоноватые».

Запрос 3. «Сельское и лесное хозяйство AND Лесное хозяйство AND Лесоведение AND Морфология леса AND Ландшафт лесной AND Биогеоценотическая структура AND Тип биогеоценоза AND Эдификаторы AND Береза».

Запрос 4. «Сельское и лесное хозяйство AND Лесное хозяйство AND Лесоведение AND Морфология леса AND Ландшафт лесной AND Биогеоценотическая структура AND Тип биогеоценоза AND Эдификаторы AND Осина».

Для поиска системами ЯНДЕКС и SOLR по запросам 3 и 4 мы сформировали каталог, содержащий 98 документов (в системе ИАС это документы, отнесенные при предметизации к рубрике ГРНТИ 68.47.03. Лесоведение).

Системой ИАС по запросам 3 и 4 были найдены соответственно 20 и 14 документов. По «полным» запросам 3 и 4 SOLR и ЯНДЕКС не нашли ни одного документа. По «урезанным» запросам – «Лесоведение AND Ландшафт лесной AND Эдификаторы AND Береза» и «Лесоведение AND Ландшафт лесной AND Эдификаторы AND Осина» SOLR и ЯНДЕКС нашли соответственно пять и четыре документа. Причем SOLR и ЯНДЕКС по обоим «урезанным» запросам дали одинаковые результаты (не совпал только порядок следования документов, полученных в результате ранжирования). Эти же документы найдены и системой ИАС по полным запросам и располагаются в начале списков (первые пять и первые четыре документа).

Рассматривались эти же запросы и для всего массива публикаций Электронной библиотеки – 4046 файлов. Поисковиком SOLR по запросам 3 и 4 не были найдены никакие документы. По «урезанному» запросу – «Лесоведение AND Ландшафт лесной AND Эдификаторы AND Береза» SOLR нашла 26 документов. Из них 16 – сборники научных публикаций.

Количество документов, найденных по запросам с большим количеством терминов, объединенных оператором AND, сильно сокращается (иногда даже до пустого списка найденных документов). В системе ИАС этого не происходит по той причине, что на этапе индексации в список ключевых слов документа заносятся не только термины, найденные в тексте, но и все поддерево таксономии, по которому идет индексация. В индексном файле с такой структурой имеется вся информация по всем потенциально допустимым запросам, которые формируются по всем выделенным ветвям таксономии, содержащим конечные «листьевые» термины. Поэтому уже в самом начале формирования запроса по таксономии автоматически создается полный список документов, удовлетворяющих всем возможным запросам, которые можно образовать в системе по выбранному пользователем поддереву таксономии. При этом выводимый список автоматически разделяется на отдельные подсписки, соответствующие всем различным ветвям дерева, включающим конечные листьевые термины выбранного поддерева таксономии. При последовательном проходе по дереву таксономии число таких подсписков документов в выдаче может уменьшаться за счет исключения подсписков для ветвей таксономии, которые пользователь решил не включать в запрос.

Рассматривались также запросы, не содержащие конечные «листьевые» термины таксономии. Оказалось, что системы SOLR и ЯНДЕКС не обнаруживали часть документов, найденных ИАС по таким запросам. Объясняется это структурой индексного файла, формируемого на этапе индексирования документов.

Например, по запросу 5, формируемому по поддереву таксономии «Растительность AND Фитоценология AND Лес AND Вырубки AND Местообитания AND Стадии сукцессии», cистемой ИАС был найден 71 документ, а системой SOLR по запросу «Стадии сукцессии» было обнаружено 42 документа, причем 16 документов содержали термин «Стадии сукцессии», но никаких терминов из нижележащего уровня таксономии не имели. При этом только 26 документов, найденных системой ИАС, совпадали с документами из списка SOLR, а 45 документов из списка ИАС (они и не были найдены SOLR) термин «Стадии сукцессии» не содержали, но в текстах этих документов были термины из нижележащего последнего уровня таксономии – списка стадий сукцессии (Зарастающие вырубки, Климакс, Молодняки, Приспевающие, Свежие вырубки, Спелые, Средневозрастные, Субклимакс).

По запросу 6 «Растительность AND Фитоценология AND Лес AND Вырубки AND Лесные ресурсы AND Недревесные AND Лекарственные» системой ИАС были найдены 48 документов. Системой SOLR по запросу «Лекарственные» было найдено 37 документов, причем 3 документа содержали термин «Лекарственные», но никаких терминов из списка лекарственных растений в них не имелось, поэтому нашей системой они не были включены в отклик по запросу. Список документов, найденных ЯНДЕКС, совпадал со списком SOLR за исключением одного документа. 34 документа из списка документов, обнаруженных нашей системой, совпадали с документами, найденными SOLR. Остальные 14 документов из списка ИАС термин «Лекарственные» не содержали, но в текстах этих документов были названия из перечня лекарственных растений, и они были определены нашей системой как релевантные запросу.

Заключение

Системы полнотекстового информационного поиска научных публикаций, разработанные с применением онтологически-ориентированных методов, обладают, на наш взгляд, следующими основными преимуществами по сравнению с системами, разработанными с помощью ЯНДЕКС или SOLR.

Во-первых, предметизация и индексация массива электронных научных публикаций в соответствии с тематическим рубрикатором (например, ГРНТИ) и связанными с ним предметными таксономиями терминов, с одной стороны, устраняют многозначность терминов (за счет «отсечения» других предметных областей в процессе формулирования запроса), а с другой – дают возможность пользователю более точно определить интересующую его предметную область запроса. Пользователь, на наш взгляд, может гораздо проще и точнее выразить свои информационные потребности путем выбора соответствующей рубрики и указания терминов в таксономии по сравнению с заданием списка ключевых слов. При этом ему не надо самому формировать условия отбора данных в виде логического выражения, определяющего конъюнктивные и/или дизъюнктивные связи указанных терминов, система сделает это автоматически.

Во-вторых, появляется возможность разработки поискового сервиса (тематического web-краулера), который позволит пользователю один раз (в идеальном случае) задать свои информационные потребности, а поисковой системе автоматически пополнять его «личный кабинет» новыми, релевантными его профилю публикациями. При этом найденные публикации будут должным образом упорядочены в соответствии с разработанной функцией ранжирования. Следует отметить, что большинство пользователей (имеются в виду ученые) «не склонны» осваивать в полной мере возможности языков запросов и уж тем более формулировать сложные запросы на этих языках. В нашем случае можно построить простой и достаточно эффективный поисковый интерфейс для ученых.

В-третьих, предложенная процедура индексации публикаций позволяет системе в процессе исполнения запроса автоматически его расширять путем вставки в него тер-минов, связанных в рамках таксономии отношениями (например, запросы автоматически расширяются включением соответствующих синонимов в виде дизъюнкций терминов каждого гнезда синонимов). В системах ЯНДЕКС и SOLR такой возможности в явном виде не предусмотрено.
В-четвертых, использование таксономии терминов для индексации электронных публикаций позволяет разработать формулу ранжирования, учитывающую иерархию терминов в таксономии при назначении им весовых коэффициентов. При этом на наш взгляд при построении формулы ранжирования необходимо учитывать параметры (индекс цитирования, год выпуска и т.п.), характеризующие контент электронной библиотеки (в данном случае в качестве контента выступают научные публикации).

В-пятых, предложенная и реализованная в ИАС «Природные ресурсы Карелии» онтологически-ориентированная технология систематизации и поиска электронной научной информации позволяет достаточно просто организовать географический поиск публикаций за счет автоматического формирования по таксономии (онтологии) географических названий региона так называемого «географического» индекса публикации, который дополняет ее «текстовый» индекс [6].

Основные трудности, возникающие при реализации представленного в статье онтологически-ориентированного подхода, связаны в первую очередь с разработкой адекватных задаче информационного поиска предметных (научных) таксономий терминов. По сути, речь идет о построении формализованных моделей для описания содержания классов публикаций. Для решения этих задач требуется, с одной стороны, привлечение высококвалифицированных специалистов-предметников (экспертов), а с другой стороны, разработка и/или применение программных средств поддержки процессов построения и корректировки предметных онтологий (например, типа Protégé). Также следует отметить (в качестве «технического» недостатка или определенной «платы» за качество поиска) значительный рост объема индексной базы данных, который определяется как самой спецификой алгоритма индексации электронных публикаций, так и «объемом» используемой для индексации таксономии.

Исследовательский прототип системы полнотекстового информационного поиска ИАС «Природные ресурсы Карелии» представлен на сайте [21]. Исследования и разработки выполняются при поддержке гранта РФФИ № 12-07-00070-а.

Литература:

1. Manning, C. An Introduction to Information Retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze – Cambridge, England: Cambridge University Press. – April 2009. – P. 544.
2. Youssef Bassil. A Survey on Information Retrieval, Text Categorization, and Web Crawl-ing / Journal of Computer Science & Research. Vol. 1, No. 6, Pages. 1–11, December 2012.
3. G. Salton, A. Wong, C.S. Yang. A vector space model for automatic indexing / Communications of the ACM 18 (1975). pp. 613–620.
4. Вдовицын В.Т., Лебедев В.А. Онтологии для тематического поиска данных в кол-лекциях электронной библиотеки / Труды X Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», RCDL'2008. Дубна, Россия, 7–11 октября 2008. - С. 63–69.
5. Вдовицын В.Т., Лебедев В.А. Технологии систематизации и поиска электронной научной информации с применением онтологий / /Информационные ресурсы России. – 2010. - № 5. - C. 6–10.
6. Вдовицын В.Т., Полин А.К.. Основанный на онтологии подход к интеграции геоинформационной системы с коллекциями научных публикаций / Труды XIV Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», RCDL'2012. - Переславль-Залесский: изд-во «Университет города Переславля», 2012. - C. 37–42.
7. Вдовицын В.Т., Лебедев В.А. Ранжирование документов в системе поиска, основанной на применении онтологии / Труды XIV Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», RCDL'2012. Переславль-Залесский: изд-во «Университет города Переславля», 2012. - C. 145–151.
8. Вдовицын В.Т. Онтологически ориентированный подход к решению проблемы систематизации и поиска научных публикаций в электронных библиотеках/ Сб. Президентской библиотеки им. Б.Н. Ельцина. – СПб. Серия «Электронная библиотека». Вып. 4: Научные и организационно-технологические основы интеграции цифровых информационных ресурсов. – 2013. – С. 215–234.
9. Добров Б.В., Лукашевич Н.В. Онтология по естественным наукам и технологиям ОЕНТ: структура, состав и современное состояние // Российский научный электронный журнал «Электронные библиотеки», 2008. – Том11. – Выпуск 1.
10. Лукашевич Н.В. Тезаурусы в задачах информационного поиска / М.: Изд-во: МГУ. - 2011. - 495 с.
11. A.A. Krizhanovsky, A.V. Smirnov. An Approach to Automated Construction of a General-Purpose Lexical Ontology Based on Wiktionary // Journal of Computer and Systems Sciences International. – 2013. - Vol. 52. - № 2. - pp. 215–225.
12. Soner Kara, Ozgur Alan, Orkunt Sabuncu, Samet Akpınar, Nihan K. Cicekli, Ferda N. Alpaslan. An ontology-based retrieval system using semantic indexing / Information Systems. 2012. - № 37. – Р. 294–305.
13. Mauro Dragoni, Célia da Costa Pereira, Andrea G.B. Tettamanzi. A conceptual representation of documents and queries for information retrieval systems by using light ontologies / /Expert Systems with Applications. – 2012. - №39. – Р. 10376–10388.
14. Nieves R. Brisaboa, Miguel R. Luaces, Ángeles S. Places, Diego Seco. Exploiting geographic references of documents in a geographical information retrieval system using an ontology-based index / Geoinformatica (2010) 14:307–331 DOI 10.1007/s10707-010-0106-3.
15. National Science Digital Library [Электронный ресурс]. - URL: http://nsdl.org (дата обращения: 26.04.2014).
16. Персональный поиск Яндекса / Википедия: 2014 [Электронный ресурс]. - URL: http://ru.wikipedia.org/wiki/Персональный_поиск_Яндекса (дата обращения: 26.04.2014).
17. Apache Solr / Википедия: сайт. 2014 [Электронный ресурс]. - URL: http://ru.wikipedia.org/wiki/Apache_Solr (дата обращения: 26.04.2014).
18. Lucene: URL: http://lucene.apache.org/ (дата обращения: 26.04.2014).
19. Apache Lucene & Solr 3.5.0 / LINUX.ORG.RU: 2011 [Электронный ресурс]. - URL: http://www.linux.org.ru/news/opensource/7056596 (дата обращения: 26.04.2014).
20. Резниченко В.А., Проскудина Г.Ю. О функции поиска в электронной библиотеке / Труды 10-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL'2010, Казань. - 2010.
21. Исследовательский прототип ИАС «Природные ресурсы Карелии» [Электронный ресурс]. - URL: http://ias.krc.karelia.ru (дата обращения: 26.04.2014).