«Информационные Ресурсы России» №5, 2010



Разнородные образовательные информационные ресурсы: интеграция и поиск

Введение

Современные образовательные учреждения в рамках своей деятельности создают и поддерживают большое количество информационных источников. Причем типы, принципы и технология их построения весьма разнообразны и значительным образом могут отличаться друг от друга. К примеру, информационные ресурсы вуза могут быть рассредоточены по следующим направлениям: электронные каталоги библиотек, ресурсы по культурному наследию, разнообразные ресурсы WEB-серверов, различные базы данных и др.

С точки зрения пользователя, основным востребованным сервисом при работе с информационными ресурсами является информационный поиск и возможность использования унифицированных пользовательских интерфейсов для доступа к ресурсам. Каким образом можно предоставить пользователю возможность с помощью единого унифицированного интерфейса осуществлять поиск по различным информационным ресурсам? Решение поставленной задачи сводится к решению проблемы интеграции разнородных информационных ресурсов.

В основном, в различных учреждениях используются программные системы, предназначенные для одной цели для одного множества пользователей без достаточного продумывания интеграции этих систем в большие системы. Эти системы обычно специально разрабатывались с учетом специфических нужд, и довольно часто они используют нестандартные хранилища данных и технологии разработки приложений. К сожалению, многие из этих систем трудно адаптируются для коммуникаций и использования общей информации с другими, более развитыми системами. В результате, интеграция систем и приложений не является простой задачей.

Информационные ресурсы в сфере науки, культуры и образования

В настоящее время в качестве основных информационных ресурсов в сфере образования выступают образовательные материалы, сосредоточенные в библиотеках или на различных Интернет-ресурсах. Большое внимание со стороны государства в РФ уделяется развитию и распространению цифровых образовательных ресурсов. В качестве примера государственного подхода к созданию информационных ресурсов можно привести «Единую Коллекцию цифровых образовательных ресурсов для учреждений общего и начального профессионального образования» (school-collection.edu.ru) или «Федеральный центр информационно-образовательных ресурсов» (fcior.edu.ru).

В качестве примера ведомственных систем можно привести проект Единого Научного информационного пространства (ЕНИП) РАН, представленный в виде информационного портала, объединяющего основные научные информационные ресурсы и Web-сервисы различных учреждений РАН []. Основное его назначение – обеспечение доступа ученым, научным коллективам и организациям к информационным ресурсам и электронным услугам РАН, организация оперативного информационного обмена и эффективного поиска научной информации.

Еще один вариант интеграции ведомственного уровня реализован в Сибирском отделении РАН (г. Новосибирск), где создан Информационный центр, выполняющий функции регионального центра доступа к информационным ресурсам и регионального информационного хранилища [].

Проблемы интеграции данных

Решение проблем интеграции информационных ресурсов осложнено большим многообразием используемых технологий и типов информационных ресурсов. В библиотечной среде применяются форматы семейства MARC [], для описания образовательных ресурсов получил распространение стандарт Learning Object Metadata standard (LOM) [], в архивном и музейном деле общепринятых стандартов, получивших столь же широкое признание (подобно MARC или LOM в своих областях), пока не появилось. Большую популярность в последнее время приобретает стандарт Dublin Core[], претендующий на универсальную систему метаданных и ориентированный в основном на Интернет-пространство. Очевидно, что какой-либо единый стандарт метаданных не может удовлетворить все потребности и решить все возникающие задачи. К примеру, библиотекари вряд ли откажутся от использования стандарта MARC в пользу какого-либо другого стандарта (например, LOM) по целому ряду вполне объяснимых причин, и, с другой стороны, невозможно навязать использование стандарта MARC пользователям, ориентированным на предоставление собственных ресурсов в среде Интернет. Очевидно, что сформировались устойчивые сообщества, создающие различные информационные ресурсы по своим стандартам, принятым в своей среде, и не приемлющие что-либо другое.

В качестве возможного решения данной проблемы в обзоре [] предлагается ряд принципов:
- необходимо поддерживать несколько наборов метаданных, заведомо покрывающих все перспективные потребности информационных систем;
- обеспечить отображение всех наборов метаданных в один, принятый за стандарт обмена;
- хранить все метаданные в центральном репозитории (каталоге, БД) метаданных;
- если создателю коллекции или информационной системы необходим оригинальный набор элементов метаданных, то на нем лежит ответственность за разработку методов его отображения в один из распространенных стандартов.

Такой подход сохраняет за создателями информационных объектов определенную свободу выбора, но в то же время позволяет добиться интероперабельности между коллекциями и информационными системами различного типа и происхождения и сделать все записи доступными для соответствующих сервисов.

Необходимость создания единого сводного каталога различных разнородных ресурсов заставляет задуматься об использовании некоторого общего набора метаданных, который в максимальной степени удовлетворял бы потребности и пожелания различных групп пользователей.

Среди большого количества разнообразных систем метаданных, используемых в информационных ресурсах в сфере науки, культуры и образования и рассмотренных выше, наиболее распространенными и признанными являются системы метаданных семейства MARC, Dublin Core и LOM. Поэтому при создании сводных каталогов электронных ресурсов разработчикам чаще всего приходится иметь дело с интеграцией описаний ресурсов, представленных в этих системах метаданных. Из рассматриваемых стандартов (DC, LOM, MARC) на роль наиболее универсальной системы более других подходит Dublin Core. Одним из главных достоинств данной системы является ее простота (особенно с системами метаданных семейства MARC).

Необходимость приведения метаданных, представленных в различных форматах, к общей структуре заставляет с каждым метаописанием информационного ресурса проводить определенный набор преобразований, в результате которых должны быть получены метаданные, представленные в некотором нормализованном виде.
Поскольку в качестве объектов интеграции выбраны метаданные стандартов Dublin Core, LOM и MARC, рассмотрим особенности интеграции представленных в них ресурсов. Возможность интеграции ИР, представленных в данных форматах, рассмотрена в [].

Стандарт Dublin Core разделён на два уровня:
- простой (simple), состоящий из 15 элементов;
- компетентный (qualified), состоящий из 18 элементов и группы квалификаторов, которые уточняют семантику элементов для повышения полезности поиска ресурсов.

Метаданные какого-либо ресурса могут быть описаны как в версии DC-simple, так и DC-qualified. При этом метаданные разных информационных ресурсов могут отличаться различными уровнями структуризации. К примеру, адрес может быть структурирован с выделением страны, почтового индекса, региона, города, улицы, адреса по улице. ФИО персоны может быть представлено как в виде строкового значения, так и в структурированном виде (например, в стандарте VCARD). Поскольку для общих задач интеграции информационных ресурсов высокая степень структуризации не требуется и только усложняет процесс, необходимо структурированные метаданные сводить к более простой «общей» форме. В случае если исходный набор данных представлен в формате DC с квалификаторами, комитетом Dublin Core предложен алгоритм упрощения (DumbDown)[]. Этот алгоритм заменяет все подсвойства (Element Refinements) свойств DC на их суперсвойства, входящие в 15 базовых элементов Dublin Core. В результате детализированные структурированные данные сводятся к абстрактным и планарным.

Правило отображения информационной модели RUSMARC в основной набор элементов Дублинского ядра приведено в [].

Рассмотрим соответствие типов данных у связанных атрибутов обоих форматов с точки зрения их интероперабельности.

Поля формата RUSMARC, соответствующие полям DC contributor, creator, publisher, представляются строковыми значениями. Хотя для описания персон и организаций достаточно широко используется формат VCARD (например, в LOM), но использование строковых значений для данных параметров распространено значительно больше, поэтому соответствие данных атрибутов между форматами RUSMARC и DC является достаточно однозначным для их дальнейшей интеграции между собой. Возможность интеграции по атрибуту format определяется значениями полей 230$a. Для преобразования в DC разработчиками RUSMARC рекомендуется использовать поле 230$a, но его использование не позволяет достигнуть интероперабельности со значениями атрибута format, поскольку значениями поля 230$a должны быть обозначение и объем ресурса – характеристики, не пересекающиеся с рекомендуемыми для поля format значениями специального словаря типов ресурсов DCMITYPE. Соответствие остальных атрибутов не вызывает особых проблем с точки зрения решения задач интеграции метаданных рассмотренных форматов.

В результате можно сделать следующее заключение о возможности интеграции форматов RUSMARC и DC между собой: интеграция данных форматов реально осуществима по большинству сопоставимых атрибутов.

Правило отображения информационной модели RUS_LOM, принятой в России для информационных ресурсов в сфере образования, в основной набор элементов Дублинского ядра приведено в []. Все элементы DC имеют аналоги в информационной модели метаданных для ИР сферы образования. При этом информационная модель RUS_LOM включает дополнительные элементы, отражающие специфику ИР сферы образования.

В качестве идентификатора информационного объекта в LOM используется понятие глобального уникального идентификатора GUID. Существуют два основных подхода к построению GUID. В первом в качестве идентификаторов используются адреса в интернете. Это могут быть IP-адреса, доменные адреса, адреса электронной почты и др. В рамках второго подхода идентификатор непосредственно не отражает адрес идентифицируемого объекта. В этом случае говорят, что идентификатор служит уникальным именем объекта. Для Интернет-ресурсов такие идентификаторы играют роль постоянных, независимых от физического расположения ИР адресов. Унифицированный идентификатор ресурса (URI) является наиболее распространенным на сегодняшний день обобщенным форматом идентификатора. Формат URI охватывает оба рассмотренных выше подхода к построению уникальных идентификаторов. В качестве URI может выступать как адрес, так и имя ИР. В первом случае используется разновидность URI – URL. URI может играть роль имени ресурса, непосредственно не отражающего его адрес. Один из наиболее перспективных форматов таких идентификаторов – унифицированное имя ресурса (URN). Оба этих идентификатора используются для идентификации объектов в DC.
Для представления персон и организаций в LOM применяется формат vCard версии 3.0. Для аналогичного описания в RDF-версии DC рекомендуется применение стандарта VCARD версия 2.1. Поэтому при отображении элементов LOM в DC необходимо предусматривать конвертацию в соответствующую версию VCARD.
Для представления информации о языках в LOM рекомендуется использовать формат “код страны”-“код языка” аналогично DC.format.

Для представления значения типов данных образовательного ресурса (поле 4.1) рекомендуется применять значения MIME. Так как для сопоставимого атрибута DC.format также рекомендуется использовать значения MIME, интеграция метаданных, представленных в формате LOM, не вызывает особых затруднений.

Не вызывает особых затруднений соответствие и остальных атрибутов за исключением пары атрибутов 5.2 (Learning Resource Type) и DC.type. Рассмотрим эту пару атрибутов более подробно. В DC в качестве значения элемента type рекомендуется использовать одно из значений специального словаря типов ресурсов DCMITYPE: Collection, Dataset, Event, Image, InteractiveResource, MovingImage, PhisicalObject, Service, Software, Sound, Text. В качестве типов ресурсов для RUS_LOM определены такие значения, как «Компьютерный словарь», «Компьютерный учебник», «Учебное пособие» и другие. Поэтому, хотя формально и определено соответствие данных в этих полях, реально на практике их сопоставление на уровне семантики невозможно.

В результате можно сделать следующее заключение о возможности интеграции форматов LOM и DC между собой: интеграция данных форматов реально осуществима по абсолютному количеству сопоставимых атрибутов за исключением пары атрибутов 5.2 (Learning Resource Type) и DC.type.

Возможности Semantic Web для решения задачи интеграции разнородных ресурсов

В настоящее время серьезное развитие получила концепция Semantic Web[], с точки зрения которой, интернет рассматривается как потенциальная база знаний и компьютеры смогут обрабатывать информацию не только как данные, но и как знания. В рамках данного проекта консорциумом WWW разработан ряд стандартов, повсеместное внедрение которых призвано решить многие проблемы существующего веба.

В феврале 2004 года консорциумом WWW опубликована спецификация Resource Description Framework (RDF) []. В основу RDF положены две идеи: идентификация ресурса с помощью идентификаторов URI и описание ресурсов в терминах простых свойств и их значений. Под ресурсом может пониматься не только некоторый документ или набор документов в интернете, представленный своим URL, но и любой объект, который необходимо описать.
Для хранения RDF-данных современная программная индустрия предлагает множество способов и программных инструментов. RDF-данные можно хранить как в простом текстовом файле, так и в реляционной СУБД. Кроме того, существуют программные продукты, такие как RDF Joseki-сервер, Sesame и другие, выполняющую роль репозитариев RDF-данных. Многие из них включают поддержку языка запросов SPARQL, систему логического вывода и другие возможности.

В данном контексте платформа, предлагаемая идеологией Semantic Web, выглядит наиболее привлекательной с точки зрения реализации на ее основе проекта интеграции разнородных информационных ресурсов, изначально представленных в самых разнообразных стандартах.

Технология интеграции

Главная идея, на которой основан процесс интеграции разнородных данных, заключается в приведении форматов метаданных информационных ресурсов к единому стандарту на базе Dublin Core.

Как показано выше, преобразование данных из форматов LOM и MARC в формат Dublin Core принципиально возможно и не является особо трудоемким процессом. Не составляет особых усилий разработать программные конверторы, решающие данную задачу. Больший интерес вызывает решение задачи интеграции ресурсов Интернет-пространства. Долгое время не существовало подходящих решений для внедрения семантики в html-документы. Хотя для описания метаданных в html-страницах в стандарте языка определен тег META, но его возможности не позволяют полноценно внедрить семантику в html-документ. Лишь в последнее время поисковые системы (например, Yandex и Google) заявили о начале поддержки использования в разметке html-страниц структурированной информации: микроформатов и стандарта RDFa []. Консорциум WWW, помимо уже упомянутого стандарта RDFa, для внедрения структурированной информации в html-документы разработал стандарт GRDDL [].

Следовательно, можно уверенно утверждать, что в настоящее время имеются все необходимые технологии, позволяющие решить вопросы интеграции разнородных данных, находящихся как в библиотечных каталогах (MARC), в ресурсах образовательных порталов (LOM), так в Интернет-пространстве (Дублинское ядро).
Извлеченные из различных информационных ресурсов данные транслируются в схему Дублинского ядра, представленного в RDF-форме, которая затем помещается в RDF-репозитарий (рис.1).

Не указано


Рис.1. Схема интеграции данных

Извлеченные из различных информационных ресурсов RDF-данные не являются полностью пригодными для помещения их в RDF-репозитарий, поскольку они не всегда могут удовлетворять необходимым условиям синтаксической и семантической интероперабельности. Следует отдавать отчет в том, что в процессе приведения более сложного набора данных в более простой Dublin Core будет неизбежно происходить потеря некоторых полезных, хотя и специфичных для данного стандарта данных.

К схеме DC приводятся данные, первоначально представленные в различных форматах и извлеченные из информационных ресурсов, значительно отличающихся друг от друга по структуре и способу их использования. Метаданные разных информационных ресурсов могут отличаться различными уровнями структуризации. Степень их структуризации зависит от задач конкретной системы. Например, в стандарте LOM информацию о персоне рекомендуется представлять как ресурс формата VCARD, тогда как в других системах она может быть представлена как простое строковое значение. Поэтому система, которая представляет ФИО персоны текстом, и система, которая представляет его в структурированном виде, должны беспрепятственно обмениваться информацией и «понимать» друг друга.

Для решения задачи упрощения информации от более специализированной схемы некоторой предметной области к более общей предлагается алгоритм упрощения DumbDown, представленный Dublin Core. Этот алгоритм заменяет все подсвойства (Element Refinements) свойств DC на их суперсвойства, входящие в 15 базовых элементов Dublin Core. В результате детализированные структурированные данные сводятся к абстрактным и планарным.

В итоге, получаем некоторый нормализованный набор данных, в котором разнородные данные сведены к одной общей форме, пригодной для совместного хранения этих данных в едином репозитарии, и работе с ними.

Организация поиска

Структура данных RDF-хранилища является структурой с иерархическими связями, поскольку в RDF-хранилище содержатся не только данные, но и формально описаны всевозможные отношения между данными и понятиями. Для построения поисковых запросов к RDF-данным комитетом WWW предложен язык SPARQL [].
При этом не обязательно хранить все данные в одном RDF-репозитарии. Можно осуществлять поисковые SPARQL-запросы к различным RDF-репозитариям, затем объединять полученные в качестве результатов RDF-графы в единый набор (рис. 2).

Не указано

Рис.2. Схема организации поиска

Пользовательский интерфейс для поисковых запросов может быть организован одним из следующих способов:
Непосредственное введение запроса на выбранном языке описания поисковых запросов, что подходит только для квалифицированных пользователей. Кроме этого, пользователь должен иметь представление о структуре данных предметной области.

Пользователю предлагается воспользоваться набором готовых шаблонов запросов, в которых достаточно заполнить реквизиты, согласно которым будет происходить отбор данных из RDF-хранилища.

Очевидно, что наиболее предпочтительным будет являться второй вариант. Следует отметить сходство с поиском в интернете с помощью любой поисковой машины, где пользователю на выбор предлагается воспользоваться либо простым поисковым интерфейсом в виде одной поисковой строки, либо же более продвинутым вариантом расширенного поиска.

В случае с организацией поиска в RDF-репозитарии можно также предложить подобное решение.

Примеры поисковых запросов и их результаты

Поиск с использованием простого интерфейса в виде поисковой строки позволяет найти ресурсы, метаданные которых в полях dc.title, dc.creator ,dc.description, dc.subject содержат искомые слова (рис.3).

На рис.3 отображены результаты работы следующего запроса:
PREFIX dc: <http://purl.org/dc/elements/1.1/>DESCRIBE ?x
WHERE
{ { OPTIONAL {?x dc:title ?title. FILTER regex(?title,' пособие ','i')}}
UNION
{ OPTIONAL {?x dc:title ?title. FILTER regex(?title,'культурология','i')}}
UNION
{ OPTIONAL {?x dc:creator ? creator. FILTER regex(?creator,' пособие ','i')}}
UNION
{ OPTIONAL {?x dc: creator ? creator. FILTER regex(?creator,'культурология','i')}}
UNION
{ OPTIONAL {?x dc:subject ?subj. FILTER regex(?subj,' пособие ','i')}}
UNION
{ OPTIONAL {?x dc:subject ?subj. FILTER regex(?subj,' культурология ','i')}}
UNION
{ OPTIONAL {?x dc:description ?desc. FILTER regex(?desc,' пособие ','i')}}
UNION
{ OPTIONAL {?x dc:description ?desc. FILTER regex(?desc,' культурология ','i')}}
}

Не указано

Рис.3. Пример поискового запроса с использованием интерфейса в виде поисковой строки

Поиск с использованием специализированного интерфейса, позволяющего специфицировать критерии поиска (рис. 4). Поиск возможен по полям dc.title, dc.description, dc.subject, dc.creator, dc.type.
На рис.4 отображены результаты работы следующего запроса:

PREFIX dc: <http://purl.org/dc/elements/1.1/>
DESCRIBE ?x
WHERE
{
{ OPTIONAL {?x dc:title ?title. FILTER regex(?title,'Байкал','i')}}
{ OPTIONAL {?x dc:creator ?creator. FILTER regex(?creator,'Степанцов','i')}}
}

Не указано

Рис.4. Пример поискового запроса с использованием специализированного интерфейса, позволяющего специфицировать критерии поиска

При необходимости можно получить более подробное описание ресурса, просмотрев его «карточку ресурса». Пример карточки ресурса представлен на рис.5.

Не указано


Рис.5. Пример карточки ресурса

Очевидно, что самым сложным примером поискового интерфейса, будет являться форма, предлагающая возможность поиска по всем 15 полям стандарта Dublin Core.

Заключение


Рассмотренная в данной статье технология позволяет организовать интеграцию разнородных информационных ресурсов, основанную на использовании возможностей Semantic Web, что даст возможность пользователям осуществлять сквозной информационный поиск, обладающий более продвинутыми возможностями по сравнению с другими видами информационного поиска.

Литература:

1. Интеграция метаданных Единого Научного Информационного Пространства РАН/ А.А.Бездушный [и др.]; отв. редактор В.А.Серебряков // М.: Вычислительный центр РАН, 2006. - 238 с.
2. Жижимов, О.Л. Центр доступа к электронным информационным ресурсам СО РАН [Текст] / Жижимов О.Л., Мазов Н.А., Федотов А.М. // Библиотеки и информационные ресурсы в современном мире науки, культуры, образования и бизнеса: 13-я междунар. конф. "Крым 2006" (10-18 июня 2006 г., г. Судак): Труды конф., М.: Изд-во ГПНТБ России, 2006.
3. Российский коммуникативный формат представления библиографических записей : (Рос. вариант UNIMARC): Кн. и сер. изд. / М-во культуры Рос. Федерации. Рос. библ. ассоц.; [И. Б. Цветкова и др.]// СПб. : Изд-во Рос. нац. б-ки, 1998. - Разд. паг.; 30 см - ISBN 5-7196-1012-X.
4. Метаданные для информационных ресурсов сферы образования. Руководство по применению информационной модели и ее XML-привязки. Версия 1.0, Москва, 2006. [Электронный ресурс] – Режим доступа: www.spec.edu.ru.
5. Dublin Core Metadata Initiative (DCMI), 1999. [Электронный ресурс]. – Режим доступа: http://dublincore.org
6. Хохлов, Ю.Е. Российские электронные библиотеки: Обзор форматов метаданных / Ю.Е. Хохлов, С.А. Арнаутов. [Электронный ресурс] - Режим доступа:http://elbib.ru/index.phtml?env_page=methodology/metadata/md_review/md_interoperability.html. - Загл. с экрана.
7. Токмаков Д.И. Выбор системы метаданных для интеграции разнородных информационных ресурсов [Текст] / Д.И. Токмаков // Теоретические и прикладные вопросы современных информационных технологий: Материалы IX Всероссийской научно-технической конференции: в 2 ч. – Улан-Удэ: Изд-во ВСГТУ, 2008. - Ч.2. –c.311-315.
8. Expressing Qualified Dublin Core in RDF / XML. [Электронный ресурс]. – Режим доступа: http://dublincore.org/documents/2002/05/15/dcq-rdf-xml/. - Загл. с экрана.
9. Таблица соответствия набора элементов метаданных DUBLIN CORE (DCMES) и полей формата RUSMARC. [Электронный ресурс]. – Режим доступа: http://www.rba.ru/rusmarc/soft/dc-rusmarc.htm. - Загл. с экрана.
10. Semantic Web. – Режим доступа: http://www.w3.org/2001/sw/. - Загл. с экрана.
11. Resource Description Framework(RDF). Model and Syntax Specification. W3C Recommendation. 22 Febrary 1999. [Электронный ресурс]. – Режим доступа: http://www.w3.org/TR/REC-rdf-syntax.
12. RDFa in XHTML: Syntax and Processing. A collection of attributes and processing rules for extending XHTML to support RDF. W3C Working Draft 18 October 2007. [Электронный ресурс] – Режим доступа: http://www.w3.org/TR/2007/WD-rdfa-syntax-20071018. - Загл. с экрана.
13. Gleaning Resource Descriptions from Dialects of Languages (GRDDL). W3C Candidate Recommendation 2 May 2007. [Электронный ресурс]. – Режим доступа: http://www.w3.org/TR/2007/CR-grddl-20070502/. - Загл. с экрана.
14. SPARQL Query Language for RDF. W3C Proposed Recommendation 12 November 2007. [Электронный ресурс]. – Режим доступа: http://www.w3.org/TR/2007/PR-rdf-sparql-query-20071112/ . - Загл. с экрана.