«Университетская книга» №11, 2010



А.И. Племнек, Н.В. Соколова

Интеграция и корпоративность электронных библиотек

Под электронной библиотекой как правило понимается интегрированная информационная система, предоставляющая возможности создания, хранения и эффективного использования информационных ресурсов, доступных через Интернет или локализованных в самой системе. Термин «электронная библиотека» определяет широкий класс систем, и каждая из конкретных реализаций имеет свои особенности.

Разнообразие способов реализации электронных библиотек постоянно увеличивается. Этот процесс инициируется возрастающим потребительским спросом, требованиями формируемого информационного общества, обеспечивается динамичным развитием информационных и коммуникационных технологий. Так, в электронной библиотеке произведений, охраняемых авторскими и смежными правами, должны быть реализованы средства защиты электронного ресурса по управлению видами использования в соответствии с предоставленными правообладателем правами. Если у электронной библиотеки есть сервис «цифровой печати по заказу», то должно обеспечиваться надлежащее качество объектов хранения, соответствующее требованиям линий цифровой печати.

Одним из современных направлений развития информационных систем в целом и электронных библиотек в частности являются интеграция и корпоративность. Под интеграцией обычно понимают объединение ресурсов и сервисов в рамках единой (обычно более крупной) информационной системы. Выбор ресурсов и сервисов для интеграции зависит от решаемых задач, которые реализуются в рамках конкретных бизнес-процессов. В современном понимании основой интеграции должны быть именно бизнес-процессы. Бизнес-процесс – это множество нескольких связанных операций или процедур, в совокупности реализующих некоторую цель производственной деятельности, осуществляемой обычно в рамках заранее определённой организационной структуры, которая описывает функциональные роли участников этой структуры и отношения между ними. С точки зрения технической реализации информационной системы интеграция предполагает объединение данных, приложений (программного обеспечения) и людей (исполнителей) через единые бизнес-процессы. Таким образом, говоря об интеграции применительно к электронным библиотекам, следует сначала определить, об интеграции каких бизнеспроцессов (создание, описание, размещение, хранение, использование электронных ресурсов и т.д.) идёт речь. Применительно, скажем, к процессу использования и организации доступа к электронным библиотекам это означает объединение всех доступных электронных коллекций в единую (возможно, «виртуальную») электронную библиотеку.

Часто наряду с термином «интеграция» используют понятие «интегрированность», иногда даже как синонимы. Под интегрированностью понимают свойство доступности отдельному модулю программной системы отвечающему за свой бизнес-процесс) всей необходимой информации, вырабатываемой другими модулями без дополнительного и уж тем более двойного ввода данных.

Изначально свойство корпоративности связывали с уровнем информационной системы, её принадлежностью к крупной или средней компании. То есть корпоративная информационная система компании – это открытая интег рированная система автоматизации бизнес-процессов компании всех уровней в реальном времени. При этом степень автоматизации бизнес-процессов не является целью, она определяется исходя из экономической целесообразности (например, для коммерческих организаций – максимального извлечения прибыли). Поскольку в современных условиях границы бизнес-процесса могут охватывать разные организации, то появляются корпоративные информационные системы, объединяющие несколько организаций (для совместного выполнения бизнес-процесса). Корпоративная информационная система должна обладать свойствами открытости и масштабирования, т.е. быть открытой для включения дополнительных модулей и расширения системы как по масштабам и функциям, так и по охватываемым территориям.

Рассмотрим далее, что следование принципам интеграции (интегрированности) и корпоративности позволяет создавать разнообразные варианты электронных библиотек, обеспечивать эффективную организацию бизнес-процессов. Но для этого следует при создании электронной библиотеки, при выборе программно-технических решений соблюдать некоторые общие принципы.

АРХИТЕКТУРА ЭЛЕКТРОННОЙ БИБЛИОТЕКИ

В соответствии с современными тенденциями в области корпоративных информационных систем в электронной библиотеке должны быть обеспечены:
• открытая архитектура – система строится на основе сервисной модели, в которой общая функциональность формируется набором чётко определённых сервисов, а каждый из сервисов доступен по чётко определённым протоколам. Общее количество сервисов не ограничено. Один и тот же сервис в общем случае может быть доступен по нескольким протоколам. При выборе протоколов целесообразно отдавать предпочтение открытым стандартам;
• модульность – осуществляется компоновка системы из отдельных модулей, которые в совокупности обеспечивают адаптацию на разные категории пользователей, обеспечивая различные виды информационных запросов. Для реализации модульного подхода требуется функциональная и интерфейсная совместимость модулей;
• логическая независимость – обеспечение возможности формирования различных логически связанных коллекций на основе конечного набора физических электронных коллекций. В телекоммуникационной среде логическая независимость поддерживается интероперабельностью и функциональной независимостью от смены программно-технического обеспечения, аппаратной платформы;
• физическая независимость – возможность подключения новых и отключения уже существующих электронных коллекций от логических коллекций, переноса физической электронной коллекции в новую среду реализации прозрачно (незаметно) для интерфейса логической коллекции;
• распределённость – размещение в различных узлах информационно-библиотечной сети контента (коллекций) и сервисов, возможно, с обеспечением требуемого уровня резервирования, а также распределение по различным узлам средств администрирования и управления ЭБ.

Общая схема электронной библиотеки представлена на рис. 1.

Не указано

Данная модель предназначена для идентификации основных сервисов, обеспечивающих устойчивое функционирование электронной библиотеки. Физические коллекции, хранящие электронные объекты различной природы, реализованы с помощью сервисов хранения. Внутренняя организация физического хранения может быть различной, но сервисы хранения должны иметь однотипный интерфейс, обеспечивающий их объединение в логические коллекции. В общем случае, физическая коллекция и отдельный объект хранения могут быть включены в произвольное количество логических коллекций.

Под логической коллекцией понимаем набор электронных ресурсов, представляющих для пользователя единое логическое целое, например, за счёт соответствующей организации поискового интерфейса: путём навигации по коллекциям или указания коллекции в качестве одного из атрибутов поиска. Один и тот же объект хранения электронной библиотеки тоже может иметь различные логические представления.

Рассмотрим возможные варианты создания единого информационно-библиотечного пространства. Будем считать, что основной задачей такого пространства является обеспечение единой системы навигации и поиска в рамках бизнес-процесса организации доступа к электронным ресурсам. Соответственно, неотъемлемым свойством такого пространства становится обеспечение поиска через единую точку доступа (один поисковый интерфейс). Это условие является естественным развитием идеи генерального каталога, собирающего воедино сведения обо всех единицах хранения, входящих в состав фонда библиотеки.

Единое информационно-библиотечное пространство создаётся за счёт интеграции систем благодаря их свойствам интероперабельности. Типы интеграции можно классифицировать по степени централизации данных и метаданных. При работе по протоколу Z39.50 (стандарт ISO 23950) и данные, и метаданные остаются у своих владельцев и только в результате распределённого поиска метаданные из различных источников собираются в одной форме выдачи результатов. Следующая степень централизации – это предварительный сбор метаданных на одном сервере и проведение поиска уже в единой базе. И, наконец, максимальная степень централизации – это сбор и данных, и метаданных в одном месте. Соответственно, возможны следующие основные варианты создания единого пространства:
• сбор всех метаданных в единый каталог, сбор всех электронных ресурсов в единое хранилище;
• опрос всех каталогов, размещённых распределённо в различных узлах сети, для формирования общего результата поиска сразу по всем источникам;
• промежуточные решения.

В первых двух случаях требуются, как минимум, дополнительные операции для формирования единого каталога. Создание системы автоматического опроса и сбора данных помогает автоматизировать данный процесс. Однако остаётся дублирование данных, что нежелательно не столько по причине избыточного расхода ресурсов на хранение данных, а вследствие возможности их несогласованного состояния. Один источник может содержать одни данные, его копия – другие. И так будет до момента очередной синхронизации и передачи данных из каталога в его копию на едином (сводном) каталоге. Сбор же воедино электронных ресурсов является весьма затратной операцией, обновления и передача ресурсов требуют значительных вычислительных и человеческих ресурсов. Несомненным достоинством этой модели является скорость отклика при поиске. Дополнительный контроль и корректировка собираемых в единое хранилище ресурсов требует дополнительных затрат, но, естественно, повышает их качество. Третий вариант обеспечивает полную актуальность данных, полученных в результирующей выборке. Правда, результат может быть неполным, если какие-то из узлов недоступны в сети. При таком подходе не производится никакого дополнительного копирования данных. Основным требованием при данной схеме взаимодействия является удовлетворение всех узлов выбранному профилю стандартов, который обычно включает формат метаданных и протокол доступа. Последний вариант использует достоинства предыдущих подходов, позволяя создавать гибкие адаптивные архитектуры систем.

ЕДИНЫЙ ПОРТАЛ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ

Общая схема единого пространства информационного обеспечения, гарантирующее его динамическое обновление, представлен на рис. 2.
Не указано

Общая архитектура портала информационного обеспечения включает web-интерфейс, который настраивается в зависимости от круга решаемых задач и целевой группы пользователей, промежуточный уровень для интеграции отобранных экспертами ресурсов и собственных электронных ресурсов. Интегрирующий портал является в общем случае иерархическим, когда каждый уровень иерархии обеспечивает интеграцию по отдельным категориям ресурсов и/или по различным протоколам. Электронные ресурсы могут располагаться в различных электронных библиотеках, т.е. в общем случае среда является гетерогенной и распределённой.

Реализация портала верхнего уровня, обеспечивающего интерфейсный компонент и, возможно, некоторые элементы интеграции ресурсов, существенно зависит от круга решаемых задач и может варьироваться от «информационной образовательной среды» до простого перечня ресурсов, обеспечивающего переход по гиперссылке к конкретному ресурсу. Типовым для библиотек интерфейсом доступа к электронным ресурсам, характерным для библиотечных порталов, является OPAC (On-Line Public Access Catalogue).

Собственно новое качество предлагаемому решению даёт промежуточный уровень, выполняющий функции интеграции «стандартных» (интероперабельных) источников информационных ресурсов. В общем случае можно представить путь поискового запроса (дерево поиска) к ресурсу в виде древовидной структуры, в которой листьями являются собственно электронные ресурсы, дугами – переходы к локальным системам навигации конкретных узлов, узлами – системы навигации, обеспечивающие доступность всех лежащих ниже узлов и подчинённых им ресурсов.

Для обеспечения интероперабельности узлов, возможности объединения различных узлов в едином поисковом дереве должны выполняться два необходимых условия, тесно связанных друг с другом:
• единый (согласованный) протокол взаимодействия, включающий протокол передачи/трансляции поискового запроса и получения результирующей информации и язык формирования сообщений, передаваемых между узлами;
• единый (согласованный) механизм осуществления поиска по метаданным и/или по содержанию информационного ресурса.

Таким образом, следование профилю стандартов становится не обходимым и достаточным условием для обеспечения доступности информационных ресурсов узла, для вовлечения узла в информационные сервисы, предоставляемые распределённой информационной системой.

Стандартизация в данном контексте предполагает предопределённость протокола взаимодействия, и также формата описания документа – в совокупности эти два элемента обеспечивают средства универсального поиска по разнородным распределённым электронным ресурсам, т.е. формируют профиль доступа к электронным ресурсам. Профиль стандартов при объединении ресурсов в единой среде включает в себя:
• протокол поиска (формирование запроса и доставка результата);
• перечень точек доступа, по которым может выполняться поиск;
• перечень возвращаемой информации;
• формат описаний электронных ресурсов (метаданных);
• формат хранения и формат представления ЭР.

Поддержка всего комплекса протоколов на промежуточном уровне общей архитектуры даёт свободу в выборе произвольных типов ресурсов для информационного обеспечения: электронных документов из репозиториев, печатных документов из фондов библиотек и пр. Таким образом, предлагаемая архитектура является универсальным решением, которое может быть адаптировано к конкретному виду ресурсов и потребностям конкретных организаций и пользователей.

ПРИМЕРЫ СОЗДАНИЯ МЕЖНАЦИОНАЛЬНЫХ ЕДИНЫХ ИНФОРМАЦИОННО-БИБЛИОТЕЧНЫХ ПРОСТРАНСТВ

Рассмотрим примеры, демонстрирующие сильные и слабые стороны различных подходов по интеграции электронных библиотек – использованного Евросоюзом для создания Европейской библиотеки и Библиотекой Конг ресса США для организации Мировой цифровой библиотеки.

Мировая цифровая библиотека (World Digital Library, WDL) – проект Библиотеки Конгресса США, направленный на предоставление через Интернет важных первоисточников культур всего мира, включая рукописи, карты, редкие книги, музыкальные партитуры, музыку, фильмы, гравюры, фотографии, архитектурные чертежи и другие материалы. Целями Мировой цифровой библиотеки являются развитие международного и межкультурного понимания, обеспечение информацией сферы образования, развитие контента на разных языках мира. Доступ к ресурсам WDL предоставляется бесплатно. Обеспечивается многоязычный интерфейс доступа. Библиотека Конгресса США получила грант от Google в размере 3 млн долларов США, гранты от других фондов и организаций на создание пилотного проекта WDL.

Основными принципами, принятыми при создании WDL, были следующие:
• высококачественное, едино образное библиографическое описание для всех цифровых объектов;
• перевод всех описаний на все языки стран-участников;
• высококачественные изображения;
• формирование ключевых слов к цифровым объектам по единой методике;
• контроль качества (осуществляется силами сотрудников Библиотеки Конгресса США).

Для реализации этого проекта в Библиотеке Конгресса США было создано специальное подразделение, которое собирало у участников проекта (а их было чуть более 30 и из них три российских) цифровые объекты и их описания. Были разработаны довольно высокие требования к качеству изображения, принимались только файлы в формате tiff и с разрешением не менее 300 dpi. Все описания редактировались и переводились за счёт гранта. Параллельно разрабатывалось программное обеспечение, позволяющее опуб ликовать собранную коллекцию. Поскольку трудозатраты на подготовку данных оказались велики, в итоге в WDL было загружено всего около 1000 объектов. После этого средства гранта закончились, и теперь руководство проекта ищет средства на продолжение этой работы.

Бизнес-модель проекта изначально подразумевала, что все объекты и их описания собираются в одном хранилище, всей обработкой занимается штат проекта, и от партнёров требуется только передавать материалы. В итоге получившаяся электронная библиотека WDL http://www.wdl.org/ru представляет собой очень красивую и очень удобную, но очень маленькую коллекцию, развитие которой невозможно без большого финансирования.

Противоположный подход был принят при создании The European Library (TEL) http://search.theeuropeanlibrary.org/portal/ru/index.html. TEL – это консорциум национальных библиотек Европы, в котором участвуют практически все страны (48 национальных библиотек). Эта система предполагает централизованное хранение метаданных и децентрализованное хранение цифровых объектов. Строго говоря, система рассчитана не только на сбор информации об электронных ресурсах. В центральном индексе системы собирается информация обо всех библиографических записях, хранящихся в электронных каталогах национальных библиотек. Если в записи есть ссылка (URL) на цифровой объект, то она также передаётся. Сбор информации происходит по протоколу OAI-PMH (Open Archives Initiative – Protocol for Metadata Harvesting). Программа-робот с заданным интервалом времени обходит все электронные каталоги библиотек-участниц проекта, поддерживающие протокол OAI-PMH, и собирает новые библиографические описания. Описания хранятся в формате Dublin Сore на центральном сервере системы. В настоящее время далеко не все библиотечные каталоги поддерживают протокол OAI-PMH. Некоторые поддерживают только Z39.50, некоторые только SRU (Search Retrieve via URL). Поэтому при поиске информации используется гибридная технология объединения результатов, полученных из разных источников. Каждая библиотека может выгрузить из своего каталога те библиографические записи, которые она хочет, чтобы взял сборщик OAI-записей. При этом таким сборщиком-интегратором могут быть не обязательно только сервера проекта TEL. Можно собирать записи, объединяя институциональные коллекции по заданной теме. При этом одни и те же выгруженные записи могут собираться различными сборщиками для различных проектов.

Из двух рассмотренных примеров видны характерные особенности каждого подхода. Они становятся достоинствами или недостатками в зависимости от целей и задач единой системы, источников формирования ресурсов и других условий. Однако в целом распределённая система является более устойчивой, надёжной и катастрофозащищённой. Несомненным достоинством централизованной коллекции является возможность создания более качественных метаданных, более строгая унификация и гармонизация форматов метаданных и самих электронных ресурсов.

Таким образом, современный уровень развития технологий электронных библиотек обеспечивает довольно широкую вариативность их практических реализаций. Однако по мере увеличения объёма электронной библиотека всё выше вероятность дублирования работ.

Объединение электронных библиотек в единую интегрированную корпоративную систему позволяет оптимизировать затраты, повысить эффективность организации процессов. В зависимости от уровня интеграции меняется набор операций по взаимодействию отдельных электронных библиотек, определяющий модифицируемые бизнеспроцессы. Но в любом случае с момента своего создания электронная библиотека должна удовлетворять требованиям интероперабельности, что является начальным условием для её будущего вхождения в тот или иной корпоративный проект. Набор требований (профиль стандартов) варьируется в зависимости от модели интеграции ресурсов и бизнес-процессов.

Литература:

1. Мировая цифровая библиотека (WDL) [Электронный ресурс] : [сайт]. – [Париж, 2009]. – Режим доступа: http://www.wdl.org/ru/ (11.10.2010).
2. Негуляев Е.А. Открытые электронные архивы и их место в системе информационных коммуникаций [Текст] / Е. А. Негуляев, Е. А. Охезина // Корпоративные библиотечные системы: технологии и инновации: труды IV науч.-практ. конф. АРБИКОН, 2 июля–7июля 2006 г. / Ассоц. регион. библ. консорциумов (АРБИКОН). – СПб., 2006. – С. 46–50.
3. Соколова Н.В. В поисках единого подхода: методология создания электронной библиотеки для сферы образования и науки [Текст] // Библиотечное дело. – 2009. – № 6. – С. 20–23.
4. Соколова Н В. Электронные библиотеки как факт современного информационного ландшафта [Текст] // Университетская КНИГА. – 2010. – № 2. – С. 62–66.
5. The European Library (TEL) [Электронный ресурс] : [сайт]. – Нидерланды, 2005–2010. – Режим доступа: http://search.theeuropeanlibrary.org/portal/ru/index.html (11.10.2010).