Электронная библиотека нашей мечты
Мы давно задавали себе вопрос, какую бы создали электронную библиотеку, если бы имели неограниченное финансирование и никуда не спешили. Полагаем, что аналогичный вопрос задают себе разработчики любых систем и пытаются, хотя бы в мечтах, воспроизвести подобную конструкцию. Для создания такой «сборной» библиотеки мы провели анализ известных российских и зарубежных электронных библиотек и оценили, какие возможности они предоставляют своим читателям и библиотекарям.
Сразу следует сказать, что идеальной библиотеки мы не нашли. Всё было очень похоже на рассуждения Агафьи Тихоновны из «Женитьбы» Н.В. Гоголя. Если бы к поиску из DP.LA приставить возможности загрузки из Internet Archive да, пожалуй, прибавить к этому ещё открытости из Open Library, мы бы тогда тотчас же решились назвать такую библиотеку идеальной. А теперь – поди подумай!
Какими же чертами должна обладать такая библиотека? На взгляд авторов, основные задачи электронной библиотеки – это поиск, просмотр результатов поиска, уточнение поиска, представление найденных документов и осуществление различных действий с этими документами. Рассмотрим по порядку, что должна «уметь» электронная библиотека по каждой из своих основных задач (что можно просить у создателей).
Поиск
Поиск по любому полю метаданных и их сочетаниям с применением булевой алгебры мы рассматривать не будем, поскольку это является очевидным требованием и присуще практически всем электронным библиотекам. Хочется только отметить, что в ряде библиотек предоставляются широкие возможности по поиску по специфическим полям. Так, например, в электронной библиотеке Университета Вирджинии (http://search.lib.virginia.edu/music) можно поискать музыкальное произведение по инструменту, для которого оно написано, по физическому носителю, на который оно записано, и т.п. К сожалению, большинство российских электронных библиотек, даже консерваторских, таких возможностей не предоставляют.
Важной составляющей является поиск по полным текстам в распознанных документах. Для русского языка необходимо наличие возможности морфологического анализа и, учитывая плохое качество распознанных документов, усечение справа. Часто в одной электронной библиотеке содержатся как издания открытого доступа, так и издания, не предназначенные для открытой публикации. Поисковый индекс обычно делается единым для открытых и для закрытых документов. Поиск тоже проходит по одному и тому же алгоритму, но при выдаче результатов нужно решить принципиальную задачу: что и как показывать для закрытых документов. Для её решения есть несколько подходов. В ЭБ РГБ (www.search.rsl.ru) для закрытых книг показаны только три первых снипетта, из которых ясно, в каком контексте употребляются поисковые термины, но непонятно, много ли раз они были найдены в тексте. В Нathitrust Digital Library (www.babel.hathitrust.org) для закрытых документов выдаётся список страниц, на которых находятся поисковые термины, с указанием того, сколько раз они на этой странице встречаются. Этого бывает достаточно, чтобы понять, что совпадения не случайны, но недостаточно, чтобы оценить контекст использования. Оба подхода имеют свои достоинства и недостатки, и, какой из них лучше, судить трудно. Иногда для повышения качества полнотекстового поиска индексируемые тексты предварительно обрабатываются. Так, в электронной библиотеке по биоразнообразию (www.biodiversitylibrary.org) во всех имеющихся текстах были автоматически выделены и проиндексированы научные названия (например, научное название для тигра — Panthera tigris). Поиск по научным названиям позволяет быстрее и точнее перейти к нужному документу и конкретному месту в этом документе.
В настоящее время существует очень большое количество электронных библиотек. Читателям затруднительно проводить поиски последовательно во всех из них, чтобы найти нужный документ. Поэтому многие библиотеки поддерживают тот или иной метод интеграции для проведения единого поиска. Это может быть технология распределённого поиска Z39.50, передача метаданных по протоколу OAI-PMH, наличие
документированного API и т.п. Такой подход позволяет создать крупные хранилища метаданных, такие как Digital Public Library of America (www.dp.la), консолидирующая данные из крупнейших электронных библиотек США, или Europeana (www.europeana.eu), собирающая информацию из крупнейших библиотек, музеев и архивов Европы, и проводить поиск одновременно в сотнях электронных хранилищ. Для этого электронные библиотеки должны быть готовы к интеграции с такими сервисами. К сожалению, пока ещё далеко не все создатели российских электронных библиотек готовы к подобному сотрудничеству, что существенно затрудняет поиск.
Представление результатов поиска
После того как мы отправили запрос на поиск, нам должен отобразиться весь набор найденных документов. В каком виде его нужно показывать, постоянно спорят дизайнеры, предлагая новые решения. Наиболее интересным, на наш взгляд, является Digital Public Library of America. В нём имеется возможность просмотра результатов поиска на карте, на временной шкале, в виде книжной полки и в виде таблицы (рис. 1).
У многих читателей есть свои собственные представления об удобстве просмотра данных. Кому-то нравятся крупные картинки с описаниями, кто-то предпочитает таблицу с результатами.
Несмотря на большое разнообразие в дизайне, функции при показе результатов поиска довольно ограниченны. Нам требуется в том или ином виде выдать результаты, посмотреть историю запросов и при необходимости перейти к результатам проведённого ранее поиска. Кроме этого, необходимо иметь возможность уточнить запрос и перейти к выбранному документу. В некоторых библиотеках, рассчитанных на работу не только с людьми, но и с запросами внешних программ, например в одной из крупнейших электронных библиотек Internet Archive (www.archive.org/advancedsearch.php), возможен поиск с получением результата поиска в формате JSON, XML и т.п. (рис. 3).
Уточнение результатов поиска
Получив при первичном поиске большое количество результатов, а также в тех случаях, когда сразу трудно сформулировать вопрос так, чтобы получить приемлемое количество результатов, мы должны его уточнить. Уточнение результатов поиска в настоящее время осуществляется, как правило, методами фасетного поиска. Найденные результаты сразу распределяются на группы (фасеты) по заранее заданным признакам. Нередко их число в каждом фасете подсчитывается, и читатель сразу понимает, в каком направлении следует сужать поиск. Разнообразие здесь состоит в наборе фасетов. Они зависят от конкретной библиотеки и её задач. В электронной библиотеке РГБ это может быть язык, год издания и т.п., а в электронной библиотеке по петрологии и вулканологии Смитсоновского института будут уже совсем другие фасеты: место находки, геологическая эпоха и т.п. В приведённом выше примере работы DP.LA временная шкала, полка и карта по своей сути являются и фасетами для уточнения запросов, но только с несколько видоизменённым графическим интерфейсом представления результатов.
В библиотеке Давида Рамсея (www.davidrumsey.com) результаты поиска распределяются по четырём категориям: что, где, кто и когда, в которые соответственно названиям выносятся предметные рубрики, географический охват, автор и временные рамки. По ним и происходит уточнение поиска. В Цифровой коллекции Северной Каролины (http://digital.ncdcr.gov/cdm/home/browse) используется своя периодизация истории, важные для неё места издания и виды документов, которые в ней собираются (рис. 4).
Это нельзя назвать фасетами в чистом виде, скорее, это заранее заготовленные поисковые запросы, которыми читателю предлагается уточнить свой поиск. Уточнение поиска, как правило, происходит в диалоговом режиме, при этом каждый элемент библиографического описания из найденных метаданных делается интерактивным. Если при поиске по названию читатель обратит внимание на фамилию автора в одном из результатов, у него должна быть возможность, кликнув на неё, получить все работы этого автора.
Просмотр
Итак, читатель провёл поиск, получил первичные результаты и, уточнив их, нашёл тот единственный документ, к которому стремился. Как же нужно показать ему этот документ, чтобы процесс был максимально удобным и полезным? Решений для этого существует множество, и они зависят от вида материала, задач библиотеки, ну и, конечно, от возможностей выбранного программного обеспечения.
Если речь идёт о текстовом материале, очень важно при получении найденного издания иметь возможность посмотреть как отсканированную страницу, так и её распознанный вариант. В вышеупомянутой Библиотеке биоразнообразия, на наш взгляд, очень удачно предоставили такую возможность. Читатель может расположить рядом оба варианта, сравнить их и даже вывести распознанный текст в отдельное окно. Хорошо, что создатели этой библиотеки понимают, как важно дать читателю возможность поиска в тексте предоставленного документа и выделения в нём найденных фрагментов (рис. 5).
Навигация в многостраничном документе, как правило, представлена довольно однообразно. Есть переход на первую, последнюю, следующую и предыдущую страницы. Для удобства в боковой панели часто формируются иконки отдельных страниц, которые тоже можно использовать для навигации. В лучшем случае присутствует содержание книги как средство навигации. Нужно отметить, что читателю намного удобнее использовать таблицу содержимого с двойной нумерацией страниц, при которой должна приводиться та страница, что была напечатана на странице оцифрованной книги, и номер страницы в порядке сканирования. Понятно, что из-за ряда непронумерованных страниц печатной версии эти нумерации в общем случае не совпадают. Но это требует дополнительной работы при разметке книги и встречается нечасто, особенно в электронных библиотеках с небольшим бюджетом (такой подход используется в электронной библиотеке университета Гарварда). Механизм перелистывания страниц нельзя назвать очень важным компонентом электронной книги, но многие разработчики уделяют этому большое внимание и используют для этого различные технологии. В ряде библиотек, использующих RealisticBook, страницы перелистываются весьма реалистично. В Internet Archive страницы переворачиваются не так красиво, но требуют существенно меньше ресурсов.
Важное значение имеет удобная навигация на странице, особенно для документов, отсканированных с высоким разрешением (большим, чем разрешение экрана). Для такой навигации часто используют навигационную панель, на которой в уменьшенном виде показана вся страница и то место, которое в данный момент отображено на экране. В качестве примера (рис. 6) приведено изображение страницы из электронной библиотеки университета Иллинойса (http://imagesearchnew.library.illinois.edu/).
После того как читатель изучит документ, имеет смысл запомнить ссылку на него, чтобы впоследствии к нему вернуться. Для этого в электронной библиотеке должна быть предусмотрена постоянная ссылка на документ, а ещё лучше — на каждую страницу, чтобы в следующий раз не пришлось проводить поиск заново. Такой подход реализован, например, в библиотеке HATHI TRUST (www.hathitrust.org). Бывает, что документ понравился настолько, что его необходимо скопировать полностью или частично, но так, чтобы копия представляла собой единый массив, а не набор разных картинок, который неудобно хранить и использовать. Для этого, например, в электронной библиотеке Гарварда (http://pds.lib.harvard.edu/pds/view/2585089?n=1) предусмотрена возможность скомпоновать из необходимого количества страниц один файл в формате pdf и отправить ссылку на него себе на почту (рис. 7).
В библиотеке Internet Archive предлагается на выбор множество вариантов получения понравившегося документа (Read Online, pdf, b/w pdf, ePub, Kindle, Daisy, Full Text, DjVu, htpps, Torrent). В электронной библиотеке карт Давида Рамсея читателю предоставляется возможность самому выбрать размер (разрешение) экспортируемого изображения. Для карт, которые часто представляют собой очень большие изображения, это действительно важно. В некоторых случаях читателю и не нужно никуда скачивать найденный документ. Ему просто необходимо собрать коллекцию из разных документов в этой библиотеке для последующего просмотра в онлайне и показа их своим коллегам или ученикам. Для этого в библиотеке Давида Рамсея предусмотрена возможность компоновки выбранных изображений в медиагруппы или в готовые презентации для последующего просмотра. К таким группам изображений их создатель может предоставлять доступ определённым пользователям. Кстати, готовые презентации можно выгрузить в формате Microsoft PowerPoint для демонстрации в офлайне.
Во многих случаях электронные библиотеки используются как пространство для совместной учебной деятельности. Возможно поэтому некоторые электронные библиотеки позволяют читателям создавать на своём сайте собственные коллекции, книжные полки, списки my favorite и т.п. В некоторых библиотеках существует возможность создавать любое количество таких коллекций, которые будут доступны на сайте и после окончания сессии, конечно же, при условии регистрации на ресурсе. Можно присваивать этим коллекциям имена, осуществлять по ним поиск, выбирать способ отображения объектов в них. Также есть возможность осуществлять поиск по коллекциям других пользователей, находящимся в свободном доступе. В некоторых библиотеках, например в Smithsonian Institution (www.collections.si.edu), читатель может давать документам дополнительные метки, которые сохраняются для последующего поиска. Это позволяет учёным или преподавателям, работающим с коллекцией, создавать своё рабочее пространство, структурированное персонально под них. Читатели в своём пространстве могут делать закладки в книгах, создавать примечания к отдельным страницам и т.п. В некоторых библиотеках такой механизм предоставлен только библиотекарям и предназначен для создания так называемых «виртуальных выставок» для продвижения отдельных документов. Виртуальные выставки могут быть соз даны к памятной дате, к определённому событию и т.п. Такой подход весьма активно используется электронными библиотеками, созданными на базе программного обеспечения OMEKA, поскольку там уже предусмотрен такой функционал. Так, например, DP.LA создана по модульной структуре и в качестве модуля для выставок используется OMEKA.
Прочитав документ, пользователь испытывает потребность поделиться новым знанием с коллегами. Для этого почти все электронные библиотеки предоставляют возможность сделать ссылку на документ в социальных сетях, и количество возможных сетей бывает очень велико. Для научных библиотек чаще предлагается занести запись о книге в системы управления библиографическими записями (Zotero, EndNote, Mendeley и т.п.). Иногда предлагается послать информацию о документе по электронной почте, в виде SMS и т.д.
Довольно редко в популярных электронных библиотеках можно встретить возможность получения библиографической записи в формате MARC для найденного документа. Поэтому нас особенно порадовала интересная возможность получения метаданных в виде xml- или marc-записи в электронной библиотеке HATHI TRUST. Для этого достаточно добавить в адресной строке в конце адреса найденной книги нужное расширение: xml или mrc.
Информацией о найденном документе нередко возникает желание поделиться в своём блоге, на сайте или в письме, по этому очень важно, чтобы была предусмотрена возможность легко и правильно процитировать документ. Для этого в ряде электронных библиотек предусмотрена возможность автоматически генерировать библиографическую ссылку на этот документ. Чем более специализированной считает себя библиотека, тем больше форматов для ссылки предлагается читателю. Также можно внедрить к себе в блог нужную книгу, например из библиотеки HATHI TRUST, просто вставив короткий код (используя команды <iframe … </iframe>). В некоторых электронных библиотеках, например в электронной библиотеке карт Давида Рамсея, предлагают более развитый сервис, предоставляя возможность настройки различных параметров такого внедрения (высота, ширина, толщина рамки и т.п.).
К сожалению, во многих электронных библиотеках очень мало уделяют внимания открытой статистике использования документов. Возможно, создатели электронных библиотек опасаются, что все увидят, как мало востребованы документы, оцифрованные с таким трудом. Обычно такая статистика по разным соображениям бывает скрытой от читателя. Нам кажется, что её открытость позволяет всем читателям, да и авторам документов, включённых в библиотеку, понимать, насколько этот документ нужен обществу. Именно поэтому было особенно приятно обнаружить, что на портале истории Техаса (www.texashistory.unt.edu) для каждого документа приводится информация о его востребованности читателями, т.е. о том, сколько раз этот документ был загружен (всего, за последний месяц, за предыдущий день). Обнаруживая интересный документ, который никто до тебя ещё не видел в этой библиотеке, поневоле чувствуешь себя первооткрывателем.
Связь с внешними объектами
В последнее время всё чаще наблюдается стремление создателей электронных библиотек автоматически выявлять связи найденного документа с различными объектами как внутри этой же библиотеки, так и за её пределами. Для этого могут использоваться, словари, технология Linked Open Data или API различных внешних систем. Так, в библиотеке университета Вирджинии в документе выделяются известные в системе предметные рубрики, имена и показываются пользователю. Вполне возможно, он захочет посмотреть все документы, в которых встречаются те же имена и предметные рубрики, что и в найденном документе (рис. 8).
В Библиотеке по биоразнообразию, как ранее уже говорилось, используется выделение научного названия, которое является стандартным и используется во многих энциклопедических ресурсах. Это позволяет автоматически генерировать ссылки с любого места в описании документа или самого документа, где упоминается животное, на описание данного животного во внешних справочных ресурсах (рис. 9).
Выше уже упоминалось о необходимости интеграции электронных библиотек. Чем более открыта библиотека для такой интеграции, и не только с другими библиотеками, а с большим количеством внешних сервисов, тем больше у неё пользователей. Хорошим примером такой открытости является DP.LA, при которой создано сообщество разработчиков, использующих документы из этой библиотеки в своих сервисах (www.dp.la/info/developers). На сайте сообщества приводятся рекомендации по лучшему использованию, коды программ, использующих DP.LA, подробное описание API и многое другое.
В мире нет совершенства, и ни в одной из описываемых и просмотренных (а их намного больше) библиотек авторы данной статьи не нашли всего набора функций, которые им хотелось бы иметь. А было бы замечательно, чтобы одним кликом мы имели возможность отправить запрос в сотни библиотек, в которых были бы обеспечены поиск по всем элементам библиографического описания (желательно в формате MARC 21) и полнотекстовый поиск с морфологией и усечением справа. Конечно, при этом хотелось бы быть уверенным, что все фамилии авторов, географические наименования и прочие стандартизируемые части описания проверены и однообразно понимаются всеми библиотеками. Полагаем, что читатели могли бы великодушно взять на себя труд настройки под свои потребности количества выдаваемых результатов и шаблонов их выдачи.
Неплохо было бы иметь большое количество фасетов для уточнения запроса и возможность обратиться к администратору электронной библиотеки за недостающими, а эффективным механизмом являлось бы появление всплывающего окна с более подробной информацией об этом объекте, включая статистику его просмотров, при подведении к нему курсора. При изучении документа необходимо иметь возможность провести в нём поиск по тексту, скопировать цитату или несколько страниц в удобном формате вместе с ссылкой по ГОСТ, сделать закладку и оставить примечание для других читателей, получить постоянный URL для библиографии. Также хотелось бы получить возможность сформировать собственную коллекцию и поделиться ею с коллегами как в этой библиотеке, так и выгрузить её в Mendeley или аналогичную систему. А для расширения кругозора целесообразно получать информацию о связанных документах в этой библиотеке и в иных онлайновых ресурсах.
В общем, как всегда, хочется «немногого, но самого лучшего».
Авторы Михаил Ефремович ШВАРЦМАН, начальник отдела исследования компьютерных систем Российской государственной библиотеки; Наталья Викторовна КОЗЛОВА, ведущий программист отдела исследования компьютерных систем Российской государственной библиотеки