Эффективный поиск информации для ведения научной деятельности
В своей книге "Реорганизация знаний" профессор Ким Вельтман пишет, что в настоящее время "ученый, занимающийся научной деятельностью, тратит 90% своего времени на поиск документов, 5% на их изучение и всего 5% на науку" [1]. Это говорит о неэффективном подходе ведения научной деятельности. Современным ученым необходима универсальная система поиска информации, которая позволит во многом сократить время на поиск нужных документов, на формирование найденных материалов в единую систему знаний, позволит вести работу с ними много эффективнее.
I. Что нужно для организации эффективного поиска и обработки информации?
1) инструментарий, который поможет составить грамотный запрос;
2) осуществление поиска, отталкиваясь от потребностей пользователя и уровня требуемой ему детализации результатов;
3) правильно организовать работу с найденными материалами.
Исторически стратегии доступа к знаниям и информации развивались в трех областях: а) в библиотечной среде; б) в области ИКТ; в) в среде людей, которые пытаются внедрить информационные технологии в библиотечную среду.
В данной статье рассказывается, как, используя многолетний опыт перечисленных групп людей, можно создать, на наш взгляд, эффективный инструмент поиска и обработки научной информации и организации последующей с ней работы. Работа в данном направлении ведется под руководством голландского профессора, доктора культурологических наук Кима Вельтмана.
Обратимся к библиотечной среде
Библиотеки, архивы, музеи предоставляют доступ к знаниям и информации на следующих уровнях:
a) достоверные данные в классификационных системах, где хранятся термины и отношения между ними;
b) словари, где даны определения слов;
c) энциклопедии, которые дают более детальную информацию к термину или слову;
d) каталоги, которые связывают слова и термины с заголовками книг;
e) частичные содержания в форме индексов, обзоров, аннотаций к полнотекстовым ресурсам.
Все это в комплексе составляет идеальный инструмент для ведения научной деятельности, опыт работы которым необходимо заимствовать.
Но есть один большой минус данного инструмента. Правильное использование справочных залов требует специальной подготовки и длительной тренировки. Великие коллекции, такие как Британская библиотека, имеют более чем 300000 книг в справочных залах как вход (навигатор) в хранилища библиотеки, в которых хранится более 15 миллионов книг. В результате, пользователи, которые не являются специалистами в работе с библиотечными каталогами и не знают стандартного написания заголовков искомых документов, просто беспомощны в поиске нужных материалов без квалифицированных работников библиотек. Это заставляет современного человека искать альтернативные способы поиска информации и доступа к знаниям. Таким альтернативным способом является интернет.
Интернет как инструмент поиска научной информации
Благодаря доступности и простоте использования, поисковые машины стали едва ли не основным инструментом молодых ученых для получения информации. Сейчас такие поисковые системы, как Google, Yandex, хранят огромные массивы информации. Но среди нескольких тысяч страниц, выдаваемых в ответ на поисковый запрос, пользователю реально нужно лишь несколько из них. Несмотря на попытки поисковых систем оптимизировать алгоритм поиска, проблема поиска семантически верных документов так и не решена. Для этого нужно так описывать документы, чтобы поисковые системы понимали их семантику. Поэтому активно развивается идея так называемой семантической сети, которая, как планируется, позволит находить документы без поискового спама.
Для решения задачи создания логичной и удобной системы поиска информации информационные технологии прошли ряд этапов, начиная от системы определения языков разметки SGML к гипертекстовой разметке (HTML), и далее к расширяемому языку разметки XML, предназначенному для хранения структурированных данных. Тем временем, на пике развития XML-технологий гипертекста шло развитие идеи создания веба, который будет больше, чем просто килобайты структурированного текста, связанные ссылками. Если разметка текста позволяет проверить логику утверждений, это позволит сделать «логический веб». Такое предположение и его популяризация положили начало массовому развитию семантической сети, построенной на истинных утверждениях. Метаданные приобрели большое значение, люди стали создавать персональные онтологии и на их основе строить информационные ресурсы, объединяя которые строить семантическую сеть.
Но, к сожалению, возникла небольшая проблема – попытка создать семантическую сеть, базирующуюся на персональных онтологиях, претендующих на истинность, без средств, позволяющих каким-либо образом проверить истинность хранящихся в них утверждений. Ученый не может делать выводы и заключения, основанные на недостоверной, непроверенной информации. Значит, это противоречит подходам ведения научной деятельности [2]. Возможно, нужно искать другой подход.
Большой вклад, который внесли ИКТ, - это то, что за последние 50 лет были оцифрованы огромные объемы информации, хранящиеся в библиотеках, архивах, что позволило осуществлять удаленный доступ к этим хранилищам документов, накапливая их в своей БД.
Таким образом, имея возможность доступа к информации библиотек и архивов посредством интернета и используя опыт доступа к знаниям библиотечных справочных залов, можно создать систему, позволяющую во многом сократить время на поиск нужных документов, организовать эффективную работу с ними.
Сейчас в МГУКИ под руководством профессора Кима Вельтмана ведется работа над демо-версией такой системы. Она называется Системы для Универсального Медиапоиска (SUMS - System for Universal media searching).
Система для универсального медиапоиска
Основой SUMS являются тематические пакеты научных знаний. Их идея заключается в создании банка информации, интегрирующего различные категории знаний в единый пакет, который позволяет взглянуть на предмет как на логически-организованную структуру знаний. Также пакеты научных знаний нацелены объединить теорию и практику, предоставляя возможность проведения анализа, детального изучения цифровой копии реального медиаобъекта (книги, объекта изобразительного искусства, строения, скульптуры и др.). Одной из возможностей SUMS является автоматизация процесса обновления и сбора информации в пакетах научных знаний по заданному предмету посредством сети Интернет по протоколу Z39.50.
Пакеты знаний
Вся информация отдельного пакета разделена на три области знаний (указатели, медиаобъекты и интерпретации), которые подразделяются на уровни. Указатели используются для описания медиаобъектов. Они подразделяются на следующие уровни: классификационные системы, словари, энциклопедии, библиографии и частичное содержание (краткий обзор, оглавления). Вторая область знаний, это сами медиобъекты – электронные версии книг, картин, инструментов и других источников знаний. Третья область знаний – интерпретации, позволяет описывать и анализировать медиаобъекты и используется для ведения научной деятельности. Данная область содержит четыре уровня: внутренний анализ, внешний анализ, реставрация и реконструкция. Вместе все перечисленные области знаний составляют 10-ти уровневую систему.
Поиск
SUMS ведет поиск в тематическом пакете знаний, сформированном экспертами в данной области. Таким образом, проблема нахождения семантически неверных документов отпадает. Это можно сравнить с поиском информации в тематическом зале библиотеки, когда вся информация собрана на определенную тему. Остается вопрос оптимального поиска нужных материалов среди огромного объема информации пакета знаний.
SUMS использует принцип шести основных вопросов: Кто? Что? Где? Когда? Как? Почему?
Вопрос Кто предполагает знания о личностях, Что об объектах, Где о расположении, Когда предоставляет доступ к хронологическим знаниям, Как - к инструкциям, Почему - к причинам и следствиям. Задавая вопрос (или несколько вопросов сразу), пользователь получает информацию, соответствующую запросу и выбранному уровню знаний.
Рассмотрим пример. Пусть пользователь, работая с пакетом «Перспектива в изобразительном искусстве», задает вопрос Кто. В ответ на запрос, он получает большой список имен персон (писателей, художников, изобретателей и т.д.). Следующий шаг зависит от потребностей пользователя. Это может быть просто изучение предмета или ведение научной деятельности, поэтому необходимо ограничить поиск по профессии (Кто?), предмету (Что?), месту (Где?) или промежутку времени (Когда?). Выбрав художника в Европе с 1500-го по 1800-ый год, пользователь получает список личностей, соответствующих его запросу. Список может включать и практиков (людей, которые использовали знания перспективы на практике, но не писали о предмете), и теоретиков (тех, кто изучал и развивал предмет). Пользователь может просто просмотреть список художников, принимавших активное участие в развитии перспективы, и получить более подробные сведения о каждом из них (биографические сведения, книги по предмету, творческие работы и др.). Если пользователь заранее знает, что имя персоны, которую он хочет изучать, например, - Леонардо да Винчи. Для этого он набирает данное имя в поле “Кто?” и сразу переходит к искомой персоне, получая при этом возможность просмотреть список книг личности, манускриптов, рисунков или картин.
Вопрос “Что?” открывает доступ к объектам или предметам изучения. Опять же пользователь может получить доступ ко всему списку либо выбрать ограниченное подмножество.
При использовании вопроса “Где?” становится доступным список мест (страны-города - библиотеки, музеи, архивы), где есть информация по выбранному предмету. Предусмотрено два способа визуализации информации. В первом случае пользователь получает список мест, выбрав одно из которых, получает соответствующую информацию. Во втором случае пользователь использует карту мира как инструмент навигации. От континента к стране, от страны к городу, к улице, музею, и в итоге он получает искомый объект изучения. В связи с широким и успешным внедрением географических информационных систем (ГИС) в интернете такая возможность навигации будет очень востребована.
В случае вопроса “Когда?” пользователь имеет дело с историческими периодами или с хронологическим списком событий. Работая с пакетом знаний по перспективе, вопрос “Когда?” дает пользователю список всех книг по перспективе на выбранный период времени. Возможность работы с историческими периодами позволяет получить представление о том или ином предмете в конкретный промежуток времени, что дает большие возможности анализа развития изучаемого направления.
Если пользователь задает вопрос “Как?”, то он получает доступ к книгам – инструкциям или техническим описаниям.
Вопрос “Почему?” содержит знания, которые объясняют следствия, причины и условия различных достижений и открытий.
Эти различные шесть вопросов не исключают друг друга. Это всего лишь различные пути получения одной и той же информации. Например, если пользователь хочет найти определенный трактат Леонардо да Винчи, скажем, «Манускрипт А», то он задает вопрос “Кто?”, находит Леонардо да Винчи, список его книг и выбирает искомую. Если известна только дата, в этом случае задается вопрос “Когда?” – 1492 г., и получается результат. Также пользователь может задать вопрос “Что?”, выбрать термин перспектива, найти Леонардо да Винчи, выбрать все его работы, среди которых есть «Манускрипт А». Если пользователь - эксперт и точно знает имя автора, название труда и дату, то, задав данные критерии поиска, он получает искомый манускрипт.
Выбор вопроса зависит от того, хочет ли пользователь найти отдельный медиаобъект и его описание либо хочет получить библиографические, хронологические сведения о предмете. Описанный поиск позволяет получить доступ к одним и тем же фактам, но используемым в разном контексте. Наиболее сложным в данном подходе является определение того, какой из вопросов - наиболее эффективный путь к получению этих фактов.
Стратегии поиска
Еще один очень важный аспект процесса поиска связан с такими понятиями, как ширина и глубина. Часто пользователю необходимо найти значение одного слова или термина. Но иногда, чтобы понять значение термина или темы, необходимо найти набор терминов, имеющих связь с искомым термином. Расширяя границы поиска, мы также расширяем границы информации, которая предоставляется пользователю в ответ на запрос. Для реализации этой возможности предусмотрено использование семи основных стратегий поиска: Поисковый гид, Прямая стратегия, Персональная терминология, Поля баз данных, Предметные заголовки, Стандартная классификация, Множественные классификации, Научная классификация. Преимущество такого подхода в том, что в зависимости от потребностей и научного уровня пользователя система помогает ему логично и правильно ориентироваться, переходить от своего первоначального интереса (термина) к терминологии, которая явилась результатом многовековой деятельности ученых и далее к самим источникам знаний (медиаобъектам).
![]() |
Работа с источниками (омниссылки и омнииндекс)
Когда направление определено, как правило, возникает ряд особенностей при работе с литературой. Основная сложность - это поиск источников, на которые ссылается автор, и работа с найденным. С появлением гипертекста появилась возможность устанавливать прямые связи между информационными источниками – гипертекстовыми документами, в виде которых легко представить любую печатную книгу. Это была революция, которая дала техническую возможность незамедлительно обращаться к источникам, описываемым в книге.
Но между тем большинство людей, ссылаясь на источники, не используют всех тех возможностей гипертекстовых ссылок, применяя которые можно значительно увеличить их функциональность.
За время работы над проектом был разработан прототип омниссылок [3], где каждое слово в тексте связанно гиперссылкой с различного рода объектами. Например, каждое слово в книге о Леонардо да Винчи может быть связано с таким же словом в базе данных манускриптов, что дает возможность найти все манускрипты Леонардо, где встречается данное слово.
Гиперссылки обычно имеют связь один к одному, между словом и объектом (текст, веб-сайт, изображение и т.д.). Омниссылки могут работать с различными уровнями знаний: одно и то же слово, имеющее омниссылку, может быть связано с: 1) термином из классификационной системы; 2) определением в словаре; 3) объяснением в энциклопедии; 4) заголовком в каталоге или библиографии; 5) частичным содержанием в форме резюме или обзора; 6) полным содержанием статьи или книги. Таким образом, омниссылки дают возможность получить доступ к знаниям на разных уровнях.
Недавно был разработан механизм использования омниссылок для поиска информации в различных источниках. Используя данный механизм, достаточно лишь кликнуть на интересующее слово в тексте, и система выдаст употребление этого слова во всех связанных книгах с возможностью просмотра источника.
Заключение
В данной статье не затронуто еще много интересных аспектов Системы, таких как наполнение информацией пакетов знаний, распределенный поиск информации в библиотеках, многоязыковой интерфейс, вариантность имен и пр. Целью статьи было показать автоматизацию процесса поиска и обработки информации. В ближайших планах - полностью автоматизировать сбор информации в пакеты знаний без участия человека, указывая лишь желаемую тему.
Получить более подробную информацию можно на сайте www.sumscorp.com
Литература:
1. Kim Veltman, SUMMA - A System for Universal MultiMedia Access, 1999, http://www.sumscorp.com/books/SUMMA.zip
2. Kim Veltman, Understanding New Media: Augmented Knowledge and Culture, University of Calgary Press (2005, 600 p).
3. Чуранов А.С., Вельтман Ким. Новые комбинации лекций, книг и баз данных/ Материалы конференции EVA’2004. 29 нояб.- 3 дек. 2004 г. / М-во культуры РФ, Центр ПИК. – М., 2004.