И.С. Сковородина, П.Ю. Ефремов

Технологии создания, агрегации и использования научного и образовательного контента

Агрегация и использование результатов научной деятельности — одно из важнейших направлений, поддерживаемых Министерством образования и науки РФ как в рамках исполнения государственных программ, направленных на создание единой федеральной базы данных, включающей результаты НИОКР и технологических работ, так и в направлении формирования единого информационного пространства Минобрнауки России.

24 ноября 2014 г. в Вычислительном центре им. А.А. Дородницына Российской академии наук (ВЦ РАН) состоялась II научно-практическая конференция «Технологии создания, агрегации и использования научного и образовательного контента», организованная консорциумом «Контекстум» совместно с ВЦ РАН и Национальной ассоциацией исследовательских и научно-образовательных электронных инфраструктур «е-АРЕНА». Конференция проводилась при поддержке Комиссии по информатизации Федерального агентства научных организаций России и Российского фонда фундаментальных исследований.

Мероприятие было запланировано как очередной шаг в реализации концепции, лежащей в основе создания системы агрегации и использования результатов научной деятельности, разработанной организаторами конференции в рамках выполнения НИР «Разработка научно-методических и нормативно-организационных основ создания системы агрегации и использования результатов научной деятельности государственных академий наук». Концепция всесторонне обсуждалась участниками первой конференции, а её функционал проектировался как развитие самостоятельных направлений и проектов. По итогам первой конференции была принята резолюция с предложениями по дополнению функционала системы информационными сервисами, связанным с большими объёмами данных и обеспечивающими интеграцию с существующими информационными системами.

На II конференции были подняты вопросы агрегации и обработки больших массивов научной информации, накопленных в научных и образовательных учреждениях, и объединения их в общую информационную систему, а также создания сервисов подготовки и оценки научного контента в рамках современной организации научно-исследовательских работ.

tehnologii

Открыл конференцию Игорь СОКОЛОВ (главный учёный секретарь Президиума РАН). Он отметил особое значение и важность формирования системы сбора и анализа результатов научно-исследовательской деятельности с точки зрения не только разработки планов проведения научных исследований, но и технологий и методов, которые позволяют анализировать современное состояние и прогнозировать будущее науки.

Во вступительном слове Марат БИКТИМИРОВ (заместитель директора ВЦ РАН) подчеркнул актуальность создания подобных систем.

Новый механизм организации совместной деятельности участников социоэкономических и научных систем внутри сообществ учёных на примере системы «СОЦИОНЕТ» (socionet.ru) продемонстрировал в своём выступлении заместитель директора Центрального экономико-математического института РАН Сергей ПАРИНОВ. Как пример практической реализации «СОЦИОНЕТ» представляет собой CRIS-систему (модель современной научной информационной системы, развиваемую научным сообществом с 2000 г.). Главная задача создания таких систем — развитие методов использования результатов исследований, сбора информации о том, как, кем и для чего они использованы, а также формирование средств для генерации публичных показателей результативности учёных и исследовательских организаций. Уже сейчас «СОЦИОНЕТ» предоставляет российскому научному сообществу современную инфраструктуру взаимодействия в духе открытой науки, интегрированную с международной Research e-Infrastructure.

Дмитрий СЕМЯЧКИН (Генеральный директор открытой электронной библиотеки «КиберЛенинка») отметил, что ведущие страны мира уделяют особое внимание открытости результатов научных исследований. В России возможны два сценария повышения открытости: консервативный — выпуск печатных версий и размещение журналов в онлайн-доступе и инновационный — отказ от печатных версий и создание журналов открытого доступа. На основании опыта, полученного при реализации проекта «КиберЛенинка», был предложен план создания платформы открытого журнала.

В качестве примера модели открытой науки был представлен новый проект «РУАЭСТ» (www.ruaest.ru) — сводный цифровой российский архив статей периодических изданий. По мнению Виталия Иванова (председателя совета директоров консорциума «Контекстум»), в настоящее время открытые научные проекты без «проприетарной» и инновационной составляющих становятся нестабильными. Главной задачей проекта является возвращение в научный оборот значительного массива научной информации, доступ к которому сегодня затруднён или вообще отсутствует.

Применяя технологию лицензионно-договорной работы «Контекстум», «РУАЭСТ» учитывает баланс интересов авторов, правообладателей, контент-провайдеров и пользователей, что является залогом успешности проекта. Принцип нового проекта строится на объединении аналитической росписи научных публикаций, создаваемой библиотечным сообществом, с технологическими возможностями платформы «Контекстум», позволяющими легитимизировать введение в оборот электронных версий публикаций и организовывать доступ к ним.

Сегодня создан массив более чем из 700 наименований журналов, с издателями которых заключены лицензионные договоры. Этот ресурс является основой действующего прототипа «РУАЭСТ».

Партнёрами проекта выступают консорциум «АРБИКОН» и российские библиотеки, выполняющие аналитическую библиографическую роспись статей российской научной периодики.

Библиотека по естественным наукам РАН координирует функционирование Централизованной библиотечной системы (ЦБС), включающей около 100 библиотек академических научных учреждений. Данная библиотечная система в процессе решения задач по информационному сопровождению научных исследований создаёт и агрегирует большие объёмы данных. В докладе Николая Калёнова (директора БЕН РАН) был дан обзор экспертной системы централизованного комплектования БЕН РАН и создания распределенных библиографических баз данных.

Технологии управления жизненным циклом электронных публикаций в информационной системе научного журнала рассматривались Александром Елизаровым (Казанский (Приволжский) федеральный университет). Был представлен обзор и дан сравнительный анализ существующих информационных систем создания электронных публикаций и управления ими, а также представлена платформа научных изданий science.tatarstan.ru, которая предоставляет возможность размещения научных журналов. Данная платформа внедрена и функционирует в качестве системы управления научными публикациями Казанского (Приволжского) федерального университета.

Полный цикл редакционной подготовки научной публикации в редакции научного журнала на основе информационной системы Math-Net.Ru был показан Дмитрием Чебуковым (Математический институт им. В.А. Стеклова РАН). В редакции журнала РАН полный цикл включает загрузку рукописи в электронном виде, её регистрацию с последующей организацией всех этапов продвижения статьи (классификации, рецензирования, авторской доработки, научного редактирования, перевода, редактирования английской версии, публикации в журнале и онлайн-доступа), организацию взаимодействия редакции с автором, рецензентом, куратором статьи, переводчиком, информирование автора о продвижении его статьи в редакции, составление автоматических отчётов для контроля над редакционным портфелем. Система Math-Net.Ru обеспечивает экспорт данных в Google Scholar, Crossref, ZentralBlatt MATH и eLibrary.ru, а также имеет версию для мобильных устройств. Разработкой и апробацией системы занимались восемь ведущих математических научных журналов РАН.

В докладе Ивана Смирнова (Институт системного анализа РАН) было представлено дальнейшее развитие технологии Exactus Expert. Система предназначена для оценки оригинальности и выявления заимствований в текстах структурированных документов. Отличительными особенностями системы являются полный лингвистический анализ текстов, включая морфологический и синтактико-семантический анализ, нечувствительность к перефразированию и высокая скорость выявления заимствований.

Система поддерживает функции автоматического извлечения метаинформации, выявления в анализируемом научном тексте заимствованных фрагментов и их источников, автоматического распознавания корректности выявленных заимствований, определения степени оригинальности научного текста с учётом даты публикации, а также поиска заимствований в Интернете.

Алгоритмы Exactus Expert участвовали в международных соревнованиях по поиску заимствований CLEF–2014 и показали высокие результаты по качеству и скорости поиска. Система внедрена в консорциуме «Контекстум».

Выступление Павла АРЕФЬЕВА (Национальный фонд подготовки кадров) было посвящено вопросам публикационной карьеры российского учёного. Основные проблемы, с которыми сталкивается автор, — это несоответствие системы научной коммуникации учёту и оценке научной деятельности, а также тренд к созданию больших авторских научных коллективов, который может привести к потере автора как научного индивида. В основе неосведомлённости исследователя как автора и незначительной доли публикаций российских авторов в международных журналах лежит не только слабое знание языков, но и отсутствие навыков академического письма и работы с библиографическими и информационными ресурсами.

Решение этих проблем — в создании открытых ресурсов и архивов авторских публикаций (препринтов) с обеспечением процедуры рецензирования, а также развитие навыков авторов в области академического письма и работы с библиографическими и информационными ресурсами.

В выступлении Андрея ГВОЗДЕВА (заместителя генерального директора ЗАО «Эвентос») «Инфраструктура публикации научных данных в открытых машиночитаемых форматах» были подняты вопросы использования семантических веб-технологий в качестве основы для интеграции разнородных приложений, использующих структурированные базы данных. Были затронуты вопросы использования моделей интеграции данных в формате RDF, в том числе и на примере отечественных программных разработок. Особое внимание было уделено задаче связывания данных с информацией из других хранилищ с целью выявления контекста.

Подходы к обеспечению доступности информационных ресурсов через Интернет рассматривались в докладе Бориса ЛОГИНОВА (директора Государственной центральной научной медицинской библиотеки). Сложность решения этой задачи связана с конфликтом между социальной ролью библиотек (доступ должен быть бесплатным) и коммерческими интересами правообладателей. Для реализации этой задачи предлагается технология Электронного библиотечного абонемента (ЭБА), позволяющая использовать электронный экземпляр документа с соблюдением условий, установленных правообладателем, включающая ограничение доступа на одновременное использование правомерно приобретённого произведения в цифровом формате.

Технология ЭБА получила реализацию в программном модуле «Электронный библиотечный абонемент», входящем в состав АБИС OPAC-Global, и в настоящее время внедрена в Центральной научной медицинской библиотеке.

В заключение участники конференции высказали свои предложения по решению указанных проблем. Проект интеграции модуля «Электронная библиотека» АБИС «МегаПро» с сервисом поиска текстовых заимствований «РУКОНТекст» рассматривался в выступлении Владимира ГРИБОВА (Генеральный директор «МегаПро»). Игорь ПОПОВ (и. о. директора Издательства МГУ) предложил оценить возможность создания национальной системы оперативной публикации первичных результатов научных исследований. Александр АНТОПОЛЬСКИЙ (заведующий лабораторией Института научно-педагогической информации Российской академии образования) внёс предложения по организации научного информационного пространства России в условиях современной политики государства в научно-образовательной сфере.

Определяя вектор дальнейшего развития науковедческих технологий и учёта результатов научно-исследовательской деятельности, участники конференции отметили актуальность задачи агрегации и обработки больших массивов информации, накопленной в российских научных и образовательных учреждениях. Без предоставления эффективного доступа к этим материалам невозможна реализация государственных программ в области науки и образования.

-----------------------------------------------------------------------------------------------------------------------------

Учитывая значимость рассматриваемых на конференции вопросов, было предложено:

• отметить важность создания научных электронных библиотек открытого доступа (Оpen access) и перевода отечественной научной периодики в открытый доступ, в первую очередь журналов, финансируемых государством, а также создание инфраструктуры публикации научных открытых данных в России;

• считать целесообразным изучение возможности применения технологии Электронного библиотечного абонемента для предоставления открытого доступа к произведениям, защищённым авторским правом и хранящимся в библиотечных фондах, в рамках действующего законодательства;

• отметить важность размещения в открытом доступе и под открытой лицензией результатов научных исследований, выполненных с привлечением государственного финансирования;

• разработать организационно-экономическую модель деятельности информационно-библиотечных и архивных служб в сфере науки и образования для обеспечения необходимого уровня информационно-библиотечного обслуживания;

• сформировать перечень информационных ресурсов, отвечающий целям и задачам системы НТИ и с учётом реальных потребностей научно-образовательного сообщества;

• рассмотреть возможность передачи платных ресурсов НТИ в коммерческий сектор;

• разработать организационную модель национальной системы научно-образовательной информации исходя из межведомственного и межрегионального характера информационной деятельности, наличия инфраструктуры, кадров и других параметров;

• организаторам конференции рассмотреть вопрос о проведении III конференции «Технологии создания, агрегации и использования научного и образовательного контента» в 2015 г.

Авторы И.С. СКОВОРОДИНА, директор департамента агрегации научно-образовательного контента ГК «Контекстум»; П.Ю. ЕФРЕМОВ, генеральный директор ООО «Национальный цифровой ресурс "Руконт"»