А. Антопольский, Ю. Поляк, В. Усанов.

О российском индексе веб-сайтов научно-образовательных учреждений

Введение

Эффективное наполнение ресурсами веб-сайтов научно-образовательных учреждений является одним из факторов, определяющих формирование современного рынка научно-образовательных услуг. Веб-сайт университета или научного учреждения - это его имидж в мировом интернет-пространстве, доступ к которому имеет большинство жителей Земли. К настоящему времени подавляющее большинство российских научно-образовательных учреждений имеет веб-сайты, но, как показывают мировой рейтинг, повышение качества интернет-ресурсов является актуальным для большинства российских научных и образовательных учреждений. Поэтому анализ рейтингов веб-сайтов можно рассматривать как механизм, выявляющий слабые стороны и указывающий пути совершенствования информационной политики вуза или научного учреждения.

Мотивом проведения рейтинга веб-сайтов послужил опыт библиометрии, который показал, что оценка научных коллективов с позиций цитируемости результатов исследований ведет к росту числа публикаций и ориентирует авторов на размещение статей в наиболее влиятельных изданиях. Веб-технология дает значительные новые возможности для представления результатов образовательной и научной деятельности по сравнению с традиционными бумажными носителями, например, позволяет организовать неформальные научные коммуникации ученых, работающих в одной области. Кроме того, размещение информации на веб-сайте значительно дешевле издания книг и журналов. Еще один веский аргумент в пользу публикации на веб-сайтах результатов научных и научно-методических исследований, проводимых в вузах, – это значительное увеличение численности потенциальных читателей по сравнению с традиционными изданиями.

Таким образом, цель рейтинга веб-сайтов вузов и НИИ – стимулировать коллективы научно-образовательных учреждений размещать информацию об исследованиях и передовых образовательных технологиях для свободного доступа в интернет-пространстве.

Краткая история


Вебометрический рейтинг университетов мира  является инициативой Cybermetrics Lab, исследовательской группы Centro де Ciencias Humanas у Sociales (CCHS), входящей в Национальный исследовательский совет (CSIC), крупнейшую организацию в сфере исследований в Испании. Деятельность Cybermetrics Lab направлена на количественный анализ интернет-контента, особенно того, который связан с процессами генерации научного знания и научных связей. Это новая дисциплина, которая называется Cybermetrics или Вебометрика. В России более распространен последний термин.

С помощью этого рейтинга разработчики намерены дополнительно мотивировать исследователей во всем мире все больше и больше публиковать результаты научной деятельности в интернете, делая их доступными для коллег и людей, где бы они ни находились.

Вебометрический рейтинг университетов мира был официально начат в 2004 году и обновляется каждые 6 месяцев (данные собираются в январе и июле и публикуются через месяц). Используемые в нем веб-показатели основаны на традиционных наукометрических и библиометрических показателях. Целью проекта является убедить академические и политические круги в важности веб-публикаций не только для распространения научных знаний, но и для измерения научной деятельности.

Вебометрический рейтинг университетов мира официально и открыто придерживается Берлинских принципов ранжирования высших учебных заведений . Конечной целью является постоянное улучшение и совершенствование методологии ранжирования в соответствии с набором согласованных принципов передовой практики.

В России вебометрические исследования проводились с 2008 г. Известны вебометрические исследования университетов Северо-Запада России, а также классических университетов России, проводимых Карельским научным центром РАН , а также вебометрический рейтинг научных учреждений Сибирского отделения РАН, составленный коллективом Института вычислительной техники СО РАН. Следует отметить первый национальный индекс, подготовленный для университетов Белоруссии . Исследователи из Карельского научного центра организовали также издание электронного журнала,  посвященного проблемам вебометрики и смежным темам  .

С учетом имеющегося международного и российского опыта исследовательская группа Института научной и педагогической информации РАО, представленная авторами настоящей статьи, начала формирование российского национального вебометрического индекса научных и образовательных учреждений. Результаты этой работы представлены на сайте «Вебометрический индекс российских вузов и НИИ» .

Разработчики уверены, что вебометрический индекс является важным показателем деятельности научных и образовательных учреждений, и он займет достойное место в ходе аудита учреждений российской науки и образования, к проведению которого призвал новый министр Д.Ливанов.

Методология Вебометрического рейтинга университетов мира

Цели и задачи

1. Оценка высшего образования в интернете.
Главной целью Вебометрического рейтинга является развитие веб-публикаций в университетах, оценка информационных ресурсов этих организаций, а также борьба с цифровым разрывом. Хотя рейтинг не ставит цели оценивать эффективность университетов исключительно на основе веб-представительств, он измеряет более широкий спектр видов деятельности, чем нынешнее поколение библиометрических показателей.

2. Целевые группы рейтинга. Вебометрический рейтинг направлен на измерения объема, авторитета и эффективности веб-страниц в университетах, причем особое внимание уделяется научной продукции (конференции, препринты, монографии, диссертации, отчеты), а также других материалов (курсов, семинаров или рабочих документов, электронных библиотек, баз данных, мультимедиа, персональных страниц), а также общей информации об учреждении, ведомстве, исследовательских группах и вспомогательных услугах и людях, работающих или посещающих курсы.

Руководство университета - прямая целевая группа для рейтинга. Если рейтинг учреждения ниже ожидаемого, руководство должно пересмотреть свою политику, содействовать существенному увеличению объемов и качества электронных изданий.

Преподаватели являются косвенными целевыми группами. Ожидается, что в ближайшем будущем веб-публикации могут стать столь же важными, как и другие библиометрические и наукометрические показатели для оценки научной производительности ученых и исследовательских групп. Наконец, хотя абитуриенты не должны использовать эти данные в качестве единственного руководства по выбору вуза, тем не менее, высокая позиция в рейтинге означает, что учреждение проводит политику, которая поощряет новые технологии и имеет ресурсы для их применения.

3. Источники информации и интерпретация данных. Доступ к веб-информации осуществляется в основном через поисковые системы. Эти посредники являются свободными, универсальными и очень мощными, даже с учетом их недостатков (стратегия, непрозрачность, коммерческая тайна, нерегулярное поведение). Поисковые системы являются ключевыми для измерения видимости и влияния веб-сайтов университетов.

Есть ограниченное количество источников, которые могут быть полезны для целей Вебометрического рейтинга: 7 общих поисковых систем (Google*, Yahoo Search*, Live (MSN) Search*, Exalead*, Ask (Teoma), Gigablast и Alexa) и 2 специализированных научных базы данных (Google Scholar* и Google Academic). Все они имеют очень большие независимые базы данных, но в связи с особенностями их процедур сбора данных (API), при составлении Вебометрического рейтинга используются только отмеченные звездочкой.

4. Лингвистический, культурный, экономический и исторический контекст.
Вебометрический рейтинг направлен на глобальный охват университетов мира, насколько это возможно, а не на анализ нескольких сотен высших учебных заведений мирового класса. Единственное требование - это автономное присутствие в интернете с независимым доменом. Такой подход позволяет увеличить число учреждений для контроля их текущего рейтинга, и его развитие после принятия конкретных мер. Университеты в развивающихся странах имеют возможность точно знать пороговые значения индикаторов, которыми характеризуются элитные вузы. Вебометрический рейтинг включает в себя традиционные лингвистические критерии (более половины интернет-пользователей являются англоговорящими) и тематические изменения. Так как в большинстве случаев инфраструктура подключения к интернету уже сформирована, экономический фактор не рассматривается.

Проектирование рейтинга и весовые коэффициенты

5. Методика, используемая для создания рейтинга.
В рейтинге учитываются только университеты и исследовательские центры с независимыми веб-доменами. Если учреждение имеет более одного основного домена, то в рейтинге формируется две или несколько записей с разными адресами.

Около 5-10% учреждений не имеют независимого присутствия в интернете, большинство из них находятся в развивающихся странах. Список учреждений включает в себя не только университеты, но и другие высшие учебные заведения в соответствии с рекомендациями ЮНЕСКО.

Университет осуществляет разнообразную деятельность, и это находит свое отражение на его веб-сайте. Поэтому лучшим способом для создания рейтинга является объединение группы показателей, отражающих эти различные аспекты. Almind и Ingwersen предложили первый показатель веб-сайта, Web Impact Factor (WIF), основанный на учете видимости сайта (перечень входящие ссылки) и его размера (количества страниц на сайте), в соотношении 1:1 между видимостью и размером. Этот показатель в результате и используется для Вебометрического рейтинга, но с добавлением двух новых показателей: количества документов на сайте, измеренного по числу «богатых» файлов, и публикационной активности, измеренной по базе данных Google Scholar.

Для четырех показателей количественные значения в основных поисковых системах получаются следующим образом:
Размер (S). Количество страниц на сайте по данным Google.
Видимость (V). Количество внешних входящих ссылок (обратные ссылки) и количество доменов, содержащих обратные ссылки, как это предусмотрено интернет-сервисом Majestic SEO.
Богатые файлы  (R). Учитываются следующие форматы файлов: Adobe Acrobat (.PDF), Adobe PostScript (.PS и .EPS), Microsoft Word (.DOC и .DOCX) и Microsoft PowerPoint (.PPT и .PPTX). Данные о количестве богатых файлов получаются с помощью Google.
Scholar (Sc). Google Scholar содержит данные о публикациях за 2007-2011 гг. в сочетании с данными Scimago на 2003-2010 гг.
Четыре показателя были объединены в соответствии с формулой, где каждый из них имеет разный вес.

6. Актуальность и достоверность показателей.
Выбор показателей был сделан по нескольким критериям. С одной стороны, делается попытка оценить качество веб-ресурсов, с другой, ставилась задача содействовать веб-публикации и открытому доступу. Включение общего числа страниц основано на признании нового мирового рынка научной информации, поскольку интернет является адекватным способом для интернационализации деятельности учреждений. Высококачественные веб-сайты, содержащие полное описание структуры и деятельности университета, могут привлечь новых студентов и ученых по всему миру.

Количество внешних входящих ссылок является показателем, который представляет известность и влияние опубликованного материала. Хотя для ссылок на сайт существуют различные мотивы, значительная часть этих ссылок работает так же, как и библиографические ссылки.

Количество богатых файлов, а также данные Scholar отражают развитие в университетах открытых архивов, электронных библиотек и других инициатив, связанных с научными репозиториями.

7. Соотношение результатов рейтинга с исходными данными. Исходные данные релевантны, поскольку они отражают общее состояние данного учреждения и легко проверяемы. Показатели на выходе обеспечивают более точную оценку состояния и/или качества учреждения или программы. В настоящее время создатели рейтинга обращает внимание на неполные стратегии, неадекватную политику и плохую практику веб-публикаций во многих учреждениях, хотя общая тенденция направлена на улучшение веб-ресурсов.

8. Взвешивание различных показателей. В настоящее время правила ранжирования показателей, включая взвешивание, были протестированы и опубликованы в научных статьях. Продолжаются дополнительные исследования, причем конечная цель заключается в разработке модели, которая будет включать и другие библиометрические и наукометрические показатели.

Сбор и обработка данных

9. Этические нормы.
В поисковых системах обнаружены некоторые важные погрешности, включая недостаточное отражение некоторых стран и языков. Поскольку каждая поисковая система имеет свои особенности, хорошая практика состоит в объединении результатов, полученных из нескольких источников. Любые другие ошибки являются непреднамеренные и не должно влиять на достоверность рейтинга..

10. Достоверность и проверяемость данных. Единственным источником для данных Вебометрического рейтинга является небольшой набор глобально доступных, бесплатных поисковых систем доступа. Все результаты могут быть проверены с учетом бурного роста веб-сайтов, их изменчивости и нерегулярного поведения коммерческих поисковых машин .

11. Сбор данных. Данные собираются в течение одной недели. По результатам двух последовательных раундов для каждого показателя выбирается большее значение.

12. Качество процессов.
После автоматического сбора данных результаты проверяются вручную и сравниваются с предыдущими публикациями рейтинга. Некоторые процессы дублируются, и новые данные добавляются из различных источников. Страницы, отражающие Вебометрический рейтинг, постоянно контролируются, при этом учитываются комментарии из блогов и других форумов. Наконец, почтовый ящик получает много просьб и предложений, которые рассматриваются в индивидуальном порядке.

13. Организационные меры по укреплению доверия. Рейтинг результатов и методологии обсуждаются в научных журналах и представлены на международных конференциях. Разработчики ожидают, что международные консультативные или даже надзорные органы примут участие в развитии рейтинга.

Представление результатов рейтинга

14. Отображение данных.
На опубликованных таблицах веб-показатели представлены для визуального просмотра весьма обобщенным образом. Рейтинг содержит Топ 4000 классификацию учреждений, а также включает ряд региональных рейтингов для сравнительных целей.

15. Обновление и сокращение числа ошибок.
Списки формируются в виде динамических страниц, построенных на основе нескольких баз данных. Поэтому ошибки могут быть легко исправлены, если они обнаружены.

Методические особенности вебометрических рейтингов


Попытки объективного оценивания веб-сайтов делаются на протяжении почти 20 лет. В числе пионеров были компании-разработчики поисковых машин. В этой высококонкурентной среде алгоритмы ранжирования сайтов представляют тщательно охраняемую тайну, однако в их основе всегда в той или иной форме присутствуют информационное наполнение и ссылочная популярность . Информационному наполнению в терминах проекта Webometrics соответствуют параметры S (размер сайта) и R (число полнотекстовых файлов), а ссылочной популярности   V (видимость сайта) и Sc (индекс цитирования).

Свертка частных показателей в интегральный может выполняться по различным формулам. Авторы Вебометрического индекса университетов мира периодически корректируют методологию, свой творческий вклад вносят и те, кто пытается ее применять в своих целях. Согласно последней версии от января 2012 г., указанные 4 индикатора входят в итоговую формулу со следующими весовыми коэффициентами: S   10%; V   50%; R   10% и Sc   30% .

В ряде случаев помимо абсолютных значений показателей для каждой организации определяются ранги, то есть по каждому критерию находится порядковый номер организации с первой по последнюю. Так, в ИВТ СО РАН рейтинги сайтов всех институтов СО РАН  вычисляются простым суммированием этих рангов, и более высокие места в глобальном рейтинге занимают организации с минимальным значением суммы рангов. Именно этот подход использовался при составлении российского индекса, поскольку такой подход нормирует слишком большой разброс исходных показателей.

Вычисление показателей V, S, R, Sc в различных странах имеет национальные особенности. Важным индикатором присутствия сайтов в интернете является количество страниц сайта, проиндексированных поисковыми машинами. Однако измерения показывают, что разные российские и зарубежные поисковые машины индексируют различное количество страниц на одном и том же сайте. Показатель Sc, доля которого в последнем рейтинге была увеличена с 15 до 30%, складывается из данных двух интернет-инструментов (Scimago SIR и Google Scholar), ориентированных на англоязычную библиографию и мало пригодных для обнаружения ссылок на российские сайты, особенно в гуманитарной сфере. Поэтому отечественные исследователи, как правило, заменяют Sc на тИЦ (CY)   тематический индекс цитирования поисковой системы Яndex.

Методика Российского индекса веб-сайтов научно-образовательных учреждений

Российский индекс веб-сайтов научно-образовательных учреждений (далее – РИВНОУ) предназначен для сравнительного анализа присутствия и видимости в интернете российских научно-образовательных учреждений. РИВНОУ формируется при помощи ранжирования веб-сайтов отечественных научных и образовательных организаций на основе формальных и объективных критериев, с учетом международного и отечественного опыта. Настоящая статья описывает первый экспериментальный вариант РИВНОУ.

Анализируемые объекты

В РИВНОУ включены официальные веб-сайты научных учреждений, ведущих фундаментальные исследования, в том числе учреждений, подведомственных государственным академиям (РАН, РАО, РАМН, РАСХН), а также веб-сайты высших учебных заведений, имеющих государственную аккредитацию. Помимо сводного перечня  РИВНОУ должен допускать выделение локальных рейтингов, например, для вузов или для учреждений РАН и отраслевых академий. Отраслевые и негосударственные научные учреждения, а также образовательные учреждения, не получившие аккредитацию, могут быть включены в РИВНОУ позже по их желанию.

Источниками перечня анализируемых веб-сайтов являются:
•    официальные перечни учреждений РАН, РАО, РАМН, РАСХН, размещенные на порталах государственных академий;
•    перечень аккредитованных образовательных учреждений, размещенный на портале «Российское образование».

В случае присутствия в перечнях более одного сайта одного и того же учреждения, данные по всем адресам суммируются. Сайты, имеющие совпадающие домены первого и второго уровня, не различаются
Страницы различных учреждений, размещенных по одному и тому же адресу, не рассматриваются как самостоятельные сайты. В частности, это относится к страницам военных учебных заведений, размещенных на сайте Министерства обороны РФ по адресу mil.ru.

С другой стороны, в рейтинг включены сайты научных центров и отделений РАН, содержащие информацию о нескольких научных учреждениях, входящих в состав этих центров и отделений.
Всего в перечень было включено 1843 веб-сайта организации, в том числе
Государственных вузов                                     635
Негосударственных вузов                                445
Учреждений РАН                                               456
Учреждений РАСХН                                           204
Учреждений РАМН                                             57
Учреждений РАО                                                26
Учреждений национальных академий       19

В перечне оказалось 146 организаций, не имеющих сайтов, или чьи сайты указаны в каталогах, но не были найдены поисковыми машинами.
 
Методика формирования РИВНОУ


За основу методики берется общепризнанный в мире инструмент оценивания веб-сайтов – Вебометрический рейтинг университетов мира, описанный выше. При этом должна учитываться практика отечественных исследователей.

При составлении РИВНОУ используются инструменты, предлагаемые компаниями Яndex и Google, а также Российский индекс научного цитирования. Выбор поисковых машин Яndex и Google объясняется наибольшей распространенностью указанных поисковых машин в России, а также готовностью указанных компаний к сотрудничеству при формировании РИВНОУ

Предварительные исследования показали значительный разброс результатов, получаемых с использованием поисковых машин Яndex и Google. Поэтому было принято решение для измерения основных показателей РИВНОУ использовать обе поисковые системы.

Для составления Индекса были использованы следующие вебометрические показатели:
Sy (размер) – число страниц на сайте по Яndex
Sg (размер) – число страниц на сайте по Google
S – среднее арифметическое показателей Sy и Sg
Vy (видимость) – тематический индекс цитируемости Яndex
Vg (видимость) – цитируемость сайта по Google
V – среднее арифметическое показателей Vy и Vg
Ry (число файлов) – число полнотекстовых файлов форматов pdf, doc и ppt по Яndex
Rg (число файлов) – число полнотекстовых файлов форматов pdf, doc и ppt по Google
R - среднее арифметическое показателей Ry и Rg
Sc ринц - цитируемость учреждения по РИНЦ.

Для измерения вебометрических показателей в системах Яndex и Google используются следующие типы запросов

Не указано

Как было указано выше, при составлении рейтинга использовался подход ИВТ СО РАН, когда для каждой организации определяются ранги, то есть по каждому критерию определяется порядковый номер организации с первой по последнюю. Рейтинги сайтов при этом вычисляются простым суммированием этих рангов, и более высокие места в глобальном рейтинге занимают организации с минимальным значением суммы рангов.
Для научно-образовательных учреждений, не имеющих сайтов, значения всех показателей, кроме Sc, принимались равными 0.

Ранжирование показателей

Согласно общепринятым методикам математической статистики для нормирования результатов было применено ранжирование результатов по каждому показателю. Для этой цели по каждому показателю производится сортировка по значению этого показателя, т.е. по среднему арифметическому порядковых номеров сайта, и полученное множество разбивается на N корзин, содержащих одинаковое количество организаций. В данном случае был принят размер корзины, равный 10. Учитывая общее количество учреждений, равное 1843, количество корзин оказалось равным 185.

Каждая организация относится к определенной корзине, т.е. в качестве значения показателя для организации принимается порядковый номер корзины (т.е. ранг). При этом всем 146 организациям, не имеющим сайтов и получившим нулевые значения по основным показателям, присвоен единый порядковый номер 1843 и соответственно они получили единый ранг № 185.
 
Сводный индекс

Сводный ранг организации вычисляется простым суммированием номеров корзин, и более высокие места в индексе занимают организации с минимальным значением суммы рангов. По сводному рангу формируется итоговый рейтинг организации, причем организации, имеющий одинаковый сводный ранг, получают одинаковый рейтинг.

Необходимо отметить, что все показатели являются равноправными, в отличие от Вебометрического индекса университетов мира, где показатели Видимость и Цитируемость имеют больший вес. Отчасти подход, предложенный разработчиками, объясняется тем, что цитируемость по данным РИНЦ является весьма дискуссионным показателем, поскольку качество базы данных и алгоритмов РИНЦ активно критикуется научной общественностью. Кроме того, цитируемость по РИНЦ, в отличие от других показателей, не является, строго говоря, вебометрическим показателем. Поэтому увеличение веса цитируемости по РИНЦ было признано нецелесообразным.

На основе сводного рейтинга легко формируются итоговые рейтинги организаций в рамках категорий научно-образовательных учреждений, перечисленных выше: государственные вузы, негосударственные вузы, учреждения РАН и пр.

Периодичность измерения РИВНОУ

Измерение вебометрических показателей РИВНОУ производилось в апреле 2012 г. В дальнейшем предлагается измерять эти показатели один раз в год в период апрель-май. Данный срок выбран в связи с тем, что к апрелю как научные организации, так и вузы уже завершают размещение на сайтах результатов работ истекшего года, и в то же время еще не началась весенняя сессия, существенно отвлекающая от этой деятельности студентов и сотрудников вузов.

Результаты

Результаты работы представляются в виде таблицы, на которой показаны следующие реквизиты рейтинга:
1.    Полное название научно-образовательной организации
2.    Категория научно-образовательной организации (государственные или негосударственные вузы, учреждения РАН, учреждения других академий)
3.    URL (или отсутствие сайта)
4.    Ранг по показателю V
5.    Ранг по показателю S
6.    Ранг по показателю R
7.    Ранг по показателю Sc
8.    Суммарный ранг
9.    Номер в сводном рейтинге
10.    Номер в категории.

На сайте представлен сводный рейтинг, построенный по всем научно-образовательным учреждениям, а также рейтинги по отдельным категориям учреждений. Ожидаемое первое место в сводном рейтинге занял МГУ им. Ломоносова. Однако остальные высокие места в рейтинге могут показаться неожиданными и, во всяком случае, дают пищу для размышлений.

Лучшее из учреждений РАН (им оказался Институт математики им. Соболева СО РАН) оказалось в сводном рейтинге на 15 месте. В Приложении приводятся таблицы рейтинга для лучших 10 учреждений среди государственных вузов и учреждений РАН. Более подробные данные можно найти на сайте http://ru-webometrics.info.
 
Заключение

В заключение следует сформулировать некоторые проблемы, выявленные при создании Индекса и которые требуют обсуждения для дальнейшего совершенствования индекса. Это касается предложенной авторами методики измерения показателей, а также их ранжирования и формирования сводного индекса. Для этой цели на сайте индекса создан форум, где заинтересованные специалисты приглашаются дать индексу свою оценку. Разработчики, в частности, столкнулись со следующими проблемами:
1.    Отсутствие сайтов у некоторых научно-образовательных учреждений. Всего не имеют сайтов с независимым доменом 146 научно-образовательных учреждений, т.е. около 8 %. Большей частью это учреждения РАСХН или негосударственные вузы, хотя учреждения, не имеющие сайтов, есть и в других категориях
2.    Некоторые учреждения ограничиваются страницами на общих сайтах. Для таких случаев корректный подсчет вебометрических показателей невозможен.
3.    Значительная доля сайтов научно-образовательных учреждений неинформативна. Это приводит к низким значениям всех вебометрических показателей.
4.    Наблюдается значительный разброс результатов поисковых систем, использованных для составления РИВНОУ. Так, для показателя «Видимость» значения, получаемые в системах Яндекс и Google, различаются на порядок.
5.     Непрозрачность алгоритмов, используемых поисковыми системами. Это затрудняет планирование мероприятий, направленных на повышение качества веб-ресурса.
6.    В поисковой системе Google оказывается невозможен поиск по доменам организаций, имеющих кириллические домены .рф. Система рассматривает имя домена как обычное ключевое слово, и результаты поиска некорректны.

Ссылки и примечания
Не указано