5. Оптимизация

5.1. Введение

Если вы используете для создания электронной библиотеки один из популярных программных пакетов, таких как DSpace или EPrints, то вам не стоит беспокоиться о необходимости оптимизировать вашу библиотеку для роботов поисковых систем, т.к. их изначальные настройки позволяют делать это автоматически. Данный раздел будет интересен вам в том случае, если вы разработали свое программное обеспечение (ПО) или сайт, использовали редко встречающееся ПО или внесли значительные изменения при установке программы.

5.2. Как работают поисковые роботы

При индексации web-сайтов поисковыми системами используются специальные программы, называемые «роботами». Некоторые имеют свои собственные названия. Например, главный робот поисковой системы Google называется 'Googlebot'. Другие термины, с которыми вы можете столкнуться - 'web crawler' (веб-краулер) и 'spider' (паук) - отражают методы работы этих роботов. Начиная с определенной web-страницы, crawler следует по всем гиперссылкам страницы, индексируя страницы сайта, а часто также и внешние страницы. Таким образом, охватывается весь сайт, хотя для достижения страниц более низких уровней может потребоваться некоторое время. Некоторые поисковые системы не гарантируют, что будут проиндексированы все страницы, так как технические особенности вашего сайта могут препятствовать этому. Кроме того, существуют способы заблокировать по вашему желанию определенные страницы от индексирования. Они будут описаны далее.

5.3. Обеспечение видимости для роботов

Ссылки являются ключом к успешной индексации ваших документов. Точнее, ключом являются статические ссылки. Динамические ссылки, например, сгенерированные интерактивным поиском, вероятно, будут недостижимы для роботов. Если вы решили использовать динамические страницы (например, в URL которых содержится символ "?"), учтите, что не все роботы поисковых систем сканируют их так же хорошо, как статические. Лучше сократить длину и количество параметров. В идеале - ссылки должны быть текстовыми. Ссылки в виде кнопок, управляемых JavaScript, PHP или другие программируемые функции обычно игнорируются роботами.

Для эффективного индексирования у вас на сайте должна быть возможность посетить каждую страницу и каждый документ, только нажимая на гиперссылки. Без особой необходимости не используйте в качестве ссылок изображения или кнопки. Если текстовое содержание необходимо представить в виде изображений, воспользуйтесь атрибутом "ALT", чтобы добавить к ним небольшие описания.

5.4. Структура Web-сайта

Как уже было сказано, поисковым роботам может потребоваться время, для того, чтобы увидеть веб-страницы, находящиеся на более низких уровнях иерархии, и некоторые роботы могут достичь только определенного уровня. Решением этой проблемы может стать использование неглубокой иерархии сайта, насколько это возможно. Это упрощает использование вашей библиотеки читателями. Оптимальная структура должна иметь на главной странице выбор «Просмотреть по…» с выбором опций, который ведет к списку документов, далее - переход к странице с метаданными для отдельных изданий, и, наконец, к полному тексту.

Например, Просмотреть по годам > 2007 > [Список названий]> [Страница метаданных]> >[Полный текст PDF]

Этот вариант все еще содержит больше чем «три клика» (считается идеальным для пользователя, когда любая страница сайта открывается не более чем через три ссылки, три клика). Но исполнение может быть отчасти улучшено размещением на главной странице различных списков, обычно это «Недавние пополнения», «Популярные статьи» и т.п. Такие списки, главным образом, полезны для "come back" функции, которая поощряет пользователей возвращаться в вашу электронную библиотеку, но также это способствует и более быстрому индексированию web-роботами статей, внесенных в эти списки.

Общие рекомендации по созданию веб-сайтов, дружественных по отношению к поисковым системам, могут быть найдены в Google's Руководстве для веб-мастеров, также Peter Suber подготовил советы по оптимизации для Google роботов. Специально для пользователей DSpace советы приведены на странице Wiki DSpace Ensuring your instance is indexed.

5.5. Блокирование роботов

Бывают ситуации, в которых вы сами захотите заблокировать какую-то страницу или группы страниц от индексирования роботами. Типичным примером такой страницы может быть страница входа в ваш депозитарий. Существует два метода для осуществления этой задачи, каждый из которых подходит для роботов большинства авторитетных поисковых систем.

• Файл 'robots.txt'

Этот подход является наиболее подходящим для блокировки группы страниц, хотя может также использоваться и для блокировки единичной страницы. В корневой директории вашего сайта размещается простой текстовый файл с именем robots.txt, который содержит набор инструкций для роботов и/или страницы, которые будут проигнорированы роботами. Каждый блок инструкций начинается с линии, определяющей 'Пользователя-агента', к которому применяется этот блок, далее следуют одна или более линий, указывающих на файлы и директории, которые должны быть проигнорированы при индексации, например:
User-agent: *
The * indicates the instructions apply to all robots
Disallow: /login.php
Robots should not to index the file login.php
Disallow: /restricted/
Ignore all files in the /restricted/ directory tree

Наиболее полная информация по этому вопросу доступна здесь Web Server Administrator's Guide to the Robots Exclusion Protocol и здесь Google Help Page.

• 'robots' Meta Tags –

Этот метод может быть использован для блокирования одной web-страницы, хотя, возможно, что этот метод не так же надежен, как предыдущий. Метатеги, размещающиеся в HTML коде страницы в блоке <head>, предоставляют роботам такую информацию: авторы, названия, ключевые слова, описание и т.п. Эти элементы не будут выведены на экран при просмотре web страницы. Мета тег 'robots' управляет тем, будет ли робот (а) индексировать страницу и (b) следовать по гиперссылкам, имеющимся на этой странице. В примере, который следует ниже, блокируется как индексирование страницы, так и следование по ссылкам страницы:
<meta name="robots" content="noindex,nofollow" />
…или можно написать короче
<meta name="robots" content="none" />

Более подробную информацию по опциям мета тега «robots» представлена здесь HTML Author's Guide to the Robots META tag и Google's Help Page.

К сожалению, существуют некоторые сомнения относительно надежности этих методов блокирования для всех поисковых роботов, хотя метод robots.txt считается более надежным. Следовательно, для страниц, где блокирование особенно важно, рекомендуется использовать оба метода.

5.6. Sitemaps.org

'Sitemaps' (в переводе с англ. «карты сайта») позволяют web-ресурсам сказать поисковым системам, какие страницы есть на их сайте, быстрее, чем поисковые системы будут сами традиционным методом просматривать весь сайт для поиска нового содержимого.

Карта сайта – это коллекция файлов XML, она не только показывает существующие на сайте страницы, но и то, когда они последний раз обновлялись. Создание файла Sitemap гарантирует, что поисковый робот узнает обо всех страницах на вашем сайте, включая URL-адреса, которые невозможно обнаружить в ходе стандартного сканирования. Подробно о файлах Sitemap можно прочитать в разделе справки Google.

5.7. Ссылки

• Jody L. DeRidder (2008) Googlizing a Digital Library, The Code4Lib Journal, 24th Mar.2008, No.2 http://journal.code4lib.org/articles/43, Accessed 26th Mar.2008.
• SHERPA (2008) Ways to snatch Defeat from the Jaws of Victory, http://www.sherpa.ac.uk/documents/ways-to-screw-up.html, Accessed 12th November 2010.

ОБЩИЕ РЕКОМЕНДАЦИИ ПО СОЗДАНИЮ ЭЛЕКТРОННЫХ БИБЛИОТЕК