Библиотека Конгресса продолжает попытки архивировать все твиты за 2006-2012 годы

24 июля 2012

Два года назад директор по коммуникациям Библиотеки Конгресса США объявил о плане сделать архив всего Твиттера, начиная с марта 2006 года. Уже в то время (март 2010-го) это был очень большой объём: тогда в твиттере публиковалось 55 миллионов сообщений в день, а общий размер базы с момента основания сайта измерялся в терабайтах.

Но то были лишь цветочки. К лету 2012-го года трафик в Твиттере вырос до 400 млн сообщений в сутки, а Библиотека Конгресса так и не запустила обещанный архив с полнотекстовым поиском. В связи с этим кое-кто начал сомневаться, что задача по силам библиотекарям. На прошлой неделе появились слухи, что они втихую отказались от амбициозного проекта. На самом деле это не так.

Конечно, задача оказалась гораздо сложнее технически, чем представлялось поначалу. «Процесс разработки технических спецификаций по-прежнему продолжается, но мы уже гораздо ближе к его завершению, — сказала Гэвин. — Я не могу сообщить конкретную дату, когда мы будем готовы объявить об этом официально». Сейчас определяются критерии, как осуществлять сортировку исходных данных: по ключевым словам, по времени и т.д. Разработчики до сих пор не определились, каким должен быть пользовательский интерфейс системы.

«В прошлом году мы начали частично получать материал от компании Twitter. Теперь мы получаем его почти ежедневно. Это очень большие объёмы данных», — говорит Гэвин. При этом действует шестимесячное эмбарго на архивацию свежих твитов. По условиям соглашения с компанией, создаваемая база данных должна быть доступна только для некоммерческого внутрибиблиотечного использования и сохранения. Система будет доступна только для зарегистрированных посетителей библиотеки по библиотечным карточкам.

Библиотекари Беларуси