28 августа 2010

Корпорация IBM поможет в оцифровке европейских архивов

Корпорация IBM поможет Евросоюзу в оцифровке огромной коллекции исторических документов Старого Света.

В проекте ImpAcT (Improving Access to Text) примут участие два десятка библиотек, вузов и компаний.

Главное в программе не охват, а точность распознавания текста, который кое-где сильно поблёк, а в иных местах набран давно вышедшими из употребления шрифтами. Из-за этого традиционные системы оптического распознавания символов работают чрезвычайно медленно. ImpAcT не только обладает новыми технологиями распознавания, но и во многом полагается на распределённые вычисления. По оценке IBM, аккуратность системы на 25–50% выше, чем у конкурентов. ImpAcT даже умеет учиться на своих ошибках, на которые ему будет указывать обширное онлайн-сообщество волонтёров.

Процесс сканирования не будет централизованным: каждое учреждение само выбирает время и масштабы оцифровки. В конечном итоге в Сети должны оказаться десятки тысяч редких документов XV–XIX веков, к которым, возможно, раньше не имели доступа ни специалисты, ни любители.