Текстобзор: Весь Толстой в один клик

26.09.2021

Описание

В результате проекта «Весь Толстой в один клик»open in new window было оцифровано собрания сочинений Льва Николаевича Толстого. Организацией работ занималась компания ABBYYopen in new window, так же в участниках упоминаются Государственный музей Л. Н. Толстогоopen in new window и Музей-усадьба «Ясная Поляна»open in new window. Проект широко освещался в прессеopen in new window, а к вычитке привлекались волонтерыopen in new window. Основные работы проводились с июнь 2013 по декабрь 2014.

info_03

Собрание сочинений включало 90 томов (около 46000 страниц) и издавалось Государственным издательством художественной литературы в 1928—1958 годах.

info_02

Цель проекта — получение электронной версии собрания сочинений, по сути набора электронных книг в разных форматах[1].

goal

Результаты проекта размещены на сайте tolstoy.ruopen in new window. Книги, в основном, представлены в форматах Word, EPUB, FB2 и MOBI. Некоторые книги дополнительно размещены в формате Word. Есть ссылки на онлайн просмотр (HTML), но работают не все (код ошибки 403). На сайте можно скачать как тома целиком, так и отдельные произведения, подборки писем и дневников.

Кроме самих книг, побочными продуктами стали несколько проектов: конкурс плакатовopen in new window, онлайн марафон «Каренина. Живое издание»open in new window, цитатникopen in new window и др. Большинство из них ничем не примечательны, о некоторых будет написано далее.

В разных этапах оцифровки участвовало более 3000 человек:

info_05

info_05

info_05

Самые активные участники были награждены подарками.

Награждала и поздравляла волонтеров директор музея-усадьбы «Ясная Поляна» Екатерина Александровна Толстая. Лучшие участники получили в подарок книгу "Свет Ясной Поляны" И.В. Толстого, электронный ридер Onyx, программу ABBYY Finereader, сертификаты на покупку книг от ЛитРес. [2]

Сканирование

Найти сканы в открытом доступе на страницах проекта не удалось. Судя по всему, сканы появились гораздо раньше проекта

В 2006 году музей-усадьба «Ясная Поляна» в сотрудничестве с Российской государственной библиотекой и при поддержке фонда Э. Меллона и координации Британского совета осуществили сканирование всех 90 томов издания. [3]

В качестве исходных данных, для сотрудников ABBYY сканы пришли в формате PDF:

Собрание сочинений было отсканировано Российской государственной библиотекой в 2006 году, и нам для работы достались PDF-файлы (только изображения, без текстового слоя), один том (а это от 400 до 600 страниц) – один файл. Файлы вместе занимали всего-то навсего 4 Гб. [4]

Сначала сканы поделили на части, по 20 страниц названных «пакетами». С каждого тома получилось примерно по 20 пакетов, следовательно примерно 1800 пакетов на все тома. Затем пакеты были первично распознаны через FineReader, в основном корректировка касалась правильно выделения и расстановки типа (изображение, текст, колонтитул и др.) блокам на скане. Распознанные пакеты загрузили на специально созданную платформу для совместной работы на сайте readingtolstoy.ruopen in new window. Информация о платформе:

Платформу писали на Ruby в связке с СУБД MySQL, в качестве репозитория и управления разработкой использовалась система BitBucket. Составляющие платформы:

  1. информационная часть (состоит из статических страниц о проекте, новости, FAQ и т.д.)
  2. приложение (управляет пользователями, книгами, пакетами и процессами)
  3. хранилище файлов в исходном, а также во всех промежуточных состояниях фрагментов книг.

Для надежного функционирования всего проекта в целом была использована архитектура на базе облачного хранилища Amazon с возможностью масштабирования. [5]

Скриншот интерфейса платформы:

review_service

После загрузки файлов начался этап вычитки с привлечением волонтёров.

Вычитка

Вычитка проходила в четыре этапа:

  1. первичная вычитка;
  2. аудит вычитки;
  3. корректировка целого произведения;
  4. профессиональная корректировка.

Для координации использовался закрытый раздел сайта readingtolstoy.ruopen in new window и паблик vk.com/readingtolstoyopen in new window. На сайте можно было скачивать файлы для вычитки и загружать результаты, а так же там размещались инструкции. В паблике были оповещения о ходе работ и ответы на вопросы от участников.

На первом этапе они должны были проверить все тексты, чтобы исключить возможные ошибки, возникшие при оцифровке. Любой человек мог зарегистрироваться на сайте проекта, скачать специальную версию ABBYY FineReader и пакет из 20 страниц текста Л.Н. Толстого, которые он должен был в течение 48 часов проверить и загрузить обратно. [6]

Вычитка проходила в FineReader. Скриншоты от участников:

finereader

finereader

finereader

Инструкции в формате видеоopen in new window.

Волонтёры корректировали правильность разметки областей и сам текст:

Перед волонтёрами ставилось две задачи. Первая – проверить правильность разметки областей. Внимательный читатель скажет – ведь это уже было сделано на прошлом этапе. Но при распознавании правильная разметка областей – это примерно половина успеха, поэтому волонтёры тоже должны были убедиться в том, что документ размечен правильно. Вторая – проверить неточно распознанные символы, сравнить результат распознавания с оригиналом и исправить ошибки. Ошибки были двух видов: неправильно распознанные символы в тексте (там, где качество скана было плохим) и в расположении абзацев – абзацы иногда склеивались или, наоборот, разбивались там, где не надо.

Ещё люди должны были корректировать разбивку страницы – в случае переноса слова с одной страницы на другую нужно было «склеивать» слово и оставлять его целиком на одной из страниц. В помощь волонтёрам давалась подробная инструкция.

Пакет нужно было проверить и вернуть на сайт в течение 48 часов. Как мы помним, участник скачивал заархивированный файл и в том же виде должен был его залить обратно на сайт. Если пакет не возвращался, он попадал в выдачу во второй раз. [7]

Работа сразу пошла быстро, первую вычитку провели за пару недель

10days

Второй этап вычитки так же производили волонтеры:

step2

Этот этап подразумевает более тщательную проверку текста. Чтобы принять в нем участие, нужно было пройти непростой тест на сайте читаемтолстого.рф. В итоге его одолели 226 человек – они и стали аудиторами. Волонтерам-аудиторам был выделен свой призовой фонд. [8]

Отобранные на втором этапе аудиторы, проверяли результаты вычитки и могли отправлять их на доработку.

badwork

После аудиторской проверки пакеты сливали в файлы томов:

После этого пакеты поступали в специальную базу на сайте. Когда были готовы все пакеты из одного тома, администратор проекта видел это, скачивал все пакеты тома с сайта и собирал обратно в единый документ (всё ещё в формате FineReader) с помощью специальной утилиты, которую написали наши разработчики. Потом наш сотрудник проверял, правильно ли собрался том, не сбита ли нумерация страниц и т.п. После этого готовый том передавался обратно администратору. [9]

В августе начался третий этап:

После окончания второго этапа начался и продолжается третий — все пакеты объединили в целые тома, которые вычитают профессиональные корректоры и лингвисты. [10]

step2

step3end

Хотя качество работы аудиторов было выше всяких похвал, мы все же хотели перестраховаться и устроили третий тур проверки текстов – на этот раз целыми томами. Из числа волонтеров мы сами выбрали 30 человек, хорошо зарекомендовавших себя на первых этапах, – они стали «редакторами», кроме того, на этом этапе к нам присоединилось небольшое количество новых волонтеров – лингвистов и профессиональных редакторов. [11]

Редактор мог брать на проверку только целый том, по времени работа была ограниченна неделей, проверку можно было сдать частично — указать кол-во проверенных страниц.

Четвертый этап вычитки проводили уже полностью специалисты компании ABBYY:

После третьего этапа проверки администратор экспортировал тома в формат MS Word и они отправлялись на проверку нашим штатным редакторам. Редакторы снова вычитывали файлы, исправления вносились как в Word-файл, так и в исходный пакет FineReader (для облегчения последующего сохранения из него в другие форматы).[12]

После третьего этапа специалисты компании ABBYY совместно с компанией WEXLER.QuadLab сгенерировали электронные книги и разместили их на сайте, проект завершился в декабре 2014.

finish

Файлы электронных книг

Рассмотрим детальнее электронные книги на сайте tolstoy.ruopen in new window.

PDF

Содержан сканы и распознанный слой текста. Оглавление не встроено.

HTML

Номера страниц отображаются по краям страницы, справа номер страницы которая начинается на данной строке, а слева номер страницы которая закончилась.

html1

Примечания, в данный момент, не работают из-за ошибки в ссылках. Оформлены с помощью якорейopen in new window

// ссылка на примечание
quelque chose cette nuit?<a href="index.xhtml#n7" id="backn7" type="note">[7]</a> — сказал Гальцин

// примечаение и обратная ссылка
<div class="section" id="n8">
<h2><a href="index.xhtml#backn8">8</a></h2>
<p class="left"> [Какой красивый вид!]</p>
</div>

Присутствует оглавление, оформлено так же посредством системы якорей.

Словари, указатели имён и другая дополнительная информация не размечены.

Другие форматы

Другие форматы есть для большинства, но не для всех томов:

formats

Детальный анализ других форматов не производился.

Том 91, указатель

Отдельный интерес представляет реализация 91 томаopen in new window на сайте. Том содержит

  1. Алфавитный указатель произведений,
  2. Алфавитный указатель адресатов,
  3. Алфавитный указатель имен собственных,
  4. Хронологический указатель произведений.

На сайте реализован поиск по этим указателям (возможно, не по всем) и возможность прямого перехода на веб-версию тома на указанную страницу.

links

Кроме этого можно посмотреть граф совместных упоминаний, совместным упоминанием считается нахождение на одной странице.

graph

Данные для построения графа можно скачать в формате XML.

Заключение

Попробуем проанализировать проект с точки зрения задач текстологии. В первую очередь проект интересен организацией массового привлечения волонтеров для вычитки и получением выверенного авторского текста для крупного собрания сочинений. На этом заканчиваются как цели, так и достижения проекта. Рассмотрим недостатки в отдельности.

Примененный подход показывает отношение к вычитанному тексту как к один раз установленному и больше не изменяемому. Полученные на выходе файлы электронных книг трудно или невозможно поменять, например, если будет обнаружена новая опечатка, пропущенная на всех этапах. Связь с исходным сканом утеряна где-то на этапе между конвертацией файла в формате FIneReader в другие форматы. Несмотря на огромную работу это именно разовая работа, которую просто так не повторить как её участникам, так и другим группам. Текстологическая работа же должна быть воспроизводимаopen in new window во всех своих аспектах, как технических так и организационных.

Так как детальной информации нет, даже сейчас не ясно, исправлены ли все найденные ошибки или нет. В одной из систем на сайтеopen in new window они отображаются, но насколько этот список актуален неизвестно:

report

С точки зрения обобществления результатов, в публичном доступе, прежде всего, не хватает исходных сканов. Файлы в формате FineReader после вычитки так же не распространяются. Это не позволяет работать с исходным материалом и строить на его базе другие проекты. В открытом доступе распространены только электронные книги, предположительно, распространяемые свободно, хотя в подвале сайтаopen in new window и размещается следующая надпись:

tostoy_copyright

Используемые инструменты: FineReader и организационный портал — коммерческие продукты и принадлежат одной организации, поэтому их использование в рамках общедоступной текстологии затруднительно.


  1. https://vk.com/wall-53151365_2open in new window ↩︎

  2. Весь Толстой в один клик — Хроникаopen in new window ↩︎

  3. Из предисловия к электронным книгам. ↩︎

  4. «Весь Толстой в один клик»: как мы это делалиopen in new window ↩︎

  5. «Весь Толстой в один клик»: как мы это делалиopen in new window ↩︎

  6. tolstoy.ru — Волонтёрыopen in new window ↩︎

  7. «Весь Толстой в один клик»: как мы это делалиopen in new window ↩︎

  8. Весь Толстой в один клик — Хроникаopen in new window ↩︎

  9. «Весь Толстой в один клик»: как мы это делалиopen in new window ↩︎

  10. tolstoy.ru — Волонтёрыopen in new window ↩︎

  11. «Весь Толстой в один клик»: как мы это делалиopen in new window ↩︎

  12. «Весь Толстой в один клик»: как мы это делалиopen in new window ↩︎

Последниее изменение: