Текстобзор: Викитека (wikisource.org)
14.11.2022
Описание
Wikisource (Викитека) — это библиотека основанная на wiki-технологиях, основанная Фондом Викимедиа в 2003 году. Викитека предназначена для хранения:
- Текстов, ранее уже опубликованных авторами в печати.
- Переводов оригинальных текстов.
- Исторических документов национального и международного масштаба.
- Библиографий авторов, чьи работы хранятся в Викитеке. [1]
Викитека делится на языковые разделы, в самых крупных разделах больше 100000 страниц
Количество страниц не равно количеству книг, например, одна книга может разделена на несколько страницы с отдельными главами, так же существуют страницы авторов и другие виды страниц, поэтому трудно оценить общее количество оцифрованных материалов.
Количество просмотров можно посмотреть через отдельный сервис Wikistats.
Языковые разделы различаются языком пользовательского интерфейса, языком размещаемых материалов, инструкциями, шаблонами и настройками системы.
Авторские права
Как и в других проектах фонда Викимедиа, в Викитеке запрещено размещать материалы нарушающие авторские права и экстремистские материалы.
Для каждого размещаемого материала обязательно должен быть определен и правильно оформлен вид лицензирования. Для помощи в определении типа лицензирования написаны подробные инструкции.
Существует набор шаблонов для часто используемых лицензий, при их применении достаточно указать название шаблона и на странице отобразиться полная информация о лицензировании. Пример:
Файлы и изображения
Книги в Викитеку можно загрузить из PDF и DjVu. Файлы и изображения можно загружать на саму Викитеку, но рекомендовано использовать отдельный ресурс для таких материалов — Wikimedia Commons. Примеры: файл в викитеке, файл в Wikimedia Commons.
Для файлов, как и для других объектов обязательно указание типа лицензирования. После загрузки файла в Wikimedia Commons его можно использовать в других системах фонда, в частности на Викитеке. Загруженный файл можно скачивать с его страницы.
Существуют инструменты автоматизации загрузки файлов, например, из Internet Archive.
Вычитка текстов
Технологически Викитека это обычная MediaWiki с плагином для вычитки текстов Proofread Page (описание использования расширения в Викитеке). Основная часть плагина — двухпанельный редактор в котором одновременно видно текст и скан книги. Кроме этого Proofread Page добавляет и другие возможности: возможность ссылаться на страницы книги из других страниц системы, систему ролей и доступов для вычитки, автоматическим импорт книги из PDF и DjVu и другие.
Внешний вид редактора:
Возможности редактора:
- Увеличение и уменьшение изображения (1). То же можно сделать колесиком мыши;
- Поворот изображения (2)
- Распознавание текста на изображении (OCR) (3)
Поддерживается два вида OCR: Tesseract OCR и Google OCR, выбор языка и дополнительные настройки:
Последние изменения в работе системы ORC.
Для выполнения частых действий в редакторе есть раздел Инструменты корректора с кнопкой для склеивания строк и кнопками для добавления переносов.
После автоматического распознавания текста каждый абзац получается разделенным на строки:
строка 1 абзаца 1
строка 2 абзаца 1
строка 3 абзаца 1
строка 1 абзаца 2
строка 2 абзаца 2
Кнопка склеивания строк объединяет строки одного абзаца, удаляя лишние переводы строк.
строка 1 абзаца 1 строка 2 абзаца 1 строка 3 абзаца 1
строка 1 абзаца 2 строка 2 абзаца 2
Кнопки для вставки переносов вставляют в начало или в конец текста шаблон переноса (шаблоны описаны ниже). Это необходимо так как если одно слово начинается на одной странице, а заканчивается на другой, то возможны два случая при сборке текста из страниц в один документ:
- разделенное слово нужно соединить, а дефис удалить
- разделенное слово нужно соединить, но оставить дефис, так как он является частью слова
С помощью шаблонов система понимает, что слова вообще нужно соединять и какой вариант соединения использовать.
Другой случай использования шаблонов — указание на то является ли первый абзац страницы продолжением абзаца на предыдущей или это новый абзац. По умолчанию, система считает что первый абзац страницы продолжает абзац на предыдущей странице. Если же в начало страницы добавить специальный шаблон, то первый абзац будет считаться новым абзацем.
Кроме этих функций в редакторе много кнопок для вставки других шаблонов, элементов форматирования и спецсимволов. Этот функционал совпадает с функционалом редактора Википедии.
Особый интерес представляет функция викификации:
Викификатор производит типографическую обработку текста: удаляет лишние пробелы, добавляет неразрывные пробелы, преобразует кавычки к нужному виду и др. Исходный код викификатора открыт.
Редактор Proofread Page тесно связан с функционалом Mediawiki поэтому для вычитываемых текстов доступны обычные функции Википедии: просмотр истории изменений и права доступа.
Требования к вычитке — по возможности сохранение особенностей текста, но без цели полного воспроизведения бумажной версии.
Тексты Викитеки не претендуют на полное соответствие оформлению оригинала. По техническим причинам может отличаться гарнитура шрифта, стили сносок, кавычек, макет вёрстки и т. п. Тем не менее, в Викитеке оформление максимально приближается к оригиналу, сохраняется авторское выделение шрифта курсивом, отступы и др.[2]
You do not have to make an identical, photographic copy of the scan. Wikisource is a website, not a book, and the text is more important than the typography. You should just try to get as close as possible. Some things work in books but do not work on Wikisource. For example, if the text was originally in columns (like a newspaper), then preserving that formatting is not necessary and does not work well on Wikisource, because several pages will be added together in the main namespace when proofreading is finished. Instead, use normal paragraphs without columns, placed in the order that you would naturally read the page.[3]
Индекс
После загрузки исходного файла с книгой и перед вычиткой страниц есть ещё один этап — создание индекса. Индекс это основная страница вычитываемого материала, книги или статьи.
Индекс содержи описание материала, оглавление и список страниц. Пример индекса:
Все элементы индекса редактируются, причем с возможностью использования wiki-разметки.
Подсветка страниц в индексе определяет текущий статус страницы:
Помимо особых статусов для страниц связанных с вычиткой используется общая схема проверки статей аналогичная схеме Википедии.
Разметка
Для разметки текстов используется wiki-разметка.
Наиболее примечательная конструкция этой разметки — это шаблоны. Шаблоны используются очень широко: для оформления текста — центрирования, разрядки, выравнивания, для установки меток на странице — лицензирование, замечаний к материалам, для разметки стихотворений, таблиц и др.
Для вставки шаблона используются фигурные скобки, сначала идет название шаблона, а затем через вертикальную черту набор параметров. Ниже пример применения нескольких шаблонов, с указанием праметров:
{{Центр|центрированный текст}}
{{К удалению}}
{{fs|150%|1. Текст 150%}}
{{PD-RU-exempt}}
Разметка предоставляет очень широкие возможности визуального оформления страниц. Примеры возможностей визуального оформления можно рассмотреть в книге Жития святых по изложению свт. Димитрия Ростовского:
Различными шаблонам можно добиться сходного визуального эффекта, единых правил нет и авторы используют те шаблоны которыми умеют пользоваться. Это ведет, в частности, к затруднению экспорта материалов в другие форматы. Такая проблема относится как к вычитываемым страницам, так и к оформлению оглавлений, страниц авторов, страниц собраний сочинений.
Другой существенный недостаток — концентрация на визуальном оформлении вместо логического. Например, заголовки оформляются с помощью шаблона увеличивающего шрифт, а не с помощью элемента разметки "заголовок". Это ещё в большей степени затрудняет машинную обработку текстов. Оглавление уже нельзя получить автоматически и приходится формировать его вручную.
В Викитеке можно создать копии бумажных книг которые будут красиво отображаться на сайте Викитеки, экспортировать их в другие форматы будет затруднительно, использовать автоматическую обработку тоже. Конечно, текст в wiki-разметке уже значительно лучше чем просто графическое изображение страницы, но это и не подлинная оцифровка, а больше похоже на попытку воспроизвести печатный оригинал. Однако, отношение между визуальной и логической разметкой не такое простое как может показаться на первый взгляд и требует гораздо более детального исследования.
В разметке есть несколько шаблонов для указания опечаток в бумажном варианте текста: Шаблон:Опечатка, Шаблон:Так в тексте, Template:SIC.
Система прав и администрация
Как и в Википедии, вносить любые правки могут все, даже не зарегистрированные пользователи, но проверяются и утверждаются правки уполномоченными на это зарегистрированные участники.
Викитека наследует административную систему Википедии, включающая в себя разные уровни доступа и статусы участников: инженеры, бюрократы, администраторы, ревизоры и другие. Такая сложная система отражает сложность организации большого количества людей участвующий во всех вики-проектах и в Викитеке в частности.
Для выработки решение применяется принцип консенсуса. Консенсуса удаётся достичь не по всем вопросам. Если решение по какому-либо вопросу не определено на более высоком уровне иерархии, и нет определенного консенсуса, то участники свободны действовать по своему усмотрению. Подход выглядит хорошим для организации большого количества свободных людей, хотя есть и недостатки описанные выше в разделе про разметку, из-за разных подходов к которой затрудняется автоматизация.
Переводы
Кроме оригинальных текстов в Викитеке иногда размещаются их переводы. Статистики текстов с переводами нет, поэтому не известно насколько это распространено. В русскоязычной Викитеке популярны тексты в дореволюционной орфографии и их перевод в современную.
Переводы в целом являются отдельными текстами.
Размещаются и редактируются переводы на страницах книг, просто как отдельный текст. Поабзацного сопоставления нет. Пример:
Типы страниц
Важная особенность Викитеки (и Википедии в целом) — использование разных типов страниц или пространств страниц. Индексы находятся в пространстве Индекс
, а страницы вычитки с двухпанельным редактором в пространстве Страница
. Это можно увидеть по URL-адресу страниц:
https://ru.wikisource.org/wiki/Страница:Красный_библиотекарь_(журнал),_1923,_№_1.pdf/11
https://ru.wikisource.org/wiki/Индекс:Красный_библиотекарь_(журнал),_1923,_№_1.pdf
Вычитанные произведения находятся в основном пространстве без префикса.
https://en.wikisource.org/wiki/Lost_Island
Эта особенность важна из-за подхода к хранению материалов. При оцифровке собрания сочинений или номера журнала, вычитка проходит на страницах в пространстве Страница
. При этом сохраняется одинаковый порядок страниц и материалов как в электронной версии, так и в печатной копии. Структуризация материала проходит на основании печатного издания.
При переносе вычитанного материала в основное пространство группировка материалов становится независима от страниц в печатной копии. Например, статьи разных авторов в журнале будут находятся отдельно и рассматриваться как отдельные работы определенных авторов. То же самое с произведениями в составе собраний сочинений.
Такой подход перспективен, так как это ещё один элемент освобождения произведения от бумажной версии. В то же время, важно чтобы осталась прямая связь с бумажным источником и такая связь есть в Викитеке. В версии расположенной в основном пространстве, при просмотре на сайте, слева отображаются номера страниц:
Номер страницы — это ссылка на страницу вычитки на которой будет отображаться исходный скан.
Отделение цифровой версии от печатного оригинала не доведено до конца. Связь между оцифрованным произведением и печатным оригиналом относится к типу один к одному. Одно произведение может быть сопоставлено только с одним сканом. В действительности же произведение, например, статья можем быть размещена несколько раз, например, в ПСС, в журнале и в отдельном сборнике статей. Причем в каждом случае могут быть какие-то значимые или не значимые отличия. Текст станет полностью оцифрованным если будет прослеживаться его связь до любого печатного источника причем с отображением значимых отличий.
Второй проблемой текущего подхода Викитеки является недостаток автоматизации. Для создания страниц произведений, оглавлений, оформления страниц авторов и других работ нет простых и удобных средств автоматизации. Почти все приходится делать вручную редактированием отдельных страниц, следить за корректностью ссылок, совпадением списков и т. д. Викитека развивается, разработка вики-проектов ведется через портал Phabricator, на котором принимаются запросы на добавление функционала от пользователей. В будущем, работа в Викитеке может быть более автоматизирована.
Просмотр книг и экспорт
Вычитанные материалы можно читать на сайте Викитеки или экспортировать в несколько форматов.
Для экспорта, на страницах книг, справа в верху находится кнопка Download.
В расширенной форме экспорта (GitHub - wikimedia/ws-export) поддерживается больше форматов:
Один из недостатков экспорта — экспорт основан на том как страницы вложены друг в друга. Из-за этого нельзя экспортировать журнал в котором у каждой статьи свой автор целиком, а только по отдельным статьям. Подробнее описано в комментариях к этой странице и инциденте на Phapricator. С учетом сказанного выше про разные типы страниц, возможно, это не является принципиальной проблемой, так как важнее экспорт вычитанных произведений, чем экспорт-попытка повторения бумажного оригинала.
Формат разметки очень сильно ориентирован на визуальную разметку, из-за этого возникают сложности при экспорте. Каждый формат содержит свои особенности и сделать одинаковое отображение даже в EPUB и PDF довольно сложно. При экспорте в эти форматы книги выглядят приемлемо, но заметно хуже чем при отображении на сайте Викитеки. Из-за ориентации на визуальную часть очень трудно получить экспорт в форматы с доминированием логической разметки такие как FB2, или даже просто красивый файл в plain text. В целом, выглядит так, что экспорт не приоритетное направление в развитии Викитеки, несмотря на то, что есть выполненные проекты по его развитию.
Вики-экоситсема
Викитека тесно интегрирована с другими вики-проектами. Уже упоминалось хранение файлов на Wikimedia Common. Внутри страниц Викитеки есть специальный синтаксис для ссылок на страницы в Википедии. Через Викиданные авторы или книги могут быть связаны в разных вики-проектах. Например, заполнение информации об авторе в Викиданных позволяет отображают одинаковую информацию об авторе на Википедии и Викитеке.
Текущие возможности связи между проектами ограничены, но направление движения показывает, что все идет в сторону большей интеграции систем друг с другом и автоматизации. Создается не просто набор страниц, а база знаний в которой различные типизированные объекты связаны друг с другом и возможен их автоматизированный поиск и отображение.
Возможности автоматизации
Викитека, как и другие вики-проекты, поддерживает широкие возможности для автоматизации рутинных действий. Использование средств автоматизации, на данный момент, требует квалификации выше среднего пользователя.
Инструменты и скрипты — расширения Викитеки, которые можно добавить, как на уровне системы, так и на уровне настроек отдельного пользователя. Среди них есть так же отдельные программы или сервисы.
MediaWiki поддерживает REST API, на основе него уже есть библиотеки для PHP и Python.
Боты — специальные аккаунты, автоматизированные через скрипты, для автоматического выполнения рутинных действий.
Резервные копии баз данных wiki-систем доступны для скачивания, их можно использовать для экспорта данных.
Сравнение Викитеки и Проекта Гутенберг
Задачи и принципы работы Викитеки схожи с Проектом Гутенберг. На Викитеке есть отдельная дискуссия про сравнение этих систем. Основные различия следующие:
Способ редактирования и исправления ошибок в Викитеке, основанный на wiki-принципах, проще и удобнее чем в Проекте Гутенберг. Если говорить про уже вычитанное произведение, то сообщения о найденных ошибка в Проекте Гутенберг отправляются по почте в специальном формате
Отличаются этапы и их контроль при вычитке в Викитеке и на сайте Distributed Proofreaders;
В Викитеке используется wiki-разметка, а в Проекте Гутенберг собственные форматы разметки;
Оба проекта соблюдают авторское право и лицензионные соглашения, есть ли различия в этом параметре точной информации нет;
Административная структура и принципы работы организаций различаются;
Викитека более развита технологически, в Проекте Гутенберг, если рассматривать его отдельно от Distributed Proofreaders, многие вещи связанные с подготовкой книг выполняются вручную с минимальной автоматизацией. В Викитеке связь со сканом сохраняется и в вычитанном материале, в Проекте Гутенберг не сохраняется.
Заключение
Викитека это самая развитая система для вычитки в технологическом и административном отношении и может использоваться для организации коллективной вычитки. Если взять часть связанную с исправлением опечаток то она сделана близко к идеальному для такого рода систем: любой человек может сравнить любую часть произведения со сканом и исправить в интуитивно-понятном редакторе.
Стоит рассмотреть некоторые недостатки.
Простое исправление опечаток не сложное действие, но весь процесс оцифровки начиная от загрузки книги до её окончательного вида довольно сложен и требует изучения инструкций.
Развитый административный аппарат и правила связанные с авторским правом могут стать препятствием работе над литературой способствующей переходу общества на новый этап развития. Этот недостаток можно исключить если развернуть систему на своих серверах. Однако это потребует трудозатрат на настройку и администрирование, а так же оплаты аппаратной части. Значительная часть литературы не противоречит требованиям Викитеки и можно использовать общедоступный сервер wikisource.org
.
Большой упор на визуальную разметку является недостатком, он может быть частично сглажен выработкой и согласованием с администрацией особых требований, например, к вычитке определённого собрания сочинений. Можно попробовать договорится о том какие элементы разметки применять и применять только их. Это одна из самых существенных проблем и исключить её полностью при использовании Викитеки нельзя.
Викитека хоть и предоставляет возможность делать переводы, но в целом мало подходит для этого. Это второй существенный недостаток. Маловероятно, что его возможно исправить в рамках использования Викитеки, так как для этого особенно полезным было бы деление текста на абзацы в базе данных, а в Викитеке текст делится только на страницы связанные со сканами.
Связь текста со сканами не теряется, это позволяет очень просто и в любой момент исправлять новые найденные опечатки. Недостатком является возможность связать с текстом только один скан, но этот недостаток нельзя сейчас назвать существенным, может быть такая функция будет полезна для будущих систем.
Вычитка, оформление страниц авторов или собраний сочинений требует много рутинных действий. Есть возможность автоматизации работы в Викитеке, но она требует определенной квалификации.
Экспорт в другие форматы относительно неплохо работает для PDF и EPUB, но в целом функция экспорта недостаточно развита.
Несмотря на недостатки, аналогичных проектов такого уровня развития не существует, кроме сравнимого Проекта Гутенберг.