Текстобзор: Истнет
25.09.2021
Описание
Проект Истнет — стандарт (набор правил) для форматирования книг и исторических документов. Истнет был опубликован в 2012-2013 годах Григорием Белонучкиным. Цель стандарта решить две проблемы:
- Нет универсальных способов ссылаться на части книги при цитировании. Формат ссылки (URL) должен быть прост и понятный для человека и одновременно позволять гибко ссылаться на источник цитаты;
- Поисковики часто не могут найти цитату из-за служебной информации (например, номеров страниц исходной книги) в разметке страницы.
Стандарт основан на HTLM
+ CSS
и состоит из двух частей
- Формат ссылки;
- Набор тегов у которых устанавливать якоря и которые прозрачны для поисковиков.
Формат ссылки следующий
some-library.ru/pushkin/4/#32
Что означает ссылку на А.С.Пушкин, Соч., т.4, с.32
.
Для установки якорей с номерами страниц предлагается добавлять теги которые прозрачны для поисковиков. Эксперименты с поиском приведены в таблице на сайте проекта.
Отдельным пунктом в стандарт включено предложение отображать номер страницы с помощью выплывающей подсказки (hint).
Формат был применен на сайте с собранием сочинений Л. И. Брежнева — brezhnev.su.
Заключение
Наиболее полезным в этом проекте является ясное обозначение проблемы: необходима возможность ссылаться на части документа. Предлагаемое решение позволяет делать ссылки только до уровня страниц. Нет возможности сослаться на отдельный абзац или даже текст внутри него. А такая возможность полезна для максимально точной ссылки на цитируемый фрагмент. Кроме того недостаточно регламентировано название книги. По сути решение стандартизирует только то как указывать на номер тома и номер страницы.
Способ реализации ссылок, представленный материале:
Для этого каждая книга (том, выпуск) издания сохраняется в виде файла с именем index.html в отдельной директории, название которой состоит из одного числа - номера тома.
основан на ручном размещении html файлов, либо без использования всех возможностей современных программных средств в этой области. Сейчас URL может быть разобран как угодно сложным образом и его части не всегда связаны со структурой каталогов на сервере.
Решение проблемы обозначенной в Истнет важно и требует глубокого анализа с учетом современных средств веб-программирования. Вероятно, решение должно быть совместимо с Citation Style Language.
Открытый вопрос: нужны ли вообще человекочитаемые ссылки? Чаще всего ссылка может быть сформирована автоматически, а значит читаемость не так важна. Если же человеку нужно найти на какой-то фрагмент, то он будет искать его через графический интерфейс, а не с помощью ручного ввода ссылки.
Проблема с поиском по цитате так же важна, но решить её через подстройку под поисковики общего назначения невозможно. Поисковики это коммерческие продукты с закрытым исходным кодом. Про их способ индексации с одной стороны нет точной информации, а с другой алгоритмы постоянно меняются. Завязывать текстологическую работу на такие вещи нельзя. Для поиска требуется специализированное средство которое будет удовлетворять всем требованиям, в том числе поиск без учета разрыва страниц и другой служебной информации.
Более важно, то что поиск по сайту это поиск уже по производному результату текстологической работы — по представлению книги в виде веб-страницы. Таких представлений может быть несколько и в виде веб-страниц и виде интерактивных веб-приложений и просто в виде популярных форматов электронных книг. Текстологический формат должен быть ориентирован на оформление исходного текста работы, а все производные форматы генерироваться автоматически. То же относиться и к способу отображения номеров страниц на сайте. Критика применения HTML в качестве основного формата детально разобрана в статье Технические аспекты цифровой текстологии.