Текстобзор: Национальная электронная библиотека (НЭБ)
09.11.2022
Описание
Национальная электронная библиотека (НЭБ) — библиотечный агрегатор, через неё можно просматривать материалы из подключенных к системе библиотек. Создание НЭБ началось в 2003 году. Сейчас НЭБ самая крупная электронная библиотека в России.
Национальная электронная библиотека (НЭБ) не является «библиотекой» в общепринятом понимании, у нее нет собственного книгохранилища, нет и собственного архива электронных копий произведений. НЭБ - это информационная система, предоставляющая пользователям интернета доступ к электронным фондам библиотек, участвующих в проекте, посредством единого веб-портала.[1]
Общее количество доступных материалов около пяти миллионов. Среди них есть как материалы находящиеся с общественном достоянии, так и те, что можно читать только находясь в одном из читальных залов подключенных с системе библиотек (фильтрация производится по зарегистрированным ip-адресам).
В библиотеку могут попасть любые материалы, однако, при выборе планов на оцифровку акцент делается на научную и образовательную литературу[2].
В НЭБ представлены переведенные в электронную форму книги, включая редкие и ценные издания, рукописи, диссертации, авторефераты, монографии, изоиздания, ноты, картографические издания, патенты и периодическая литература.[3]
Разработчики
В разных источниках информация о разработчиках НЭБ различается. Возможно, подрядчики менялись или за разные части системы отвечают разные компании.
В новости от 2018 года указаны компании [Крок](Крок (компания) — Википедия) и ЕМС. Там же кратко описана аппаратная платформа:
Проект по увеличению мощностей центра обработки данных «Российской Государственной Библиотеки» осуществлен на базе блейд-серверов HP, установленных в HP c-Class Bladesystem, системы хранения данных EMC масштаба предприятия и дисковых полок для расширения емкости системы хранения данных HP MSA1500. На данный момент центр обработки данных имеет отказоустойчивое питание и современную систему кондиционирования мощностью 30 кВт.
В более современным новостях указана компания Элар:
В новой версии портала Национальной электронной библиотеки разработчики программного обеспечения НЭБ из компании «Элар» улучшили качество поиска и усовершенствовали интерфейс пользователей по работе с электронными ресурсами НЭБ.
Вероятно, компания Элар, так же выполняла оцифровку фондов, что указано на сайте компании. Для сканирования применяются сканеры собственного производства (или сборки, точной информации нет). После сканирования материалы конвертируются в подходящий формат:
После сканирования полученные цифровые копии проходят процесс программной коррекции, приводятся к наиболее удобному для чтения качеству. Зачастую при использовании профессиональных книжных сканеров для этого достаточно встроенных программных средств обработки.
Графические образы объединяются в электронные книги формата PDF. Текст почти всегда распознается — для этого ЭЛАР имеются особые программные продукты, способные распознать в том числе старинные шрифты. Проводится верификация и проверка орфографии. Для окончательной вычитки документа привлекаются профессиональные корректоры.[4]
Оцифровка проводится на промышленном уровне: этапы контроля качества, реставрация документов, специальные центры по оцифровке.[5]
Судя по отзывам о работодателе, вычитка текстов производится операторами и как и в любой корпорации, за наименее квалифицированный труд оплата производится минимальная.
Научная деятельность
В публичных отчета за 2021 и за 2020 года упоминается несколько направлений связанных с применением методов искусственного интеллекта в библиотечном деле.
Найти результаты этих достижений в открытом доступе не удалось.
У НЭБ есть организация на GitHub. Обновления в репозиториях очень редкие. Некоторые репозитории выглядят особенно странно, например, приложение которое показывает случайный файл с изображением. При почти полном отсутствии документации трудно сказать есть ли у НЭБ открытые общественно-полезные проекты.
В 2020 году проводился хакатон Распознайте это срочно!, задача была следующая:
Некоторая информация есть в специальном репозитории. Детальнее про задачу рассказано в вебинаре.
Просмотр документов
Точно определить происхождение средства для просмотра НЭБ не удалось, это или самописное решение или основанное на Readium/edrlab.
Интерфейс стандартный: основная часть с текущей страницей, а справа панель с эскизами страниц и поиском. Есть возможность скачать весь файл (1) или отдельную страницу (2). Слева внизу кнопки для изменения масштаба документа (3).
В настройках можно включить режим прокрутки, при котором можно скролить следующую страницу.
В материалах НЭБ есть инструкция по установке виджета просмотра документа на сторонние сайты. Актуальность и работоспособность инструкции не проверялись.
Поиск
На сайте НЭБ есть расширенный поиск по книгам. Присутствуют фильтры по автору, названию, году, издательству и другие, а так же по содержанию. Несмотря на красивую форму с фильтрами, поиск неудобен. Нельзя искать по точному совпадению фразы. Об этом есть старая тема на форуме НЭБ оставшаяся без ответа. Форум в целом заброшен и на нем нет сообщений после 2020 года.
Есть инструкция по поиску, но для предыдущих версий сайта.
Законодательство
Для функционирования Национальной электронной библиотеки разработаны специальные законодательные акты, в частности «Об утверждении Положения о федеральной государственной информационной системе "Национальная электронная библиотека" и методики отбора объектов Национальной электронной библиотеки».
Регламентировано пополнение фондов библиотеки через предоставление издателями обязательного экземпляра. Для упрощения процедуры передачи обязательного экземпляра в библиотеку разработан специальный портал.
Кроме законодательства государство финансирует НЭБ на суммы порядка сотен миллионов рублей.
Книжные памятники
Книжные памятники — раздел НЭБ в котором находятся книги отобранные по определенным критериям. Принадлежность книги к книжным памятникам определяется специальной экспертизой (вебинар). Разработка ведется в рамках национального проекта.
Значимых отличий в каталоге книжных памятников нет, отличия есть в самих книгах. Для книжных памятников есть особые требования к сканированию (400 dpi, True color 24 бит RGB, формату файла (PDF/A-1B) и другие. В рекомендациях предлагается использовать платное зарубежное программное обеспечение:
В процессе обработки изображений и сборки PDF файла предпочтительно использовать Adobe Photoshop и Adobe Acrobat Pro. Для сборки PDF можно использовать ABBYY FineReader[6]
Реестр книжных памятников находится на отдельной странице и содержит отдельный поиск.
Спецпроекты
На поддоменах портала НЭБ размещаются спецпроекты — отдельные тематические страницы с индивидуальным дизайном. Основная цель спецпроектов — привлечение аудитории.
Редакционный специальный проект – авторский материал, который представляет собой одностраничный интерактивный сайт с уникальным дизайном. Количество объектов до 50 штук.[7]
Обычно, на странице спецпроекта много ссылок на материалы НЭБ, как на отдельные книги, так и на коллекции. Спецпроекты могут быть посвящены известным личностям, территориям, известным событиям, или чему-то ещё:
greatpeter.rusneb.ru — Петр I
mayakovskiy.rusneb.ru — Маяковский
crimea.rusneb.ru — Крым
adygea.rusneb.ru — История Адыгейского языка
restorers.rusneb.ru — Библиотека реставратора
galactika.rusneb.ru — Галактика Гутенберга
goelro100.rusneb.ru — ГОЭЛРО
НЭБ Свет
НЭБ Свет — мобильное приложение, читалка для книг с фильмами, аудиокнигами и другими материалами. Трудно понять зачем это приложение нужно в отдельного проекта в рамках национальной библиотеки. Разработка ведется при поддержке министерства культуры.
Заключение
Национальная электронная библиотека — это крупный государственный проект. Аппаратная инфраструктура НЭБ, скорость и качество сканирования, количество оцифрованных материалов, количество людей задействованных в поддержании и развитии системы, всё это трудноосуществимо без финансовых средств имеющихся у НЭБ.
Что касается вычитки и окончательной оцифровки книг, то общедоступных достижений на сайте НЭБ не выложено. Конечно, кроме самих книг оцифровке и вычитке могли подвергаться библиотечные карточки которых тоже очень большое количество. Некоторые книги содержат текстовый слой, в проверенных экземплярах он содержит ошибки распознавания текста и, вероятно, не подвергался вычитке. Отдельные материалы указывают на исследовательские проекты связанные с анализом текстов и распознаванием, но результатов которые можно рассмотреть обнаружить не удалось.
Спецпроекты могут быть интересной идеей для пропаганды литературы на тему обновления общественных отношений, однако, здесь возникают сложности с ограничениями на подобную литературу.