Текстология
Главная
Главная

Текстобзор: ИнфоРост

27.10.2022

  • Описание
  • Просмотр документов
  • Указатели
  • Поиск
  • Другие функции платформы
  • Сканирование
  • Исследования
  • Заключение

Описание

Платформа ИнфоРост (английская версия dlibrary) — CMS для библиотек и цифровых архивов. Разрабатывается примерно с 2010 года в компании ИнфоРост.

Платформа позволяет задать структуру сайта, управлять его наполнением, настроить его внешний вид. Платформа обладает развитыми средствами управления контентом, имеет современный и простой в использовании пользовательский интерфейс. Среди прочего эта система позволяет вводить любые метаданные, в том числе в библиотечных и архивных стандартах, предоставляет многофункциональный просмотрщик страниц, обеспечивает автоматическое формирование указателей, полнотекстовый поиск по метаданным и страницам, тайловый просмотрщик крупных изображений (например карт), размещение аудио и видео, систему управления ролями пользователей, автоматическое формирование отчетов статистики по использованию дискового пространства, по посещаемости.[1]

Система разработана на Ruby on Rails + PostgreSQL. Решение основано на свободных технологиях, но само является закрытым.

В настоящий момент мы не уверены, когда и по какой модели выпускать код платформы в качестве открытого. Мы даже не уверены, нужен ли вообще российскому информационному сообществу открытый код платформы ИнфоРост. А если нужен, то в каком формате лучше обеспечить разумную долгосрочную инфраструктурную поддержку такому проекту? Ответов на эти вопросы у нас пока нет.[2]

Использовать ИнфоРост можно в двух вариантах: развернуть на своём сервере и приобрести ресурсы и хранилище у компании.[3]

Примеры проектов на системе:

  • Электронная библиотека Государственная публичная историческая библиотека России

  • Российско-германский проект по оцифровке германских документов в архивах Российской Федерации

  • Архивы всемирно известных ученых-дефектологов (включает материалы по Загорскому эксперименту) (Видео-презентация)

Число проектов на платформе ИнфоРост неизвестно, предположительно оно должно быть в диапазоне 10-50 проектов.

Просмотр документов

Технология просмотра страниц — разработка компании и названа Docview.

Просмотрщик страниц (или Docview) ‒ это фирменная разработка ИнфоРост, он позволяет просматривать изображения при разных увеличениях, и обладает несколькими режимами работы. Прикрепленные к узлу изображения станут автоматически доступны на его странице в Docview. Docview легко может работать с тысячами страниц одновременно. Рассмотрим функциональные элементы просмотрщика в режиме постраничного просмотра. В разных режимах доступны разные возможности.[4]

Docview выглядит стандартно для такого рода программ и уступает в удобстве чтения по сравнению с программами для чтения PDF: например, нельзя перетягиванием мыши прокрутить изображение.

inforost01.jpg
inforost01.jpg

По сравнению с Vivaldi скорость работы выше, но в целом оба средства просмотра не очень удобны для чтения онлайн.

Присутствует функция скачивания отдельной страницы и всего файла. Но, вероятно, эти функции могут быть отключены, например, в гос. публичной исторической библиотеке возможность скачивания всей книги отсутствует:

Мы постоянно работаем над развитием электронной библиотеки, но на данный момент целиком скачать издание нельзя.[5]

Особенностью Docview является просмотр крупных изображений, например, карт.

Просмотрщик страниц крупного размера позволяет изучить отдельную страницу более подробно чем это позволяет Docview. Чтобы обеспечить такую возможность используются технологии тайловых карт на подобии тех, что использует Google Maps. Для любой страницы размещенной на Платформе администратор может создать карту щелчком мыши. После этого карта сгенерируется и ссылка на нее станет доступной из Docview. Данная технология позволяет без потери качества и без длительной загрузки обеспечить просмотр изображений разрешением до 32768 пикселей в ширину. Просмотрщик обеспечивает 32-х кратное увеличение и возможность работы в полноэкранном режиме.[4:1]

inforost01.jpg
inforost01.jpg
inforost01.jpg
inforost01.jpg
inforost01.jpg
inforost01.jpg

В Docview есть возможность отображения текста рядом с изображением.

inforost01.jpg
inforost01.jpg

Указатели

Каждый материал в системе может содержать метаданные в формате тип-значение. Возможными типами метаданных могут быть издательство, автор, серия и т. п. Набор типов настраивается администратором системы.

inforost01.jpg
inforost01.jpg

На основе этих данных строится указатель.

inforost01.jpg
inforost01.jpg

Указатель просто группирует материалы по типу метаданных. При выборе типа у в указателе появится список значений этого типа.

inforost01.jpg
inforost01.jpg

При выборе значения появится список материалов в которых у выбранного типа метаданных установлено указанное значение.

inforost01.jpg
inforost01.jpg

Поиск

В системе есть расширенные возможности поиска включая поиск по метаданным, поиск по содержанию и расширенный язык поисковых запросов.

inforost01.jpg
inforost01.jpg

Поиск происходит по тексту в узлах, их метаданным, и текстам их страниц. Движок поиска понимает грамматику многих языков, а также структурированные запросы поисковика Lucene. ... Какие метаданные участвуют в поиске и какие из них отображаются в результатах может настраиваться администратором.[4:2]

Синтаксис поисковых запросов описан на отдельной странице. В качестве поискового движка используется Lucene.

Другие функции платформы

Платформа ИфоРост так же имеет стандартные для CMS функции: контроль доступа, пользовательские роли, редактирование отдельных страниц. Есть отдельные функции для работы с большим количеством документов: массовое изменение метаданных, шаблоны метаданных, разделение коллекций и др. [4:3]

Сканирование

Помимо средств для разработки, Компания ИнфорРост предоставляет оборудование для сканирования и последующей обработки изображений. Обработка заключается в обрезании и выравнивании сканов книг, про средства распознавания текста информации нет.[6]

inforost01.jpg
inforost01.jpg

Исследования

Инфорост интересен не только технологической платформой. Авторы не просто делают продукт, а развивают и исследуют область оцифровки и представления цифровых архивов. В этом плане очень интересен сайт одного из участников проекта Фесенко Кирилла на котором расположено большое количество ссылок на тему цифровых архивов.

inforost01.jpg
inforost01.jpg

Полезные материалы с сайта Фесенко Кирилла материалы:

  • Современные требования исследователей к интерфейсу и функциональности электронных библиотек и архивов

  • Открытое письмо авторам “Рекомендации для библиотек по организации собственных репозиториев открытого доступа”

  • Предложение по созданию ассоциации "Живой Архив" (проект)

  • Организация оцифровки и размещения изданий в Открытой электронной библиотеке ГПИБ

  • Подход к описанию малоизученных архивов ученых-дефектологов (проект)

Заключение

ИнфоРост решает определенные задачи — предоставление доступа к цифровым архивам сканированных изображений. Есть модули для полного цикла работы архива: сканирование, обработка, размещение на сайте и отображения. Детали, вроде расширенного поиска, показывают, что платформа разрабатывается с учетом реальных потребностей.

Целей распознавания текста, на данный момент, в проекте нет.

Отдельно стоит отметить обозначенные выше исследования области цифровых архивов, это очень хорошее исключение в рамках подобных проектов.


  1. ИнфоРост — Платформа ↩︎

  2. Открытое письмо авторам “Рекомендации для библиотек по организации собственных репозиториев открытого доступа” ↩︎

  3. ИнфоРост — Услуги ↩︎

  4. ИнфоРост — Документация ↩︎ ↩︎ ↩︎ ↩︎

  5. Электронная библиотека ГПИБ — К читателям ↩︎

  6. ИнфоРост — Оцифровка ↩︎

Последниее изменение: 15.04.2025, 06:34