Текстология
Mastodon
Telegram
Mastodon
Telegram

Текстобзор 24: ruarxive.org — анализ нейросетью

29.02.2026

Анализ текстов сайта на признаки AI-генерации. Сгенерировано моделью Sonnet 4.6.

✅ Признаки AI-генерированных текстов

1. Унифицированная механическая структура во всех статьях

Все посты из января 2025 и файлы kb/about/ имеют идентичный шаблон:

  • H2 → H3 → маркированные списки по 3–4 пункта
  • Везде блок «Решение» / «Урок» / «Вывод»
  • Везде раздел «Выводы» с 4 пронумерованными пунктами
  • Везде раздел «Связанные материалы» в конце

2. Дублирование контента между статьями

Раздел про «End of Term Presidential Harvest 2016» появляется почти дословно и в digital-preservation-challenges.md, и в international-digital-preservation.md. Блок «Вызовы» (финансирование / волонтёры / время) копируется между несколькими файлами.

3. Пустые «резюмирующие» выводы

Раздел «Выводы» просто пересказывает уже сказанное без добавления смысла. Пример из kb/about/project-history.md:

## Выводы

История проекта Ruarxive показывает:

1. **Важность работы**: Проблема потери цифрового наследия критична
2. **Масштаб вызовов**: Требуется много усилий и ресурсов
3. **Прогресс**: Проект развивается и растёт
4. **Необходимость продолжения**: Работа должна продолжаться

4. Разделы-«заглушки» без реального контента

Период 2018–2021 описан абсолютно обобщёнными фразами без единого конкретного факта (из kb/about/project-history.md):

## 2018-2021: Расширение деятельности

### Развитие инструментов

- Создание специализированных инструментов для архивации
- Разработка автоматизированных решений
- Улучшение процессов архивации

### Расширение охвата

- Архивация социальных сетей
- Сохранение медиа-контента
- Работа с различными типами данных

5. Эмодзи в заголовках

Характерный маркер AI-текста — эмодзи в H3-заголовках (blog/2025-12-13-december-updates.md):

### 📱 Новое: Документация по TDL (Telegram Downloader)
### 🌐 Обновлены руководства по архивации сайтов
### 🛠️ Расширена документация по инструментам Ruarxive

🟢 Тексты, написанные человеком (для сравнения)

about/intro.md резко отличается: живая речь, конкретные детали (Мемориал, Эхо Москвы, конкретные форматы ZIP/GZ/XLSX), реальные URL, неформальный тон. Цитаты в blockquote-блоках в других статьях тоже написаны человеком.


Итог

Тексты из блога за январь 2025:

  • blog/2025-01-15-digital-preservation-challenges.md
  • blog/2025-01-15-international-digital-preservation.md
  • blog/2025-01-15-why-government-websites-disappear.md

и файлы базы знаний:

  • kb/about/project-history.md
  • kb/about/lessons-learned.md

— с очень высокой вероятностью сгенерированы нейросетью. Паттерн типичный: взяты несколько реальных фактов из живых текстов (цитаты, конкретные цифры), а вокруг них сгенерирована раздутая структура с повторяющимися шаблонными разделами.

Последнее изменение: 28.02.2026, 13:40