Текстобзор 24: ruarxive.org — анализ нейросетью
29.02.2026
Анализ текстов сайта на признаки AI-генерации. Сгенерировано моделью Sonnet 4.6.
✅ Признаки AI-генерированных текстов
1. Унифицированная механическая структура во всех статьях
Все посты из января 2025 и файлы kb/about/ имеют идентичный шаблон:
- H2 → H3 → маркированные списки по 3–4 пункта
- Везде блок «Решение» / «Урок» / «Вывод»
- Везде раздел «Выводы» с 4 пронумерованными пунктами
- Везде раздел «Связанные материалы» в конце
2. Дублирование контента между статьями
Раздел про «End of Term Presidential Harvest 2016» появляется почти дословно и в digital-preservation-challenges.md, и в international-digital-preservation.md. Блок «Вызовы» (финансирование / волонтёры / время) копируется между несколькими файлами.
3. Пустые «резюмирующие» выводы
Раздел «Выводы» просто пересказывает уже сказанное без добавления смысла. Пример из kb/about/project-history.md:
## Выводы
История проекта Ruarxive показывает:
1. **Важность работы**: Проблема потери цифрового наследия критична
2. **Масштаб вызовов**: Требуется много усилий и ресурсов
3. **Прогресс**: Проект развивается и растёт
4. **Необходимость продолжения**: Работа должна продолжаться
4. Разделы-«заглушки» без реального контента
Период 2018–2021 описан абсолютно обобщёнными фразами без единого конкретного факта (из kb/about/project-history.md):
## 2018-2021: Расширение деятельности
### Развитие инструментов
- Создание специализированных инструментов для архивации
- Разработка автоматизированных решений
- Улучшение процессов архивации
### Расширение охвата
- Архивация социальных сетей
- Сохранение медиа-контента
- Работа с различными типами данных
5. Эмодзи в заголовках
Характерный маркер AI-текста — эмодзи в H3-заголовках (blog/2025-12-13-december-updates.md):
### 📱 Новое: Документация по TDL (Telegram Downloader)
### 🌐 Обновлены руководства по архивации сайтов
### 🛠️ Расширена документация по инструментам Ruarxive
🟢 Тексты, написанные человеком (для сравнения)
about/intro.md резко отличается: живая речь, конкретные детали (Мемориал, Эхо Москвы, конкретные форматы ZIP/GZ/XLSX), реальные URL, неформальный тон. Цитаты в blockquote-блоках в других статьях тоже написаны человеком.
Итог
Тексты из блога за январь 2025:
blog/2025-01-15-digital-preservation-challenges.mdblog/2025-01-15-international-digital-preservation.mdblog/2025-01-15-why-government-websites-disappear.md
и файлы базы знаний:
kb/about/project-history.mdkb/about/lessons-learned.md
— с очень высокой вероятностью сгенерированы нейросетью. Паттерн типичный: взяты несколько реальных фактов из живых текстов (цитаты, конкретные цифры), а вокруг них сгенерирована раздутая структура с повторяющимися шаблонными разделами.