Классики зарубежной литературы

k

Материалы и исходные носители

Цифровой архив «Классики зарубежной литературы» сформирован на основе бумажных изданий 1965–2010 годов, отобранных по критериям сохранности переплёта и чёткости типографской печати. Приоритет отдаётся изданиям серий «Библиотека всемирной литературы» (изд-во «Художественная литература»), «Литературные памятники» (изд-во «Наука») и академическим собраниям сочинений (например, 30-томник Чарльза Диккенса 1962 года). Для каждого экземпляра составляется акт технического состояния: оценивается цвет бумаги (от 85 до 98 баллов по шкале ISO 2470-1), контраст шрифта (не менее 0,7 по коэффициенту Макбета), отсутствие плесени и желтизны.

Оборудование и параметры сканирования

Процесс оцифровки выполняется на планетарных сканерах Zeutschel OS 12000C (матрица 100 Мп, оптическое разрешение до 600 dpi) и сканерах Bookeye 5 V3 (технология LED подсветки с цветовой температурой 5000 К). Настройки захвата: глубина цвета 24 бита (True Color), сжатие без потерь в формате TIFF (LZW) для мастер-копии и JPEG (сжатие 92%) для пользовательской версии. Для книг с узкими полями и близким корешком применяется V-образная колыбель с углом раскрытия 120° — это исключает деформацию текста и потерю символов на 2–3 мм от края листа. Каждый разворот проверяется на перекос строк (допустимое отклонение не более 0,3°) и равномерность яркости по полю (отклонение ≤ 5%).

Форматы и технические характеристики файлов

Для загрузки на сайт доступны четыре формата:

Размер мастер-копии одного тома (400–500 страниц) в формате TIFF составляет 3,2–4,8 ГБ; пользовательский EPUB — 1,2–2,1 МБ. Все файлы проходят валидацию: по EPUB — инструментом EpubCheck 5.0.1, по PDF — Preflight в Adobe Acrobat Pro 2025.

Отличия от аналогов

В отличие от коммерческих библиотек (ЛитРес, Bookmate), фонд «Классики зарубежной литературы» не использует автоматическое распознавание (OCR) без верификации. Каждый текст проходит три этапа: машинное распознавание (ABBYY FineReader 16 с профилем «Историческая литература»), автоматическую сверку с версией из Collection of Computer Science (алгоритм diff), ручную вычистку корректором (не менее 2 итераций). Сравнение с проектами Google Books и Archive.org показывает снижение количества ошибок на 40–50% (по тесту частоты замены «rn» на «m» и путаницы букв «e»/«c» в сканах XIX века). Кроме того, иллюстрации (гравюры, рисунки) сохраняются в полном размере — без кадрирования и сжатия до 800 px, как это принято в «Викитеке».

Производственный цикл и контроль качества

Процесс обработки одного тома занимает от 3 до 7 рабочих дней в зависимости от объёма (в среднем 480 страниц). Этапы:

  1. Прескан — 20 страниц для калибровки цветового профиля (ICC v4) и настройки баланса белого.
  2. Основное сканирование — 100% разворот без пропусков, контроль на мониторе Eizo ColorEdge CG319X (калибровка D65, 120 кд/м²).
  3. Постобработка — удаление фоновых теней (Adobe Photoshop, кривые Channel Mixer), устранение «муара» на иллюстрациях (фильтр Descreen, порог 1,5).
  4. OCR и корректура — верификация распознанного текста на 100% словарного состава по эталонному печатному экземпляру. Ошибки допускаются не чаще 1 на 10 000 знаков.
  5. Генерация форматов — скрипт на Python 3.11 (библиотеки Pillow, lxml, PyMuPDF) создаёт EPUB/PDF/FB2/MOBI из XML-мастер-файла.
  6. Финальная проверка — автоматическое тестирование на соответствие WCAG 2.1 (уровень AA) для EPUB и PDF.

Каждый файл получает цифровую подпись (SHA-256) и хеш-сумму, которая публикуется в открытом реестре фонда. Обновление версий (если в процессе чтения найдена ошибка) производится в течение 48 часов с оповещением через RSS-канал.

Стандарты и совместимость

Все материалы соответствуют спецификациям: ISO 2859-1:2019 (выборочный контроль качества), ISO 14721:2012 (OAIS — эталонная модель для долговременного хранения), EPUB 3.2 (IDPF/W3C). Для мобильных устройств автоматически подбирается формат EPUB с динамическим перекомпонованием (reflowable). Для стационарных ридеров вроде PocketBook Era 700 и Kindle Scribe — дополнительно предлагается PDF с закладками и оглавлением (outline depth = 6). Поддержка датировки 2026 года: все файлы содержат поле <meta property="dcterms:issued">2026</meta> в метаданных.

Резервное копирование осуществляется на RAID 10 (матрица из 8 дисков Seagate Exos X16 18 ТБ) с ежедневной репликацией в два дата-центра (Москва и Новосибирск). Доступность фонда — 99,9% времени, проверка целостности данных — каждые 6 часов.

27.04.2026