Мир стремительно оцифровывается – в электронный вид переводятся не только деловые документы, но и научно-техническая документация, художественные произведения, исторические интерьеры, музейные экспонаты. Электронная версия – гарантия сохранности, несмотря на возможные катаклизмы. А еще оцифровка максимально расширяет общение и ускоряет взаимодействие.
SCAN: Рекоммендации

Качественное сканирование и индексирование: что предлагает рынок?

scan
, Текст: Соломатин Павел

Крупные компании и нишевые игроки декларируют разное качество оцифровки. Какой уровень необходим и достаточен вашим документам?

Заказчику выгодно получить за фиксированную цену максимально качественный ресурс, исполнителю важно избавиться от расходов на пересканирование и переиндексирование.

Представьте, что ошибки сканирования обнаружились после передачи электронного ресурса заказчику и возврата оригиналов документов, скажем, в Новый Уренгой. Пересканирование будет крайне долгим и дорогим процессом, невыгодным заказчику по срокам, а исполнителю – в связи с расходами.

Поэтому специализирующиеся на оцифровке компании стараются всячески снизить процент брака: используют жесткую регламентацию, нормирование работ и внутренние проверки. Как на любом производстве, выстраивается сложная система контроля качества, позволяющая получать на выходе результат с заданной точностью. Ниже подробно рассказывается, как измеряется качество и какой уровень точности необходим и достаточен для оцифровки.

Организация контроля

Оцифровка состоит из двух этапов: сканирования и ретроконверсии. В них применяются различные технологии и оборудование, поэтому гарантируемый уровень качества, а также стоимость его достижения, значительно отличаются.

Классическая система контроля результатов оцифровки состоит из нескольких уровней (информация предоставлена Производственным управлением корпорации ЭЛАР). Первый уровень – внутренний сплошной контроль результатов сканирования и ретроконверсии в ходе выполнения работ. Этот этап выполняется непосредственно операторами-исполнителями в соответствии с технологией проекта. Для снижения количества ошибок могут применяться технологии верификации, двойного ввода, автоматизированные проверки и пр. Ко второму уровню контроля относится выборочная проверка результатов, выполняемая руководителем группы сканирования/ретроконверсии. Третий, главный, уровень – выходной контроль, выполняемый Отделом контроля качества (ОКК). Без положительного результата проверки ОКК информационный ресурс не может быть сдан ни внешнему, ни внутреннему заказчику. Причем проверка проводится уже в том формате, в котором ресурс будет передаваться.

Если выборка (например, 10% ресурса) не прошла проверку, она отдается на доработку, и в следующий раз проверяется уже 20%. Если доработанная часть не проходит повторную проверку, она снова возвращается на доработку, после чего проверяется уже 40%. Такая строгость ОКК позволяет добиться очень высокого уровня качества.

Третий этап – ключевой. В зависимости от требований проекта, могут применяться разные схемы контроля: от проверки произвольных выборок в процессе работ (% от ресурса) до полного аудита всех электронных копий и данных. Для обеспечения непрерывности производственного цикла проверочные массивы обычно передаются в ОКК непосредственно в процессе сканирования или ретроконверсии.

В случае нестандартных задач, с которыми производство сталкивается впервые или редко, ОКК предварительно изучает тестовый массив, определяет работы с повышенным риском ошибок и формирует рекомендации по изменению технологий обработки этих документов и данных. Любые тестовые массивы всегда проходят полный аудит.

Все проверки и их результаты регистрируются в автоматизированной системе, в которой также отслеживаются сроки выполнения работ: при необходимости соблюдения план-графика к работе ОКК привлекается дополнительный, заранее обученный, производственный персонал.

Качество в сканировании

Большинство компаний на рынке сегодня заявляют о качестве в 99%. То есть, гарантируется «не более» 1% ошибок. Но это много: если вы сканируете книгу в 300 страниц, при качестве 99% вы уже получите 1–3 дефектных образа. Пропущенная страница в книге оборвет рассказ на самом интересном месте.

Некачественный образ чертежа в нужный момент приведет к затягиванию процесса устранения поломки и остановке производства.

Образ картины с засветками и дефектами, даже выполненный в высоком разрешении, не подойдет для создания виртуальных выставок и реставрации, и тем более не может являться страховой электронной копией.

Пропущенная страница в книге оборвет рассказ на самом интересном месте.

Так на какое же качество ориентироваться?

При сканировании существует множество вариантов ошибок. Однако определить дефектный скан-образ довольно легко просмотром файлов или путем программной проверки яркости, контрастности, цветопередачи и других параметров изображений.

Поэтому компании – лидеры отрасли готовы гарантировать качество гораздо выше 99%. Например, на производстве ЭЛАР сегодня используются внутренние критерии качества сканирования (допустимый уровень определяется как соотношение количества выявленных дефектов к общему количеству образов).

Критерии качества сканирования

Дефект образа Пример Допустимый уровень Результат
Дефект первого класса (требующий повторного сканирования) – Отсутствие страниц
– Искажение текста
– Расфокусировка образа и наличие «мусора», влияющие на читаемость информации
– Образы с некорректным цветовым режимом, не подлежащие программному исправлению и т.д.
0,05% 99,95% качество. Практически исключено наличие дефектов, устранение которых потребует расходов на выезд/транспортировку и повторное сканирование оригиналов.
Дефект второго класса (не требующий повторного сканирования) – Наличие дублей
– Перепутанные страницы
– Наличие образов с расфокусом или некорректным цветовым режимом, который может быть исправлен, и т.д.
0,20% 99,8% качество. Не более двух некачественных образов на 1000. Причем их исправление не требует пересканирования и может быть выполнено оперативно в рамках гарантийного периода на созданный ресурс.

Это стандартные критерии для всех реализуемых компанией проектов, если только сам заказчик не снизил планку качества с целью уменьшения стоимости. Но такое случается редко, так как клиент не заинтересован в затягивании работ из-за длительного устранения ошибок. Кроме того, разница в стоимости 99% и 99,95% несущественная (это подтверждается, например, анализом конкурсов zakupki.gov.ru).

Качество должно быть во всем. Интересный случай произошел в одном музее: были испорчены все полученные за рабочий день образы картин. Оказалось, что виной тому – яркая футболка оператора сканирования, которая давала цветовое пятно на скане, отражая подсветку сканера. Некорректная цветопередача образов была обнаружена ОКК, работу пришлось переделывать. Во избежание подобных непредвиденных расходов опытные компании используют специальную безбликовую одежду.

Качество в ретроконверсии

Ошибки в ретроконверсии гораздо сложнее найти, зато они не требуют пересканирования и в большинстве случаев могут быть исправлены самим заказчиком или исполнителем (если это позволяет договор, крупные компании хранят страховые копии ресурса как минимум в течение гарантийного периода). Лишь изредка проверку ретроконверсии удается автоматизировать, если заказчик может предоставить поверочную базу данных. Поэтому 100% качество индексирования хоть и достижимо, но стоит дорого и используется редко.

Как и в случае сканирования, традиционный для рынка показатель – 99%. Однако за счет выстроенной системы контроля качества при соизмеримой стоимости работ в ЭЛАР снова оперируют более высокими критериями.

Критерии качества ретроконверсии

Ошибки ретроконверсии Пример Допустимый уровень Результат
Ошибки первого класса – критические, приводящие к потере информации – Ошибка поля, то есть информация ошибочно введена в другое поле, либо не введена
– Дубль записи в БД
– Неверная структура записи в БД
– Некорректное выделение главного документа/пропущенная запись и т.д.
0,2% 99,8% качество. Гарантированное наличие не более двух ошибочных полей или записей БД на 1000 единиц.

Важно! Качество может измеряться по двум типам ошибок – в конкретных полях (например, в фамилиях персоналий при индексировании постановления о выделении земельных участков), либо по полным записям – карточкам реквизитов (в этом случае ошибочной считается вся карточка).

По нормативам производства ЭЛАР суммарный уровень критических ошибок не может превышать 0,2%: контролем качества допускается не более двух ошибочно введенных полей или не более двух неправильных записей в БД на 1000 единиц.

Для сравнения: при 99% качестве это будет 10 неверных полей или 10 неверных карточек с реквизитами, что не позволит связать документы с учетной системой. Разница более заметна, если представить ее графически.

Сравнение декларируемых уровней качества ретроконверсии

При ретроконверсии 100 тыс. записей с 99% качеством уже имеется вероятность 1000 критических ошибок. Мало того, что это много, так еще и их устранение займет много времени. Качество 99,8% позволяет получить соизмеримое количество ошибок (2000) при ретроконверсии 10-кратно большего ресурса (1 млн записей). Таким образом, чем больше документов необходимо перевести в электронный вид, тем выше должен быть уровень качества.

Гораздо менее значимыми и в меньшей степени влияющими на поиск и работу с информацией являются ошибки ретроконверсии второго класса, связанные с неточностями в символах, некорректным проставлением гиперссылок в выходных БД и файлах (стандартные форматы – PDF, MTIFF) и т.д. Допустимый уровень ошибок второго класса также не может превышать 0,2%.

Наиболее распространенный пример такой ошибки, возникающей при автоматическом распознавании, – проставление знака нижнего подчеркивания вместо пробела. Эта проблема легко устраняется автоматизированной проверкой БД.

Оператор ввода также может ошибиться в прочтении или наборе символа, причем даже самого простого – например, набрать Сиборов вместо Сидоров, или случайно использовать одну букву в латинской раскладке. Для защиты от подобных ошибок на производстве применяются программные средства контроля и такие технологии как двойной ввод, когда информация заносится в БД только после одинакового ввода двумя операторами.

Добиться более высокого уровня качества можно только дорогостоящими повторными проверками. Такие проекты известны, но их стоимость выходит за рамки рыночных цен, поэтому компании осознанно не пытаются декларировать меньшее количество ошибок.

Скупой платит дважды

Рынок оцифровки в России сформирован. В зависимости от бюджета заказчик может выбрать свою стратегию как по объему оцифровки (количеству сканируемых документов и извлекаемых данных), так и по качеству. Однако попытки сэкономить на качестве обычно оборачиваются длительным исправлением ошибок, в том числе за счет заказчика. Как говорится, скупой платит дважды.

Поэтому выгодней выбирать исполнителя оцифровки из числа крупных компаний, так как в этом случае клиент получит максимальное качество при заданной цене; исправление ошибок за счет исполнителя в рамках гарантийных обязательств.