Мир стремительно оцифровывается – в электронный вид переводятся не только деловые документы, но и научно-техническая документация, художественные произведения, исторические интерьеры, музейные экспонаты. Электронная версия – гарантия сохранности, несмотря на возможные катаклизмы. А еще оцифровка максимально расширяет общение и ускоряет взаимодействие.
SCAN: Технологии

Участок сканирования: от одного рабочего места до распределенного ввода документов

scan
, Текст: Павел Притула

Одной из сторон оцифровки является ежедневное наполнение информационных систем. С этой целью компании реализуют текущий ввод – отдельное рабочее место или глобальную инфраструктуру сканирования, распознавания и индексирования документов. Какие технологии при этом применяются?

С каждым годом количество переводимых в электронный вид документов растет. Участок текущего ввода – это уже давно не просто планшетный сканер, подключенный к компьютеру. Это комплекс программно-аппаратных средств, позволяющих выполнять оцифровку соответствующих по объему бумажных массивов быстро и качественно. Сегодня классический участок ввода включает:

• оборудование для сканирования расшитых и сшитых документов,
• программное обеспечение для обработки отсканированных образов, в том числе в потоковом режиме,
сервер распознавания текста,
• программное обеспечение индексирования и подготовки данных к загрузке в информационные системы.

По словам экспертов корпорации ЭЛАР, именно грамотный подход к реализации этих пунктов определяет общую стоимость и эффективность участка ввода.

Выбор оборудования

Все определяется самими документами и их количеством. Для классических управленческих и бухгалтерских документов, которые если и скреплены, то в большинстве случаев легко удаляемыми скрепками, подходят документные сканеры.

Нужно лишь подобрать оборудование, исходя из планируемого объема сканирования.


Случай из практики. Компания с потребностью сканирования 10 000 документов в день купила 3 офисных сканера с ресурсом 2500 листов по цене p51 тыс. за штуку. Ввиду регулярного превышения и неравномерного распределения нагрузки как по времени, так и по сканерам, за два года использования компания 21 раз обращалась за ремонтом в сервисный центр производителя (превышение объема сканирования контролируется внутренним счетчиком и признается негарантийным случаем). Суммарные затраты вместо p153 тыс. за два года составили p657 тыс. Суммарное время простоя сканеров – более трех месяцев. За эти деньги компания могла купить старшую модель в линейке, которая бы справилась с заявленным объемом документов и не потребовала ремонта.

Например, обычный офисный сканер стоимостью около p50 тыс. способен обрабатывать около 3000 листов в сутки. В таком предельном режиме его межсервисный интервал составляет ровно год (общий ресурс – около 1 млн страниц). Увеличение нагрузки, даже единоразовое, приводит к перегреву и повышенному износу элементов, что выливается в значительно большие затраты на расходные материалы и обслуживание. Причем если ролики заменить относительно недорого, то замена покрывшегося царапинами из-за перегрева сканирующего элемента выходит «в копеечку».

Если необходимо ежедневно обрабатывать большее количество документов, лучше приобрести оборудование профессионального класса с повышенными характеристиками. Номинально оно стоит заметно дороже, однако не потребует дополнительных ремонтов и расходных материалов. Недаром подобные сканеры используют ФНС, ФТС, Сбербанк – организации с документными потоками, исчисляемыми миллионами листов.

Немного по-другому обстоят дела с оцифровкой сшитых документов. Здесь используются планетарные сканеры, и скорость сканирования определяется парой сканер-оператор. То есть сканер должен снимать изображения быстро, обладать удобной эргономикой, а оператор должен быть обучен. Современные планетарные сканеры, – построенные как на базе фотоаппаратов, так и профессиональных матриц, – соответствуют этим критериям. Выбор конкретной модели скорее зависит от размера документов и необходимости повышенного качества (600 dpi).

Профессиональные широкоформатные сканеры - дорогое оборудование, требующее особых навыков работы. Необходимо потребовать от поставщика обучения сотрудников, которые будут работать с устройством.

Планетарные сканеры позволяют сканировать документы формата до А1. Для оригиналов большего формата применяются широкоформатные сканеры и комплексы высококачественного сканирования (КВС). Преимуществом подобного оборудования является возможность сканирования ветхих оригиналов – карт и технической документации. Для этого в протяжных сканерах используются специальные защитные конверты, а КВС в целом осуществляет сканирование в бесконтактном режиме.

Рабочее место загрузки в СЭД/учетную систему

Стандартный вариант участка ввода – обособленное рабочее место сотрудника бухгалтерии или канцелярии. Полученные со сканера изображения должны приводиться к единому утвержденному формату (группе форматов), поэтому рабочее место оснащается программами их обработки и распознавания.

При покупке профессионального оборудования в большинстве случаев программа обработки передается бесплатно, в комплекте со сканером. Программы распознавания чаще приобретаются отдельно.

Более того, программы часто встроены в сканер и могут самостоятельно осуществлять обработку непосредственно в процессе сканирования: выравнивать изображения, обрезать края, удалять пустые листы, проводить цветокоррекцию, объединять листы одного документа в многостраничные файлы и т.д. Поэтому задачей оператора остается загрузка подготовленных документов в соответствующую систему. В 80% случаев это делается через специальный интерфейс учетной системы путем заполнения карточки документа.

Классический участок сканирования – это сканер, ПО обработки и индексная форма, которая может быть реализована как отдельно, так и в самой системе, куда загружаются документы.

Показателен пример судебной системы: на участке сканирования используются планетарные и документные сканеры с единым сервером обработки. После сканирования сотруднику выводится отдельная индексная форма, помогающая в заполнении справочниками и подсказками. Подготовленный документ размещается на сервере в формате PDF, в имя файла программой заносятся реквизиты. Система судопроизводства распознает имя файла и автоматически связывает документ с соответствующими учетными данными дела. Такая схема реализована для исключения доступа сотрудников участка сканирования в систему судопроизводства.

Автоматическое индексирование – миф или реальность?

Все чаще компании с целью уменьшения ручного труда, ускорения регистрации документов и снижения количества человеческих ошибок применяют решения, основанные на автоматическом индексировании.

Однако подобную операцию можно осуществить только с печатными документами хорошего качества, для которых качество распознавания самого текста превышает 99%. Рукописный и некачественный текст распознается неуверенно, количество ошибок превышает средние показатели ручного ввода. То есть в ряде случаев это неэффективно, в других – неприемлемо.

Доверие к шаблонному распознавания высокое. Еще в 2005 году для РФФИ было реализовано решение, которое позволило автоматически извлекать данные из первичных бухгалтерских документов и формировать проводки в учетной системе без участия бухгалтера. Сегодня таких проектов уже сотни.

Стандартом рынка является применение шаблонного распознавания. Принцип прост: на электронный образ с распознанным текстом накладывается матрица, на которую нанесены области и соответствующие им правила извлечения. Любой попавший в область текст анализируется на соответствие требованиям и, при положительном результате, заносится в соответствующее поле индексной карточки. Если текст выходит за рамки очерченной области, он не индексируется, что является ошибкой.

Таким образом, распознавание по шаблону позволяет извлекать реквизиты с любых формализованных (например, акты, счета, накладные) и условно формализованных документов (например, договоры и приказы).

На рынке существуют несколько программ шаблонного распознавания с различной тарифной политикой, показывающих одинаково качественный результат на русском тексте. Лучше протестировать несколько решений – можно значительно сэкономить.

Альтернативой шаблонам является извлечение данных путем анализа текста. «Умная» система находит элементы в тексте, отвечающие заданным критериям, проверяет их по нескольким признакам, и при удовлетворении заносит текст в соответствующее поле карточки. Это направление сегодня активно развивается несколькими производителями ПО.

С помощью разработанных ЭЛАР технологий анализа текста и автоматического извлечения данных в 2013 году Главархиву Москвы удалось, вместо дорогостоящего ручного индексирования, в автоматическом режиме извлечь из текстов правоустанавливающих документов данные о персоналиях и адресах.

А для документов с недостаточно хорошим текстом активно применяется распознавание без индексирования. В этом случае сотрудники получают возможность искать информацию в документах с помощью полнотекстового поиска. Ошибки распознавания частично нивелируются применением поисковых технологий с механизмами нечеткого поиска.

Распределенная модель

Но что делать, если у компании несколько точек ввода? Поставить в каждой полный комплект ПО можно, но не выгодно. Для экономии бюджета разумнее создать централизованные сервисы. Одним из направлений, где распределенный текущий ввод документов является неотъемлемой частью бизнес-процессов, являются Объединенные центры обслуживания (ОЦО).

Объединенные сервисы создаются для оптимизации бухгалтерского, кадрового или ИТ-обслуживания предприятий – за счет централизации удается значительно сократить штат и затраты на процессы внутренней деятельности.

Классический вариант бухгалтерского ОЦО реализован в 2015 г. группой компаний «Фосагро». В головном офисе в г. Череповце создан костяк в виде группы квалифицированных специалистов (бэк-офис), ответственных за качественный финансовый учет. В остальных предприятиях группы созданы фронт-офисы – подразделения, ответственные за прием документов на местах и первичную обработку, способные обходиться минимальным штатом сотрудников.

В рамках ОЦО основной задачей стала максимально быстрая, исключающая потерю документов, доставка информации из фронт-офиса в бэк-офис «Фосагро». Для этих целей во фронт-офисах были созданы участки сканирования.

Распознавание и индексирование по шаблонам также используется в ОЦО. Например, в ОМК оно применяется для проверки документов, автоматически сопоставляя информацию из текста документа с данными учетной системы. Сотрудник сразу видит:

  • можно ли принимать документ к учету,
  • корректна ли сумма, нет ли дубликатов,
  • сходится ли общая сумма документов в комплекте с реестром и т.д.

1. Все поступающие от сотрудников комплекты документов проверяются, маркируются штрих-кодами, прокладываются листами-разделителями, и сканируются в поточном режиме (листы-разделители позволяют сохранить комплектность в электронном виде). После этого специалист фронт-офиса заполняет минимальный набор общих реквизитов на комплект (наименование контрагента, сумма, номер, кому направляется) и отправляет документы в бэк-офис. Бумага остается в архиве локального предприятия.
2. Обученный бухгалтер бэк-офиса мгновенно видит поступившие документы и проводит учетные операции на основании полученных скан-образов (часть полей заполняется автоматически). Цифровые копии ложатся в электронный архив, благодаря штрих-коду автоматически связываясь с данными учетной системы. Помимо штрих-кода, документам присваивается признак комплекта, что позволяет в дальнейшем в любой момент собрать исходный пакет документов.

Грамотная инфраструктура обработки документов позволила достигнуть заявленные показателей модели ОЦО по операционной экономии, скорости и качеству бизнес-процессов.

Участки ввода нужно создавать с умом. За помощью в подборе правильного оборудования, выборе оптимальных технологий распознавания и индексирования, штрих-кодов и прочих средств автоматизации лучше обращаться к специализированным компаниям, имеющим опыт подобных работ.