Проекты распознавания данных на базе ПО ABBYY FlexiCapture
Основным видом деятельности компании CORRECT является реализация проектов по распознаванию бумажных документов и переводу их в электронный вид. Каждый проект разрабатывается индивидуально под Заказчика, учитывая его требования, пожелания и особенности организации бизнес-процессов.
Суть проекта по распознаванию данных сводится в следующую схему:
- бумажные документы сканируются,
- скан-копии отправляются на сервер распознавания ABBYY FlexiCapture, данные извлекаются (программное распознавание даёт до 95% готовых данных, не требующих доработки),
- оставшиеся нераспознанными данные верифицируются операторами,
- полные и точные данные выгружаются в учетную систему компании.
СКАНИРОВАНИЕ
Бумажные документы оцифровываются при помощи сканирующего устройства (сканера или МФУ), или добавляются вручную из обычной папки, где они хранятся, или загружаются автоматически из «горячей» папки, или поступают к обработке посредством электронной почты. Для сканирования наиболее удобны потоковые сканеры с системой автоподачи документов. Поддерживаемые графические форматы для загрузки в систему распознавания: PDF, BMP, PCX, PNG, JPEG, JPEG 2000, DjVu, TIFF, DCX.
РАСПОЗНАВАНИЕ
Основной процесс извлечения данных реализуется посредством программного обеспечения ABBYY FlexiCapture, которое успешно работает с различными типами документов:
- Документы с жесткой структурой или структурированные документы: анкеты, экзаменационные тесты, бланки, страховые формы, запросы на выплату медицинской страховки, налоговые декларации и т.п.
- Слабоструктурированные документы: счета, заказы на покупку, транспортные накладные и т.п.
- Неструктурированные документы: письма, контракты, статьи т.п.
Процесс настройки ABBYY FlexiCapture состоит из нескольких этапов. Сначала производится установка системы и настройка гибких описаний для обработки документов. После того как создан проект со всеми настройками и шаблонами, все типы документов могут обрабатываться в одном потоке.
Программное обеспечение ABBYY FlexiCapture позволяет распознавать печатные символы (технология OCR) и включает технологию интеллектуального распознавания рукопечатных символов (ICR), а также технологию распознавания штрихкодов (1D и 2D), распознавания меток и полнотекстового распознавания неструктурированных документов с последующим экспортом в формат PDF с возможностью полнотекстового поиска.
Стадия распознавания включает в себя предварительную обработку изображения, классификацию документов и извлечение из них данных и текста с последующим автоматическим контролем данных.
- Предварительная обработка изображений
Импортированные изображения документов могут быть подвергнуты предварительной обработке для обеспечения максимального качества распознавания. Предварительная обработка подразумевает ряд операций по корректировке ориентации страниц, инвертированию, удалению перекосов и шума.
- Автоматическая классификация документов
ABBYY FlexiCapture автоматически классифицирует документы с нежестко заданной структурой любой сложности, включая многостраничные документы с разным количеством страниц, многостраничные таблицы и документы, имеющие при себе приложения в виде картинок и текстов.
- Извлечение данных и текста
После наложения шаблонов и обнаружения необходимых полей из них извлекаются данные при помощи технологий распознавания. Неструктурированные документы распознаются при помощи технологии полнотекстового распознавания для получения PDF-файлов с возможностью полнотекстового поиска.
- Автоматический контроль данных
Наиболее распространенные типы правил контроля данных включают в себя проверку формата чисел и дат, проверку по базе данных, проверку сумм, замену значений из списка, нормализацию дат и цен. Для многих типов данных имеются словари разрешенных слов, которые также могут использоваться в процессе контроля данных.
ВЕРИФИКАЦИЯ
Этот этап требует больше ручного труда, чем остальные. Верификация – это окончательная проверка символов, которые могут быть неуверенно (ненадежно) распознаны. Для ускорения и упрощения процесса верификации в ABBYY FlexiCapture имеет удобный интерфейс, который предлагает режим групповой верификации (больше всего подходит для проверки меток и цифр), верификации полей (для проверки текстовых полей), и верификации в окне «Документ» (для корректировки правил).
ЭКСПОРТ
Извлеченные данные могут быть экспортированы во внешние базы данных или в файлы, переданы в бизнес-приложения или системы электронного документооборота. Данные могут экспортироваться в чистом виде или вместе с приложенными изображениями и текстами. Документы могут сохраняться в формате PDF с возможностью полнотекстового поиска.
ABBYY FlexiCapture поддерживает широкий спектр форматов сохранения данных (XML, XLS, DBF, CSV, TXT) и изображений (TIFF, JPEG, JPEG 2000, PDF, PDF/A, PCX, BMP, PNG).
Решения на основе ABBYY FlexiCapture позволяют компаниям, организациям, крупным корпорациям, правительственным структурам и образовательным учреждениям, автоматизировать процесс ввода данных в информационные системы, снизить затраты и тем самым повысить качество обслуживания клиентов.
Материалы по описанию ПО ABBYY FlexiCapture взяты с официального сайта www.abbyy.ru
преимущества и выгоды:
-
Снижение нагрузки на специалистов
-
Снижение средней стоимости обработки
-
Повышение производительности труда