Вы находитесь на странице: 1из 14

Содержание

IQ бот: руководство по созданию своего шаблона документов ...............................................2


Знакомство с системой ..............................................................................................................2
Create. Создание шаблона. ........................................................................................................3
Исправление ошибок распознавания и проверка правильности извлекаемых данных ......7
I
Q
В данном руководстве мы узнаем, как создать кастомный шаблон документа для IQ
бот:
бота для руководство
извлечение по созданию
требуемых своего шаблона
данных документа. документов
В примере будет использован
документ на английском языке, данный в системе как пример документа.
При изучении возможностей системы с помощью документа на английском языке,
создание шаблона документов на русском языке не вызовет затруднений.
Знакомство с системой
Рабочей системой является IQ bot из AA Community Edition

Создание и применение шаблона состоит из нескольких этапов:


1. Create – создание полей и таблиц для извлечения из самого шаблона и загрузка
документа(ов) подходящих под созданный шаблон
2. Classify – система классифицирует и разделяет загруженные документы по группам
по их сходству
3. Train – «обучение» бота исправление ошибок распознавания и проверка
получаемого результата
4. Production – создание роботов для извлечение данных на основе созданного
шаблона

1) Нажимаем Get Started для перехода к этапу «Create»


Create. Создание шаблона.
Для правильного заполнения данного этапа прежде необходимо изучить
предоставленный нам документ.
Документ состоит из полей с уникальной информацией (Кому продано, куда
доставить и т.д.) и таблицы, где перечислены продукты проданые покупателю.
2) Выбираем во вкладке тип документов «Other», это для всех документов не
принадлежащих предусмотренным шаблонам или не на основных языках
системы(в том числе и русский)
3) Заполняем остальные пункты:
 Instance name – название вашего шаблона для навигации, если их
несколько
 Description – описание шаблона
 Custom document type – название вашего типа документа
 Primary language of documents – язык используемый в ваших документах.
Поддерживает 190 языков, в том числе и русский.
4) Загружаем выбранный нами документ(ы)

5) Вводим поля и поля таблицы, которые хотим извлечь. Нажимаем «Create


instance and analyze»
 Поля (Form fields) – единожды повторяющееся информация в каждом
документе
 Поля таблицы (Table/repeated section fields) – название столбцов, которые
мы хотим извлечь в таблицу
Заполняем так же как они написаны в документе, это упростит инициализацию их
в документе.

После нажатия дождитесь конца анализа документа


Исправление ошибок распознавания и проверка правильности извлекаемых
данных
Состоится переход на страницу документа с распознанными данными и меню
исправления для полей и таблиц

1) Сверяем данные по каждому пункту.


 Data type – тип данных который мы выгружаем в данном поле(текст,
чиловые значения, дата и ещё два которые нужные для проверки чекбоксов)

 Field label – Название поля, с которого обычно начинается используется для


того, чтобы убрать его из требуемого нам значения. Например, если нам
требуется взять ИНН, а программа вместо с номером распознаёт и само
слово в поле Field value (ИНН: 12345678910), то при указании в данном
поле «ИНН:» на выходе мы получим только: 12345678910
 Field value – значение, которое нам нужно извлечь из документа. Обычно
его приходится вручную указывать на этапе редактирования.

Как видно в значение программа указала неверный вариант редактируем его,


нажимая на нужное выделенное поле программой или самостоятельно его фуделив с
помощью функции «Draw»
Делаем такие же действия для всех полей. Если программа считает, что всё
правильно распознано горит зелёная галочка.

Программа не смогла распознать поле «Invoice number» так как не смогла найти
прямого соответствия. Укажем то, что мы имели в виду.
Указываем формат дата для Invoice Date

2) В Table repeated section мы указываем поля таблицы, из которых нужно извлечь


данные

Где:
 Data type – аналогично Fields
 Column name – имя столбца
 Column value – значения для извлечения. Но в данном поле мы не указываем
сами значения, а опять же область названия таблицы. Программа сама поймёт,
что под этой областью находятся нужные значения.
Указываем столбец для Item number, так он опять не был распознан.
3) После того как все поля и поля таблиц правильно указаны нажимаем на see
extraction results. Это предпросмотр полученных значений для извлечения и
выявления ошибок при извлечении.

Мы что программа не смогла извлечь Item number, хотя поле исправлено. Нажимаем
Back to training, чтобы исправить ошибку.
Исправление возникших ошибок и упущений
Итак, в данном примере программа не прочитала Item number, а также не был
добавлено поле Invoice Amount.
1) Данные в столбце Item Number не были извлечены, так как программа
воспринимает данные столбца только под указанной областью в Column Value, а
выделенная ранее область не соприкасается с областью значений под ним.
Исправляем. Желательно так же проверить совпадает ли тип данных со с типом
данных в столбце.
2) Зайдём в Table/section settings в поле Best field for table/repeated section (required)
должно быть указано поле, у которого заполнены все строки, так как по этому
столбцу он будет сверять количество строк внутри таблицы. Также есть функция
End of table/section indicator, с помощью которой можно указать на конец таблицы
(например, в нашем случае указав на Subtotal находящейся ниже таблицы)

3) Новые поля в шаблон можно добавить с данного поля нажав на Edit. Добавим
забытый Invoice Amount. Сохраняем изменения.
Нажимаем на Edit bot, чтобы проверить извлекаются ли правильные данные в
Invoice Amount. Исправляем, если есть ошибки.

4) После исправления всех ошибок мы можем сделать выгрузку файла нажав See
Extraction Results - Export to CSV