Вы находитесь на странице: 1из 38

Введение

Наверное, каждый из нас сталкивался с задачей, когда нужно перевести


бумажный документ в электронный вид. Особенно это часто нужно делать
тем, кто учиться, работает с документацией, переводит тексты при помощи
электронных словарей и т.д.
Вообще, сканирование и распознавание текста - довольно трудоемко,
так, как большинство операций придется делать вручную. 
После сканирования (пригона всех листов на сканере) у вас будут
картинки формата BMP, JPG, PNG, GIF (могут быть и другие форматы). Так
вот с этой картинки нужно получить текст - это процедура называется
распознаванием. 
Одним из основных способов ввода информации в вычислительные
системы является сканирование. Именно сканер стал тем устройством, с
помощью которого в компьютер попадает огромное количество информации.
С помощью современной аппаратуры сканирования с высоким
разрешением исходного документа довольно просто формируется
графический файл специального формата. Такой файл после
соответствующей обработки может быть преобразован в любой из форматов,
которые применяются в информационных технологиях. Это форматы
представления текстов и графических видов информации – фотографий,
слайдов, рисунков и т.п.
Преобразование документа в электронный вид делится на два этапа:
получение графического образа документа и перевод графического образа в
текстовый формат. Графический образ документа является результатом
сканирования. Перевод графического образа документа в текстовый формат
может быть произведен вручную или посредством автоматического
распознавания.

4
1. Сканер

Для перевода печатных документов в текстовый вид, вам для начала


нужен сканер и соответственно, «родные» программы и драйверы, которые с
ним шли. При помощи них можно будет сканировать документ и сохранить
его для дальнейшей обработки.
Можно воспользоваться и другими аналогами, но софт, который шел со
сканером в комплекте, обычно работает быстрее и имеет больше опций.
В зависимости от того, какой у вас сканер - скорость работы может
существенно различаться. Есть сканеры, которые могут получить картинку с
листа за 10 сек., есть которые будут получать за 30 сек. Если сканируете
книгу на 200-300 листов - думаю, не трудно подсчитать во сколько раз будет
разница во времени?

1.1. Основные характеристики сканеров

 Оптическое разрешение. Является основной характеристикой сканера.


Сканер снимает изображение не целиком, а по строчкам. По вертикали
планшетного сканера движется полоска светочувствительных
элементов и снимает по точкам изображение строку за строкой. Чем
больше светочувствительных элементов у сканера, тем больше точек
он может снять с каждой горизонтальной полосы изображения. Это и
называется оптическим разрешением. Оно определяется количеством
светочувствительных элементов (фотодатчиков), приходящихся на
дюйм горизонтали сканируемого изображения. Обычно его считают по
количеству точек на дюйм - dpi (dots per inch). Нормальный уровень
разрешение не менее 600 dpi, увеличивать его еще дальше - значит,
применять дорогую оптику, дорогие светочувствительные элементы, и

5
увеличивать время сканирования. Для обработки слайдов необходимо
более высокое разрешение 1200 dpi.
 Разрешение по X. Этот параметр показывает количество пикселей у
фоточувствительной линейки, из которых формируется изображение.
Разрешение является одной из основных характеристик сканера.
Большинство моделей имеет оптическое разрешение сканера 600 или
1200 dpi (точек на дюйм). Его достаточно для получения качественной
копии. Для профессиональной работы с изображением необходимо
более высокое разрешение.
 Разрешение по Y. Этот параметр определяется величиной хода
шагового двигателя и точностью работы механики. Механическое
разрешение сканера значительно выше оптического разрешения
фотолинейки. Именно оптическое разрешение линейки фотоэлементов
будет определять общее качество отсканированного изображения.
 Скорость сканирования. Скорость сканирования зависит от разрешения
при сканировании и от размера оригинала. Обычно производители
указывают этот параметр для формата А4. Скорость сканирования
может измеряться количеством страниц в минуту или временем,
необходимым для сканирования одной страницы.
 Глубина цвета. Как правило, производители указывают два значения
для глубины цвета - внутреннюю глубину и внешнюю. Внутренняя
глубина - это разрядность АЦП (аналого-цифрового преобразователя)
сканера, она указывает на то, сколько цветов сканер способен
различить в принципе. Внешняя глубина - это количество цветов,
которое сканер может передать компьютеру. Большинство моделей
используют для цветопередачи 24 бита (по 8 на каждый цвет). Для
стандартных задач в офисе и дома этого вполне достаточно.
 Максимальная оптическая плотность. Максимальная оптическая
плотность у сканера - это оптическая плотность оригинала, которую
6
сканер отличает от 'полной темноты'. Чем больше это значение, тем
больше чувствительность сканера и, тем выше качество сканирования
темных изображений.
 Тип источника света. Ксеноновые лампы отличаются малым временем
прогрева, долгим сроком службы и небольшими размерами.
Флуоресцентные лампы с холодным катодом дешевы в производстве и
имеют долгий срок службы. Светодиоды (LED) обладают малыми
размерами, низким энергопотреблением и не требуют времени для
прогрева. Но по качеству цветопередачи LED-сканеры уступают
сканерам с флуоресцентными и ксеноновыми лампами.
 Тип датчика сканера. В сканерах МФУ обычно используется один из
двух типов датчиков: контактный (CIS) или ПЗС (CCD). CIS
представляет собой линейку фотоэлементов, которая равна ширине
сканируемой поверхности. Во время сканирования она перемещается
под стеклом и строка за строкой передает информацию об изображении
на оригинале в виде электрического сигнала. Для освещения обычно
используются светодиоды, которые расположены в непосредственной
близости от фотолинейки на той же подвижной платформе. Сканеры на
базе CIS имеют простую конструкцию, тонкий корпус и небольшой
вес, они обычно дешевле сканеров на базе CCD. Основной недостаток
CIS состоит в малой глубине резкости.

1.2. Виды сканеров

 Планшетные — наиболее распространённый вид сканеров, поскольку


обеспечивает максимальное удобство для пользователя — высокое
качество и приемлемую скорость сканирования. Представляет собой
планшет, внутри которого под прозрачным стеклом расположен
механизм сканирования.

7
 Ручные — в них отсутствует двигатель, следовательно, объект
приходится сканировать пользователю вручную, единственным его
плюсом является дешевизна и мобильность, при этом он имеет массу
недостатков — низкое разрешение, малую скорость работы, узкая
полоса сканирования, возможны перекосы изображения, поскольку
пользователю будет трудно перемещать сканер с постоянной
скоростью.
 Листопротяжные — лист бумаги вставляется в щель и протягивается
по направляющим роликам внутри сканера мимо лампы. Имеет
меньшие размеры, по сравнению с планшетным, однако может
сканировать только отдельные листы, что ограничивает его
применение в основном офисами компаний. Многие модели имеют
устройство автоматической подачи, что позволяет быстро сканировать
большое количество документов.
 Планетарные сканеры — применяются для сканирования книг или
легко повреждающихся документов. При сканировании нет контакта со
сканируемым объектом (как в планшетных сканерах).
 Книжные сканеры - предназначены для сканирования брошюрованных
документов. Сканирование производится лицевой стороной вверх -
таким образом, ваши действия по сканированию неотличимы от
перелистывания страниц при обычном чтении. Это предотвращает их
повреждение и позволяет пользователю видеть документ в процессе
сканирования.
 Слайд-сканеры — как ясно из названия, служат для сканирования
плёночных слайдов, выпускаются как самостоятельные устройства, так
и в виде дополнительных модулей к обычным сканерам.
 Сканеры штрих-кода — небольшие, компактные модели для
сканирования штрих-кодов товара в магазинах.

8
2. Сканирование

Дляпользователей компьютеров единственнымпутём просмотра электр
онных файлов является сканирование изображения. Во время этого процесса
сканер преобразовывает текст, графику листа и плёнку в цифровой образ,
процесс преобразования может быть аналоговым и цифровым.
Процесс сканирования изображения является лёгким
и доступным, и чаще всего работают со сканером, при использовании он
является наиболее эффективным и разнообразным. Его широко используют
для коммерческих целей, но любителям также нравится сканировать
изображения, особенно если они увлекаются фотографиями. Также часто его
используют в художественном творчестве, это заодно и весело, и полезно. 
Обучающая программа по сканированию всегда доступна,
как и для рисунка, так и для документов. Не для пользователей компьютеров
единственным путём просмотра электронных файлов является сканирование
изображения. Во время этого процесса сканер преобразовывает текст,
графику листа и плёнку в цифровой образ, процесс преобразования может
быть аналоговым и цифровым.
Для сканирования изображения нужно следовать нескольким основным
шагам, для любого типа сканера или программного обеспечения метод
сканирования фотографий на планшетном сканере один и тот же. Когда
лампа светит на фотографию, оптические ячейки сканера фиксируют цвета,
отражающиеся с точек изображения. Такими цветами являются красный,
зелёный и синий. (КЗС). 
Пиксель или элемент рисунка передаётся к каждой точке и измеряется
в пикселях из расчёта на дюйм, это является разрешением образа. Три числа
представляют каждый пиксель на образе, и эти числа показывают яркость
красного, зелёного и синего компонента цвета. Итак, есть разные форматы
изображения, и каждый формат хранит информацию о пикселях и цветах в

9
разных вариантах, имеет значения, что вы хотите перенести в компьютер:
текст или рисунок, вы должны знать, как работать со сканером. Обычно
программное обеспечение объясняет все шаги детально, и сканировать
изображения вы можете практически как цветным, так и чёрно- белым.
Пиксель или элемент рисунка передаётся к каждой точке и измеряется
в пикселях из расчёта на дюйм, это является разрешением образа.
Три числа представляют каждый пиксель на образе, и эти числа показывают
яркость красного, зелёного и синего компонента цвета. Итак, есть разные
форматы изображения, и каждый формат хранит информацию о пикселях и
цветах в разных вариантах.
Сканирование документов – процесс создания электронного
изображения бумажного документа, напоминает его фотографирование. На
этапе сканирования производится получение изображения при помощи
сканера и сохранение их в виде, удобном для последующей обработки.
Процесс сканирования осуществляется автоматически и требует от
пользователя только вспомогательных операций, таких как смена
сканируемой страницы.
Сканирование, как единый сквозной процесс, распадается на
две независимых ветви. По одному направлению идёт ввод
в вычислительные системы текстовых массивов информации, по-другому –
графических. Задача сканирования текстов, при необходимом качественном
разрешении, на 90% состоит в распознавании.
А для этого разработано математическое обеспечение,
которое позволяет эффективно построить технологию получения
качественных электронных документов. Чтобы реализовать автоматический
или автоматизированный перевод бумажных документов в электронный вид,
необходимо выполнить сканирование бумажных документов и распознать их
содержимое с помощью специальных программ, называемых системами
оптического распознавания символов.

10
2.1. Распознавание текстов и изображений

Процесс распознавания изображений является сложной многоэтапной


процедурой. Многоэтапность (иерархичность) обусловлена тем,
что различные задачи обработки на самом деле тесно связаны и качество
решения одной из них влияет на выбор метода решения остальных. Так
выбор метода распознавания зависит от конкретных условий предъявления
входных изображений, в том числе характера фона, других изображений,
помеховой обстановки и связан с выбором методов предобработки,
сегментации, фильтрации.
Распознавание — чаще всего конечный этап обработки, лежащий в
основе процессов интерпретации и понимания. Входными для распознавания
являются изображения, выделенные в результате сегментации и, частично,
отреставрированные. Они отличаются от эталонных геометрическими и
яркостными искажениями, а также сохранившимися шумами. На этом шаге
происходит идентификация документа и выделение его объектов (полей,
пометок, штрихкодов и прочего), удаляются помехи, которые мешают
распознаванию (например, разграфка).
Далее происходит распознавание полей документа. Затем проводится
оценка достоверности результатов распознавания, после чего производится
обобщенный лингвистический анализ поля. После
распознавания может следовать специальная обработка его результатов на
основании априорной лингвистической и структурной информации о поле.
После этого принимается решение о достоверности результатов распознаван
ия. В системе реализована схема, признающая поле недостоверным в случае
наличия в нем хотя бы одного недостоверного символа. После этого
происходит сохранение результатов распознавания во внутренний формат
системы и выполняется контроль логической непротиворечивости данных.

11
Кроме всего этот этап выполняет дополнительные функции:
автоматическое определение угла поворота страницы и его автоматическая
коррекция.
Процесс распознавания полностью автоматический, не
требует наличия оператора, при этом возможно
распараллеливание распознавания в рамках локальной сети.
При необходимости, после распознавания документ передается на
верификацию. Если же необходимости в верификации нет, распознанные
данные могут экспортироваться во внешние информационные системы и
базы данных.
Верификация документа: исправление ошибок заполнения и
распознавания, подтверждение результатов распознавания «сомнительных»
полей, просмотр полей, не прошедших логический контроль, и принятие
решения о дальнейшей судьбе таких документов. На этом этапе оператор
производит визуальный контроль результатов распознавания и принимает
решение о дальнейшем маршруте документа. Процесс реализован в
двухоконном редакторе форм. В одном окне показано изображение
бумажного документа, в другом — электронная форма, содержащая
распознанные данные.
Процесс верификации документа идет по следующей схеме. Оператору
предъявляется изображение и электронная форма с распознанными данными.
При этом поля, не прошедшие контроль достоверности и логической
непротиворечивости, подсвечены цветом для привлечения внимания
оператора. Оператор, перемещая фокус между полями электронной формы,
видит диагностику ошибок и либо исправляет ошибку, либо, если ошибку
нельзя исправить, принимает решение передать документ на этап обработки
«плохих» документов. При передвижении по полям модуль автоматически
подсвечивает рамку поля на изображении. Для
повышения эффективности работы оператора предусмотрены два режима:

12
проход только по полям, не прошедшим контроль, и режим пропуска
незаполненных полей. Кроме этого, если прикреплен словарь, содержащий
допустимые значения для поля, то имеется возможность указать в описании
поля необходимость предъявления словаря оператору и разрешить оператору
вставлять в поле значения из словаря.
После окончания верификации документа оператору предлагается либо
отложить его, либо передать на этап экспорта данных.
Возможно распараллеливание процесса верификации в рамках
локальной сети.
В крупных проектах массового ввода могут быть одновременно
задействованы десятки операторов, выполняющих функцию верификации
потока документов. После верификации, данные могут экспортироваться во
внешние информационные системы и базы данных.

2.2. Системы н OCR (Optical Character Recognition)

После обработки документа сканером получается графическое


изображение документа (графический образ). Но графический образ еще не
является текстовым документом. Человеку достаточно взглянуть на лист
бумаги с текстом, чтобы понять, что на нем написано. С точки зрения
компьютера, документ после сканирования превращается в набор
разноцветных точек, а вовсе не в текстовый документ. Проблема
распознавания текста в составе точечного графического изображения
является весьма сложной. Подобные задачи решают с помощью специальных
программных средств, называемых средствами распознавания образов.
Реальный технический прорыв в этой области произошел лишь в последние
годы. До этого распознавание текста было возможно только путем сравнения
обнаруженных конфигураций точек со стандартным образцом (эталоном,

13
хранящимся в памяти компьютера). Авторы программ задавали критерий
«похожести», используемый при идентификации символов.
Подобные системы назывались OCR (Optical Character Recognition —
оптическое распознавание символов) и опирались на специально
разработанные шрифты, облегчавшие такой подход. Естественно
приходилось сталкиваться с произвольным и, тем более, сложным шрифтом,
программы такого рода начинали давать серьезные сбои.
Оптическое распознавание информации — механическая или
электронная конвертация изображений и символов, редактируемая на
компьютере. Перевод осуществляется программным путём, после получения
образа со сканера или другого источника (рис. 1).

Рисунок 1 - Источники информации

Ввод информации с бумаги в компьютер является в настоящее время


часто выполняемой задачей. До недавнего времени эта задача решалась
исключительно путем кодирования с клавиатуры компьютера. Большинство
документов, подлежащих обработке, представлены в оригиналах на
бумажном носителе. Поэтому неотъемлемой частью любой системы
автоматизации являются компьютерные системы, включающие программы
сканирования и оптического распознавания образов. Задача распознавания
состоит в том, чтобы преобразовать входное (отсканированное) изображение
в текст из подвижных символов. Иными словами, графическое изображение
14
каждого входного символа заменяется обозначением этого символа,
используемым в компьютере (т.е. кодом, понятным компьютерной системе).
Системы оптического распознавания символов стали неотъемлемой
частью интегрированных пакетов, поддерживающих ввод в компьютер,
хранение и обработку бумажных и электронных документов. Система
включает в свой состав сканер для ввода информации.
Работа сканеров основана на принципах функционирования
фотомножительных устройств:
 Изображение, считываемое сканером, хранится в электронном виде;
 Сканер не может отличать текст от рисунков и представляет их в виде
отдельных;
 Графических фрагментов из черных и белых элементов.
Если созданное сканером изображение содержит текст и рисунки, то
при помощи OCR можно:
 Отделить текст от рисунков;
 Записать этот текст в формате файла текстового процессора.
Современные научные достижения в области распознавания образов
буквально перевернули представление об оптическом распознавании
символов. Современные программы вполне могут справляться с различными
(и весьма вычурными) шрифтами без перенастройки. Многие распознают
даже рукописный текст.
Поскольку потребность в распознавании текста отсканированных
документов достаточно велика, неудивительно, что имеется значительное
число программ, предназначенных для этой цели. Так как разные научные
методы распознавания текста развивались независимо друг от друга, многие
из этих программ используют совершенно разные алгоритмы.
Эти алгоритмы могут давать разные результаты на разных документах.
Например, упоминавшиеся выше системы OCR способны распознавать
только стандартный специально подготовленный шрифт и дают на этом
15
шрифте наилучшие результаты, которые не может превзойти ни одна, из
более универсальных программ. Современные алгоритмы распознавания
текста не ориентируются ни на конкретный шрифт, ни на конкретный
алфавит. Большинство программ способно распознавать текст на нескольких
языках. Одни и те же алгоритмы можно использовать для распознавания
русского, латинского, арабского и других алфавитов и даже смешанных
текстов. Разумеется, программа должна знать, о каком алфавите идет речь.
Нас, прежде всего, интересуют программы, способные распознавать
текст, напечатанный на русском языке. Такие программы выпускаются
отечественными производителями. Наиболее широко известна и
распространена программа FineReader.

2.3. OCR сегодня

В настоящее время на рынке систем распознавания существует ряд


разработок, ориентированных как на различные сферы деятельности
пользователя, так и на разные платформы.
Таблица 1 – «Существующие системы оптического распознавания
информации»
Название Лицензия Поддерживаемые Заметки
ОС
FineReaderOn Коммерческая Online Online OCR сервис, позволяющий
line.ru распознатьмногоязычный текст из
отсканированного документа или
фотографии. Конвертирует результат в
редактируемые форматы (PDF, PDF/A,
DOC, RTF, XLS, TXT).
На данный момент до 10 страниц в день
можно распознавать бесплатно.
OnlineOCR.ru Коммерческая Online Online OCR сервис позволяет распознать
многоязыковой текст из сканированного
документа или фотографии.
Конвертирует результат в
редактируемые форматы (PDF, DOC,
XLS, TXT, HTML)

16
Продолжение Таблица 1 – «Существующие системы оптического распознавания
информации»
ExperVision Коммерческая Windows,Mac OS Получала высокие оценки в начале 1990-
TypeReader & X,Unix,Linux,OS/2 х.
RTK
ABBYY Коммерческая и Windows; Linux, Для работы с различными языками
FineReader собственническая Mac OS (не для требуется поддержка соответствующего
конечного языка.
потребителя)
OmniPage Коммерческая Windows, Mac OS Производство Nuance Communications
(Nuance EULA)
Readiris Коммерческая и Windows, Mac OS Производство бельгийской фирмы -
собственническая I.R.I.S. Group. Содержит региональные
пакеты для распознавания азиатских
языков и языков среднего востока.

Persian Reader Коммерческая и Windows Специализируется на персидском языке


собственническая (фарси).
Kirtas Коммерческая Windows Может распознавать арабские и
Technologies английские символы на одной странице.
Arabic OCR
Zonal OCR Коммерческая и Windows Zonal OCR помогает автоматизировать
собственническая извлечение данных из компьютерных
изображений.
ViewWise Коммерческая и Windows Система управления документами
компании собственническая
Computhink
GOCR GPL Кросс- В начальной стадии разработки
платформенная
CuneiForm BSD Windows (с GUI), Промышленная, многоязычная система,
Linux, Mac OS, умеет сохранять форматирование текста
FreeBSD (CLI) и распознаёт запутанные таблицы
произвольной структуры
NovoDynamic Коммерческая и _______ Специализируется на языках среднего
s VERUS собственническая востока
Microsoft Коммерческая Windows, Mac OS Современные средства Microsoft Office
Office X предоставляют возможности
Document сканирования. Document Scanning –
Imaging позволяет управлять сканированием
документа с применением любого
установленного сканера, а Document
Imaging - позволяет производить
просмотр результатов на экране,
осуществлять перекомпоновку
многостраничных документов, выделять
и обрабатывать распознанный текст,
Microsoft Коммерческая Windows
отправлять документы по электронной
Office
почте.
OneNote 2007

17
Продолжение Таблица 1 – «Существующие системы оптического распознавания
информации»
Brainware Коммерческая и Windows Извлечение данных из документов и их
собственническая обработка; например, счета, извещения,
накладные и платёжки
HOCR GPL Linux Распознавание текстов на иврите
OCRopus Apache Linux Расширяемая система распознавания,
которая может использовать Tesseract
ReadSoft Коммерческая и Windows Сканирование, распознавание и
собственническая классификация деловых бумаг, например
договоров, счетов и платёжных
поручений.
Scantron Коммерческая и Windows Для работы с различными языками
Cognition Собственническая требуется поддержка соответствующего
языка.

RelayFax Коммерческая и Windows Многоязычная система используется для


Network Fax собственническая преобразования факсов в доступные для
Managerкомп правки форматы документов (doc, pdf, и
ании Alt-N т.д…).
Technologies
SILVERCOD Коммерческая и Linux Серверная многоязыковая система,
ERS OCR собственническая имеет высокое качество распознавания,
Server может сохранять форматирование текста
и распознаёт запутанные таблицы
произвольной структуры
SmartScore Коммерческая и Windows, Mac OS Для распознавания нотной записи
собственническая
Tesseract Apache Windows, Mac OS Разрабатывается компанией Google
X, Linux, OS/2
WeOCR MIT/X Consortium Интерфейс: Платформа для браузерных систем
Браузер; Сервер: распознавания символов. Страница
POSIX, Unix проекта: WeOCR

18
3. Программа FineReader

Программа FineReader выпускается отечественной компанией ABBYY


Software (www.bitsoft.ru). Эта программа предназначена для распознавания
текстов на русском, английском, немецком, украинском, французском и
многих других языках, а также для распознавания смешанных текстов.
Программа имеет ряд удобных возможностей. Она позволяет
объединять сканирование и распознавание в одну операцию, работать с
пакетами документов (или с многостраничными документами) и с бланками.
Программу можно обучать для повышения качества распознавания неудачно
напечатанных текстов или сложных шрифтов. Она позволяет редактировать
распознанный текст и проверять его орфографию.
FineReader работает с разными моделями сканеров. В частности,
программа поддерживает стандарт TWAIN. Мы рассмотрим программу на
примере версии 7.0

3.1. Распознавание документов в программе FineReader

После установки программы FineReader в меню Программ Главного


меню появляются пункты, обеспечивающие работу с ней. Окно программы
имеет типичный для приложений Windows вид и содержит строку меню, ряд
панелей инструментов и рабочую область (рис. 2).

19
Рисунок 2 – Меню программы FineReader

В левой части рабочей области располагается панель Пакет,


содержащая список графических документов, которые должны быть
преобразованы в текст. Эти графические файлы рассматриваются как части
одного документа. Результаты их обрабатываются и в дальнейшем
объединяются в единый текстовый файл. Форма значка, отмечающего
исходные файлы, указывает, было ли произведено распознавание.
Панель в нижней части рабочей области содержит фрагмент
графического документа в увеличенном виде. С ее помощью можно оценить
качество распознавания. Эту панель используют также при «обучении»
программы в ходе распознавания.
Остальную часть рабочей области занимают окна документа. Здесь
располагается окно графического документа, подлежащего распознаванию, а
также окно текстового документа, полученного после распознавания.
В верхней части окна приложения под строкой меню располагаются
панели инструментов. На приведенном рисунке включено отображение всех
панелей, которые могут быть использованы в программе FineReader.

20
Панель инструментов Стандартная содержит кнопки для открытия
документов и для операций с буфером обмена. Прочие кнопки этой панели
служат для изменения рабочей зоны.
Панель Scan&Read содержит кнопки, соответствующие этапам
превращения бумажного документа в электронный текст. Первая кнопка
позволяет выполнить такое преобразование в рамках единой операции.
Остальные кнопки соответствуют отдельным этапам работы и содержат
раскрывающиеся меню, служащие для управления соответствующей
операцией.
Панель Изображение используют при работе с исходным
изображением. В частности, она позволяет управлять сегментацией
документа. С помощью элементов управления этой панели задают
последовательность фрагментов текста в итоговом документе.
Элементы управления панели Форматирование используют для
изменения представления готового текста или при его редактировании.
Как ввести документ за минуту:
Включите сканер (если он имеет отдельный от компьютера источник
питания). Многие модели сканера необходимо включать до включения
компьютера.
Вставьте в сканер страницу, которую Вы хотите распознать.
Нажмите на стрелку справа от кнопки Scan&Read, в открывшемся
локальном меню выберите пункт Мастер Scan&Read (рис. 3).

Рисунок 3 - кнопка Scan&Read

21
Мастер Scan&Read вызывает специальный режим, при котором Вы
можете отсканировать и распознать страницу или открыть и распознать
графическое изображение (пример графического файла Вы можете найти в
папке Dio. Она находится в папке, в которую Вы установили FineReader).
При этом каждый шаг сопровождается подсказками системы.
Далее следуйте указаниям Мастера Scan&Read.
Процесс ввода документов в компьютер состоит из четырех этапов:
сканирования, распознавания, проверки и сохранения результатов
распознавания.
В результате сканирования появится окно Изображение, содержащее
«фотографию» страницы. Затем программа попросит Вас установить
параметры распознавания и приступит к распознаванию изображения,
одновременно анализируя его. Обработанные участки изображения
закрашиваются голубым цветом.
Результат распознавания Вы увидите в окне Текст. В этом же окне Вы
можете проверить и отредактировать распознанный текст. Следуя далее
указаниям Мастера Scan&Read, Вы можете либо передать распознанный
текст в выбранное Вами приложение или сохранить его на диске, либо
продолжить обработку следующих изображений.

22
4. Параметры сканирования

Используйте разрешение 300 dpi для стандартных текстов (размер


шрифта 10pts. и больше) и разрешение 400-600 dpi для текстов с меньшим
шрифтом (9pts. и меньше). Сканирование в сером режиме рекомендуется для
повышения качества распознавания. При сканировании в сером режиме
яркость регулируется автоматически. Если Вы хотите, чтобы диалог
Настройки сканера открывался каждый раз перед сканированием при работе
в режиме - Использовать интерфейс FineReader, Меню Сервис — Опции - на
закладке Сканирование / отметьте опцию - Запрашивать опции перед
началом сканирования.

4.1. Анализ оформления страницы

Анализ оформления страницы может проходить как вручную, так и


автоматически. В большинстве случаев программа FineReader сама
выполняет сложную задачу анализа страницы. Нажмите кнопку Распознать
для запуска автоматического анализа оформления страницы. Распознавание и
анализ страницы выполняются одновременно.
Если программа выделила некоторые блоки неправильно, проще и
быстрее редактировать неправильно размеченные блоки, используя
инструмент для редактирования блоков, чем удалять блоки и выделять их
заново вручную.
В некоторых случаях качество автоматического анализа страницы
может быть улучшено с помощью изменения опций анализа оформления
страницы. Для просмотра текущих опций страницы меню Сервис — Опции /
закладка Распознавание.

23
4.2. Улучшение качества распознавания изображений сдвоенных
страниц

Чтобы увеличить качество распознавания, разбейте сканируемые


изображения так, чтобы каждой из пары сдвоенных страниц на изображении
соответствовала отдельная страница пакета. Изображения могут быть
разбиты как автоматически, так и вручную.
Чтобы разбивать изображения автоматически перед добавлением в
пакет на стрелке возле кнопки Сканирование/Открыть в диалоге Опции,
отметьте опцию - Делить разворот книги. Чтобы разбивать изображения
вручную, отметьте опцию - Разбить изображение в меню Изображение.
Устранение искажений, анализ оформления страницы и распознавание будут
проходить отдельно для каждой страницы.
Неправильно отображаемые символы. Если в окне Текст программы
FineReader символы отображаются неправильно (например, «?» или «?» на
месте некоторых букв), это означает, что текущий шрифт не поддерживает
полностью алфавит выбранного Вами языка распознавания. Выберите
шрифт, который поддерживает все символы текста распознаваемой страницы
(например, Arial Unicode или Bitstream Cyberbit) на закладке Форматирование
(меню Свойства — Опции) в группе Шрифты, и распознайте документ
заново.

24
5. Редактирование распознанного текста в Microsoft Word

Если Вы предпочитаете редактировать распознанный текст в Microsoft


Word, а не в текстовом окне программы FineReader, Вы можете сделать так,
чтобы неуверенно распознанные символы остались подсвеченными. В меню
Сервис выберите пункт Форматы - на закладке RTF/DOC/Word XML
отметьте опцию Цветом фона и/или Цветом символа в группе - Выделять
неуверенно распознанные символы. В сохраненном файле все неуверенно
распознанные символы будут подсвечены выбранными Вами на этой
закладке цветами.

5.1. Основные панели

Главная панель программы Scan&Read (рис. 4).

Рисунок 4 - Главная панель программы Scan&Read

Мастер Scan&Read - запускает специальный режим сканирования и


распознавания, во время которого система контролирует действия
пользователя и подсказывает ему, что надо делать, чтобы получить тот или
иной результат.
Сканировать и распознать - запускает сканирование и распознавание
документа. Сканировать и распознать несколько страниц - сканирует и
распознает несколько страниц в цикле.

25
Открыть и распознать - позволяет открыть и распознать изображения,
выбранные в диалоге Открыть (Open).
Открыть изображение - добавляет изображение в пакет, при этом копия
изображения сохраняется в папке пакета (рис. 5).

Рисунок 5 – Диалог окна «Открыть»

Сканировать изображение - сканирует изображение. Сканировать


несколько страниц – сканирует изображения в цикле. Чтобы остановить
сканирование, в меню Файл выберите пункт Остановить сканирование.
Опции - открывает закладку Сканирование/Открытие диалога Опции, на
которой Вы может установить опции сканирования и предварительной
обработки документа.
Распознать - распознает открытую страницу (или выделенные
страницы) пакета.
Распознать все - распознает все нераспознанные страницы пакета.
Опции - открывает закладку Распознавание диалога Опции, на которой
Вы может установить опции распознавания документа (рис. 6).

Рисунок 6 – Диалог окна «Распознать»

26
Проверить - позволяет найти в тексте слова, содержащие неуверенно
распознанные символы, и неправильно написанные слова (рис. 7).
Опции - открывает закладку Проверка диалога Опции, на которой Вы
можете установить опции проверки документа.

Рисунок 7 – Диалог окна «Проверка»

Мастер сохранения результатов - открывает диалог Мастер сохранения


результатов, в котором Вы можете выбрать приложение для сохранения и
установить опции сохранения.
Сохранить текст в файл - сохраняет распознанный текст в файл на диск
(рис. 8).
Передать страницы в - напрямую передает распознанный текст в
выбранное приложение без сохранения его на диск. При передаче
распознанного текста с нескольких страниц пакета сначала выделите их в
окне Пакет.

Рисунок 8 – Диалог окна «Сохранить текст в файл …»

27
Передать все страницы в - передает все распознанные страницы в
выбранное приложение без сохранения их на диск.
Опции - открывает закладку Форматирование диалога Опции, на
которой Вы можете установить опции сохранения документа.

Рисунок 9 – Панель Изображение

Советы и примеры: PDF документ


Одним из наиболее популярных форматов представления электронных
документов в Internet, архивах и т.д. является формат PDF (Portable Document
Format).
Открыв PDF-файл в FineReader, Вы можете его распознать,
отредактировать и сохранить либо в PDF, выбрав один из четырех режимов
сохранения оформления документа (только текст и картинки, только
28
изображение, текст поверх изображения картинки, текст под изображением
картинки), либо в любом другом поддерживаемом формате сохранения.
Чтобы установить режимы сохранения в формате PDF:
 В меню Сервис выберите пункт Форматы.
 На закладке PDF диалога Форматы установите требуемый режим.
PDF является распространенным форматом для пересылки документов
по электронной почте или публикации документов на web-сайтах.
Естественно, что при публикации на web-сайтах очень важна высокая
скорость открытия документов. Документ, сохраненный из программы
FineReader в формате PDF, отвечает подобным требованиям. Структура PDF
такова, что позволяет открывать в пользовательском браузере для просмотра
первые страницы PDF документа, не дожидаясь, когда весь файл целиком
будет загружен с web-сервера.

5.2. Сложная журнальная страница

Описание ситуации: плохое качество распознавания вследствие


неправильного выделения блоков.
Решение: В результате автоматического анализа данной страницы были
выделены лишние блоки (например, участки текста на картинке). Проверьте
количество блоков, а также отредактируйте форму выделенных блоков (рис
10).

Рисунок 10 – Журнальная страница


Для этого воспользуйтесь инструментами на панели Изображение:

29
- чтобы удалить выделенные на картинке лишние блоки текста или
предварительно, выделив блок, нажмите на клавиатуре кнопку Delete;

и - чтобы нарисовать блоки непрямоугольной формы;

и - чтобы нарисовать текстовый блок и блок-картинку, либо


нарисуйте блок самостоятельно, как если вы рисовали просто прямоугольник
в графическом редакторе и в контекстном меню (правой кнопкой мыши на
блоке) выберите тип требуемого блока.
Замечание: При выделении текстовых блоков следите за тем, чтобы
границы блоков совпадали с границами текста.

5.3. Книжный разворот

Описание ситуации: за одно сканирование сканируется пара страниц


(книжный разворот), при этом каждая страница имеет свой угол наклона, что
отрицательно сказывается на качестве распознавания, кроме того, обе
страницы сохраняются на одну страницу в две колонки (рис. 11).

Рисунок 11 – Книжный разворот

При распознавании изображение должно иметь стандартную


ориентацию: текст должен читаться сверху вниз, и строки должны быть
горизонтальными. По умолчанию при распознавании программа
автоматически определяет и корректирует ориентацию изображения. У

30
изображений со сдвоенными страницами стандартная ориентация
отсутствует, так как каждая страница имеет свой угол наклона.
Решение: В программе существует специальный режим, при котором
изображение со сдвоенными страницами разрезается на две части и
превращается в две отдельные страницы пакета. Это позволяет обработать
каждую страницу: автоматически исправить угол наклона и сохранить
распознанный текст с каждой страницы в отдельный файл (или на отдельную
страницу).
Чтобы установить данный режим, перед добавлением изображения в
пакет на закладке Сканирование/Открытие в группе Обработка изображений
отметьте опцию - Делить книжный разворот.
Разрезать изображение со сдвоенными страницами на две части,
которые впоследствии будут преобразованы в две отдельные страницы
пакета, можно также с помощью опции - Разбить изображение.

5.4. Визитные карточки

Конечно, это очень удобно - вся важная информация о человеке


сконцентрирована на листке бумаги небольшого формата. Но иногда пугает
их количество, и мы тратим массу времени для того, чтобы их упорядочить,
привести в систему, найти удобное средство хранения.

Рисунок 12 – Визитные карточки

31
Удобный способ ввода и хранения визиток в компьютере с помощью
программы FineReader. Все визитки обрабатываются и хранятся в пакете
программы. Используя функцию полнотекстового поиска по распознанным
страницам пакета, Вы можете найти нужную визитку (при этом поиск
возможен по любой распознанной информации с визитки - по названию
компании, фамилии, телефону и т.д.). Список найденных визиток
показывается в окне Поиск.
Чтобы открыть визитку, выберите запись в результатах поиска.
Вы можете пополнять пакет новыми визитками, редактировать уже
распознанные визитки в окне Текст.
Положите несколько визитных карточек (столько, сколько уместится) в
сканер.
Внимание: Визитки должны быть разложены так, чтобы в результате
была получена «табличная структура». Между рядами и колонками должно
быть некоторое расстояние. Допустимо либо горизонтальное (более длинные
стороны визиток расположены вдоль горизонтали), либо вертикальное
размещение визиток на листе, но не оба сразу.
Установите следующие параметры сканирования:
Разрешение - 400-600 dpi (обычно визитные карточки содержат текст,
набранный мелким шрифтом, для хорошего распознавания которого
требуется отсканировать документ с более высоким разрешением вместо
обычных 300 dpi).
Тип изображения - серый или цветной.
Нажмите кнопку - Сканировать.
Для повышения качества распознавания, полученные изображения с
визитками следует разделить так, чтобы каждой визитке соответствовала
отдельная страница пакета. В этом случае исправление перекоса строк,
анализ и распознавание будет проводиться для каждой визитки. Для этого в
меню Изображение выберите пункт - Разбить изображение. В открывшемся

32
диалоге - Разбить изображение нажмите кнопку , а затем кнопку ОК. В
окне Пакет появятся новые страницы: каждая страница будет содержать
изображение одной визитки. При этом исходное изображение (содержащее
несколько визиток) будет удалено из пакета.
Замечание: Если изображение было поделено на визитки неверно, то
попробуйте поделить изображение вручную. Для этого воспользуйтесь

кнопками и . Чтобы передвинуть или удалить разделитель, нажмите

кнопку Выбор разделителя - , мышью переместите разделитель в нужное


место. Для удаления разделителя переместите его за границы изображения.

Чтобы удалить все разделители, нажмите кнопку .


Установите язык распознавания. Если требуется, установите несколько
языков. При этом помните, что увеличение количества подключенных к
распознаванию одного документа языков может привести к ухудшению
качества распознавания. Не рекомендуется подключать более 2-3 языков.
Перед запуском распознавания проверьте подключенные на закладке
Форматирование шрифты: они должны содержать все символы языка
распознавания. Нажмите кнопку - Распознать.

5.5. Программная распечатка

Описание ситуации: данный пример имеет две особенности, влияющие


на качество распознавания:
Программа передает отступы от левого края листа не пробелами, а с
помощью задания отступов абзаца; при экспорте в .txt левый отступ не
сохраняется; некоторые строки объединяются в один абзац и при экспорте
объединяются в одну строку; много ошибок при распознавании конструкций
языков программирования (рис. 13).
33
Решение: Для распознавания таких документов существует
специальная опция программы Форматированный пробелами текст.
Устанавливается в группе Тип страницы на закладке Распознавание диалога
Опции (меню Сервис — Опции).

Рисунок 13 – Программная распечатка

В этом случае в распознанном тексте сохранится деление на строки;


отступы от левого края будут переданы пробелами; каждая строка выделена
в отдельный абзац, а расстояния между абзацами переданы пустыми
строками. Все это позволит сохранить исходное форматирование текста при
сохранении в формате Txt.
Для хорошего распознавания распечаток программ требуется
установить специальный язык распознавания. Для этого:
В списке языков на панели - Стандартная выберите значение Выбор из
полного списка языков и в открывшемся диалоге Язык распознаваемого
текста выберите пункт C++.
Замечание: Если распознаваемая программная распечатка помимо
программного кода содержит текстовые комментарии, то для хорошего
распознавания необходимо выбрать несколько языков распознавания: язык
программирования и язык, на котором написаны комментарии.

34
Таблица с неполным количеством черных разделителей. Описание
ситуации: все строки таблицы между черными горизонтальными линиями
(разделителями) объединены в одну строку таблицы.
Если в таблице встречается смешанное разделение на строки и
столбцы, при котором некоторые строки разделены черными разделителями,
а некоторые нет, программа может разбить таблицу на строки неправильно
(рис 14).

Рисунок 14 – Таблица с неполным количеством черных разделителей

Решение: Программу можно "заставить" выделять каждую строку


текста в отдельную строку таблицы, отметив специальную опцию на
закладке Распознавание (меню Сервис — Опции) в группе Таблицы: В
каждой ячейке таблицы не более одной строки текста.
Сложная таблица. Описание ситуации: неправильный анализ таблиц
со сложной нерегулярной структурой: неправильное разделение таблицы на
строки и столбцы; неправильное выделение картинок в ячейках таблицы;
плохое распознавание вертикального и инвертированного текста.

35
Рисунок 15 – Сложная таблица

Решение: Воспользуйтесь инструментами ручной разметки таблиц,


расположенными на панели Изображение:

- чтобы добавить вертикальную линию;

- чтобы добавить горизонтальную линию;

- чтобы удалить линию.


Для ячеек таблицы, содержащих только картинки, в диалоге Свойства
блока (меню Вид — Свойства), отметьте пункт - Считать ячейку картинкой.
Для выделения картинок внутри ячеек с текстом в отдельные блоки,

воспользуйтесь инструментом на панели Изображение: .


Для ячеек таблицы, содержащих вертикальный текст, в диалоге
Свойства блока (меню Вид — Свойства) в поле Направление текста укажите
направление текста в ячейке; для ячеек с инвертированным текстом отметьте
пункт Инвертированный.

36
6. Точность распознавания

Ключевым параметром систем распознавания, характеризующим их


практическую ценность, является точность распознавания, то есть процент
правильно распознанных символов.
Optical Character Recognition - системы могут достигать наилучшей
точности распознавания — свыше 99,9% для чистых изображений,
составленных из обычных шрифтов. На первый взгляд такая точность
распознавания кажется идеальной, но уровень ошибок все же удручает,
потому что, если имеется приблизительно 1500 символов на странице, то
даже при коэффициенте успешного распознавания 99,9 % получается одна
или две ошибки на страницу. В таких случаях на помощь приходит метод
проверки по словарю. То есть, если какого-то слова нет в словаре системы, то
она по специальным правилам пытается найти похожее. Но это все равно не
позволяет исправлять 100 % ошибок, что требует человеческого контроля
результатов.
Точность распознавания падает за счет ошибок распознавания.
Повышению точности распознавания способствует устранение указанных
ниже причин ошибок.

6.1. Причины ошибок при распознавании

Встречающиеся в реальной жизни тексты обычно далеки от


совершенства, и процент ошибок распознавания для «нечистых» текстов
часто недопустимо велик. Грязные изображения — здесь наиболее очевидная
проблема, потому что даже небольшие пятна могут затенять определяющие
части символа или преобразовывать один в другой. Еще одной проблемой
является неаккуратное сканирование, связанное с «человеческим фактором»,

37
так как оператор, сидящий за сканером, просто не в состоянии разглаживать
каждую сканируемую страницу и точно выравнивать ее по краям сканера.
Если документ был ксерокопирован, нередко возникают разрывы и
слияния символов. Любой из этих эффектов может заставлять систему
ошибаться, потому что некоторые из OCR-систем полагают, что непрерывная
область изображения должна быть одиночным символом.
Страница, расположенная с нарушением границ или перекосом, создает
немного искаженные символьные изображения, которые могут быть
перепутаны OCR.
Более трудоёмкой является задача сканирования цветных изображений.
Она обычно заключается в наиболее полном считывании информации
с оригинала, т. е. его тонового и цветового диапазона, а также разрешения.
При этом желательно по необходимости скорректировать недостатки
оригинала с точки зрения последующего использования изображения.
Например, компенсировать нежелательный цветовой сдвиг, тоновый
дисбаланс или подавить полиграфический растр оригинала.
В настоящее время для решения этих задач многие фирмы производят
соответствующее оборудование и разрабатывают математическое
обеспечение. Однако именно в наличии большого количества возможностей
и способов организовать технологический процесс сканирования и кроется
главная опасность. Выбор определённого устройства и программ позволяет
удовлетворительно и без перенастроек работать только со сравнительно
небольшим диапазоном типов документов.

38
Заключение

Качество сканированного изображения определяется
многими факторами. Такие как — тип сканируемого оригинала,
технические возможности сканера, квалификация оператора сканера, размер
оригинала, от которого зависит необходимая кратность увеличения,
разрешение при сканировании, а также особенности любой обработки,
примененной к изображению в ходе сканирования. Сканируете ли вы
оригиналы самостоятельно, пользуетесь ли услугами сервисного бюро или
агентства допечатной обработки, для успеха проектов в области печати
нелишне детально представлять себе процесс получения сканированных
изображений.
Кроме того, если вы хотите, чтобы сканированные изображения имели
высокое качество, до стадии сканирования необходимо в максимально
возможной степени узнать о возможностях вывода изображения и специфике
печати — размере выводимого изображения, а также параметрах печатного
станка — пространственной частоте растра, типе бумаги, типе печатного
станка, ограничениях на тоновый диапазон, а также ожидаемом увеличении
размера растровой точки. Согласование характеристик сканирования и этих
факторов гарантирует, что каждое сканированное вами изображение будет
качественным.
У каждой модели сканера своя программа, в ней свои настройки, свои
возможности. Но есть и кое-что общее.
Все программы делают быстрое предварительное сканирование
(Preview), после которого можно:
 Выделить мышью область сканирования (если этого не сделать –
сканируется все рабочее поле сканера, либо предыдущая установка
сканирования);
 Выбрать режим сканирования: цветной файл с различным количеством

39
цветов, черно-белый, в оттенках серого и другие режимы;
 Выставить параметры яркости, контраста или выбрать автоматическое
определение этих параметров;
 Запустить основное сканирование (Scan).
Подбор настроек сканера уменьшает количество неверно распознанных
букв до вполне приемлемого качества сканирования и распознавания.
Самый важный параметр для программ распознавания - яркость.
Изменение яркости примерно на 3 % может изменить количество ошибок на
целых 15 %.
Особенно важен подбор оптимальной яркости при сканировании
достаточно большого объема текста низкого качества (поработав 10-15 мин с
настройками, можно сэкономить часы работы над ошибками).
Для организаций и компаний, которые обрабатывают большое
количество информации, программное обеспечение для сканирования
документов может оказаться полезным инструментом. Так как даже в наш
век технологий повсеместно используются бумажные документы,
упорядочивание всей этой информации может показаться кошмаром и
наверняка отнимет много времени и усилий. И вот тут-то может пригодиться
специальная программа, которая поможет преобразовать бумажный
документ в цифровую форму. С подобным программным обеспечением
процесс сканирования документа будет более быстрым и эффективным. Учёт
и упорядочивание собственных документов важен для каждой организации.
Специальная программа позволит вам просканировать ваши документы и в
кратчайшие сроки создать для них каталог, в котором все данные будут
содержаться в упорядоченном виде. Программное обеспечение сканирования
документа использует технологию оптического распознавания символов. Эта
технология основана на преобразовании изображения в машинописный, а
также в машиночитаемый текст, который в свою очередь можно изменять и
редактировать.

40
Список литературы

1. Ирзаев Г.Х. Экспертные методы управления технологичностью


промышленных изделий [Электронный ресурс]: монография/ Ирзаев
Г.Х.— Электрон. текстовые данные.—Вологда: Инфра-Инженерия,
2010.—192 c.—Режим доступа: http://www.iprbookshop.ru/5063
2. Аверченков В.И. Основы математического моделирования
технических систем [Электронный ресурс]: учебное пособие/
Электрон. текстовые данные. — Брянск: Брянский государственный
технический университет, 2012. — 271 c. — Режим доступа:
http://www.iprbookshop.ru/7003
3. Струченков В.И. Методы оптимизации. Основы теории, задачи, обуча-
ющие программы: учеб. пособие / В.И. Струченков .—М.: Экзамен,
2005.—256 с.
4. Вилсон Л. А. Что полиграфист должен знать о бумаге / Л. А. Вилсон;
пер. с англ., науч. ред. Е. Д. Климовой. — М.: ПРИНТ-МЕДИА-центр,
2005. — 358 с.
5. Элдред, Н. Р. Что полиграфист должен знать о красках = What the
Printer Should Know about Ink / Н. Р. Элдред; пер. с англ. В. А. Наумова.
— М.: Принт-медиа центр, 2005. - 328 с.
6. Программное обеспечение сканеров - [Электронный ресурс] URL -
режим доступа - http://www.awella.ru/scannews17.php.htm
7. Компьютер пресс/планшетные сканеры (журнал) - [Электронный
ресурс] URL - режим доступа -http://compress.ru/article.aspx?
id=11015&part=index11ext1
8. Сканирование документов и системы распознавания - [Электронный
ресурс] URL - режим доступа
-http://www.novojonov.ru/content/printable.aspx?key=soft-electronic-
archive&file=08-scan-ocr

41