Алексей Гладкий - Самоучитель «слепой» печати. Учимся быстро набирать тексты на компьютере
Вот таким образом осуществляется сканирование, распознавание и сохранение несложных для распознавания документов в программе Fine Reader. Если же документ является сложным для распознавания, то следует задействовать дополнительные возможности программы, специально предназначенные для решения подобных проблем. С одним из таких механизмов мы познакомимся далее.
Применение пользовательсмких эталонов
В последней версии программы реализованы широкие функциональные возможности по распознаванию текстов разных уровней сложности. Далее мы узнаем, каким образом можно «научить» Fine Reader распознавать незнакомые символы или некачественные тексты.
Далеко не всегда процесс распознавания текстов проходит гладко. Особенно это касается документов, которые выполнены декоративным или другим нетрадиционным шрифтом, содержат специфические символы (например, в формулах) или просто плохого качества. В таких случаях Fine Reader сталкивается с затруднениями.
Однако в программе реализован механизм, который позволяет объяснить ей, как надо распознавать нестандартные или некачественные тексты. Для этого нужно создать и обучить специальный пользовательский эталон, в котором для каждого сомнительного или непонятного символа определяется его усредненное точечное изображение и название.
ВНИМАНИЕ
Пользовательский эталон создается на начальном этапе распознавания документа, и в дальнейшем используется для распознавания основного объема текста. Созданный эталон можно сохранить и впоследствии использовать для работы с другими документами. Кроме этого, в программе имеются также встроенные эталоны.
Далее перечислим несколько правил, которые следует учитывать при распознавании текстов с помощью пользовательских эталонов.
• Созданные эталоны впоследствии можно применять для распознавания только тех документов, в которых разрешение, шрифт и его размер совпадают с документом, на основании которого данный эталон был создан. При несоблюдении этого правила результат распознавания может быть непредсказуемым.
• Программа не различает некоторые символы и сопоставляет их с каким-то одним символом. Характерный пример – апострофы: правый (`) и левый (ґ) в программе не идентифицируются и ассоциируются с прямым апострофом ('). Поэтому в распознанном документе никогда не отобразится ни правый, ни левый апостроф: вместо них будет вставлен прямой, причем даже в том случае, когда в процессе обучения эталона были указаны именно они.
• Применять пользовательские эталоны для распознавания имеет смысл лишь тогда, когда документ содержит декоративные или нестандартные символы, либо когда нужно распознать большое количество текста плохого качества. В других случаях это может оказаться нецелесообразно.
• В некоторых случаях Fine Reader делает вывод о сопоставлении изображения тому или иному символу на основании общего анализа текста. В частности, так она может определить, какому символу сопоставить изображение «кружок» – нулю или букве «о», исходя из того, какие символы находятся поблизости (цифры или буквы).
Чтобы войти в режим работы с эталонами, выполните в главном меню команду Сервис→Редактор эталонов либо нажмите комбинацию клавиш Ctrl+Shift+A. В результате на экране откроется окно, изображенное на рис. 4.5.
Рис. 4.5. Редактор эталонов
В данном окне представлен перечень имеющихся в программе эталонов. С помощью кнопки Выбрать осуществляется выбор эталона для распознавания текущего документа, который соответствующим образом помечается в списке.
Чтобы добавить в программу новый эталон, нажмите кнопку Новый. В результате откроется окно, которое показано на рис. 4.6.
Рис. 4.6. Регистрация нового эталона
В данном окне нужно с клавиатуры ввести произвольное имя эталона и нажать кнопку ОК. После этого вновь созданный эталон отобразится в окне редактора (см. рис. 4.5).
С помощью кнопки Редактировать осуществляется переход в режим редактирования эталона. Отметим, что для новых эталонов это не имеет смысла: вначале нужно обучить эталон на основании какого-то документа, и лишь после этого его можно будет как-то изменять.
Если потребуется переименовать какой-то эталон, выделите его в списке щелчком мыши и нажмите кнопку Переименовать, после чего в открывшемся окне (см. рис. 4.6) введите требуемое имя и нажмите ОК.
Для удаления ненужных эталонов используйте кнопку Удалить, после чего подтвердите удаление.
Далее на конкретном примере рассмотрим порядок обучения и применения пользовательских эталонов.
Предположим, что нам нужно распознать сохраненный в формате gif документ, фрагмент которого показан на рис. 4.7.
Рис. 4.7. Фрагмент документа для распознавания
Вначале попробуем распознать его обычным способом – без применения пользовательских эталонов. Для этого выполним команду главного меню Файл→Открыть PDF/изображение (эта команда вызывается также нажатием комбинации клавиш Ctrl+O) и в открывшемся окне укажем путь к требуемому файлу, после чего нажмем кнопку Открыть. Через какое-то время (в зависимости от скорости работы компьютера) отобразится рабочий интерфейс программы. Результат распознавания будет представлен в окне Текст (рис. 4.8).
Рис. 4.8. Результат распознавания документа
Как видно на рисунке, текст документа распознан некорректно: вместо цифры 1 отображается буква г, есть ошибка в слове Фамилия. Кроме этого – программа неуверенно распознала слова имя и отчество (об этом свидетельствует их цветовое выделение).
Чтобы решить проблему, используем механизм распознавания с обучением. Для этого вначале войдем в режим настройки программы, выполнив в главном меню команду Сервис→Опции (эта команда вызывается также нажатием Ctrl+Shift+O). В открывшемся окне перейдем на вкладку Распознать и установим переключатель Обучение в положение Использовать встроенные и пользовательские эталоны. В результате станет доступным флажок Распознавание с обучением, который нужно установить (рис. 4.9).
Рис. 4.9. Включение режима распознавания с обучением
Теперь нужно выбрать эталон для обучения и последующего использования. Для этого нажмем кнопку Редактор эталонов – в результате на экране откроется уже знакомое нам окно Редактор эталонов (см. рис. 4.5). Чтобы выбрать в нем имеющийся эталон, нужно выделить его щелчком мыши, нажать кнопку Выбрать, а затем – кнопку ОК (причем дважды – в окне редактора эталонов и в режиме настройки).
Как мы уже отмечали выше, применять уже имеющиеся эталоны для распознавания новых документов можно лишь при соблюдении определенных условий. В противном случае придется создать для обучения новый эталон. В этом случае он автоматически выбирается для работы с документом.
Теперь возвращаемся в рабочий интерфейс, последовательно закрыв редактор эталонов и окно настройки программы, и запускаем процесс распознавания. В самом начале распознавания на экране откроется окно, информирующее о ходе процесса. Но как только программе попадется незнакомый символ – сразу отобразится окно, которое показано на рис. 4.10.
Рис. 4.10. Режим ручного обучения
В данном окне осуществляется ручное обучение эталона. Смысл данной операции заключается в том, чтобы четко указать программе, каким образом здесь и далее следует распознавать незнакомые ей символы.
На рисунке видно, что первым таким символом в нашем документе является цифра 1, которую программа так и не смогла распознать в обычном режиме (см. рис. 4.8). В верхней части окна он выделен рамкой (см. рис. 4.10).
ПРИМЕЧАНИЕ
Иногда бывает так, что рамка выделяет не один, а сразу два незнакомых символа, т. е. программа воспринимает их как один, хотя распознать их необходимо по отдельности. Случается и обратное – когда рамка делит символ пополам там, где это не нужно. В подобных ситуациях нужно подкорректировать размеры рамки с помощью расположенных справа кнопок со стрелками.
В поле Введите символ, выделенный рамкой нужно указать символ, которым должно распознаваться незнакомое программе изображение. Попросту говоря, вместо неизвестного символа Fine Reader при распознавании вставит тот, который будет указан в данном поле. Чтобы выбрать требуемый символ, нажмем расположенную справа кнопку выбора – в результате на экране откроется окно, изображенное на рис. 4.11.
Рис. 4.11. Выбор символа для распознавания