KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Программы » Б. Леонтьев - Секреты сканирования на ПК

Б. Леонтьев - Секреты сканирования на ПК

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Б. Леонтьев, "Секреты сканирования на ПК" бесплатно, без регистрации.
Перейти на страницу:

Как удалить фрагмент изображения

В случае, если вы хотите исключить какой-то участок текста из распознавания или у вас на изображении имеются большие участки мусора, то вы имеете возможность стереть его. Для этого:

Выберите инструмент (на панели в диалоговом окне Изображение) и, нажав на левую кнопку мыши, выделите участок изображения, который вы хотите удалить. Отпустите кнопку, выделенная часть изображения будет удалена.

Как изменить масштаб изображения

На панели Изображение (в диалоговом окне Изображение) выберите инструмент и щелкните левой кнопкой мыши на изображении. Изображение увеличится/уменьшится в два раза.

Нажмите правой кнопкой мыши на изображение и из меню выберите команду Масштаб и нужный вам масштаб.

Как получить информацию об изображении

• Вы имеете возможность получить следующую информацию об открытом изображении: ширину и высоту изображения в точках; вертикальное и горизонтальное разрешение в точках на дюйм (dpi); тип изображения.

Нажмите правой кнопкой на изображение и из меню выберите команду Свойства. В раскрывшемся диалоговом окне выберите закладку Изображение.

Отменить последнее действие

Для отмены последнего действия на панели Стандартная просто нажмите на кнопку Отменить.

Важно: Для повторного выполнения последнего отмененного действия на панели Стандартная просто нажмите на кнопку Вернуть.

Нумерация страниц при добавлении в пакет

По умолчанию каждой сканируемой странице присваивается номер на единицу больший номера последнего изображения в пакете.

Вы имеете возможность задать номер добавляемой страницы и вручную (например, вам необходимо сохранить исходную нумерацию страниц или вы сканируете стопку сортированных по порядку страниц). Для этого активизируйте опцию Запрашивать номер страницы при добавлении в пакет на закладке Сканирование/Открытие (доступ:Сервис к Опции).

В диалоговом окне Номер страницы укажите номер страницы, с которой начинается сканирование и выберите опцию Через одну в поле Нумерация страниц. Выберите способ нумерации страниц: по возрастанию или по убыванию. Возрастание или убывание зависит, например, от того, как вы кладете стопку в автоподатчик — находятся ли меньшие или большие номера наверху.

Уменьшать разрешение цветного/серого изображения до 100 dpi

Эта опция используется при добавлении в пакет цветных изображений большого размера. В этом случае, во-первых, пакет будет занимать меньше места на диске, а во-вторых, процесс обработки группы страниц будет происходить быстрее.

Важно: Эта опция не влияет на качество распознавания текста. Данное уменьшение разрешения влияет на качество сохраняемых картинок: разрешение картинок уменьшается до 100 dpi.

Как преобразовать цветное/серое изображение в черно-белое

Отметьте эту опцию при сканировании через TWAIN-диалог сканера в сером режиме (с автоподбором яркости) или при сканировании в цвете, если при этом сканируемые документы не содержат цветных картинок, цветного шрифта и фона или же вам не требуется передача цвета в выходное изображение. В этом случае сохраняемые в пакет изображения будут занимать меньше места на диске.

Как проанализировать макет страницы

Прежде чем приступить к распознаванию, программа должна знать, какие участки изображения необходимо распознавать. Для этого проводится анализ макета страницы, во время которого выделяются блоки с текстом, картинки, таблицы и штрих-коды (для версии Office).

Анализ макета страницы может проводиться как автоматически, так и вручную. В большинстве случаев FineReader сам успешно справляется с анализом сложных страниц. Автоматический анализ производится по кнопке 2-Распознать одновременно с распознаванием текста.

Важно: Отдельная процедура анализа макета страницы тоже доступна (доступ: Процесс к Анализ макета страницы). Правда, при этом качество сегментации может быть ниже, так как при совместной процедуре распознавания и сегментации для анализа страницы используется дополнительная информация, полученная в процессе распознавания.

Глава 31.

Блоки

Типы блоков в OCR — системе ABBYY FineReader

Блоки — это заключенные в рамку участки изображения. Программой блоки выделяются для того с тем, чтобы указать OCR-системе, какие участки отсканированной страницы необходимо распознавать и в каком порядке. Кроме того по ним воспроизводится исходное оформление страницы. Блоки разных типов имеют различные цвета рамок. Вы имеете возможность изменить цвета рамок блоков на закладке Вид диалогового окна к Опции (доступ:Сервис к Опции) в разделе Объекты. В поле Объект выберите нужный тип блока, а в поле Цвет — требуемый цвет.

Выделение блоков «вручную» может понадобиться, если:

• Вы хотите распознать часть страницы.

• В результате автоматического анализа блоки были выделены неправильно.

Совет: В некоторых случаях качество автоматического анализа можно улучшить, правильно установив опции анализа макета. Проверьте установленные опции анализа (закладка Распознавание, меню Сервис к Опции).

В случае, если программа выделила неправильно некоторые блоки, часто оказывается быстрее исправить только их, воспользовавшись инструментами для редактирования блоков, а не выделять блоки на изображении заново вручную.

В процессе обработки изображений выделяют блоки следующих типов:

Зона Распознавания

Блок используется для распознавания и автоматического анализа части изображения. После нажатия на кнопку 2-Распознать выделенный блок автоматически анализируется и распознается.

Текст

Блок используется для обозначения текста. Он должен содержать только одноколоночный текст. В случае, если внутри текста содержатся картинки, выделите их в отдельные блоки.

Таблица

Блок используется для обозначения таблиц или текста, имеющего табличную структуру. В процессе распознавания программа разбивает данный блок на строки и столбцы и формирует табличную структуру. В выходном тексте данный блок передается таблицей. Вы имеете возможность выделить и скорректировать таблицу вручную.

Картинка

Этот блок используется для обозначения картинок. Он может содержать картинку или любую другую часть текста, которую вы хотите передать в распознанный текст в качестве картинки.

Штрих-код (только в версии Office)

Этот блок используется для распознавания штрих-кодов. Это означает, что, если ваш документ содержит штрих-код и вы хотите передать его не картинкой, а перевести его в последовательность букв и цифр, то выделите штрих-код в отдельный блок и присвойте ему тип Штрих-код.

Важно: По умолчанию опция, позволяющая искать и распознавать штрих-коды отключена. Для того, чтобы подключить ее, активизируйте опцию Искать штрих-коды на закладке Распознавание (доступ: Сервис к Опции).

Опции автоматического анализа макета страницы

В процессе автоматического анализа макета страницы FineReader сам выделяет блоки, содержащие тексты, таблицы, картинки и штрих-коды.

Автоматический анализ запускается по кнопке 2— Распознать одновременно с распознаванием текста. До запуска распознавания необходимо установить основные опции анализа: тип страницы и опции анализа таблиц.

Для большинства изображений расположение текста на странице определяется автоматически, чему соответствует значение Авто на закладкеРаспознавание в разделе Тип страницы (доступ: Сервис к Опции), устанавливаемое системой по умолчанию.

В некоторых случаях может потребоваться установить значение типа страницы вручную. Для этого на закладке Распознавание диалогового окна Опции (доступ: Сервис к Опции) в разделе Тип страницы выберите необходимую команду.

Возможные типы страницы

Автоматическое определение

Указывает, что расположение текста на странице определяется автоматически. Это значение устанавливается системой по умолчанию; подходит для распознавания всех видов текстов, в том числе многоколоночного текста, текста с таблицами и картинками.

Одна колонка

Указывает, что текст на странице напечатан в одну колонку. Эта опция используется в случае, если автоматическое определение ошибочно сегментировало страницу как многоколоночный текст.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*