KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Программирование » Вадим Кузнецов - Описание работы пакета OOoFBTools Создание книг FB2

Вадим Кузнецов - Описание работы пакета OOoFBTools Создание книг FB2

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Вадим Кузнецов, "Описание работы пакета OOoFBTools Создание книг FB2" бесплатно, без регистрации.
Перейти на страницу:

/home/XXX/.openoffice.org/3/user/config/OOoFBTools. Для Windows – это папка C: Documents and SettingsXXXApplication DataOpenOffice.org3userconfigOOoFBTools, где XXX – ваш логин (имя пользователя). Файл создается автоматически и все изменения в диалоге заносятся в него автоматически.

III. Интерактивные инструменты обработки текста

III.1. Поиск OCR ошибок в тексте

Эти инструменты предназначены для ручного поиска и самостоятельной корректировки слов. Они часто бывают полезны после OCR. Многие ошибки в тексте можно исправить с помощью автоматического Корректора Текста. Но он не все корректирует «до конца». Например, при корректировании разрыва абзацем дефиса и переноса слов, в зависимости от выбора режима корректировки, часто остаются не обработанными либо слова с дефисами, либо слова с переносами, т. к. есть случаи, которые невозможно программно отследить, и только человек способен правильно решить, что это – слово с дефисом или же слово с разорванным переносом. Для такого случая и подобных и созданы ручные инструменты коррекции текста:

Диалог «Поиск OCR ошибок в тексте» выполнен, как немодальный, т. е. с него легко «перейти» на найденного им слово для ручной коррекции, не закрывая при этом этот диалог. Но эта возможность может понадобиться крайне редко, т. к. предусмотрена кнопка «Удалить» («Вставить», «Обработать» – название и назначение меняется в зависимости от вида поиска), нажатие на которой вносит необходимые изменения в найденный текст.

Диалог «запоминает» свое местоположение на экране, и при следующем его вызове он отобразится в том месте, где вы его закрыли в прошлый раз. Это удобно. Его можно расположить над меню и панелями инструментов OOo (сделано по умолчанию), и он не будет «мешать» видеть текст во время поиска.

Поиск ручным корректором и внесение изменений осуществляется везде – в тексте, в таблицах, в текстовых врезках и в сносках.

Поиск начинается от позиции курсора в документе и идет «по-кругу».

Корректировка найденного текста по нажатию кнопки (справа от кнопки «Найти») работает «интеллектуально», т. к., если после того, как вы нашли что-то (этот текст выделяется), а потом перешли курсором в другое место, или выделили случайно другое место в тексте, и нажали на корректирующую кнопку, то, если нет выделения – ничего не будет откорректировано. А если выделение есть, то в нем будет проведен поиск OCR-ошибки, согласно выбранного вида поиска, и в случае обнаружения, произойдет коррекция текста.

Конечно, все случаи «защиты от глупости» не предусмотришь…

Опция «Искать далее после обработки найденного»: Если она выключена, то после того, как инструмент нашел ошибку OCR, и вы ее обработали с помощью кнопок обработки, текстовый курсор остается на найденном, и чтобы найти новую ошибку OCR, надо нажать кнопку «Найти». И так – до конца книги. Если же опция «Искать далее после обработки найденного» включена, то после обработки найденной ошибки автоматически происходит переход на новую ошибку в тексте! Это очень удобно!

Поиск слов с дефисами, тире или минусом

Инструмент позволяем искать в тексте слова с дефисами, например: «кое-что», «серый- серый», «по-своему», «ты-ли», «ангел-хранитель» и т. д.

Польза этого инструмента – после работы Корректора Текста в автоматическом режиме можно найти слова, где из разорванных переносов был удален только знак абзаца, а дефис (или «минус») – оставлен. Если и он должен быть удален, то теперь это можно сделать вручную. Например, нашли: «замеча-тельно». Здесь перенос – явно лишний. Удаляем…

С другой стороны, можно найти другие слова с тире, дефисом или минусом и заменить эти символы «на ваш вкус». Обрабатывается и неразрывный дефис.

Опция «Искать между цифрами» нужна для возможности включить/отключить поиск минуса, тире и дефиса между цифрами. Очень часто в книгах встречаются такие конструкции: 12-34, 1972-2010 и т. д. (В христианской литературе – это ссылка на стихи Библии, например, Мф. 5:1-8. В исторических книгах – это указание на отрезок времени. И т. д.). В таких книгах, как правило, минус, тире или дефис между цифрами – это не ошибка OCR, а норма. При вычитке инструмент часто находит такие цифры с дефисами, что утомляет. Чтобы пропустить эти «правильные» цифры и не тратить на них время нужно отключить опцию «Искать между цифрами».

Для поиска используется шаблон регулярных выражений: При включенной опции «Искать между цифрами»:

‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: alnum: ]+

При выключенной опции «Искать между цифрами»:

‹[: alpha: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: alpha: ]+

Кнопка Вставить пробелы активна только для этого режима. При нажатии на ней, если найдено слово, содержащие дефис, минус или тире, то слева и справа от этого минуса, дефиса или тире ставятся пробелы. Это полезно для «слипшихся» слов и тире… Например, найдено слово «Ты – нет!». После нажатия кнопки Вставить пробелы, получаем «Ты – нет!», как и должно было быть.

В этом режиме поиска предусмотрена возможность Запоминать найденное «хорошее» дефисное слово (Кнопка Запомнить), и Редактировать файл списка этих дефисных слов (Кнопка Править). Слова «запоминаются» в. txt-файл words_defis_list.txt, который создается в папке config пакета OOo. Для Unix – подобных систем – это папка

/home/XXX/.openoffice.org3/user/config/OOoFBTools. Для Windows – это папка C: Documents and SettingsXXXApplication DataOpenOffice.org3userconfigOOoFBTools, где XXX – ваш логин (имя пользователя).

Как это работает? Когда найдено очередное слово с минусом, неразрывным дефисом, дефисом или тире, то, чтобы инструмент не останавливался в следующий раз на этом же слове, его можно «Запомнить». И теперь оно будет «благополучно» пропускаться при поиске.

Предусмотрены защиты от «глупости»: слово не будет «запоминаться», если:

– нет выделения в тексте;

– выделено слово, не содержащее ни минуса, ни тире, ни дефиса, ни неразрывного дефиса;

– случайно пользователем выделено несколько абзацев.

Во всех этих случаях будет выдано соответствующее предупреждение.

При Правке файла списка дефисных слов (нажатие кнопки Править) файл words_defis_list.txt будет запущен в ассоциированном с расширением. txt в вашей системе текстовом редакторе. Лучше ассоциировать. txt с редактором, который поддерживает Unicode и корректно «видит» перевод строк (абзацы). В Windows notepad.exe для этого не подходит.

В Windows я пользуюсь Notepad++.exe.

Поиск слов, в которых абзац разорвал перенос (дефис, тире или минус)

Этот инструмент позволяет искать в документе разрыва дефисов и слов. Например:

«давным-¶», «из-¶», «пересмотре-¶». Если после знака переноса стоит один или пробелов, то такие слова тоже находятся. Например: «давным- ¶», «из- ¶», «пересмотре- ¶»

Обрабатывается и неразрывный дефис.

Для поиска используется шаблон регулярных выражений:

"‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$|‹[: alnum: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]$"

Поиск обрыва абзаца на словах, знаках препинания, кавычках и скобках

Например, есть текст:

Это пример того, как можно «найт軶

разрыв предложения на кавычках,¶

запятой, (тексте в скобках) ¶

что часто бывает нужно после OCR.

Еще пример:

Здесь – разрыв после пробела и тире -¶

А здесь – разрыв после 2-х пробелов, минуса и пробела – ¶

Для поиска используется шаблон регулярных выражений:

"‹[: alnum: ]+$|‹[: alnum: ]+[)}],»”"":;]$|‹[: alnum: ]+[)}].,»”"":;]+[)}],»”"":;]$|[: space: ]+ [-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "]$" amp; "|[: space: ]+[-" amp; chr(8209) amp; chr(8211) amp; chr(8212) amp; "][: space: ]+$"

Т.е. отлавливаются не только разрывы на запятых, скобках и словах, но и на минусе, тире и дефисах, слева от которых стоит 1 или более пробелов, а справа – ни один или множество пробелов (частая ошибка OCR).

Кнопка «Обработать» позволяем удалить разрыв предложения и вставить пробел.

В этом варианте поиска активируется выпадающий список знака пунктуации, который можно выбрать, и при нажатии кнопки «Вставить» он будет вставлен «на свое место».

Кнопка «Склеить» позволяет просто удалить разрыв, не вставляя пробел. Это полезно, т. к. часто при OCR (особенно в FR10) слово оказывается разорванным не как, например «по-¶шел», а «по¶шел». Поэтому «Склейка» склеивает разорванное слово.

Поиск вероятного недостающего пробела между словами

Ищет слова с вероятным отсутствием пробела между ними по знакам препинания, закрывающим скобкам.

Опция «Искать между цифрами» нужна для возможности включить/отключить поиск недостающего пробела между цифрами. Очень часто в книгах встречаются такие конструкции: 12,34, 1972:2010 и т. д. (В христианской литературе – это ссылка на стихи Библии, например, Ин. 3:16. В математических книгах и книгах по программированию – это указание на числовые диапазоны, просто дробные числа. И т. д.). В таких книгах, как правило, отсутствие пробела между цифрами – это не ошибка OCR, а норма. При вычитке инструмент часто находит такие цифры "без пробела", что утомляет. Чтобы пропустить эти «правильные» цифры и не тратить на них время нужно отключить опцию «Искать между цифрами».

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*