KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Программирование » Вадим Кузнецов - Описание работы пакета OOoFBTools Создание книг FB2

Вадим Кузнецов - Описание работы пакета OOoFBTools Создание книг FB2

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Вадим Кузнецов, "Описание работы пакета OOoFBTools Создание книг FB2" бесплатно, без регистрации.
Перейти на страницу:

Чтобы быть уверенным, что сноски или гиперссылки сгенерируются корректно, сначала нужно выполнить тест, немного подождать, потом проанализировать результат (он будет автоматически показан в браузере, стоящем по-умолчанию в системе) в виде html-файла.

1. Примеры ошибок OCR и «ложного срабатывания» генераторов

Рассмотренные ниже примеры – результат анализа работы Теста. Запустите Тест, просмотрите результат – повторяющиеся номера, отсутствующие номер и т. д. По этим данным можно многое понять об ошибках в тексте и найти нужные номера примечаний в книге – они в тесте показаны в виде списка.

«Ложное» срабатывание генератора – это его абсолютно верная реакция на ошибки или некорректности в тексте книги.

(1) Отсутствующие номера примечаний и опечатки

Например, для обозначения номеров примечаний в Тексте используются круглые скобки и цифры, а в списке – в начале каждого абзаца номер с точкой после него (самый распространенный вариант книг):

В 1-й колонке – пример корректного текста книги. Есть четкое соответствие между номерами примечаний в Тексте и соответствующими им примечаниями в Списке примечаний (номера выделены синим цветом). Сгенерируется 3 сноски или гиперссылки.

Во 2-й колонке таблицы – ситуация, когда в Тексте книги либо нет номера примечания, либо рядом с цифрой – «посторонний» символ, либо закрывающая скобка «распозналась» не как круглая, а как фигурная (эти «дефекты» показаны красным цветом). А генератор «настроен» именно на круглые скобки и цифры внутри них. В этом случае сгенерируется только 1-я сноска (гиперссылка). Все остальное останется нетронутым.

В 3-й колонке таблицы – пример плохого экспорта после OCR Списка примечаний – 1-е и 2-е примечания «слиплись» в один абзац, а у 3-го после номера вместо точки стоит запятая. Будет сгенерировано только 1 сноска из 1-го примечания, причем ее текст будет содержать и 1-е примечание, и 2-е, т. к. это один абзац. 3-е же примечание будет вообще не найдено.

После исправлений всех этих опечаток все примечания будут корректно сгенерированы в сноски (гиперссылки).

(2) Повторяющиеся номера примечаний

Часто в текстах можно встретить ситуацию, когда номера примечаний повторяются либо по замыслу автора книги, либо из-за OCR-ошибок, либо гол, весь и другая информация в скобках цифрах воспринимается генератором, как номер сноски.

Одинаковые номера-указатели в Тексте – замысел автора книги

Здесь автор книги дважды ссылается на одно и то же примечание – (50). Это вполне допустимо, но при генерации это 2-е указание на примечание не будет обработано. Чтобы и оно сгенерировалось в сноску, его надо изменить, придав ему заведомо уникальное значение, а в Списке примечаний добавить еще один абзац с текстом от примечаний 50. а номер – изменить на уникальный, как это показано во 2-й колонке таблицы примера. Теперь все будет сгенерировано в сноски корректно.

Одинаковые номера-указатели в Тексте – какие-то цифры воспринимаются, как номера примечаний

В этом примере рассмотрена ситуация, когда число лет человека, взятое в круглые скобки, воспринимается, как дублирование примечания (50). При генерации сносок именно это число лет (50) будет воспринято, как указатель на примечание из Списка: «50. Текст 2-го примечания». А это – не то, что должно быть. Надо запустить тест, посмотреть, есть ли повторяющиеся номера (будет показан их список, если они есть), и те числа, которые не являются указателями на примечание – как-то выделить особо, чтобы после генерации сносок найти их восстановить их прежний вид. Например, число лет в скобках (50) можно «защитить», изменив круглые скобки на фигурные: {50}.

Одинаковые номера-указатели в Тексте – при распознавании (OCR) какой-то номер примечаний распознался неправильно

Одинаковые номера-указатели в Списке примечаний – при распознавании (OCR) какой-то номер примечаний распознался неправильно

(3) Несоответствие числа номеров примечаний из Текста числу примечаний в Списке примечаний и наоборот

В корректном тексте книги с примечаниями число номеров-ссылок на соответствующие им примечания в Списке примечаний и число примечаний в этом Списке должны совпадать. Иногда Тест может показать, что это не так. Примеры:

В Тексте есть отсутствующие номера из Списка примечаний

Тест показал, что номер (58) из Текста отсутствует в Списке примечаний, а номер из Списка примечаний (68) отсутствует в Тексте. В этом примере в Списке примечаний ошибка в номере 68. Вместо этого номера должен стоять номер 58. – это – OCR-ошибка.

2. Книга с номерами примечаний без ошибок

В хорошо распознанном тексте должны имеется следующее:

1. Число номеров-ссылок на соответствующие им примечания в Списке примечаний и число примечаний в этом Списке должны совпадать. Если это соотношение не соблюдается – генерация сносок не будет корректной.

2. Все номера примечаний в Тексте должны быть «обрамлены» в одни и те же символы, например круглые скобки.

3. Все примечания из Списка должны идти с начала абзаца и соответствовать шаблону – x. или {x} или (x) или ‹x› и т. д.

4. Число обработанных номеров примечаний должно быть равно числу Уникальных, т. е. не повторяющихся номеров.

5. Должны быть выполнены следующие условия: Число Повторяющихся номеров = 0;

Число Отсутствующих номеров = 0;

Число Отсутствующих номеров из Текста в Списке примечаний = 0; Число Отсутствующих номеров из Списка примечаний в Тексте = 0

3. Использование данных анализа Теста

В генерируемом отчете Теста для каждого из Режимов содержится масса таблиц, помогающих понять – что в книге не в порядке с примечаниями (если таковое есть). Анализ делается в Зонах поиска, помеченной 2-мя закладками – Глава Книги и Список «ее» примечаний. По каждой такой Зоне выдается своя информация нескольким критериям: Сколько обработано номеров примечаний, сколько есть неповторяющихся номеров, сколько повторяющихся, сколько отсутствующих, и в Главе, и в Списке «ее» примечаний. А также – сколько и какие номера из Главы отсутствуют в Списке примечаний и наоборот.

По всем эти данным выдаются таблицы с соответствующими номерами.

В конце отчета – важные таблицы – какие Зоны (Главы и «их» Списки примечаний) не требуют корректуры (с ними все в порядке), а какие – требуют исправления ошибок для успешной генерации сносок. В этих таблицах отображаются названия закладок, по которым с помощью Навигатора в OpenOffice.org (вызывается по F5) можно легко перейти в нужное место и исправить ошибки в нумерации примечаний и т. д.

Пользуйтесь этой информацией!!!

4. Важное замечание о Тесте

Часто пользователь может по невнимательности ошибочно выбрать не тот режим сложной генерации сносок (гиперссылок), сделать Тест, а потом удивляться, почему тест выдал «странные» данные – то нет вообще ни одного номера примечаний (а в Документе они есть), то число уникальных (неповторяющихся) номеров примечаний в Главе или Списке примечаний вообще нет! И т. д. Чтобы этого не было четко следуйте следующему:

1. Если Книга у вас имеет вид: Примечания есть в каждой главе, а Списки примечаний – в конце книги, то в форме Генератора сносок выберите именно этот режим, а не Список примечаний – после каждой главы! Т. е. не ошибитесь с выбором режима генерации сносок (гиперссылок)!

2. Если в Главах Книги номера примечаний отмечены у вас фигурными скобками, например, {1}… {51}, номера примечаний в Списке примечаний – цифрой в круглых скобках без точки после закрывающей скобки, например:

(1) Текст примечаний, то в форме диалога в шаблонах нужно выбрать именно такой шаблон! Не перепутайте! Иначе и Тест, и результат генерации сносок (гиперссылок) вас «приятно разочарует»;-). Будьте внимательны!

2. Преобразование номеров примечаний в верхнем индексе по шаблону

Инструмент «запоминает» свое положение на экране и последний выбранный шаблон из списка.

Инструмент желательно использовать только для тех книг, где цифрами в верхнем индексе обозначаются только номера примечаний! Иначе, степени в ряде книг: научных и математических книгах, номера стихов в Библии и Коране преобразуются по шаблону, что будет явной ошибкой! Для этих книг лучше использовать Инструмент Интерактивного преобразования номеров примечаний в верхнем индексе по шаблону, который позволяет найти такие цифры, просмотреть найденное и дает возможность вам самим принять решение – номер ли это примечания или нет.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*