TWDragon - Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро
• Если слово с переносом расположено в конце страницы (перенос идет на следующую страницу);
• Если слова с переносом нет в словаре FineReader (словарь длиной не отличается, так что подавляющее большинство имен и фамилий, вся историческая и научная терминология – в группе риска).
Когда текст вычитан, наступает время заголовков и рисунков. Каких-либо рекомендаций по выделению заголовков – давать нет смысла, ибо кому что нравится. С рисунками придется повозиться чуть дольше. Во-первых, те из рисунков, которые были обозначены как диффузные (Dithered) в ScanKromsator – придется обозначить еще раз, уже как простые рисунки (Picture Zone), и обработать страницы с ними отдельно. Тогда рисунки выделятся в отдельные файлы. Теперь, с помощью Word эти файлы можно будет добавить в вычитанную книгу. Место для рисунка можно выбирать произвольным образом, если только он не привязан к тексту – тогда придется отыскать нужное место. Когда рисунок добавлен, щелкаем по нему дважды, запуская диалог Формат рисунка. Сейчас задача – сжать рисунок, для того, чтобы изображение высокого разрешения не «забивало» экран и память на мобильном устройстве. После нажатия на кнопку Сжать… вызывается диалог сжатия изображения. Параметры в нем выставляются так, как показано на иллюстрации. После получения ответа из диалогов Word обрежет и сожмет рисунок алгоритмом JPEG с фактором качества 50 %. Для мобильных устройств этого вполне достаточно из-за маленьких (максимум 640 х 480 точек) экранов.
Сохранять полученный файл лучше всего в формат HTML. Как показала практика, с ним не возникает проблем у большинства «читательных» программ на мобильных телефонах и PDA. Отдельные энтузиасты могут попробовать преобразовать полученный текст в набирающий популярность XML-совместимый формат FB2, но описание этого процесса требует отдельного руководства, так как для редактирования FB2 еще не создано устоявшегося набора удобных в использовании визуальных программ-редакторов. Можно попробовать преобразовать файл HTML в формат FB2 с помощью консольной утилиты AnyToFB2.ехе, но работа с ней выходит за рамки данного руководства. Для того чтобы выходной HTML-файл был совместим с основным WEB-стандартом HTML (не содержал служебной информации Word, отформатированной по спецификации Microsoft, не совместимой со стандартным HTML), сохранять нужно, задав в списке «Тип файла» пункт «Веб-страница с фильтром». При выборе этого пункта Word сперва спросит, в своем ли мы уме, что не сохраняем его служебные данные, но потом выведет в указанную папку две вещи: собственно HTML-файл ‹имя книги›.html с текстом книги, и подпапку с именем ‹имя книги›.files которая будет содержать сжатые рисунки и XML-таблицу совместимости Word.
Эти две вещи лучше всего сразу запаковать в ZIP-архив (большинство программ-читателей, вроде AlReader – сможет распаковать такие книги), чтобы ничего не потерять при переносе на мобильное устройство и не плодить в памяти отдельные папки под каждую книгу.
По завершении всех операций – вы получаете электронную книгу, практически неотличимую на вид (правда, на экране) от бумажной! Плюс версия для чтения на мобильнике.
Еще раз повторю: описать все эти операции гораздо труднее, чем выполнить их одну за другой.
Удачи в книгосканировании!
P.S. Примеры к этому руководству я получил, отсканировав и обработав книгу Лины Хааг «Горсть пыли». Если Вы хотите посмотреть, к чему приводит точное и неукоснительное исполнение правил, изложенных в руководстве – скачайте книгу по адресу http://torrents.ru/forum/viewtopic.php?t=2170096. Кроме того, эта книга сама по себе может быть весьма полезной, особенно любителям истории Второй мировой войны.
Контакты автора
Если Вы хотите найти автора в Сети, чтобы задать вопрос, предложить дополнение, кинуть ссылку на программу или просто сообщить любую полезную информацию, ищите его по таким адресам:
• http://torrents.ru/forum/profile.php?mode=viewprofile.ru=2964463 – основное представительство аффтара на трекере torrents.ru, здесь можно найти всю файловую базу для этого руководства, включая самые новые версии PDF- и DjVu-кодеров. Здесь же лежит в форумной ветке http://torrents.m/fomm/viewtopic.php?t=2160930 онлайн-версия руководства, доступная для обсуждения зарегистрированными пользователями. На форуме есть возможность отправки личных сообщений.
• Для особых случаев связи предназначен адрес электронной почты: #mailto: [email protected] Писать на него можно только, если Вы не зарегистрированы на torrents.ru, а вопрос не терпит отлагательств (например, срочно требуются выложенные на файлообменник старые программы для обработки DjVu, которых нет на трекерах). Все вопросы, касающиеся содержания руководства, рекомендую обсуждать в указанной выше форумной ветке. Однако, если Вы все же твердо решили задать свой вопрос по e-mail, обязательно сделайте в теме письма пометку «Руководство по книгосканированию», иначе ваше письмо сильно рискует улететь в корзину со спамом.
• http://www.journals.ru/iournals.php?userid=35132 – блог аффтара на одном из популярных российских дневниковых ресурсов. Найти здесь что-то полезное – нереально, ибо блог создавался специально для отвода потока сознания. Если Вы зарегистрированы на Journals.ru – милости прошу. Если же нет – будьте готовы к тому, что флудерские и просто глупые комментарии будут безбожно вытираться и перечеркиваться, так что основное правило таково: если Вы – «Гость» – пишите только по делу.
• Программы на файлообменники я выкладываю по запросу, обычно в течение одного дня (за исключением летней отпускной поры, тогда могу и в течение недели не управиться). Сервисы iFolder.ru, RapidShare.com, ShareMania.ru. FineReader не просите выложить никогда(!), ибо университетская лицензия не велит. Запросы на Adobe Acrobat тоже крайне нежелательны – у меня и самого этот монстр глючит безбожно.
То же от 4u4undr
Эта мини инструкция в картинках, описывающая полный цикл создания электронной версии научно-технической книги, и предназначена для человека, искренне захотевшего сделать приемлемого качества е-книгу, но не знающего с чего начать. Важно понимать, что существует немало апробированных методов создания достаточно качественных e-книг, все они характеризуются тем, что на выходе книга, как правило научно-техническая, имеет разрешения 600 dpi ч/ б (все книги в 300 dpi ч/ б, несмотря на все старания создателей, явно проигрывают).
Рассматриваемая здесь метода, основана на сканировании в300 dpi, в градациях серого (600 dpi ч/б будет после обработки). По этому поводу следует заметить, что уменьшение геометрического размера сырого скана в 4 раза, по сравнению со сканированием в 600 dpi, практически компенсируется увеличением глубины цвета в 8 раз (зато скорость сканирования возрастает в 2 раза ©), а также уменьшением количества паразитного мусора.
1. Сканирование
Беря в руки увесистую книгу, многие думают, что отсканировать ее может только маньяк. Совершенно верно, именно так. Без применения научно-организованного подхода, любая работа превращается в мучение, но, сделав работу незаметной, хоть большого удовольствия и не получишь, но дело сделаешь.
Для сканирования сгодится любая программа, способная взаимодействовать с TWAIN драйвером сканера и сохранять отсканированные изображения на диск, нумеруя их удобным способом. Сойдет любой просмотровщик графических файлов: ACDsee, IrfanView, XnView… Если ваш сканер поддерживается программой сканирования VueScan, можете использовать и ее.
Например, в IrfanView (скачайте свежую версию этой бесплатной программы) это выглядит примерно так:
В меню Файл жмем пункт Выбрать TWAIN-источник…
Далее, там же, выбираем пункт меню Получить изображение/пакетное сканирование…
здесь выбираем как будут нумероваться файлы сканов, где они будут складироваться и тип графического формата. Не забудем проверить Опции графического формата:
можно выбрать или Без сжатия или LZW (внимание, не все программы корректно с ним работают), в последнем случае размер файла на выходе будет примерно в два раза меньше. Можно, наверное, и ZIP, но это проверьте самостоятельно. – жмем на кнопку OK и переходим в окно TWAIN Вашего сканера
Сама техника сканирования незатейлива:
– берется книга, кладется разворотом (т.е. двумя страницами) на стекло, прижимается если надо сверху рукой (это быстрее, чем использовать груз).
– делается предварительное сканирование
– картинка, если это возможно, в окне сканирования, разворачивается на 90 градусов (в нормальное положение)
– выбирается область сканирования с некоторым запасом, как правило по горизонтали (по вертикали трудно промахнутся)