Компьютерра - Компьютерра PDA N134 (03.09.2011-09.09.2011)
Программы OCR [1] — веселые программы. Всякий апгрейд сопровождается невиданным хайпом: из победоносного релиза мы узнаем, что задействованы революционные технологии, полностью переписан код, радикально изменено ядро распознавания, скорость распознавания увеличилась в N-ное число раз. Это уже было и раньше в случае с четвертой версией FineReader, то же самое я слышал в связи с CuneiForm 2000. Про пятую версию FineReader тоже сказано, что «точность распознавания улучшена в 1,5–2 раза по сравнению с версией 4.0».
Насколько это так, мы сейчас посмотрим. Почему речь зашла о кислотном тесте (acid test [2])? Дело в том, что совершенно бесполезно тестировать современные программы распознавания знаков на свеженьких текстах, отпечатанных типографским способом либо на лазерном принтере. Результат будет заведомо безупречен. Поэтому, если вам приходится иметь дело только с такими документами, то создавать электронный архив можно с любой программой OCR — разницы вы не почувствуете. Другое дело — документы экстремального характера…
14 лет назад из-под тонких пальчиков профессиональной машинистки выскочили 219 страничек моей диссертации. Как водится, первый экземпляр перекочевал к научному руководителю, второй — на кафедру, третий — в Ленинскую библиотеку в архивный отдел, а вот четвертый я зажал на память. Все эти годы я периодически возвращался к этим желтым и жухлым страничкам и всякий раз убеждался, что они — лучшее, что я создал в этой жизни. Вполне естественно, что желание перевести свою диссертацию в электронный вид не покидало меня ни на одно мгновение. Я набрасывался на всякий новый пакет OCR, но вот что из этого получалось, я вам сейчас продемонстрирую.
Перед вами типичный образец оригинального текста:
По большому счету, ничего тут героического нет: ну бледненько все, ну буквы неравномерно отбились — эка невидаль! Машинистка у меня была профессиональная — брала по восемьдесят копеечек за страницу, поэтому опечаток и замазок — самая малость. Не тут-то было! Этот «исходник» оказался не по зубам всем OCR без исключения.
То, как распознал этот отрывок FineReader предыдущей версии (4.64 Professional), достойно музея Гугенхайма:
Я насчитал только пять правильно распознанных слов (из двадцати девяти). Сами понимаете, «оцифровывание» моей диссертации пришлось отложить до лучших времен — проще все по новой перепечатать.
Приблизительно таким же был результат у CuneiForm 96 и CuneiForm 97, и CuneiForm 98… В какой-то момент я окончательно решил, что — не судьба. Как вдруг на свет появился CuneiForm 2000. Прорыв налицо:
Почувствуй, как говорится, разницу! Не беда, что «вещи с самом совой» и гарантия в четыре слова — «р их га антий». Тут уже можно было работать. И я принялся не спеша, неделя за неделей, разгребать авгиевы конюшни ультрасовременных технологий.
Но, как оказалось, я переоценил свое терпение. Потому что через месяц мне вся эта процедура обрыдла выше крыши. И я опять остался сидеть у самого синего моря в ожидании золотой рыбки.
В минувшее воскресенье я подставил свою диссертацию под FineReader 5.0. В успех не верил. Вот что получилось:
Нужны ли какие-нибудь комментарии? Нужны ли мои традиционные «эмоции взахлеб»? Думаю — нет. Факты, господа, одни только факты. Говорят, «аббисты-файнридерцы» переписали код программы с нуля. Если это так, то перед нами лишнее доказательство того, что русский человек не может ничего построить без того, чтобы сперва не развалить!
Помнится, дорогие аббийцы на меня за тот текст тогда обиделись, даже прислали письмо в редакцию с предложением провести независимое тестирование, давая понять, что мои результаты по четвертой версии - следствие мною же криво выставленных настроек. Я оправдывался: писал, что никаких настроек вообще не настраивал, а просто запускал процесс распознания текста по умолчанию, что говорится, из коробки. Детство отечественной айти-журналистики, чего уж там ☺
_________________________
За 11 лет много воды утекло: канула в Лету добрая «Кунейка» (CuneiForm) - единственный достойных конкурент Abbyy (не считать же конкурентом жуткий американский IRIS). Файнридер, однако, в нарушение всех законов и канонов бизнеса, оказавшись в гордом монопольном одиночестве, не то что не испортился-зазнался-остановился-в-развитии-деградировал, как чаще всего и бывает в бесконкурентном пространстве, а продолжил реально набирать обороты, превратившись в абсолютный мировой стандарт (с мировым же именем) и достигнув акурат маяковского состояния: «Мы говорим OCR - подразумеваем Файнридер, и наоборот».
Но даже не это самое главное. Мало того, что FR стал стандартом, так он еще и сохранил молодость технологического порыва, совершенствуя движок OCR, а не только рюшки-ряшки пользовательского интерфейса!
Именно эту уникальную способность FineReader к самосовершенствованию я и хочу сегодня продемонстрировать читателям. Я взял ту же самую историческую страничку своей диссертации и скормил ее одиннадцатой версии программы. Смотрите, что получилось:
Здесь не нужны комментарии. Это просто фантастика. Смотрите, что при этом творит Файнридер:
Программа констатирует ущербность качества исходного изображения, однако вместо претензий к пользователю (ну-ка быстро исправил мне разрешение! добавил DPI!), знакомых по предыдущим версиям, спокойно и самостоятельно за кадром доводит картинку до нужной кондиции. Такой, которая позволяет провести безупречное распознание текста.
Как водится, в новом одиннадцатом релизе множество мелких фич и примочек, с которыми читатель при желании самостоятельно ознакомится на сайте Abbyy. Меня интересовали лишь ключевые моменты, которые бы оправдали апгрейд даже самого консервативного пользователя. Помимо помянутого улучшения движка OCR в FineReader 11.0 я обнаружил еще одну функцию, заставившую меня даже хлопнуть в ладоши:
Почему подавляющее большинство офисных программ сегодня делает вид, что на рынке не существует двух абсолютно приоритетных для пользователя формата - EPUB и FB2 - ускользает от моего понимания. Ортодоксальная косность - другого объяснения не подберешь. Чего стоит отсутствие хоть какого-то нормального вьюера для EPUB на Маке, в котором этот формат является де-факто стандартом для чтения в iTunes.
Abbyy FineReader 11.0 и здесь оказался первым, внедрив прямую конвертацию сканированного и распознанного текста в самые популярные читальные форматы.
В общем, браво ABBYY! И так держать!
Кивино гнездо: 9/11 - десять лет спустя
Автор: Киви Берд
Опубликовано 05 сентября 2011 года
Результатом тех событий стала гибель порядка трёх тысяч человек, а также не поддающееся учету количество жертв от токсичной пыли впоследствии плюс сотни тысяч смертей в Афганистане и Ираке из-за начатых там военных операций.
События 11 сентября дали США повод для начала глобальной "войны с терроризмом", что привело к военным вторжениям и оккупациям государств, а также к ощутимым ущемлениям гражданских прав и фундаментальных прав человека по всему миру. При этом достоверность итогов официального расследования событий 11 сентября 2001, проведённого американским правительством между 2003 и 2005 годами, вызывает серьёзные сомнения у миллионов граждан как в США, так и за пределами этой страны.
Среди множества голосов тех людей, что отвергают официальную версию властей, всё более отчётливо и громко начинают звучать голоса людей, которые на основе многолетнего опыта работы способны отличать в своей области достоверные факты от явной неправды. Именно по этой причине были созданы движения типа "Архитекторы и инженеры за правду о 9/11", "Пожарные за правду о 9/11", "Лётчики за правду о 9/11" и так далее.
Устраиваемые ныне слушания в Торонто дают возможность оценить свидетельства специалистов в рамках одного междисциплинарного симпозиума и более наглядно продемонстрировать обществу, что у официальной версии 9/11 не сходятся концы с концами.
Но прежде чем затрагивать те "перпендикулярные", но при этом абсолютно достоверные факты из событий 11 сентября 2001, что непременно прозвучат и на слушаниях в Торонто, уместно для начала привести личные свидетельства ещё нескольких авторитетных людей - о подоплёке тех событий, что принято считать "следствием 9/11". В силу объективных причин эти свидетели наверняка не фигурируют среди докладчиков и участников конференции в Торонто, однако на ценность их показаний это не влияет никак.
Война в ИракеВ последних числах августа этого года бывший директор BND - Федеральной разведслужбы Германии открыто обвинил администрацию президента Буша в том, что предоставленные немцами разведданные в Америке были умышленно искажены так, чтобы обосновать военное нападение США на Ирак.
Август Ханнинг занимал пост директора BND с 1998 по 2005 годы. В своём недавнем интервью воскресному изданию общенациональной германской газеты Die Welt он заявил, что германская разведка не принимала никакого участия в этом обмане, а "ответственность за эту войну должна быть возложена исключительно на американцев".