Коллектив Авторов - Цифровой журнал «Компьютерра» № 135
Обзор книги Коллектив Авторов - Цифровой журнал «Компьютерра» № 135
Компьютерра
20.08.2012 - 26.08.2012
Интервью
Генеральный директор ABBYY Россия о будущем OCR и облачных сервисах
Андрей Письменный
Опубликовано 23 августа 2012 года
Погода на рынке программного обеспечения — как корпоративного, так и пользовательского — в последние несколько лет стала «облачной»: появился спрос на решения, работающие на сервере, дающие коллаборативные возможности и избавляющие пользователей от многочисленных недостатков традиционных приложений. Также к «облакам» напрямую относятся программные интерфейсы, которые разработчики таких проектов предоставляют друг другу.
Компания ABBYY — один из крупнейших российских производителей ПО, продукты которого к тому же пользуются спросом за рубежом. У ABBYY есть уже несколько сервисов, которые можно назвать «облачными». И если онлайновые словари ABBYY Lingvo скорее относятся к привычным веб-сервисам, то FineReader Online имеет к cloud computing непосредственное отношение.
Этот сервис позволяет распознавать отсканированные тексты, загружая их через веб-сервис и получая в ответ готовый текст. При этом программу покупать не нужно и достаточно лишь платить за распознанные страницы. Генеральный директор ABBYY Россия Григорий Липич рассказал «Компьютерре» о подробностях работы этого сервиса, а также о том, что ждёт технологии OCR в будущем.
- Расскажите, когда открылся FineReader Online.
- FineReader Online существует чуть больше двух лет, но в промышленной эксплуатации больше года. До этого момента был только тестовый доступ, но сейчас это полноценный сервис с системой оплаты и понятным ценовым предложением.
- Я попробовал зарегистрироваться, послал туда документ, он распознался, и я ничего не платил за это. Там есть какой-то лимит на бесплатное использование?
- Всё очень просто. Новый пользователь регистрируется или сразу авторизуется с помощью существующего у него аккаунта в социальной сети, например Facebook. После завершения этой процедуры ему предоставляются три бесплатных страницы для обработки. В дальнейшем он может покупать страницы пакетами — от 20 до 100 в каждом. Мы считаем, что такой сценарий достаточно интересен тем людям, у которых потребность распознавать документы возникает эпизодически.
- А таким пользователям не проще в таком случае будет просто создать новый аккаунт и распознать бесплатно?
- Думаю, что сбалансированная цена сервиса будет способствовать тому, чтобы люди не тратили силы, плодя лишние аккаунты, а заплатили небольшие деньги за услугу, которая существенно экономит их время.
- Сколько человек сейчас используют FineReader Online?
- В марте было зафиксировано 290 тысяч пользователей, а в июле уже 390 тысяч.
- Есть ли среди пользователей какие-нибудь крупные компании?
- Если говорить об облачных сервисах, то для компаний у нас есть другое предложение. Например, для крупных производителей железа — МФУ и сканеров. Раньше они прилагали к каждому устройству лишь ПО для компьютеров, а сейчас начали смотреть в сторону построения своих облачных решений, которые будут интегрированы с нашей облачной инфраструктурой для распознавания документов.
- Как это выглядит? Существуют МФУ, куда можно положить документ, отсканировать и сразу получить распознанный текст?
- Мне известно о том, что была тестовая версия, но я не знаю, дошло ли уже всё это до конечных потребителей. Занимались этим, к примеру, Fujitsu и Ricoh, создавали такие решения для своих документ-сканеров и МФУ.
- То есть это не российская инициатива?
- Нет, американская. Для таких компаний у нас есть инфраструктура, в которую входят средства разработки, позволяющие реализовать распознавание текста в «облачном» режиме. При этом наши технологии могут быть установлены в корпоративном облаке заказчика, но также производитель может обращаться и к нашему облачному сервису распознавания. Кроме того, есть вариант, когда большие корпоративные заказчики могут захотеть решение по распознаванию на своём частном облаке.
- Так выгодней?
- Если существуют постоянные объёмы обработки документов, то да, выгоднее установить локально. К тому же у организаций нередко возникают вопросы о том, куда передаются их данные и кто их может увидеть.
- Но для индивидуальных пользователей это, наверное, не такая проблема. Зато они хотели бы получить не API, а продукт, более похожий на то, что вы продаёте в виде программы. Не было ли мысли перенести в веб полную версию FineReader?
- Один в один мы не будем переносить продукт. Да и не получится в вебе полностью повторить интерфейс FineReader. Но дополнительные возможности в FineReader Online будут появляться. Мы торопимся, но не спеша: добавляем те возможности, которые закрывают главные потребности, и дальше расширяем их. Если говорить об облачных сервисах для разработчиков, то в конце прошлого года мы начали бета-тестирование, а в июне объявили о запуске ABBYY Cloud OCR SDK — сервиса, предоставляющего разработчикам доступ к нашим технологиям оптического распознавания текста, меток и штрих-кодов посредством Web API. Он появился для решения проблемы, когда компания или независимый разработчик хотят встроить наш движок распознавания в свой продукт, но при этом покупка традиционного SDK является для них нецелесообразной с точки зрения решаемых задач или слишком дорогой. Облачный сервис решает этот вопрос, потому что любой разработчик может начать пользоваться первоклассным SDK для распознавания и встроить его в своё приложение без преодоления высокого входного ценового барьера, который есть в случае приобретения и лицензирования традиционного OCR SDK. Ценовая политика сервиса достаточно демократичная, существуют различные варианты пакетов страниц для распознавания: от бесплатного ознакомительного, включающего возможность распознать 50 страниц, до пакета стоимостью около 200 долларов США за 5000 страниц, а также есть варианты с договорной ценой, когда объёмы распознавания превышают 5000 страниц. С увеличением объёма цена за обрабатываемую страницу падает. Это открывает возможности для существенно более широкого круга разработчиков, которые раньше должны были довольствоваться лишь бесплатными OCR-движками, не всегда пригодными для решения реальных задач.
- Софт как сервис — это для вас, должно быть, сплошные преимущества. Пиратство, в частности, невозможно. В ABBYY одно время с ним жестоко боролись.
- Мы с ним и сейчас продолжаем бороться, но без фанатизма, с приложением усилий, адекватных получаемым результатам, потому что побороть пиратов полностью невозможно. Например, мы делаем так, чтобы юридические лица не использовали наше программное обеспечение нелегально. По физлицам какие-то способы защиты применяем в продукте, но, как говорили в фильме «Формула любви», «что одним человеком сделано, другим завсегда может быть сломано». Это лишь вопрос времени и усилий.
- А облачный сервис как раз не взломать никак. К тому же обновлять программу можно моментально для всех пользователей.
- Да, есть, конечно, ряд преимуществ. Но возникает другой вопрос. Как в телефонной связи создают клоны SIM-карт и воруют трафик, так будет и с облачными сервисами.
- Будут красть аккаунты?
- Да. Я думаю, такие вещи будут актуальны, и поставщикам сервисов придётся думать, как лучше от этого защититься.
- Какие ещё могут быть недостатки?
- Ещё к недостаткам, конечно, относится то, что интернет всё-таки не повсеместен. Даже недалеко от Москвы бывает сложно получить хороший канал связи, особенно если ты перемещаешься. То, что интернет доступен не везде, делает облачные сервисы не заменяющими традиционные приложения, а дополняющими их.
- Но постепенно они станут полной заменой?
- Ну да. Когда-нибудь мы придём к ситуации, когда основная масса индивидуальных сервисов будет потребляться из «облака», и люди привыкнут за это рассчитываться как за газ, свет, воду и интернет. Достаточно будет отметить галочками, какие услуги или программы продолжаешь использовать, и оплата за них будет включена в ежемесячный платёж.
- Хорошо, давайте поговорим о технологии распознавания текста как таковой. Произошли ли какие-то фундаментальные сдвиги в этой области за последние пять-десять лет? В других областях распознавания появляются, например, такие интересные сервисы, как Google Goggles или Siri.