KnigaRead.com/
KnigaRead.com » Компьютеры и Интернет » Прочая околокомпьтерная литература » Коллектив Авторов - Цифровой журнал «Компьютерра» № 135

Коллектив Авторов - Цифровой журнал «Компьютерра» № 135

На нашем сайте KnigaRead.com Вы можете абсолютно бесплатно читать книгу онлайн Коллектив Авторов, "Цифровой журнал «Компьютерра» № 135" бесплатно, без регистрации.
Перейти на страницу:

- Это интересные области, но мы в них усилия не вкладываем. Хоть вроде бы все они носят общее название, но подходы в них применяются совсем разные. Вот, например, систему распознавания текстов может написать и студент университета, руководствуясь теоретическими знаниями. Вопрос в том, кто создаст наиболее высокое качество этого решения: все бьются за последние проценты и даже доли процентов. У нас же есть другие интересные направления, связанные с анализом информации. Есть технология ABBYY Compreno, которая в том числе позволяет проводить семантический анализ текстов. Эти технологии в том числе позволят и более качественно решать задачи, например, распознавания речи. Хоть мы сами распознаванием речи не занимаемся, но предполагаем, что те компании, которые занимаются, будут активно обращаться к нам. Для распознавания речи очень важен контекст, он значительно облегчает задачу.

- То есть система, сделанная для перевода, поможет облегчить и распознавание?

- Да. Перевод был изначальной целью создания ABBYY Compreno, но чем дальше мы заходили, тем лучше видели, что можно получить эффекты и в других, смежных областях. Идея того, что текст на любом языке трансформировался в объекты на универсальном дереве смысловых понятий, привела нас к тому, что и поиск можно делать по смысловым понятиям, и сравнение документов, и, например, автоматическую расстановку тегов в документах. Когда у людей много электронных документов, сохраняемых на сервере, заставить каждого пользователя расставлять теги невозможно. Зато можно все документы пропускать через некоторый фильтр, который будет говорить, что этот документ на эту тему с такими-то ключевыми понятиями, автоматически расставляя теги.

- И от этого мы переходим к следующей и ещё более интересной вещи — поиску. Можно, выходит, сделать поисковик, который понимает, что написано на странице?

- Да, это одна из интересных задач. Сейчас что-то найти в интернете становится всё сложнее. Во-первых, приходится задавать вопрос не на человеческом языке, а упрощать его. Несколько месяцев назад у меня вышел из строя аккумулятор от мотоцикла. И я подумал: надо бы посмотреть, как его правильно заряжать в зимнее время. Начал искать, но находились только страницы о том, как купить новый аккумулятор, но не как заряжать его. Поисковые системы нового поколения будут искать, основываясь на семантическом индексе. С одной стороны, они из-за этого будут требовать больше ресурсов для своей работы: наша практика показывает, что семантический индекс в несколько раз превышает объёмы начального документа, ведь чтобы построить все взаимосвязи между понятиями, нужно много и вычислительных ресурсов, и места, чтобы хранить такой сложный индекс. С другой стороны, эти поисковики будут выдавать, во-первых, более релевантные результаты, а во-вторых, можно будет решать и более сложные задачи. К примеру, когда запрос сформулирован на одном языке, система всё равно поймёт, что за понятия в этом запросе, и сможет найти их в документах и на других языках, поддерживаемых системой. Если всё это будет сочетаться с переводом, то на запрос, построенный на одном языке, может быть получен релевантный ответ в виде документов на разных языках, автоматически переведённых на нужный.

- То есть можно сказать, что ABBYY — это потенциально следующий Google?

- Вряд ли мы будем как Google, мы не пишем свою поисковую систему. Мы, скорее всего, будем работать с кем-то, кто уже имеет поисковую инфраструктуру.

- Мне кажется, что я даже знаю, кто это может быть!

- Ну да, есть компании. Кроме того, хотел бы отметить, что кроме задач поиска информации частными пользователями есть ещё задачи корпоративного поиска. У организаций есть внутренние базы, в которых нужно осуществлять поиск и которые они, понятное дело, никакой внешней поисковой системе не выдадут. Однако часто бывает, что в интернете найти что-то быстрее, чем у себя на компьютере, — я не раз слышал такие жалобы. Я думаю, такие клиенты тоже будут заинтересованы в нашей технологии, в том, чтобы встраивать технологии интеллектуального и многоязычного поиска, извлечения фактов и связей между фактами в решения, обеспечивающие поиск корпоративной информации. Я бы даже сказал, что в большей степени мы ориентируемся не на массовый, а на корпоративный рынок.

- Можно ещё под конец из любопытства спросить: часто ли API FineReader используют для того, чтобы взламывать captcha?

- Некоторые разработчики пытались распознавать captcha, но мы не настраиваемся на эту задачу.

- А можно поподробнее?

- Скажем так, есть компании, которые используют API ABBYY FineReader для того, чтобы проверять, насколько хороша их captcha: было несколько случаев, когда API лицензировали внутренние службы безопасности. Злоумышленникам же это сделать не так просто: не каждый встречный имеет возможность лицензировать наши технологии. С другой стороны, желающие могут воспользоваться сервисом для разработчиков ABBYY Cloud OCR SDK. Но при этом я сомневаюсь, что будет выгоднее платить за каждую разгаданную captcha как за страницу, чем использовать людской труд. Хотя кто их, этих спамеров, знает. Может быть, нам и придётся анализировать, что за контент приходит на наши сервера распознавания, и ограничивать его в случае подозрений на неправомерную деятельность.


К оглавлению

Колумнисты

Василий Щепетнёв: Рядом с троллем

Василий Щепетнев

Опубликовано 21 августа 2012 года

Тролли мерещатся всюду. Любое действие, результат которого нас не устраивает, кажется проделкой тролля. Любое высказывание, вызывающее досаду или раздражение, исходит из тролльской головы — если они, тролли, думают головой. Если у вас что-то пропало, в доме ли, на улице, прямо из-под носа, то и тут виноватых искать долго не нужно — тролли! Наконец, любые неудачи по службе, в быту или в личной жизни есть не что иное, как следствие целенаправленных воздействий тролля на вашу судьбу.

И потому в сознании тролли предстают созданиями весьма непривлекательными. Зеркалом общественного сознания сегодня является Голливуд, и из этого зеркала выглядывают не лица, а невесть что: «Вижу какие-то свиные рыла вместо лиц, а больше ничего»... Если не свиные, то всё равно противные. Перекошенные рты, ужасные зубы, низкие лбы. А тела непробиваемой конфигурации. Такого в честном бою не одолеешь. Разве на танке, и то...

Но посмотришь вокруг и успокаиваешься: нет таких поблизости. Тролли, они обычно далеко. По ту сторону монитора или зеркала.

Но, как и в прошлом своём письме (а всё, что я пишу здесь, есть роман в письмах), замечу: меня больше интересует то, что происходит по эту сторону зеркала. Не призрачна ли граница между троллями и мной? Хорошо, пусть они не во мне, не могу я вместить всех троллей, тогда где они?

Есть у меня подозрение, что тролли хорошо сливаются с окружением. Тролль — часть пейзажа. Если пейзаж горный, то тролль прикидывается утёсом, скалой или вовсе безобидным камешком. Идешь мимо россыпи камней и не думаешь, что в иную минуту эти камни могут организоваться и предстать грозной силой. Три камешка, пять, даже девять страха не внушают, более того — вблизи они могут быть вполне симпатичными. Вот как выглядит маленький неприметный норвежский тролль, рядом с которым можно жить:


Но если камней не десятки, не сотни даже, а сотни тысяч? Тут уж поневоле задумаешься: вдруг кто знает волшебные слова, управляющие троллями или камнями? Или это музыка? «Песня горного короля», «Интернационал»? Или вовсе — вовремя налитый стакан палёной водки? Сотни тысяч в едином порыве... Тут уж стены не спасут, только реактивный самолёт беспосадочно до Лондона.

По счастью, вокруг Гвазды пейзаж преимущественно равнинный, и потому миллиону, даже тысяче камней взяться вроде бы неоткуда. И тролли у нас мягкие и пушистые, троллики — как кролики. Правда, мягкий и пушистый тролль может быть не менее опасен, нежели тролль каменный. Важнейшее различие тролля и человека, если верить классику, кроется не в размерах и не в структуре. Человек по большей части состоит из сомнений, троллю сомнения неведомы. Тролль собой упивается, считая себя, любимого, центром мироздания. Сам он — лучшее из существующего, и творения его лучшие из существующих, и родина лучшая, и вера, и всё-всё-всё, помеченное печатью «моё!».

Природа, окружение, живое и неживое существует лишь для того, чтобы всё полнее удовлетворять возрастающие потребности тролля. Если где-то посреди плодородного края есть залежи никелевой руды, которую можно извлечь и выгодно продать, это следует делать как можно быстрее. Для успокоения общественности следует прикрыться словами о рабочих местах, всеобщей пользе и процветании родного края. Что обогатятся несказанно одно-два семейства, а сказанно — человек сто или двести, стоит промолчать. Факт, что остальным навечно останутся загаженные территории, которые и землёй-то назвать не захочется, тролля не волнует абсолютно. Из Лондона разруха не видна. С мнением же тех, кто не в состоянии купить себе поместье в окрестностях Лондона, тролль не считается, потому что «те» для него — что земляные черви для человека обыкновенного, крестьянина, к примеру. Станет мужик за плуг, а червяки ему из земли: «Эй, наверху, смотри, нас не замай». Услышит мужик червяка? А хоть и услышит, усмехнётся только: чем больше вас режешь, тем больше вас становится.

Перейти на страницу:
Прокомментировать
Подтвердите что вы не робот:*