Марвин Минский - Фреймы для представления знаний
Таким образом, преднамеренная тренировка памяти в вопросах систематизации отношений между точками, лежащими на противоположных поверхностях тел, является, по мнению У. Хогарта, ключом к пониманию инвариантных отношений между видимыми и невидимыми частями изображений; они могут дать человеку информацию, достаточную для того, чтобы вообразить себя внутри какого-то предмета или мысленно очутиться в другой, практически недоступной точке наблюдения. Отсюда можно сделать вывод о том, что У.Хогарт отвергал "наивные" концепции в теории восприятия образов.
Некоторые люди полагают, что пространственные задачи решаются с помощью каким-то образом хранимого в памяти аналога трехмерной структуры. Если, однако, кто-либо и смог бы воссоздать такую модель, то для "интеллектуального глаза" сохранилась бы большая часть из тех традиционных проблем, которые относятся к реальному глазу, и, кроме того, появилась бы новая весьма трудная задача: создание (на основе двухмерных конструкций) образа какого-то гипотетически воображаемого предмета.
Хотя эти аргументы, как может показаться, свидетельствуют о целесообразности употребления двухмерных изображений для агрегирования и распознавания образов, их нельзя считать удовлетворительными для задач планирования и выполнения манипуляцпонкых операций. Более естественным выглядит другой вариант представления информации в той же символьной форме, но на базе основных геометрических форм. Так, телефонная трубка может быть описана с помощью двух усеченных сферических тел, соединенных изогнутым прямоугольным стержнем. В следующем параграфе будет рассмотрен вопрос о совместном использовании двух и более методов, качественно отличных друг от друга, для представления одного и того же объекта.
1.6. Видение комнаты
Познание окружающего мира с помощью органов зрения кажется нам непрерывным. Одной из причин этого является наше постоянное движение. Более глубокое объяснение заключается в том, что обычно наши ожидания "гладко" взаимодействуют с нашим зрительным восприятием. Предположим, что вам пришлось выйти из комнаты, закрыть за собой дверь, затем вернуться, чтобы ее открыть и обнаружить совершенно другую комнату. Вы были бы поражены. Смысл этой перемены был бы едва ли менее поразительным, чем внезапное, на ваших глазах, изменение всего мира.
Наивная теория феноменологической непрерывности утверждает, что скорость зрительного восприятия настолько велика, что наши образы могут изменяться с такой же скоростью, как и видимые нами сцены. Ниже я отдаю предпочтение альтернативной теории: изменения в основанных на фреймах представлениях человека происходят со своей собственной скоростью; система фреймов предпочитает производить небольшие изменения, как только это становится возможным, а иллюзия непрерывности возникает вследствие постоянства заданий терминалов, общих для фреймов различных видов. Таким образом, непрерывность зависит от подтверждения ожиданий, что, в свою очередь, зависит от быстроты доступа к запомненным знаниям об окружающем нас мире.
Перед тем, как войти в комнату, вы уже заранее знаете, что увидите комнату, а не какой-нибудь пейзаж. Обычно можно указать на это по типу двери, так же как и выбрать заранее фрейм, соответствующий виду новой комнаты. Часто люди просто предполагают наличие какой-то конкретной комнаты. В этом случае значения многих заданий терминалов уже определены.
Самый простой вариант фрейма комнаты - это подобие пустой внутренности коробки. Следуя нашей модели куба, можно считать, что структура верхнего уровня фрейма "комната" должна соответствовать схеме, показанной на рис.1.5.
Человек должен конкретизировать задания терминалов теми предметами, которые он видит. Если комната ему хорошо знакома, то некоторые задания уже заполнены данными (означены). В случае, когда отсутствуют какие-либо ожидания, на первой месте должно быть стремление выявить наиболее характерные геометрические признаки. Чтобы заполнить задания терминала "левая стена", можно вначале попытаться найти линии а и d, а затем углы ag и dg. Линию g найти в обычных условиях легко, поскольку она будет пересекаться при любом горизонтальном (на уровне глаз) осмотре помещения, проводимом слева направо. В конечном итоге углы ag, gb и Ьа должны соответствовать друг другу, так как все они являются частями одной и той же физической вершины.
Поскольку, однако, сам процесс восприятия является направлением, существуют основанные на знании и опыте полезные тактические схемы. Вероятно, границу е найти легче, чем любую другую, ибо, как только мы входим в обычную прямоугольную комнату, можно ожидать, что
граница е является горизонтальной линией;
она расположена ниже уровня глаз;
она разделяет между собой пол и стену.
Если известны предполагаемые размеры комнаты, мы можем определить величину е и наоборот. В сценах открытых пространств линия е является горизонтом и на равнинной местности мы можем ожидать ее появления даже на уровне глаз. Если нам не удастся быстро найти этот горизонт и заполнить им соответствующее задание терминала, то следует рассмотреть отклонения, связанные с этим терминалом: возможно, что комната имеет какую-то необычную форму или, например, в ней находится крупный предмет - препятствие для визуального отыскания линии е.
Попытаемся обнаружить некоторые другие характерные признаки. Найдя линию е, следует заняться поиском ее левого и правого углов, а после этого вертикальных линий, исходящих из них. Как только будут обнаружены эти основные ориентиры, можно представить себе общую форму и размеры комнаты. Это может привести к выбору нового фрейма, который лучше согласуется с найденными формой и размерами объекта наблюдения благодаря маркерам, подтверждающим сделанный выбор и уточняющим структуру объекта с помощью дополнительных деталей.
Конечно, совершенная система зрительного, восприятия должна анализировать сцену не просто как отдельную картину, а в соответствии с некоторыми установками фрейма более общего вида. Чтобы сам процесс восприятия протекал без затруднений, человек должен знать, где во внешнем и постоянно-меняющемся мире находится каждая нужная ему деталь. Это позволяет компенсировать трансформации в системах фреймов от перемещений глаз и головы, от изменений в положении туловища так же, как и от его более значительных перемещений с одного места в другое.
1.7. Анализ сцен и субфреймы
Если новая комната знакома недостаточно хорошо, то ни один заранее сформированный фрейм не может содержать сведения обо всех мелких деталях; в подобных случаях требуется проводить более глубокий анализ сцен. Однако объем работы и здесь может быть во многом уменьшен благодаря наличию таких субфреймов, с помощью которых можно выдвигать гипотезы о структуре и связях реальных объектов. Насколько эти субфреймы-ожидания могут быть полезны, зависит как от их адекватности рассматриваемому предмету, так и от качества процесса согласования, который устанавливает очередность сопоставления субфреймов с действительностью. Они многое могут сказать даже о малознакомой комнате. Большинство комнат подобны коробкам, и их следует классифицировать по типам: кухня, зал, жилая комната, аудитория и т.д. Человек знает десятки разновидностей комнат, и ему известны сотни их конкретных видов; нет сомнения в том, что они организованы во что-то типа сети подобия для того, чтобы обеспечить быстрый доступ к этой информации.
Типичный фрейм комнаты включает в себя терминалы трех или четырех видимых стен, каждая из которых может относиться к различным типам, например к стенам с окнами, с полками, картинами и камином. У каждой разновидности комнат свои типичные стены. Представление обычной стены может содержать массив терминалов размером (3Х3): (левая часть - центр - правая часть) X (верхняя часть - средняя часть - нижняя част), так что для предметов, относимых к стенам, можно качественно задавать их местоположение. Это может использоваться для локализации объектов с помощью внутренних пространственных отношений, например, чтобы представить такой факт, как "Y находится немного выше центра прямой, которая связывает Х с Z".
Если в трехмерном пространстве известно только направление восприятия (иначе, оптическая ось), то положение какого-либо элемента изображения, задаваемое соответствующим субфреймом, будет неопределенным. Линия, находящаяся в центральной части изображения, может принадлежать предмету, расположенному на передней стене комнаты, а может относиться к высокому объекту, находящемуся перед этой стеной; сами же объекты, очевидно, связаны с разными субфреймами. Решение об интерпретации линий может зависеть от обоснованных доказательств в пользу того или иного варианта, от более точной визуальной информации, полученной по данным стереовосприятия или двигательного параллакса, а также от той правдоподобной информации, которая может быть получена от других фреймов.