Книга: Эволюция разума

Структура образа

<<< Назад
Вперед >>>

Структура образа

Теория мысленного распознавания образов, которую я хочу нам представить, основана на распознавании образов распознающими модулями новой коры. Эти образы (и модули) организованы иерархическим путем. Ниже я расскажу о том, как возникла эта идея, в том числе поведаю о собственных экспериментах 1980–1990-х гг. и о модели коры Джефа Хокинса и Дайлипа Джорджа, созданной в начале 2000-х гг.


Каждый образ (распознаваемый одним из примерно 300 млн распознающих модулей новой коры) состоит из трех элементов. Первый — это входной сигнал из образов низшего порядка, формирующих основной образ. Нет необходимости в повторении описания каждого из этих образов низшего порядка для каждого образа более высокого порядка, в котором они содержатся. Например, многие образы слов содержат букву «А». Нет нужды повторять описание буквы «А» во всех этих образах слов — они используют одно и то же описание. Это можно сравнить со страничкой в Интернете: в Интернете есть одна страница с описанием буквы «А» (один образ), и все страницы для слов (образы слов), содержащих букву «А», связаны с этой страницей (с образом буквы «А»). Вместо ссылок новая кора использует реальные нервные связи. Аксон от модуля, распознающего букву «А», связан с множеством дендритов — по одному для каждого слова с буквой «А». Но не забывайте и об избыточности коры: для распознавания буквы «А» существует несколько модулей. Любой из них может посылать сигнал модулям, распознающим слова с буквой «А».

Второй элемент каждого образа — его имя. Если речь идет о звуковых образах, этот образ более высокого порядка — просто слово, например «яблоко» (apple). Хотя мы напрямую применяем новую кору для понимания и использования речи, большинство образов в коре не являются языковыми образами. «Имя» образа и новой коре — это просто аксон, выходящий из каждого модуля; возбуждение аксона означает распознавание соответствующего образа. Возбуждение аксона означает, что распознающий модуль «называет имя» образа: «Эй, ребята, я увидел слово „яблоко“!»


Три повторяющихся (но слегка отличных друг от друга) образа «А» включаются в образы более высокого порядка, содержащие букву «А».

Третий и последний элемент образа — это набор образов более высокого порядка, в состав которых он входит. Для буквы «А» это все слова с буквой «А». Здесь вновь уместно сравнение с веб-страницей. Каждый распознанный образ более низкого порядка запускает распознавание образа более высокого порядка, содержащего первый образ. В новой коре эти связи осуществляются дендритами, соединяющимися с нейронами в каждом распознающем модуле коры. Помним, что каждый нейрон может получать сигналы от множества дендритов, но выдает единственный сигнал на аксон. Этот аксон, однако, может, в свою очередь, передавать сигнал множеству дендритов.

В качестве примера рассмотрим набор знаков, использующихся для изображения печатных букв. Здесь каждый уровень — это образ. Формы — это образы, буквы — образы, слова — тоже образы.

Каждый образ характеризуется серией входных сигналов, процессом распознавания образа в модуле и выходным сигналом, поступающим к распознающему модулю более высокого порядка.

Из нижней левой точки к центру верхней линии:


Из нижней правой точки к центру верхней линии:


Горизонтальная перекладина:


Левая вертикаль:


Дуга в нижней области:


Нижняя горизонталь:


Верхняя горизонталь:


Средняя горизонталь:


Петля в верхней левой области:


Перечисленные образы составляют образ более высокого порядка, относящийся к категории печатных букв (в новой коре, конечно, таких формальных категорий не существует).

Буква А:


Два разных образа, составляющих букву «А» и два разных образа более высокого порядка (APPLE и PEAR), в состав которых входит «А».

Буква Р:


Образы, из которых складывается образ более высокого порядка — буква «Р».

Буква L:


Образы, из которых складывается образ более высокого порядка — буква «L».

Буква E:


Образы, из которых складывается образ более высокого порядка — буква «E».

Эти образы букв соединяются в образ еще более высокого порядка, относящийся к категории слов (в нашем с вами языке — для новой коры это лишь образ определенного порядка): APPLE.


В другой части коры имеет место аналогичная иерархия распознающих модулей, участвующих в обработке образов реальных объектов (а не печатных букв). Если вы смотрите на настоящее яблоко, модули низшего уровня находят округлые формы и образы цвета кожицы, в результате чего происходит возбуждение соответствующего аксона и подается знак: «Эй, ребята, я увидел настоящее яблоко!» Возбуждение аксонов распознающих модулей в слуховой коре, участвующих в определении частоты звуковых сигналов, в ответ на произнесенное кем-то слово «яблоко» даст знак: «Только что прозвучало слово „яблоко“!»

Опять же, помним об избыточности модулей — мы имеем не по одному распознающему модулю для каждого вида яблока (увиденного или услышанного слова «яблоко» и реального яблока). Скорее всего, происходит возбуждение сотен таких модулей, если не больше. Избыточность не только повышает вероятность успешного узнавания всех форм яблока, но и помогает распознавать варианты настоящих яблок. Существуют распознающие модули для узнавания самых разных видов яблок — всех сортов, цветов и форм.

Кроме того, не забываем о том, что описанная выше иерархия является иерархией понятий. Распознающие элементы на самом деле не выстраиваются каким-либо иерархическим образом относительно друг друга; новая кора тонкая и по высоте равна лишь одному распознающему элементу. Концептуальная иерархия создается за счет взаимодействий между отдельными распознающими элементами.

Важным элементом теории мысленного распознавания образов является описание процесса распознавания в каждом распознающем модуле. В модель заложен параметр «веса» входного сигнала каждого дендрита; этот параметр определяет важность данного сигнала для распознавания. Модули характеризуются пороговым значением возбуждения (преодоление этого значения говорит о том, что сигнал успешно узнается соответствующим распознающим модулем). Для возбуждения распознающего модуля не обязательно нужны все входные сигналы. Модуль может возбуждаться, например, при отсутствии входного сигнала с малым весом, но при отсутствии важного сигнала возбуждение вряд ли возможно. Возбуждение распознающего модуля обычно означает следующее: «Образ, за узнавание которого я отвечаю, скорее всего, присутствует».

Однако успешное распознавание модулем соответствующего образа заключается не только в подсчете входных сигналов (и в учете параметра их значимости). Важна также величина сигнала. Каждый входной сигнал, кроме того, описывается параметром, указывающим ожидаемую величину сигнала, и параметром, учитывающим вариабельность этой величины. В качестве примера рассмотрим распознающий модуль, ответственный за узнавание в речи слова steep (произносится «стиип» — «крутой», «высокий»). Слово состоит из четырех звуков: [s], [t] [e] и [p]. Звук [t] относится к так называемым зубным согласным; это означает, что звук производится воздухом, нарушающим контакт между языком и верхними зубами. Звук [t] практически невозможно произносить медленно. Глухой звук [p] относится к «взрывным согласным»; он образуется при открытии блокированного голосового тракта (перекрытого губами в случае [p]). Это тоже быстрый звук. Гласный звук [e] образуется за счет резонанса голосовых связок при открытом рте. Он относится к долгим гласным звукам, то есть длится гораздо дольше, чем согласные [t] и [p], однако его длительность может изменяться в широких пределах. Звук [s] относится к свистящим согласным; он возникает при прохождении воздуха через щель между сжатыми зубами. Его длительность обычно меньше, чем у долгих гласных звуков, таких как [e], но тоже может изменяться (звук [s] можно произнести быстро, а можно протянуть).

В нашей работе по распознаванию речи мы установили, что для распознавания звуковых образов этот тип информации должен быть закодирован. Например, слова steep и step (произносится «стэп» — «шаг», «этап») достаточно похожи. Хотя звуки [e] в слове step и [e] в слове steep звучат немного по-разному (имеют разные резонансные частоты), нельзя достоверно различить эти два слова лишь на этом основании. Гораздо надежнее основываться на длительности звучания гласных в этих двух словах: [e] в слове step звучит короче, чем [e] в слове steep.

Эту информацию можно закодировать с помощью двух параметров — ожидаемой величины (в данном случае длительности) и степени ее вариабельности. В нашем примере звуки [t] и [p] в слове steep характеризуются очень малой ожидаемой длительностью и малой вариабельностью (это означает, что мы не ожидаем услышать долгих звуков [t] и [p]). Звук [s] характеризуется малой ожидаемой длительностью, но большей вариабельностью, поскольку этот звук можно протянуть. Наконец, звук [e] имеет большую ожидаемую длительность и высокую степень вариабельности.

В этом примере величина — это длительность, но длительность — лишь одна из нескольких возможных характеристик величины сигнала. В нашей работе по распознаванию знаков мы обнаружили, что для распознавания печатных букв важна соответствующая пространственная информация (например, ожидается, что точка над i будет значительно меньше палочки). На более высоком понятийном уровне новая кора имеет дело с самыми разными совокупностями информации, такими как уровень притягательности, иронии, удовольствия, расстройства, и множеством других. Мы можем найти сходство между еще более различающимися совокупностями, чем Дарвин, который связал размер геологических разломов с различиями между видами организмов.

Источником данных параметров для головного мозга является собственный опыт мозга. Когда мы родились, мы ничего не знали о фонемах (звуковых единицах языка), кроме того, разные языки очень сильно различаются по фонетическим характеристикам. Это означает, что многочисленные примеры образа записываются в виде параметров для каждого распознающего модуля (поскольку ожидаемое распределение величин входных сигналов определяется в результате множества экспозиций). В некоторых программах искусственного интеллекта такие параметры кодируются экспертами (например, лингвисты могут назвать ожидаемую длительность различных фонем). В ходе наших исследований мы поняли, что лучше заставить программу самостоятельно определить параметры на основе тренировочных данных (примерно так, как это делает мозг). Иногда мы использовали смешанный подход, то есть снабжали систему человеческой интуицией (для начальных установок параметров), а затем заставляли ее уточнить эти оценки путем обучения на реальных речевых примерах.

Что же делает распознающий модуль? Он вычисляет вероятность (основанную на предыдущем опыте) того, что тот образ, за распознавание которого он отвечает, действительно представлен активными входными сигналами. Каждый поступающий на модуль сигнал активен в том случае, если возбужден соответствующий распознающий модуль более низкого порядка (это означает, что произошло распознавание образа более низкого порядка). Каждый входной сигнал также кодирует наблюдаемую величину сигнала (в подходящем измерении — в единицах времени, каких-то физических величин или иных параметров), так что эти величины сравниваются модулем с соответствующими величинами предыдущих сигналов для расчета вероятности того, что это «правильный» образ.

Как мозг (и система искусственного интеллекта) рассчитывает общую вероятность присутствия образа (за распознавание которого отвечает соответствующий модуль) на основании: 1) входных сигналов (определенной величины), 2) предыдущих параметров величины (ожидаемая величина и ее вариабельность) каждого сигнала и 3) значимости каждого сигнала? Для определения этих параметров и их использования для изучения иерархии образов в 1980-х и 1990-х гг. я и некоторые другие ученые предложили математический метод, называемый методом скрытых моделей Маркова. Мы применили этот подход для распознавания и понимания человеческой речи. Я опишу его и седьмой главе.

В примере с распознаванием слов, идущем от образов низшего порядка к образам высшего порядка, мы видим, как строится иерархия информационного потока от отдельных элементов букв к целым буквам, а затем к словам. Далее процесс распознавания поднимается до уровня фраз и более сложных речевых конструкций. Если мы поднимемся выше еще на несколько десятков уровней, мы дойдем до таких концептуальных образов, как ирония или зависть. Хотя все распознающие модули функционируют одновременно, продвижение по этой иерархической лестнице должно занимать определенное время. Переход с одного уровня на другой занимает от сотых до десятых долей секунды. Эксперименты показывают, что узнавание такого образа средней сложности, каким является человеческое лицо, происходит за десятые доли секунды. Если образ сильно изменен, процесс распознавания может длиться целую секунду. Если бы мозг функционировал последовательно (как обычный компьютер) и распознавал все образы в иерархическом порядке, он должен был бы обрабатывать каждый образ низшего уровня и лишь затем переходить к образам следующих уровней. В таком случае он должен был бы совершать миллионы циклов распознавания при переходе от одного уровня к другому. Именно это происходит, когда мы моделируем данный процесс на компьютере. Не будем забывать, однако, что компьютеры функционируют в миллионы раз быстрее биологических систем.

Очень важно обратить внимание на то, что поток информации не только поднимается по иерархической лестнице, но и опускается по ней. Этот нисходящий поток информации чрезвычайно важен. Например, если мы читаем слева направо и уже увидели и узнали буквы А, Р, Р и L, модуль, ответственный за распознавание слова apple, предскажет, что, скорее всего, в следующей позиции окажется буква E. Он отправит сигнал вниз модулю, ответственному за распознавание буквы E, и сообщит: «будь внимателен, вероятно, очень скоро возникнет образ буквы E». Модуль, распознающий букву E, скорректирует пороговые параметры в соответствии с высокой вероятностью появления буквы E. И если на месте следующей буквы возникает образ, напоминающий E, но искаженный таким образом, что «в нормальных условиях» он не был бы воспринят как E, теперь распознающий модуль узнает в нем E, поскольку таковы были его ожидания.

Таким образом, новая кора предсказывает события. Необходимость предсказания будущего — одна из главных причин появления у нас новой коры. На высшем понятийном уровне мы постоянно осуществляем предсказания — кто сейчас войдет в дверь, что именно скажет этот человек в следующий момент, что мы увидим за углом, какими будут результаты наших действий и т. д. Эти предсказания непрерывно осуществляются в новой коре на всех уровнях иерархии. Мы часто путаем людей, предметы и слова из-за слишком низкого порогового значения для подтверждения ожидаемого образа.

Кроме положительных сигналов, существуют также отрицательные (ингибирующие) сигналы, указывающие на сниженную вероятность появления того или иного образа. Эти сигналы могут поступать с более низкого уровня иерархии (например, если я вижу у человека в очереди усы, понижается вероятность того, что это моя жена) или с более высокого уровня (например, я знаю, что моя жена отправилась в путешествие, поэтому человек в очереди — не она). Когда распознающий модуль получает ингибирующий сигнал, он повышает порог распознавания, но возбуждение все еще возможно (так что, если человек в очереди — действительно моя жена, я все-таки смогу ее узнать).

<<< Назад
Вперед >>>

Генерация: 0.446. Запросов К БД/Cache: 3 / 0
Вверх Вниз