Книга: Эволюция разума

Суть модели

<<< Назад
Вперед >>>

Суть модели

Как я уже говорил ранее, в 1980–1990-х гг. я руководил группой исследователей, пытавшихся применить метод иерархических скрытых моделей Маркова для распознавания и понимания человеческой речи. Эта работа предшествовала появлению широко распространенных сегодня коммерческих систем, распознающих и понимающих нашу речь (автомобильных навигационных систем, Сири в айфонах и многих других). Созданная нами технология строилась практически по тем же принципам, что реализуются при мысленном распознавании образов. Она также была основана на иерархии образов, при которой каждый более высокий уровень отличался от нижестоящего уровня большей абстрактностью. Например, в системе распознавания речи основные образы звуковой частоты формировали нижние уровни, за ними следовали фонемы, затем слова и фразы (часто распознававшиеся так, как будто были словами). Некоторые системы распознавания речи могут понимать речевые команды и в таком случае включают в себя еще более высокие иерархические уровни, содержащие такие структуры, как именные и глагольные группы. Каждый распознающий модуль умеет распознавать линейную последовательность образов с нижестоящего понятийного уровня. Каждый входной сигнал характеризуется значимостью, величиной и вариабельностью величины. Существуют также и нисходящие сигналы, указывающие на ожидание образа низшего уровня. Подробнее я расскажу об этих исследованиях в седьмой главе.

В 2003 и 2004 гг. создатели карманного персонального компьютера Джеф Хокинс и Дайлип Джордж сформировали иерархическую модель коры, названную временной иерархической памятью. В соавторстве с писательницей Сандрой Блейксли Хокинс описал эту модель в книге «Об интеллекте» (On Intelligence). Хокинс доказывает универсальность алгоритма действия коры и ее иерархической организации в виде списков. Между моделью Хокинса и моделью, которую предлагаю вам я в своей книге, есть несколько существенных различий. Как следует из названия модели, Хокинс настаивает на временной (основанной на времени) природе списков. Другими словами, списки составляются всегда в одном и том же направлении — вперед во времени. Наличие временного направления у элементов двумерных образов, таких как печатная буква «А», он объясняет движением глаз. Он объясняет, что мы визуализируем изображения при помощи саккад — очень быстрых непроизвольных движений глаз. Таким образом, информация поступает в новую кору не в виде двумерных наборов данных, а скорее в виде списков организованных во времени элементов. Это правда, что наши глаза совершают очень быстрые движения, однако они не всегда видят элементы образов (таких как буква «А») в последовательном временном порядке. Например, глаза не обязательно сначала регистрируют верхний угол буквы «А», а затем ее нижнюю часть. Кроме того, мы способны распознать зрительный образ, видимый лишь на протяжении нескольких десятых миллисекунды, а за это время саккадные движения глаз просто не успевают его просканировать. Верно, что распознающий модуль новой коры сохраняет образ в виде списка и что список этот хранится в соответствии с определенным порядком, только порядок этот не обязательно временной. Он действительно может быть временным, но также может быть пространственным или понятийным, как я объяснял выше.

Но самое главное различие между моделями заключается в наборе параметров, с помощью которых я характеризую каждый сигнал, входящий в распознающий модуль, в частности параметров величины и ее вариабельности. В 1980-х гг. мы пытались распознавать человеческую речь без учета информации подобного рода. Тогда лингвисты уверяли нас, что информация о длительности сигнала не играет решающей роли. Такой подход используется в словарях, в которых произношение каждого слова передается в виде последовательности фонем. Например, слово steep записывается как последовательность звуков [s], [t], [E] и [p] без указания ожидаемой длительности каждой фонемы. В результате, если созданная нами программа, способная распознавать фонемы, встречает в речи эту специфическую последовательность четырех фонем, она сможет распознать слово. Созданная по такому принципу программа работала, но недостаточно хорошо, чтобы справляться с большим набором слов, распознавать речь нескольких говорящих или слова, произнесенные без пауз. Качество программы выросло в значительной степени, когда мы с помощью иерархических скрытых моделей Маркова ввели для каждого входного сигнала параметр распределения величины.

<<< Назад
Вперед >>>

Генерация: 0.626. Запросов К БД/Cache: 3 / 1
Вверх Вниз