Книга: Эволюция разума

Чтение мыслей с помощью скрытых моделей Маркова

<<< Назад
Вперед >>>

Чтение мыслей с помощью скрытых моделей Маркова

Метод векторного квантования позволил нам упростить данные таким образом, чтобы выделить ключевые признаки, но нам по-прежнему нужно было научиться представлять иерархию инвариантных признаков, чтобы оценивать новую информацию.

В начале 1980-х гг., когда я уже занимался проблемой распознавания образов на протяжении почти 20 лет, я знал, что одномерное представление данных — самый мощный, эффективный и надежный способ получения инвариантных результатов. В то время мы мало знали о функционировании новой коры, но на основании своих исследований в области распознавания образов я предположил, что мозг, возможно, редуцирует многомерные данные (поступающие от глаз, ушей или кожи) до одномерных, особенно когда речь идет об иерархии понятий в новой коре.

Организация информации в речевых сигналах, как оказалось, представляет собой иерархию образов: каждый образ складывается из линейной последовательности элементов. Каждый элемент образа может быть составлен из образов более низкого порядка или представлять собой базовую единицу сигнала (соответствующую нашим с вами квантованным векторам).

Эта ситуация полностью соответствует модели новой коры, о которой я рассказывал ранее. Таким образом, человеческая речь является продуктом иерархической организации линейных образов. Если бы мы умели анализировать эти образы в мозге говорящего человека, мы могли бы просто сопоставлять каждое новое высказывание с образами в мозге и понимать, что же человек говорит. К сожалению, у нас нет прямого доступа к головному мозгу — мы имеем лишь то, что слышим. Конечно же, в этом и заключается весь смысл разговорной речи — человек передает в словах часть своих мыслей.

Я задал себе вопрос: нет ли какого-то математического метода, который помог бы нам анализировать образы в мозге говорящего человека на основании произнесенных слов? Одной фразы, конечно, было бы недостаточно, но если бы у нас имелся большой набор образцов, возможно, мы смогли бы использовать эту информацию для «прочтения» образов в новой коре говорящего человека (или хотя бы сформулировать математический эквивалент, который позволил бы нам распознавать новые словосочетания).

Часто люди недооценивают мощь математического аппарата; подумайте, ведь поиск самой разной информации за считаные секунды с помощью поисковых программ основан на математическом подходе. Так вот, когда в начале 1980-х гг. я занимался проблемой распознавания речи, оказалось, что для решения стоявших перед нами задач практически идеально подходит так называемый метод скрытых моделей Маркова. Русский математик Андрей Андреевич Марков (1856–1922) создал математическую теорию иерархических последовательностей состояний. Модель основана на возможности перехода из одного состояния в другое по цепочке; если переход совершается успешно, следующее состояние характеризуется более высоким уровнем иерархии. Вам это ничего не напоминает?


Простой пример одного слоя в скрытой модели Маркова. Символы от S1 до S4 обозначают «скрытые» состояния системы. Параметры переходов Pi,j соответствуют вероятности перехода из состояния S1 в состояние Sj. Эти вероятности определяются системой путем обучения на тренировочных данных и в рабочем порядке. Новая последовательность (например, новая последовательность звуков) соотносится со значениями Pi,j для определения вероятности воспроизведения моделью этой последовательности.

В модели Маркова учитываются вероятности переходов из каждого состояния в следующее. В ней рассматривается ситуация, когда система следует такой иерархической линейной цепи состояний, но их невозможно проанализировать напрямую — отсюда название «скрытые модели Маркова». На самом нижнем иерархическом уровне подаются сигналы, и это все, что мы можем видеть. Марков предложил математический метод расчета, показывающий, что вероятность каждого перехода должна быть основана на значении выходного сигнала. Этот метод в 1923 г. усовершенствовал знаменитый английский математик Норберт Винер (1894–1964). В результате стало возможным определять связь между звеньями в цепи Маркова; в частности, все связи, характеризующиеся очень низкой вероятностью, стали считаться несуществующими. Именно так действует и человеческая новая кора: если какие-то связи не используются или используются очень редко, они воспринимаются как маловероятные и со временем исчезают. В нашем случае наблюдаемым выходным сигналом является речевой сигнал, издаваемый говорящим человеком, а состояния в цепи Маркова и связи между ними описывают иерархическую организацию новой коры.

Я задумал систему, в которой мы могли бы собирать образцы человеческой речи, применять метод скрытых моделей Маркова для выявления иерархии состояний с их связями и вероятностями (модель новой коры), а затем использовать эту иерархическую сеть для распознавания новых словосочетаний. Для создания системы, способной распознавать речь разных людей, следовало натренировать скрытые модели Маркова на образцах речи многих людей. Добавляя элементы иерархии для воспроизведения иерархической природы языковой информации, мы получили бы в чистом виде иерархические скрытые модели Маркова (ИСММ).

Мои коллеги в компании Kurzweil Applied Intelligence весьма скептически отнеслись к этому плану, учитывая сходство этой модели с самоорганизующимися нейронными сетями, которые уже не были столь популярны и не помогли нам серьезно продвинуться в наших предыдущих исследованиях. Я же указывал, что связи в системе нейронных сетей являются фиксированными и не адаптируются к входным сигналам — веса адаптируются, а связи нет. В системе скрытых моделей Маркова — при условии, что она правильно подготовлена, — исчезают неиспользуемые связи и происходит адаптация.

Я организовал небольшой изолированный проект, функционировавший вне общего направления исследований. Над проектом трудился я сам, один программист, работавший неполный день, и один инженер-электрик (который должен был создать базу частотных фильтров). К огромному удивлению коллег, наш проект оказался весьма успешным и позволил создать систему, с высокой точностью распознающую речь из большого набора слов.

После этого все последующие системы распознавания речи строились на иерархических скрытых моделях Маркова. Другие исследовательские группы, по-видимому, обнаружили достоинства этой модели независимо, и начиная с середины 1980-х гг. именно этот подход лег в основу большинства автоматизированных систем распознавания речи. Скрытые модели Маркова используются и для создания речи: не забывайте, что иерархическая организация нашей биологической новой коры важна не только для распознавания входных сигналов, но и для создания выходных сигналов, таких как речь или движение.

ИСММ также используются в системах, понимающих смысл предложений на более сложном понятийном уровне иерархии.


Состояния в скрытой модели Маркова и возможные переходы, необходимые для создания последовательности слов в разговорной речи.

Чтобы понять, как работает метод ИСММ, начнем с рассмотрения сети, состоящей из всех возможных состояний и переходов. Здесь важнейшую роль играет описанный выше метод векторного квантования, поскольку без него пришлось бы рассматривать слишком большое число вариантов.

Цифровая кора — модель биологической коры Вот возможный вариант упрощения исходной топологии.


Простая скрытая модель Маркова для распознавания двух слов разговорной речи.

Образцы словосочетаний обрабатываются по очереди. В каждом случае мы многократно изменяем вероятность переходов, чтобы как можно лучше отразить только что обработанный входной сигнал. В системах распознавания речи модели Маркова описывают вероятность обнаружения специфического звукового образа в каждой фонеме, взаимное влияние фонем и вероятный порядок фонем. Кроме того, система может включать и такие более сложные языковые закономерности, как порядок слов, составление фраз и т. д.

Наши первые системы распознавания речи были основаны на специфических правилах, описывающих структуру фонем и предложений, составленных и закодированных лингвистами, но новым системам на основе ИСММ не нужно было объяснять, что в английском языке 44 фонемы, каковы последовательности вероятных векторов для каждой фонемы и что одни последовательности фонем встречаются чаще других. Мы предоставили системе возможность самостоятельно обнаружить эти «правила» в процессе тысяч часов обработки транскрибированной человеческой речи. Преимущество этого подхода, в отличие от тренировки модели на заранее заданных правилах, заключается в том, что система находит вероятностные закономерности, о которых лингвисты порой даже не подозревают. Мы обратили внимание на то, что правила, усвоенные системой в автоматическом режиме при обработке предоставленных ей данных, не очень сильно отличаются от правил, сформулированных экспертами, но эти отличия могут быть чрезвычайно важными.

После тренировки системы мы приступаем к распознаванию речи, рассматривая альтернативные пути и выбирая наиболее вероятный путь с учетом реальной последовательности входных векторов. Другими словами, если мы видим последовательность состояний, которая с большой вероятностью соответствует данному словосочетанию, мы делаем вывод, что данное словосочетание задается этой кортикальной последовательностью. Такая основанная на ИСММ новая кора содержала метки слов и потому была способна предложить транскрипцию того, что слышала.

Мы смогли усовершенствовать систему путем дальнейших тренировок. Как говорилось выше, на всех иерархических уровнях нашей биологической новой коры процессы распознавания и обучения тоже происходят одновременно.

<<< Назад
Вперед >>>

Генерация: 9.485. Запросов К БД/Cache: 3 / 1
Вверх Вниз