Книга: Эволюция разума

Раздвигаем границы ИИ. Повышение компетентности

<<< Назад
Вперед >>>

Раздвигаем границы ИИ. Повышение компетентности

1. Длинная утомительная речь, как пенистое украшение пирога[102].

2. Предмет детской одежды, возможно, во время путешествия на корабле.

3. Виновный в поедании воинов короля Хротгара на протяжении двенадцати лет; дело поручено воину Беовульфу[103].

4. Процесс постепенного развития в мозге или в организме при беременности[104].

5. Национальный День учителя и день дерби в Кентукки.

6. Он, по выражению Вордсворта, парит, но не улетает[105].

7. Слово из четырех букв, обозначающее железную накладку на копыте лошади и коробку для карт в казино.

8. В третьем акте оперы Верди, написанной в 1846 г., этот бич божий смертельно ранен своей любовницей Одабеллой.

Примеры из викторины «Джеопарди!», на все вопросы которой Ватсон дал правильные ответы: разглагольствование, фартук, Грендель, гестация, май, жаворонок, shoe (башмак, подкова). В ответ на 8-й вопрос Ватсон ответил: «Это Аттила?» Его попросили уточнить, тогда он сказал: «Это Аттила, гунн?» — что сочли правильным ответом.

Техника, которую компьютер применяет для ответов на вопросы «Джеопарди!», очень напоминает мою собственную. Машина начинает поиск от ключевого слова в вопросе, а затем прочесывает свою память (в случае Ватсона это 15-терабайтный банк человеческих знаний) для выявления кластеров ассоциаций с этим словом. Она тщательно проверяет наилучшие совпадения с полным контекстом вопроса: категория и тип ответа, зашифрованные в вопросе время, место и пол и т. д. И когда машина чувствует себя достаточно «уверенной», она подает сигнал. Для игрока в «Джеопарди!» это мгновенный и интуитивный процесс, но я уверен, что в моей голове происходит что-то очень похожее.

Кен Дженнингс, чемпион викторины «Джеопарди!», проигравший Ватсону

Я приветствую наших новых компьютерных повелителей.

Кен Дженнингс, перефразируя Симпсонов, после поражения Ватсону

Бог мой, [Ватсон] умнее отвечает на вопросы «Джеопарди!», чем средний игрок. Он поразительно умен.

Себастьян Трун, бывший директор лаборатории в Стэнфорде

Ватсон ничего не понимает. Это огромный паровой каток.

Ноам Хомский

Искусственный интеллект повсюду вокруг нас. Простое общение с кем-то по электронной почте или мобильному телефону основано на передаче информации с помощью разумных алгоритмов. Практически любой продукт, который мы сегодня используем, спроектирован при сотрудничестве человека и искусственного интеллекта и создан на автоматизированном заводе. Если бы все системы ИИ завтра объявили забастовку, наша цивилизация покачнулась бы: мы не смогли бы получить деньги в банке, да и сами деньги исчезли бы, коммуникации, транспорт и производство — все бы остановилось. К счастью, наши разумные машины пока еще не настолько разумны, чтобы выкинуть подобный фокус.

На сегодня новое в сфере ИИ — это потрясающие возможности доступных для широкой публики приложений. Например, подумайте о самодвижущихся автомобилях Google (которые уже пробежали более 200 тыс. миль по большим и малым городам): эта технология позволит уменьшить число аварий, повысит пропускную способность дорог, избавит людей от рутинной водительской заботы и даст множество других важных преимуществ. Сегодня машины без водителя могут с некоторыми ограничениями передвигаться по общественным дорогам Невады, однако их повсеместное широкое распространение ожидается не раньше конца десятилетия. А вот технологии, которые следят за дорогой и предупреждают водителей о возможной опасности, уже установлены на многих моделях автомобилей. Одна такая технология отчасти основана на успешной модели обработки зрительных образов в головном мозге, предложенной Томазо Поджо из Массачусетского технологического института. Эта система под названием Mobil Eye разработана бывшим аспирантом Поджо Амноном Шашуа. Система предупреждает водителя о таких опасностях, как возможное столкновение или наличие на дороге ребенка; она уже установлена на автомобилях марок Volvo и BMW.

В данном разделе книги я подробнее остановлюсь на технологии распознавания речи, на то у меня есть несколько причин. Нет ничего удивительного в том, что иерархическая структура языка отражает иерархическую структуру мышления. Разговорная речь стала нашей первой технологией, письменный язык — второй. Моя собственная работа в области ИИ в значительной степени связана с изучением языка. Наконец, язык — очень мощное орудие. Ватсон прочел сотни миллионов страниц электронных источников информации и овладел содержащимся там материалом. Когда-нибудь машины будут способны овладевать всей существующей в Интернете информацией, которая объединяет практически все знания, накопленные нашей цивилизацией.

Английский математик Алан Тьюринг (1912–1954) разработал тест, теперь носящий его имя, который основан на способности компьютера вести беседу на человеческом языке с помощью письменных сообщений[106]. Тьюринг полагал, что в языке отражается весь человеческий разум и что никакая машина не сможет пройти тест, просто овладев языковыми приемами. Хотя в тесте используется письменная речь, Тьюринг считал, что машина смогла бы пройти его лишь при условии, что будет обладать разумом, эквивалентным разуму человека. Критики утверждали, что истинный тест на наличие у машины «человеческого» разума должен включать в себя также зрительную и слуховую компоненты[107]. Поскольку многие из созданных мной систем ИИ обучают компьютер воспринимать и обрабатывать человеческую речь, форму букв и музыкальные звуки, возможно, вы предполагаете, что я встану на защиту этой более полной версии теста для оценки интеллекта. Однако я согласен с тем, что исходной версии теста Тьюринга вполне достаточно — добавление зрительных или слуховых сигналов на входе или на выходе на самом деле совсем не усложняет прохождение теста.

Не нужно быть экспертом в области ИИ, чтобы оценить эффективность Ватсона в игре «Джеопарди!» Хотя я достаточно хорошо понимаю методологию, заложенную в основу действия его ключевых подсистем, это не ослабляет мою эмоциональную реакцию на то, что он (оно?) может делать. Даже полное понимание принципов работы всех подсистем (которого нет ни у кого) не помогает предсказать реакцию Ватсона на конкретную ситуацию. Машина содержит сотни взаимодействующих между собой подсистем, каждая из них одновременно прорабатывает миллионы альтернативных гипотез, так что предсказать ответ всей системы невозможно. Анализ мыслительного процесса, происходящего «в голове» Ватсона за три секунды при ответе на вопрос викторины, у человека занял бы несколько столетий.

Что касается моей собственной истории, в конце 1980-х и в 1990-х гг. мы начали заниматься внедрением систем распознавания человеческой речи в некоторых областях. С одной из наших систем, названной Kurzweil Voice, можно было поговорить о чем угодно, и она могла применяться для редактирования документов. Например, вы могли попросить ее передвинуть в определенное место в тексте третий параграф с предыдущей страницы. В этой ограниченной сфере машина работала достаточно хорошо. Мы также создали систему, обладавшую медицинскими знаниями, которая позволяла врачам диктовать результаты обследования пациентов. Эта машина обладала довольно обширными знаниями в области радиологии и патологии, так что она могла задать врачу вопрос, если что-то в тексте было неясно, и направляла врача по ходу составления отчета. Эта система стала основой многомиллиардного бизнеса компании Nuance.

Понимание естественной речи, особенно в качестве приложения к автоматическим системам распознавания речи, теперь стало элементом серийной продукции. В то время, когда я писал эту книгу, автоматизированный персональный помощник Сири, установленный на модели айфона 4S, произвел фурор в мире сотовых телефонов. Вы можете спросить или попросить Сири практически обо всем, что должен знать и уметь каждый уважающий себя смартфон, например: «Где здесь поблизости индийский ресторан?», или «Сообщи моей жене, что я уже иду», или «Что думают люди о новом фильме Брэда Питта?» — и практически всегда Сири исполняет поручение. Сири может в некоторой степени поддерживать беседу на общие темы. Если вы спросите ее, в чем заключается смысл жизни, она ответит: «42». Поклонники фильма «Автостопом по галактике» знают, что это «ответ на главный вопрос о жизни, вселенной и всяком таком». На вопросы на знание (включая вопрос о смысле жизни) может ответить описанная ниже программа Wolfram Alpha. Существует уже целый мир «чат-ботов», которые нужны только для того, чтобы болтать. Если вы захотите поболтать с нашим чат-ботом по имени Рамона, зайдите на сайт KurzweilAI.net и кликните по ссылке Chat with Ramona.

Люди иногда жалуются, что Сири не может ответить на некоторые вопросы, но обычно это те же самые люди, что частенько недовольны и человеческим сервисом. Иногда я предлагаю решить вопрос совместными усилиями, и часто результат бывает лучше, чем они ожидали. Эти жалобы напоминают мне анекдот о собаке, которая играет в шахматы. На вопрос недоверчивого зрителя владелец собаки отвечает: «Да, это правда, она умеет играть, но слаба в эндшпиле». Тот факт, что широкая публика имеет возможность общаться со своими карманными компьютерами на разговорном языке, открывает новую эпоху. Очень часто люди недооценивают значение технологии первого поколения из-за ее ограничений. Но через несколько лет, когда технология уже хорошо работает, люди по-прежнему не признают ее значение, поскольку теперь она уже не нова. Поэтому следует сказать, что для продукта первого поколения Сири работает очень хорошо и, очевидно, будет работать еще лучше.

Сири использует технологию распознавания речи на основе иерархических моделей Маркова, разработанную компанией Nuance. Расширения для использования разговорной речи впервые были созданы в рамках проекта CALO[108], финансированного агентством DARPA[109]. Сири снабжена собственной технологией компании Nuance, кроме того, компания предлагает очень похожую технологию под названием Dragon Go[110].

Методы, используемые для понимания разговорной речи, очень напоминают иерархические скрытые модели Маркова, да и сами ИСММ часто применяются для данных приложений. Хотя иногда в подобных системах не указано, что они используют скрытые модели Маркова или иерархические скрытые модели Маркова, математические основы их функционирования практически идентичны. Все эти системы применяют иерархию линейных последовательностей, каждый элемент которых имеет вес, контакты самостоятельно адаптируются, а вся система в целом самостоятельно организуется в процессе обучения. Обычно обучение продолжается постоянно на протяжении всего времени работы системы. Этот подход отражает иерархическую структуру разговорного языка — это естественное восхождение по понятийной иерархической лестнице от звуков к словам и далее к словосочетаниям и сложным речевым построениям. Имеет смысл применять ГА для параметров, контролирующих конкретный алгоритм обучения в таких классах иерархических систем, и находить оптимальные элементы алгоритма.

За последнее десятилетие возникли новые способы создания подобных иерархических структур. В 1984 г. Дуглас Ленат начал реализацию проекта Cyc (от enCYClopedic) с целью разработки правил кодирования «бытовых знаний». Эти правила были организованы в виде сложной иерархической структуры, и каждое правило, опять же, включало в себя линейную последовательность утверждений. Например, одно такое утверждение может информировать, что у собаки есть лицо (морда). Далее Cyc выводит более общее правило о структуре лиц: на лице есть два глаза, нос и рот и т. д. Нам не нужно иметь отдельное правило для описания собачьей морды и отдельное — для кошачьей, но мы, конечно же, можем создать дополнительное правило, описывающее различие между кошачьей и собачьей мордой. В системе также реализуется следственный механизм: если есть правила, утверждающие, что кокер-спаниель — собака, что собака — животное и что животные потребляют пищу, то на вопрос, питается ли кокер-спаниель, система ответит утвердительно. За прошедшие с тех пор три десятилетия были затрачены тысячи человеко-лет трудов и написано и проверено более миллиона таких утверждений. Интересно, что язык, на котором пишут правила для Cyc (его называют CycL), практически идентичен языку ЛИСП.

Тем временем приверженцы альтернативной теории мыслительного процесса считают, что наилучший подход к пониманию разговорной речи и вообще к созданию разумных систем заключается в автоматизированном обучении системы на многочисленных примерах понятий и явлений. Мощный пример системы такого рода — программа-переводчик Google Translate, которая способна переводить с 50 языков на 50 языков. Это подразумевает 2500 направлений перевода, хотя в большинстве пар языков программа не переводит напрямую с первого языка на второй, а переводит сначала с первого языка на английский, а уже с него на второй язык. Это приводит к сокращению числа направлений перевода всего до 98 (и еще небольшого числа языковых пар, в которых перевод осуществляется напрямую). Данная программа перевода не использует грамматических правил, а создает обширные базы данных для всех пар на основе переведенных документов из программного продукта Rosetta stone («Розеттский камень»)[111]. Для шести официальных языков ООН[112] Google использует документы ООН, поскольку они всегда публикуются на шести языках. Для других языков применяются другие источники.

Результаты такой работы бывают весьма впечатляющими. DARPA организует ежегодные соревнования для выявления лучших автоматических систем перевода для различных пар языков, и Google Translate часто выигрывает эти соревнования для определенных пар, превосходя системы, напрямую разработанные лингвистами.

За последнее десятилетие было сделано два важных открытия, которые в значительной степени повлияли на развитие систем понимания разговорной речи. Первое имеет отношение к иерархическому строению систем. Несмотря на то что подход Google заключается в поиске ассоциаций между линейными последовательностями слов в разных языках, иерархическая структура языка неизбежно влияет на этот процесс. Системы, применяющие метод иерархического обучения (такие как иерархические скрытые модели Маркова), обеспечивают гораздо более высокую эффективность. Однако создание таких систем — далеко не автоматический процесс. Что верно для людей, которые за один раз осваивают один иерархический уровень понятий, то верно и для компьютеров, так что процессом обучения необходимо тщательно руководить.

Другое открытие заключается в том, что для усвоения основного массива знаний хорошо работают правила, сформулированные людьми. Для перевода коротких фрагментов текста такой подход часто обеспечивает более точный результат. Например, DARPA выше оценило переводы коротких текстов с помощью китайско-русского словаря, основанного на правилах, чем переводы Google Translate. Что же касается других элементов языка, к которым относятся миллионы редких фраз и заключенных в них понятий, тут точность переводов, основанных на правилах, непозволительно низкая. Если построить график точности понимания разговорной речи от количества данных, на которых обучалась система, системы, основанные на правилах, сначала показывают более высокую эффективность, но точность распознавания не поднимается выше 70 %. Напротив, статистические системы достигают точности 90 %, но для этого им нужно «изучить» очень большой массив данных.

Часто нам требуется обеспечить приемлемую эффективность при небольшом объеме обучающих данных, но предусмотреть повышение точности при дополнительных тренировках системы. Быстрое достижение средней эффективности позволяет перейти к автоматическому режиму сбора тренировочных данных при каждом использовании. Таким образом, в процессе применения системы происходит и ее обучение, что приводит к постепенному повышению точности результатов. Такое статистическое обучение должно быть полностью основано на принципе иерархии, что отражает структуру языка и принцип работы человеческого мозга.

Именно так работают Сири и Dragon Go: для определения наиболее общих и надежных явлений используются заранее сформулированные правила, а усвоение более редких элементов языка находится в руках конкретных пользователей. Когда создатели Cyc обнаружили, что достигли потолка эффективности при обучении системы на заранее сформулированных правилах, они также переключились на этот подход. Правила, определенные лингвистами, выполняют две важнейшие функции. Во-первых, они обеспечивают приемлемую начальную точность, так что систему можно допускать к широкому использованию, где она будет улучшаться автоматически. Во-вторых, они служат надежной основой для низших уровней понятий, от которых начинается автоматический подъем на более высокие иерархические уровни.

Как отмечалось выше, Ватсон является удивительным примером реализации комбинированного подхода, в котором сочетается настройка системы по предварительно сформулированным правилам и ее иерархическое статистическое обучение. Для создания системы, способной играть в «Джеопарди!» на разговорном языке, компания IBM объединила несколько лучших программ. С 14 по 16 февраля 2011 г. Ватсон соревновался с двумя ведущими игроками: Брэдом Раттером, выигравшим в эту викторину больше денег, чем кто-либо другой, и Кеном Дженнингсом, который удерживал звание чемпиона викторины рекордное время — 75 дней.


Точность систем распознавания разговорной речи как функция объема тренировочных данных. Наилучшие результаты получаются при сочетании заранее сформулированных правил для освоения «основного» языка и самостоятельной тренировки для освоения «деталей».

В моей первой книге «Эра разумных машин», написанной в середине 1980-х гг., я предсказывал, что компьютер станет чемпионом мира по шахматам примерно к 1998 г. Еще я предсказал, что если это произойдет, то мы либо станем хуже думать о человеческом разуме, либо лучше думать о разуме машин, либо потеряем интерес к шахматам. И если принять во внимание историю, скорее всего, должно было произойти последнее. Так и вышло. В 1997 г., когда суперкомпьютер IBM Deep Blue обыграл чемпиона мира по шахматам Гарри Каспарова, мы немедленно стали утверждать, что именно так и должно было случиться, поскольку компьютеры — логические машины, а шахматы, в конце концов, игра на логику. Победу компьютера не сочли ни важным, ни удивительным событием. Многие критики принялись утверждать, что компьютер никогда бы не смог одолеть человеческую речь — со всеми метафорами, сравнениями, каламбурами, двусмысленностями и юмором.

Вот почему Ватсон так много значит: «Джеопарди!» — именно такая сложная и напряженная игра на знание языка. Типичные вопросы викторины содержат непростые обороты человеческой речи. Однако для большинства зрителей, возможно, не очевидно, что Ватсон не только понимает вопросы, заданные в неожиданной и запутанной форме, но большая часть его знаний не была сформирована людьми. Он обзавелся этими знаниями самостоятельно, прочитав 200 млн страниц документов на человеческом языке, включая «Википедию» и другие энциклопедии, что составляет 4 трлн байт информации. Как вы понимаете, «Википедия» написана не на ЛИСП или CycL, а «нормальными» предложениями со всеми присущими языку двусмысленностями и путаницами. При ответе на вопрос викторины Ватсон должен проверить все 4 млрд знаков реферативного материала (конечно, «Джеопарди!» — не вопросы, а загадки, но это техническая сторона дела — по форме это настоящие вопросы). Если Ватсон способен понять вопрос и ответить на него на основании 200 млн страниц текста — и всего за три секунды! — ничто не может помешать подобным машинам прочесть миллиарды имеющихся в Интернете документов. Именно это сейчас и происходит.

Когда в период с 1970-х по 1990-е гг. мы занимались разработкой систем для распознавания знаков и речи и первых систем, понимающих разговорную речь, мы включали в свои программы «эксперта-менеджера». Мы создавали разные системы для решения одной и той же задачи, но в каждом случае использовали несколько иной подход. Некоторые из различий были незначительными, например вариации параметров, контролирующих математику алгоритма обучения. Но некоторые были фундаментальными, например использование предварительно сформулированных правил вместо иерархических статистически обучающихся систем. Эксперт-менеджер представлял собой компьютерную программу, призванную изучить сильные и слабые стороны различных систем путем анализа их эффективности в реальных ситуациях. Оценка производилась по принципу ортогональности, то есть одна система считалась скорее сильной, другая — скорее слабой. Выяснилось, что общая эффективность комбинированных систем с обученным экспертом-менеджером была намного выше, чем у отдельных систем.

Ватсон действует по такому же принципу. Используя архитектуру UIMA (Unstructured Information Management Architecture), Ватсон распоряжается буквально сотнями различных систем — многие отдельные языковые компоненты Ватсона аналогичны тем, что применяются в широко используемых системах распознавания разговорного языка, — и все они либо пытаются напрямую дать ответ на вопрос викторины, либо как минимум прояснить вопрос. UIMA выступает в роли эксперта-менеджера, разумно сочетающего результаты отдельных систем. UIMA превзошла более ранние системы (включая разработанные нами еще до создания компании Nuance) в том, что составляющие ее системы могут участвовать в получении результата, даже если не пришли к финальному ответу. Достаточно, чтобы подсистема помогла найти путь к ответу. Кроме того, UIMA может рассчитать степень собственного доверия к полученному ответу. Человеческий мозг тоже это делает: обычно вы совершенно уверены в ответе, если у вас спросят, как зовут вашу мать, но гораздо менее уверены, если речь идет о человеке, которого вы видели один раз год назад.

Таким образом, вместо того чтобы разработать единственный путь разрешения речевых проблем, возникающих при ответах на вопросы «Джеопарди!», специалисты из IBM объединили все имевшиеся на тот момент модули распознавания речи. В некоторых используются иерархические скрытые модели Маркова, в других — заранее сформулированные языковые правила, кодирующие основной массив языковых данных. UIMA оценивает эффективность каждой системы в каждом случае и оптимальным образом объединяет результаты. Важная роль UIMA, которую подчеркивают создавшие ее специалисты из IBM, вызывает определенное недопонимание, возникающее при обсуждении способностей Ватсона. Некоторые зрители полагают, что Ватсон на самом деле не понимает речь, поскольку трудно сказать, в каком модуле происходит это «понимание». Но хотя UIMA тоже обучается на своем собственном опыте, «понимание» Ватсоном языка происходит не только благодаря ей, но распределено по всем многочисленным модулям, включая самоорганизующиеся языковые модули, действующие по методам, аналогичным ИСММ.

Отдельная часть системы использует произведенную UIMA оценку достоверности ответа Ватсона для заключения пари. Хотя Ватсон специфическим образом оптимизирован именно для этой игры, его базовые знания и технология поиска новых знаний легко могут быть адаптированы для решения более широкого круга задач. Возможно, некоторые думают, что машине сложнее будет управляться с менее общими и более узкопрофессиональными данными (например, в сфере медицины), чем с «общими» знаниями, требующимися для игры в «Джеопарди!» На самом деле ситуация как раз противоположная. Профессиональные знания упорядочены в гораздо большей степени, лучше структурированы и менее двусмысленны, поэтому с помощью той же самой технологии вполне можно достичь точного понимания языка в подобных специфических областях. Я уже упоминал, что в настоящее время IBM и Nuance совместно трудятся над адаптацией Ватсона для работы в сфере медицины.

Диалог с Ватсоном во время викторины короткий: ему задают вопрос, он дает ответ. Он не вовлекается в разговор, в котором были бы упомянуты все предыдущие высказывания всех игроков. (А вот Сири в какой-то степени это делает: если вы попросите ее отправить сообщение вашей жене, она в первый раз попросит ее назвать, но после этого запомнит.) Проследить за всей информацией, упомянутой в ходе разговора (что, безусловно, было бы необходимо для прохождения теста Тьюринга), — серьезное дополнительное требование, но выполнить его, по сути, не сложнее, чем то, что Ватсон уже умеет делать.

В конце концов, Ватсон прочел миллионы страниц текста, включая многочисленные истории, так что он способен наблюдать за запутанными последовательностями событий. Таким образом, он сможет следить за собственными ответами и учитывать их в последующих турах викторины.

Еще одно ограничение викторины заключается в том, что ответы обычно очень короткие. Например, игроков не просят перечислить пять основных сюжетных линий «Повести о двух городах»[113]. Для обсуждения таких вопросов нужна несколько иная версия Ватсона. Самостоятельно выявить главные темы книги, не копируя чужие мысли (даже без слов), это совсем другая задача, гораздо более сложная, чем те, которые сейчас умеет решать Ватсон; я бы назвал эту задачу тестом на уровне теста Тьюринга. (Говоря это, я хочу подчеркнуть, что большинство людей при решении подобной задачи воспользуются не собственными мыслями, а скопируют уже готовые идеи.) В любом случае, 2029 г. еще не наступил, так что я пока не ожидаю появления машинного разума, способного пройти тест Тьюринга. Кроме того, я хочу отметить, что оценка ответов на такие вопросы, как выявление ключевых идей литературного произведения, сама по себе не является очевидной задачей. Если спрашивают, кто подписал Декларацию независимости, верность ответа оценить легко. С более сложными понятийными вопросами дело обстоит намного сложнее.

Нужно сказать, что, хотя языковые навыки Ватсона в настоящее время слабее, чем у образованного человека, он смог одолеть двух лучших игроков в «Джеопарди!» Ему помогло сочетание лингвистических возможностей и многочисленных познаний человечества с очень точной памятью машины. Вот почему мы уже передали компьютерам значительную часть наших персональных, социальных и исторических воспоминаний.

Я не готов передвинуть мой прогноз о прохождении компьютером теста Тьюринга с 2029 г. на более раннюю дату, однако прогресс, который достигнут в создании подобных Ватсону машин, вселяет уверенность, что вскоре появятся компьютеры с ИИ уровня теста Тьюринга. Если бы кто-то специально занялся созданием версии Ватсона, оптимизированной для прохождения теста Тьюринга, возможно, такая машина появилась бы совсем скоро.

Американский философ Джон Серль (род. в 1932 г.) недавно заявил, что Ватсон не способен думать. Опираясь на свой мысленный эксперимент «Китайская комната» (я расскажу о нем в одиннадцатой главе), он утверждает, что Ватсон лишь манипулирует символами, но не понимает их смысла. На самом деле, Серль неточно описывает Ватсона, поскольку понимание Ватсоном языка основано не на манипуляции символами, а на иерархическом статистическом процессе обучения. Характеристика Серля верна лишь в том случае, если рассматривать каждую стадию самоорганизующегося процесса как «манипуляцию символами». Но если это так, то и человеческий мозг нельзя назвать мыслящим.

Забавно, когда Ватсона критикуют за то, что он всего лишь выполняет статистический анализ языка, но не владеет «истинным» пониманием человеческой речи. Иерархический статистический анализ — это именно то, что делает человеческий мозг, разбирая несколько гипотез на основе статистических выводов (на каждом иерархическом уровне новой коры). И Ватсон, и человек обучаются и отвечают на вопросы на основании одного и того же иерархического подхода. Во многих отношениях знания Ватсона намного обширнее человеческих; ни один человек не может утверждать, что прочел всю «Википедию», которая составляет лишь часть базы данных Ватсона. Напротив, человек пока еще может справляться с более сложными понятийными задачами, чем Ватсон, но этот пробел вскоре закроется.

Важной системой, демонстрирующей мощь применения компьютерных возможностей для обработки организованных баз знаний, является программа Wolfram Alpha. Эта отвечающая программа (в отличие от поисковой программы) разработана британским физиком и математиком Стивеном Вольфрамом (род. в 1959 г.) и его коллегами из компании Wolfram Research. Если вы спросите Wolfram Alpha (на сайте WolframAlpha.com) сколько существует простых чисел меньше миллиона, она ответит: «78 498». Этот ответ программа не отыщет, она его вычислит и после ответа выдаст вам уравнения, которыми пользовалась. Если вы попытаетесь получить ответ с помощью обычных поисковых программ, они направят вас к сайтам, где вы найдете нужный алгоритм. Далее вам потребуется загрузить эти формулы в программу типа «Математика» (также созданную Вольфрамом), но на это уйдет гораздо больше времени (и усилий), чем просто обращение к Wolfram Alpha.

Программа Wolfram Alpha содержит 15 млн строк кода «Математики». Ее функция заключается в расчете ответа на основании примерно 10 трлн байт данных, тщательно подобранных сотрудниками Wolfram Research. Программе можно задать множество фактических вопросов типа «В какой стране самый высокий валовый внутренний продукт на душу населения?» (ответ: в Монако, 212 тыс. долл. США) или «Сколько лет Стивену Вольфраму?» (ответ (на момент написания книги): 52 года, 9 месяцев и 2 дня). Как я уже говорил, Wolfram Alpha используется в технологии Сири. Если вы задаете Сири фактический вопрос, она переадресует его Alpha. Кроме того, Alpha осуществляет некоторые поисковые функции для поисковой программы Bing.

Недавно Вольфрам сообщил, что Alpha дает правильный ответ в 90 % случаев[114]. Он также указал, что число отказов сокращается вдвое каждые 18 месяцев. Это очень мощная система, которая использует созданные вручную методы и собранные вручную данные. Именно для этого мы когда-то впервые сделали компьютеры. По мере того как мы открываем и компилируем научные и математические методы, мы все шире привлекаем компьютеры, которые используют эти методы гораздо лучше, чем невооруженный человеческий разум. Большинство наших научных методов кодируется в программе Alpha параллельно с постоянно обновляемыми данными во многих областях знания — от физики до экономики. Во время нашей частной беседы с Вольфрамом он сообщил, что применение самоорганизующихся методов, подобных тому, что использует Ватсон, позволяет достигать точности 80 %. A Alpha способна на 90 % точности. Конечно же, эти значения в определенной степени субъективны, поскольку пользователи (включая меня самого) выбирают вопросы, на которые их система отвечает хорошо, и то же касается самоорганизующихся методов. Кажется, 80 % — достаточно верная оценка точности ответов Ватсона при игре в «Джеопарди!», но такой точности было довольно, чтобы он смог обыграть двух лучших игроков.

По моему мнению, такие самоорганизующиеся методы, как я описал для теории мысленного распознавания образов (ТМРО), необходимы для понимания сложной и часто неоднозначной иерархии, встречающейся в реальном мире, в том числе в человеческом языке. Идеальным сочетанием для надежной разумной системы была бы комбинация иерархического подхода, основанного на ТМРО (который, как я считаю, лежит в основе функционирования человеческого мозга), и точной кодировки научных данных. А это и есть сочетание человека и компьютера. В ближайшие годы мы усилим оба полюса. Хотя наша биологическая новая кора достаточно пластична, ее базовая архитектура имеет физические ограничения. Увеличение размеров новой коры в лобной части нашего мозга стало важной эволюционной инновацией, но теперь мы не в состоянии расширить наши лобные доли ни в тысячу раз, ни даже на 10 %. Я хочу сказать, что мы не можем сделать это биологическим путем, но мы совершим это технологически.

<<< Назад
Вперед >>>

Генерация: 8.183. Запросов К БД/Cache: 3 / 1
Вверх Вниз