Книга: Биологически активные

Пример из детского сада

<<< Назад
Вперед >>>

Пример из детского сада

Их разработано очень много, этих процедур, и сами авторы обычно признают, что все они весьма, весьма далеки от совершенства. При этом имеются в виду два обстоятельства: сравнительно невысокая надежность получаемых предсказаний и чисто эмпирический характер, отсутствие в применяемых алгоритмах явных представлений о конкретных молекулярных механизмах, лежащих в основе того или иного вида биологической активности.

В третьей главе были, правда, вкратце рассмотрены подходы, базирующиеся именно на таких представлениях, изучающие требования, предъявляемые рецептором к пространственной структуре молекулы биологически активного соединения, взаимодействие отдельных функциональных групп рецептора и биорегулятора и т.п. Однако работы этого направления лишь самые, самые первые ласточки. Они касаются очень немногих, очень узких групп аналогов природных биорегуляторов, для которых в силу благоприятного стечения обстоятельств вообще оказалось возможным применение таких аналитических приемов (как говорят: «ищем не там, где потеряли, а там, где светло»). Да и надежность получаемых при этом оценок также далеко не стопроцентная.

Область применения эмпирических процедур анализа связи «структура – активность» (или, как часто говорят, структурно-функциональных отношений) – вещества сравнительно простые, состоящие из десятков атомов. Это и понятно, поскольку все такие процедуры – вероятностные, основанные на соотнесении каких-то характерных признаков молекулы, степени выраженности ее биологической активности в какой-то тестовой системе. Чем крупнее молекула, тем большим числом признаков она характеризуется. Значительная их часть окажется при этом несущественной с точки зрения наличия или отсутствия данного вида биологической активности, а для выявления в этой ситуации немногих существенных признаков нужны данные об активности очень большого числа сходных по структуре молекул. На самом деле все обстоит как раз наоборот: сведений, относящихся к более сложным молекулам, относительно мало, хотя бы потому просто, что их труднее синтезировать.

Впрочем, это уже начался разговор о сути методов анализа связи «структура – активность».

Для реализации подавляющего большинства таких методов необходимо, однако, решить еще одну техническую проблему: создать банки данных по биологическим активностям химических соединений. Это наиболее сложная часть подготовительного этапа, очень трудоемкая и дорогостоящая. Нужно «перевести» на принятые языки сведения о структуре вещества, его биологической активности, для многих процедур требуются еще и данные о физико-химических свойствах. Все эти данные вводятся в память ЭВМ; для организации их размещения и последующего извлечения для обработки создаются специальные пакеты программ.

Из-за огромного объема связанных с этим работ часто ограничиваются созданием узкоспециализированного банка данных, ориентированного на решение определенного класса частных задач; в последнее время, однако, предприняты успешные попытки создания более универсальных банков данных. Это очень сложно организованные службы (обычно международные), занятые обработкой существующей и сбором постоянно поступающей новой информации о биологической активности химических соединений.

Но, допустим, все эти, в сущности, технические трудности позади. Решены все языковые проблемы, создан банк данных, можно приступать наконец к анализу связи «структура– активность».

Наиболее универсальные подходы к решению задач подобного рода базируются на теории распознавания образов.

Предположим, идете вы по осеннему лесу, помахивая корзиной, в которой лежат две-три сыроежки, и жадно шарите взором по траве. Стоп – шляпка! Наклонившись, срезали. Осмотрели – типичная свинушка. Как вам удалось это установить? Все очень просто, ответит специалист по теории распознавания образов. Каждый гриб можно описать с помощью некоторого набора признаков: пластинчатый или губчатый, цвет шляпки, форма шляпки и ножки, глянцевитая или матовая поверхность, цвет «мяса» и т.п. Обучаясь различению грибов, вы рассматривали представителей различных их видов, причем знающий человек («учитель») вам говорил: вот это, мол, подберезовик, то – волнушка, а вон то – опенок. Иногда он специально указывал на какой-то отличительный признак – скажем, характерным образом подогнутые края шляпки, иногда вы просто полагались на зрительную память. Таким образом, вы вырабатывали для себя решающее правило, с помощью которого теперь уже без помощи учителя сумеете определить вид вновь найденного гриба, то есть отнести его к соответствующему классу подлежащих распознаванию объектов.

Не всегда вы сможете это правило сформулировать вполне четко. Есть признаки, совершенно однозначно определяющие вид (скажем, белые бородавки на ярко-красной шляпке), присущие многим видам (выпуклая форма шляпки) или практически бесполезные при определении вида (размер). Некоторые комбинации признаков, характерных для данного вида, мы часто воспринимаем «на глаз», и если нас спросят, почему мы решили, что это именно опенок, а не шампиньон или (чур, чур!) бледная поганка, объяснить будет трудно, хотя, положив рядом опенок и шампиньон, мы в конце концов сможем указать вполне конкретные различия в отдельных признаках или их комбинациях. Это – так называемая задача обучения распознаванию образов. Если же вы, к примеру, попали на обитаемый остров, где произрастают разные виды грибов, то, будучи человеком наблюдательным, рано или поздно сами создали бы для себя определенную их классификацию (таксономию), необязательно, конечно, совпадающую с общепринятой научной. Это случай так называемого самообучения.

Если описание объекта можно легко формализовать – например, в качестве признаков используются числа, наличие или отсутствие какого-либо элемента и т.п. – почему бы не поручить задачу распознавания вычислительной машине?

Пусть, для простоты, признаков только два, и оба – числа. Например, имеются результаты обследования ребятишек в детском саду; выяснилось, до скольких ребенок умеет считать (признак a) и измерялся его рост (признак b). Представим графически данные, относящиеся к двум группам, старшей и младшей, откладывая по оси абсцисс признак a, а по оси ординат – признак b, так что каждому объекту (ребенку) будет соответствовать точка. Окончив эту работу, мы убедимся, что точки располагаются на графике двумя «роями» – один поближе к началу координат, другой – подальше от него; если же при построении мы наносили разными цветами точки, соответствующие объектам младшей (зеленые) и старшей (красные) групп, мы обнаружим, что совершенно очевидно первый рой образован почти исключительно зелеными точками, второй – красными.

Вычислим средние значения признаков a и b для двух групп и пометим соответствующие точки на графике (центры групп). Можно предложить следующее решающее правило: данный объект принадлежит той группе, ближе к центру которой расположена соответствующая ему точка. Это – пример так называемой геометрической интерпретации задачи распознавания образов. Если теперь нам предстоит определить на основании параметров a и b, к младшей или старшей группе принадлежит данный курносый объект, нам достаточно нанести на график соответствующую точку, измерить расстояния до центров первой и второй групп и сравнить их между собой. ЭВМ, разумеется, такую процедуру выполняет безо всяких графиков, расчетным путем. Обучение в данном случае заключалось в вычислении средних для двух групп.

Внимательно исследовав еще раз график, мы обнаружим, что принятое нами решающее правило срабатывает не всегда: пара зеленых точек расположена ближе к «красному» центру, чем к своему, «зеленому», и наоборот. Действительно, может иногда встретиться в младшей группе вундеркинд, считающий, скажем, до тысячи, а если он к тому же и ростом заметно обогнал сверстников – наша процедура неминуемо совершит ошибку и отнесет его к старшей группе. Причем такие случаи вовсе не являются следствием несовершенства решающего правила: полностью безошибочная классификация на основании только значений параметров a и b здесь невозможна в принципе, а полученное указание на принадлежность объекта именно этой группе следует трактовать таким образом, что он с большей вероятностью относится к ней, чем к другой. (Вспоминается консилиум у постели Буратино: «Пациент скорее жив, чем мертв».)

Существует много способов вычисления этой вероятности; ясно, что такого рода оценку можно сделать уже на основании величин расстояний от рассматриваемой точки до двух центров. На нашем графике нетрудно провести прямую, точки которой в равной степени удалены от каждого из них, и если точка, соответствующая некоторому объекту, расположится именно на ней, мы с помощью нашего решающего правила вообще ничего не сможем сказать о принадлежности объекта той или иной группе.

Очень, конечно же, большое значение имеет выбор параметров, на основании которых происходит распознавание. В рассмотренном примере этот выбор был удачным в том отношении, что параметры a и b независимы (рост и умственное развитие ребенка в данном возрасте необязательно взаимосвязаны). Кроме того, что еще важнее, оба параметра являются существенными, то есть действительно в среднем различны в двух группах, или, как еще говорят, несут информацию о принадлежности объекта одной из групп.

Что же случается, если избранные параметры не удовлетворяют этим требованиям? Проиллюстрируем это на примерах. Пусть мы вначале решаем нашу задачу, используя всего один параметр – рост. Соответствующие различным объектам точки и центры групп располагаются в этом случае на прямой. Мы убедимся, что качество классификации ухудшится. В самом деле, если какой-то мальчуган из старшей группы ростом не вышел, он будет отнесен неправильно (на прямой соответствующая точка расположится, не доходя середины отрезка между двумя центрами); при классификации же на основании двух параметров расстояние до «неправильного» центра окажется уже большим в силу сдвига соответствующей точки по второй оси, параметру a, поскольку по умственному развитию наш объект находится вполне на уровне своего возраста.

Что произойдет, если в качестве второго параметра мы возьмем не независимое от роста умение считать, а величину, связанную с ростом, – например, вес? Точки на нашем графике расположатся узкой восходящей полоской, причем у верхнего ее конца сосредоточатся красные, у нижнего – зеленые. Качество классификации почти не улучшится: второй параметр несет мало дополнительной информации, чаще всего у ребят большего роста окажется и больший вес.

Выбор для описания объекта взаимозависимых (коррелированных) параметров, однако, ошибка не самая страшная; это лишь затрудняет вычисления, но не оказывает отрицательного влияния на результат. В отличие от этого введение несущественных параметров, значения которых не зависят от того, какой группе принадлежит объект, очень сильно сказывается на качестве распознавания, часто делая процедуру вообще неработоспособной.

Действительно, предположим, что в качестве второго параметра мы избрали нечто, совершенно не содержащее малейшего намека на принадлежность ребенка той или иной группе – скажем, номер квартиры, в которой он проживает. В этом случае наш график будет выглядеть следующим образом: ближе к началу координат вертикальной полосой расположатся зеленые точки, к ней будет примыкать и частично пересекаться же полоса зеленых точек. Часто будет наблюдаться такая ситуация: точка близка «своему» центру по существенному параметру – росту, но сильно удалена по значению параметра несущественного – номеру квартиры. В результате различие в расстояниях от нее до каждого из центров станет незначительным, а из-за небольшой даже разницы средних значений второго параметра в двух группах возможны неправильные отнесения. Введение второго, несущественного параметра, таким образом, ухудшает качество предсказания «Под влиянием таких параметров может происходить разнесение объектов одного класса и сближение объектов разных классов. Это явление лежит в основе так называемой «теоремы о гадком утенке»... (Ее доказательство и название принадлежит японскому ученому Ватанабэ. – С.Г.). Своим названием теорема обязана одному из ее частных следствий, согласно которому в таком пространстве расстояние между гадким утенком и лебедем будет таким же, как между двумя лебедями». Это цитата из книги А.Б. Розенблита и В.Е. Голендера «Логико-комбинаторные методы в конструировании лекарств» – несомненно, одной из лучших на русском языке монографий по проблеме анализа связи структура – активность. Книга эта, написанная на самом современном научном уровне, доступна тем не менее во многих частях также и непрофессионалам. Кроме того, ее очень украшают встречающиеся там и сям симпатичные искорки юмора. Пример – прямо на второй странице: «Тираж 300 экземпляров»; естественно, было бы просто издевательством отсылать к ней читателя, желающего глубже ознакомиться с этими вопросами.

<<< Назад
Вперед >>>

Генерация: 0.454. Запросов К БД/Cache: 3 / 1
Вверх Вниз