Вы находитесь на странице: 1из 322

МОЛЕК УЛЯРНОЕ

МОДЕЛИРОВАНИЕ
Hans-Dieter Holtje, Wolfgang Sippl, Didier Rognan, Gerd Folkers

Molecular Modeling
Basic Principles and Applications

Third, Revised and Expanded Edition


Х.-Д. Хёльтье, В. Зиппль, Д. Роньян, Г. Фолькерс

МОЛЕК УЛЯРНОЕ
МОДЕЛИРОВАНИЕ
ТЕОРИЯ И ПРАКТИКА

3е издание (электронное)

Перевод с английского
канд. хим. наук А. А. Олиференко,
канд. хим. наук Д. И. Осолодкина, С. А. Писарева
и канд. хим. наук В. И. Чупахина

под редакцией
канд. хим. наук В. А. Палюлина
и канд. хим. наук Е. В. Радченко

Москва
БИНОМ. Лаборатория знаний
2015
УДК 547
ББК 24.23
Х36

Хёльтье Х.-Д.
Х36 Молекулярное моделирование: теория и практика [Электрон-
ный ресурс] / Х.-Д. Хёльтье, В. Зиппль, Д. Роньян, Г. Фолькерс ;
пер. с англ. — 3-е изд. (эл.). — Электрон. текстовые дан. (1 файл
pdf : 322 с.). — М. : БИНОМ. Лаборатория знаний, 2015. — Систем.
требования: Adobe Reader XI ; экран 10".
ISBN 978-5-9963-2401-9
В научном издании, написанном учеными из Германии, Франции
и Швейцарии, имеющими большую педагогическую практику, на современ-
ном уровне рассмотрены основные методы молекулярного моделирования
и дизайна лекарственных веществ — бурно развивающейся области современ-
ной компьютерной химии. Изложены теоретические основы моделирования
пространственной структуры малых молекул и построения зависимостей
биологической активности от пространственной структуры (на основе
3D-QSAR), принципы моделирования структуры белковых молекул, методы
молекулярного докинга и виртуального скрининга, принятые подходы
при выборе биомишени. Приведены примеры моделирования антагонистов
дофаминового рецептора D3 . В настоящем издании внесены исправления,
уточняющие перевод, и исправлены некоторые рисунки.
Для научных сотрудников, работающих в областях молекулярного
моделирования, био- и хемоинформатики, нанотехнологий и поиска новых
лекарств, а также для студентов и аспирантов.
УДК 547
ББК 24.23

Деривативное электронное издание на основе печатного аналога: Мо-


лекулярное моделирование: теория и практика / Х.-Д. Хёльтье, В. Зиппль,
Д. Роньян, Г. Фолькерс ; пер. с англ. — 2-е изд. — М. : БИНОМ. Лаборатория
знаний, 2013. — 319 с. : ил. — ISBN 978-5-9963-1070-8.

В соответствии со ст. 1299 и 1301 ГК РФ при устранении ограничений, установленных


техническими средствами защиты авторских прав, правообладатель вправе требовать
от нарушителя возмещения убытков или выплаты компенсации


c Originally published in the English
language by WILEY-VCH Verlag
GmbH & Co. KGaA, Boschstraße 12,
D-69469 Weinheim, Federal Republic
of Germany, under the title
«Molecular Modeling. Basic
Principles and Applications».
Copyright 2008 by Wiley-VCH
Verlag GmbH & Co. KGaA.
All Rights Reserved.
This EBook published under license
with the original publisher.

c Перевод на русский язык,
оформление. БИНОМ. Лаборатория
ISBN 978-5-9963-2401-9 знаний, 2010
Предисловие к русскому изданию

Молекулярное моделирование — бурно развивающаяся область совре-


менной компьютерной химии. Существует много методов молекулярно-
го моделирования, ориентированных на решение различных задач и
различающихся как стратегическим подходом, так и программной реа-
лизацией. Важность молекулярного моделирования для конструирова-
ния новых лекарственных веществ неоспорима: структуры практически
всех новых лекарств, появившихся в последние годы, прошли через ста-
дию молекулярного моделирования.
Предлагаемый читателю русский перевод книги Х.-Д. Хёльтье,
В. Зиппля, Д. Роньяна и Г. Фолькерса является пока единственным из-
данием на русском языке, охватывающим на современном уровне основ-
ные аспекты молекулярного моделирования и дизайна лекарственных
веществ. Авторы книги — известные ученые, многие годы успешно ра-
ботающие в области молекулярного моделирования. Каждый автор
ведет курс молекулярного моделирования в учебном заведении, что по-
зволяет не сомневаться в высоком научном и педагогическом уровне
издания.
Авторы книги стремятся создать у читателя системное представле-
ние о молекулярном моделировании. В книге рассматриваются все
основные аспекты этой области знания — от теории и методов моделиро-
вания малых молекул до моделирования пространственной структуры
белков и дизайна структур потенциальных лекарств, воздействующих
на определенные белковые биомишени. Книга хорошо иллюстрирована,
что значительно облегчает восприятие материала.
Особую ценность данному изданию придает наличие подробно разо-
бранных примеров решения практических задач молекулярного моде-
лирования как для малых, так и для белковых молекул, что позволит
студентам самостоятельно «прочувствовать» процесс моделирования
или осуществить его под руководством опытного наставника.
Подобная книга на русском языке принесет несомненную пользу
студентам, аспирантам и научным сотрудникам, работающим в облас-
тях молекулярного моделирования и нанотехнологий, био- и хемоин-
форматики, и, конечно же, занятым поиском новых лекарств.

Академик РАН
Н. С. Зефиров
Предисловие
редакторов перевода
В последние десятилетия молекулярное моделирование стало важней-
шей составляющей практически любого исследования в химии. Такие
области науки как изучение механизмов химических реакций, констру-
ирование молекул с заданными свойствами и с определенными геомет-
рическими характеристиками, нанотехнологии, создание новых мате-
риалов уже не могут обходиться без молекулярного моделирования. Мо-
лекулярное моделирование стало важнейним методом при дизайне
новых лекарственных веществ на первых этапах конструирования мо-
лекул, оптимальным образом связывающихся с заданными биологичес-
кими мишенями (как правило, белковой природы) и обладающих опре-
деленным комплексом свойств. В то же время литература на русском
языке в данной области практически отсутствует. Представляемая вни-
манию читателей книга, в которой в первую очередь рассматриваются
современные проблемы и методы компьютерного дизайна новых ле-
карств, достойно восполняет этот пробел.
При переводе на русский язык современной литературы по молеку-
лярному моделированию неизбежны трудности, связанные с передачей
англоязычных терминов. Вошедшие явочным порядком в русский на-
учный лексикон «кальки» из английского языка часто оказываются не-
приемлемыми и выглядят скорее научным жаргоном, чем удачными пе-
реводами или органичными заимствованиями, поэтому переводчики
старались избегать таких нововведений без крайней необходимости.
Тем не менее, создание более гибкой и адаптированной к языковым воз-
можностям научной теминологии было необходимо. Так, нами был
введен термин «докировать», проводить докинг, который оказался дос-
таточно гибким и удобным. В русском языке существует морской тер-
мин «доковать», ставить корабль в док, однако в литературе по молеку-
лярному моделированию он не прижился. Переводчики по возможности
избегали применения неустоявшегося термина «докировать», однако он
может быть рекомендован для дальнейшего использования. Единствен-
ный термин, который был напрямую заимствован из английского —
«хит» (англ. hit compound). В контексте молекулярного моделирования
он означает соединение, имеющее высший по определенным критериям
рейтинг (ср. употребление слова «хит» в массовой культуре) и пригодное
для дальнейшей оптимизации. Пройдя различные дополнительные про-
верки, соединение-хит становится соединением-лидером (ведущим сое-
динением), пригодным для создания лекарств на его основе.
Для большинства терминов, встречающихся в тексте лишь один-два
раза, приводится оригинальный англоязычный термин и сокращение
(если оно есть) в скобках. При отсутствии устоявшихся русскоязычных
сокращений и наличии устоявшихся англоязычных используются по-
следние. В особенности это касается восьмой главы, в которой встреча-
Предисловие редакторов перевода 7

ется множество общепринятых международных сокращенных назва-


ний рецепторов, которые, как правило, оставлялись без перевода.
Перевод выполнили: гл. 1 — С. А. Писарев, разд. 2.1–2.5 —
А. А. Олиференко и С. А. Писарев, разд. 2.6 и гл. 3–5 — Д. И. Осолод-
кин, гл. 6–8 — В. И. Чупахин.
Переводчики выражают сердечную благодарность П. В. Олиферен-
ко, Д. О. Чаркину, Д. А. Шульге, М. И. Лаврову, А. С. Морозову,
Д. В. Мамченкову, Н. А. Проценко, Т. П. Бутенко, О. Л. Пустоваловой и
Е. В. Демахиной, чьи критические замечания оказали неоценимую по-
мощь при подготовке текста перевода.

В. А. Палюлин, Е. В. Радченко
Предисловие к третьему изданию

...И когда после долгого поиска обнаруживается новый фрагмент ис-


тины, это не открытие, но откровение. Ответ оказывается на-
столько же неожиданным, насколько и простым, он доставляет эс-
тетическое удовольствие и мгновенно приносит с собой убежден-
ность; наступает чудесный, незабываемый момент, когда кто-то
говорит себе: «Ну конечно же! Вот оно!»...

Эти слова Лоуренса Брэгга лучше всего описывают уникальные возмож-


ности молекулярного моделирования для расширения нашего понима-
ния сложных взаимодействий между лигандами и их мишенями, что ха-
рактерно для множества областей исследования биологических наук.
Сам я всегда рассматривал эту особенность методов молекулярного
моделирования как наиболее перспективную и наиболее увлекательную.
Приложения методов молекулярного моделирования, возникшие
благодаря бурному развитию вычислительной техники и программного
обеспечения, претерпели серьезные изменения за четыре года, которые
прошли со времени выхода второго издания этой книги. Именно поэто-
му авторы и издатели решили, что наступило время для ее переработки.
В настоящее издание внесены следующие изменения:
l добавлена глава, посвященная хемогеномике
l модельный пример исследования белка заменен весьма актуальным
объектом моделирования — моделью рецептора CAR
l тщательно пересмотрены, исправлены и расширены все главы книги.
Мы также решили приводить названия всех цитируемых работ, что-
бы облегчить читателю поиск дополнительной информации.
Надеемся, что эта книга принесет пользу даже новичкам в данной
области исследований.
По поручению моих соавторов я благодарю всех, кто участвовал в
работе над этим изданием, и выражаю признательность издательству
Wiley-VCH за долговременное сотрудничество.

Октябрь 2007 г.
Дюссельдорф
Ханс-Дитер Хёльтье
Введение
1

«О, благая Венера! Под небом скользящих созвездий...». Тит Лукреций


Кар1 начинает свою известную поэму «О природе вещей» с просьбы к бо-
гине любви об усмирении бога войны Марса, управлявшего миром в то
время, когда Древний Рим находился в зените своего могущества.
Лукреций ставил своей целью объяснение. Эта цель как будто бы
вступала в странное противоречие с его воззваниями к богине любви.
Согласно Лукрецию, объяснение обычному человеку законов природы
изгоняло страх — страх перед богами и их служителями, страх перед
мощью непредсказуемой природы и властью звезд. Молнии, огонь и
свет, вино и оливковое масло — вот простые и обыденные вещи, которые
были необходимы людям и радовали их, но которых они в то же время
боялись.

Нам не составит труда объяснить на основе разумной


То, почему проникать несравненно пронзительней может
Молний огонь, чем земной, исходящий от факелов наших:
Будет довольно сказать, что небесное молнии пламя
Тоньше гораздо и все состоит из мельчайших частичек,
А потому проходить оно может в такие отверстья,
Где не пробиться огню ни от дров, ни от факелов наших.
Кроме того, через рог фонаря проникает свободно
Свет, но не дождь. Почему? Ибо света тела основные
Мельче, чем те, из каких состоит благодатная влага.
И хоть мгновенно вино, когда цедишь его, протекает,
Но потихоньку идет и сочится ленивое масло;
Иль потому, что его, очевидно, крупней элементы,
Иль крючковатей они и спутаны больше друг с другом;
И получается так, что не могут достаточно быстро
Связь меж собой разорвать по отдельности первоначала
И вытекать, проходя чрез отверстие каждое порознь2.

1
Тит Лукреций Кар (ок. 99–55 гг. до н. э.) — римский поэт и философ, последователь уче-
ния Эпикура, приверженец атомистического материализма (здесь и далее, если не ука-
зано иное— прим. перев. ).
2
Перевод Ф. А. Петровского.
10 Молекулярное моделирование

Атомистическая теория Демокрита1 позволила Лукрецию описать


качества света, воды и вина. Для того чтобы вывести соотношения
между структурой вещества и его свойствами, он использовал модели.
Основные «строительные блоки» в моделях Лукреция напоминают со-
временные атомы (сам Лукреций называл их первоначалами): это эле-
ментарные сущности, не поддающиеся какому-либо дальнейшему рас-
щеплению и обладающие способностью соединяться друг с другом.
Лукреций даже предположил наличие явлений взаимодействия и рас-
познавания, для обеспечения которых он наделил свои «блоки» меха-
ническими приспособлениями. Самыми важными условиями для быс-
троты сцепления этих воображаемых приспособлений были соответ-
ствие структур и наличие крючков.
Насколько хорошо такая модель соответствует реальности, показы-
вает объяснение поэтом различной текучести вина и масла. Модель
Кори—Полинга—Колтуна (КПК) для молекул жирных кислот и воды
удивляет своим сходством с картиной, нарисованной Лукрецием более
двух тысяч лет назад.

1.1. Историческая справка


Истоки развития современного молекулярного моделирования относят-
ся к началу XX в. Появление первых удачных представлений простран-
ственной структуры молекул связано со значительным прогрессом в об-
ласти ядерной физики.
Достижения кристаллографии имели решающее значение для раз-
вития молекулярного моделирования. Сложность исследуемых крис-
таллических структур очень быстро возрастала, и их установление
(«решение») было связано с большим объемом вычислений и неадек-
ватностью двумерного представления на бумаге. Единственной альтер-
нативой, позволяющей получить пространственное (трехмерное) пред-
ставление структуры кристалла, оказались наборы молекулярных мо-
делей.
Наиболее известными среди них стали модели Дрейдинга, в кото-
рых были обобщены все накопленные к тому времени знания в области
структурной химии. Изготовленные заранее модульные элементы, на-
пример атомы азота с правильным числом связей и углами, соответству-
ющими состоянию их гибридизации, или ароматические остатки, сде-
лали возможным построение практически точных пространственных
моделей кристаллических структур. Размеры моделей определялись пу-
тем линейного увеличения реальных молекулярных размеров. Эти мо-
дели достаточно хорошо описывали стерические затруднения при введе-
нии заместителей, образование водородных связей и многое другое.

1
Демокрит Абдерский (ок. 460 — ок. 370 до н. э.) — древнегреческий философ-материа-
лист, ученик Левкиппа, один из основателей атомистического учения.
Глава 1. Введение 11

Модели Стюарта—Бриглеба и КПК обеспечивали близкое качество


описания, однако с меньшей точностью из-за того, что элементы этих
наборов заполняли пространство.
Уотсон и Крик использовали молекулярные модели при первых по-
пытках моделирования взаимодействия пар оснований и в конце концов
пришли к модели спиральной структуры ДНК.
Однако в самом начале молекулярное моделирование не было связа-
но с вычислительной техникой. Мог ли компьютер привнести дополни-
тельные измерения в молекулярное моделирование и конструирование
молекул?
Вычислительная техника постоянно совершенствовалась. Процес-
соры с увеличившейся производительностью позволили проводить не-
обходимые расчеты за меньшее время, благодаря чему стало возмож-
ным оперировать с молекулами белков, содержащими тысячи атомов.
Прогресс технологий молекулярной графики также был связан с раз-
работкой все более быстрых процессоров. В 1970-х гг. появились пер-
вые псевдопространственные модели молекул с цветовым кодировани-
ем и возможностью вращать их на экране компьютера — виртуальные
модели Дрейдинга. Без компьютерных технологий массив данных о
сложных, в частности белковых, структурах превысил бы пределы воз-
можностей человека. Белки невозможно изучать методами рентгенос-
труктурного анализа или ядерного магнитного резонанса без соответ-
ствующих вычислительных технологий, которые сделали эти методы
такими, какими они предстают перед нами сегодня.
Была и другая область исследований и разработок, без которой был
бы немыслим сегодняшний компьютерный молекулярный дизайн.
С 1930-х гг. в ядерной физике требовалось не только аналитическое, но
и системное мышление — это было важно для создания атомной бомбы.
С тех пор вычисления приобрели смысл математического моделирова-
ния для численного определения и предсказания физических состоя-
ний.
В 1940-х годах в Лос-Аламосе «компьютеры» состояли из солдат-но-
вобранцев, собранных в большие группы. Каждый из солдат должен
был проводить определенный расчет, всякий раз один и тот же. Это было
предвестником переворота в развитии вычислительных устройств. Мо-
делирование методом Монте-Карло, который был разработан в то время,
применялось для предсказания физических состояний частиц газа. Тог-
да же появились первые примеры применения механических аналогий
для молекулярных систем. Появились силовые поля, которые постоян-
но оптимизировались и к настоящему моменту достигли невероятной
эффективности.
Приближенные математические методы, позволившие создать
квантово-химическое описание систем сложнее атома водорода, сделали
возможным даже моделирование лигандов в активном центре фермента
методами «квантовой динамики».
12 Молекулярное моделирование

1.2. Современное молекулярное моделирование —


лишь отражение мира по Лукрецию
или это чтото большее?
На самом деле это всего лишь вопрос правильного применения. Исполь-
зуемые методы могут быть как простыми, так и сильно усложненными,
но результаты скажут сами за себя. Простые методы не нужно объяв-
лять непригодными, однако для правильного их использования необхо-
димо критическое отношение к полученным результатам. Это означает,
что пользователь должен вполне сознавать ограничения используемых
методов и знать, как и о чем можно судить на основании получаемых ре-
зультатов. Критическое рассмотрение результатов приводит к уточне-
нию знаний о связи между структурой и свойствами даже в случае ис-
пользования наиболее упрощенных подходов.
Очень часто критическое отношение такого рода отсутствует, что
может быть связано с особенностями современных коммерческих сис-
тем моделирования, где программы всегда выдают результат, метод вы-
числения остается на совести пользователя. Программа проведет вычис-
ления даже для самого абсурдного случая. Их результат может не толь-
ко выражаться числом, но и представляться в виде красивого
изображения на экране, и это — еще один соблазнительный момент для
некритичного использования вычислительных методов. Тем не менее,
прогресс молекулярной графики неоспорим в силу значительности ее
вклада в развитие других аналитических методов, например ядерного
магнитного резонанса и рентгеноструктурного анализа белков. Обрат-
ной стороной медали является стремление к наилучшему представле-
нию данных. Рассмотрим пример такой проблемы.
Одним из наиболее важных методов сравнения свойств молекул яв-
ляется визуализация изоэлектрического потенциала. Часто для описа-
ния структур используется положительный или отрицательный потен-
циал для определенного вида энергии. Представление потенциалов
основано на расчете зарядов и может быть использовано для поиска под-
ходящего выравнивания обучающей выборки биологически активных
молекул. Эта процедура может выполняться различными методами.
Например, существуют алгоритмы, которые хорошо использовать при
расчете свойств простых углеводов, но они бесполезны при обработке
ароматических структур.
К сожалению, не всегда известно заранее, что алгоритмы невозможно
применять для обработки ароматической системы. Однако результаты
получены, рассчитана эквипотенциальная поверхность, построен гра-
фик. Исходя из этого исследователи пытаются вывести соотношения,
связывающие структуру и активность. И тут кроется другая проблема.
Построение обучающей выборки представляет собой, несомненно,
резкое сужение пространства параметров. Можно надеяться на получе-
ние как можно более представительной выборки свойств путем тщатель-
ного отбора, однако в этом нельзя быть полностью уверенным. Таким об-
разом, корреляции возникают благодаря взаимоуничтожению двух по-
Глава 1. Введение 13

следовательных ошибок, причина которых — некритический выбор


методов и массивов данных.

1.3. Для чего используют модели?


В науке применяются различные модели; их можно классифицировать
в соответствии с используемым уровнем абстракции.
Одни модели служат для упрощения анализа сложных явлений.
Модели второго типа служат дидактическими иллюстрациями об-
стоятельств, которые невозможно доступно представить иными спосо-
бами. Важно помнить, что такие модели могут быть весьма далеки от ре-
альности1.
К третьему типу моделей относятся эмпирические модели, или ме-
ханические аналогии. К классу механических аналогий принадлежат
силовые поля. Они удобны потому, что законы классической механики,
например закон Гука, точно известны. Моделирование подобного рода
играет решающую роль в построении единых теорий, особым свойством
которых является то, что предполагается не отражение моделью реаль-
ности, а формальное подобие двух различных явлений. Примером такой
модели является предположение, что связи в молекуле напоминают сво-
им поведением пружину, описываемую законом Гука.
Механистические аналогии успешно применялись в различных тео-
риях. Во многих случаях с помощью аналогий значимость теории мо-
жет быть оценена экспериментально. И здесь наиболее важен тот факт,
что с помощью механистических моделей могут быть предсказаны но-
вые явления. Преимущество эмпирических моделей в том, что их пара-
метры оптимизируются для достижения соответствия с эксперимен-
тальными данными. «Механизация» не дает информации о немехани-
ческих вкладах, однако эмпирические коррекции позволяют свести
к нулю погрешности, вносимые этими вкладами. Именно поэтому эмпи-
рические модели часто очень хорошо описывают реальные явления.
Наконец, четвертая область применения моделей лежит в сфере ма-
тематического моделирования. Такие модели используют при имита-
ции различных процессов, к примеру в моделировании кинетики фер-
ментативной химической реакции. При выборе подходящих парамет-
ров появляется возможность моделировать реальные процессы.

1.4. В молекулярном моделировании используются


все четыре типа моделей
Дидактические модели используются для совместного представления
структур и свойств молекул. Например, графическое представление ре-
зультатов квантово-механического расчета для малых молекул или под-
вижности гибких пептидных лигандов.
1
Примером такой модели может служить концепция резонансных структур в органичес-
кой химии.
14 Молекулярное моделирование

В случае белков само по себе представление структуры уже является


сложной задачей. Взаимодействие лигандов и белков также можно изу-
чать с использованием дидактических моделей. Очевидно, что функции
различных моделей могут перекрываться. Механические аналогии и до-
пущения, имеющие своей целью упрощение основных составляющих
частей исследуемых объектов, широко применяются в молекулярном
моделировании.

1.5. Завершающий этап: конструирование


Конструирование, вероятно, самый важный этап моделирования.
В ходе молекулярного моделирования исследователь создает виртуаль-
ный мир, связанный с реальным посредством модели одного из четырех
типов. В этом виртуальном мире можно проводить вычисления, резуль-
таты которых предопределены в отличие от результатов экспериментов
в реальном мире. На основе аналитического описания системы стано-
вится возможным конструирование ингибиторов до их химического
синтеза и исследование их предполагаемой активности.
На этапе конструирования, или дизайна, замыкается цикл научно-
го исследования. Оно не останавливается, как это часто случается, на
аналитическом описании системы, но возвращается в начало при ее раз-
ложении на составляющие. Молекулярный дизайн позволяет нам по-
нять, что система сложнее, чем просто сумма составляющих. Особенно
это важно для биологических систем, с которыми преимущественно
сталкиваются разработчики лекарственных средств.
Сам процесс конструирования даже в виртуальном мире не так прост,
как хотелось бы его видеть. Ситуация здесь сходна с той, которую на-
блюдал Гулливер во время своего визита в академию Лагадо.
Там Гулливер узнал, что существует машина, которая, системати-
чески комбинируя слова и буквы, когда-нибудь напишет все важнейшие
научные труды мира. Прекрасная научная фантастика Джонатана
Свифта демонстрирует нам все переплетение проблем: человеческая
жизнь недостаточно продолжительна для того, чтобы перепробовать все
варианты, поэтому необходим надежный алгоритм нахождения пра-
вильного решения или человек, который введет дополнительный крите-
рий качества. Все должно быть основано на знаниях, опыте и способнос-
ти отвергать комбинации слов и фраз: эффективно работать может лишь
связка «человек — машина». В произведении Свифта фигурирует про-
фессор, который наставляет своих учеников, обслуживающих машину,
и размышляет после каждого эксперимента над его результатом — нуж-
но ли включать эту комбинацию слов в книгу.
К несчастью, Свифт не определил качества самого экспериментато-
ра; в этом проявляется ирония рассказов о путешествиях Гулливера.
Однако результат зависит не только от безошибочного функционирова-
ния машины, но и от качеств пользователя (рис. 1.1)!
Такая же проблема возникает перед нами при моделировании в вир-
туальном мире. Систематическое исследование свойств возможно лишь
Глава 1. Введение 15

Рис. 1.1. «Машина, пишущая книги», виденная Гулливером во время визита в


Лагадо. Из иллюстрации Гранвиля к «Путешествиям Гулливера»

для небольших систем, иначе после нескольких шагов система может


оказаться в состоянии комбинаторного взрыва. Изучение гибкости пеп-
тидов дает нам такой пример: переход от четырех торсионных углов к
пяти и шести увеличивает число возможных конформаций от несколь-
ких тысяч до нескольких миллиардов.
В случае дизайна лигандов ситуация усугубляется. Требуется чрез-
вычайно продуманная система ограничений, основанная на экспери-
ментах, интуиции или знаниях. Даже здесь решающую роль играет ка-
чество связки «человек — машина». Полностью автоматические систе-
мы конструирования выглядят примерно так же, как машина из
свифтовской академии Лагадо.
16 Молекулярное моделирование

1.6. Цель этой книги


Основная цель данной книги — обеспечить информацией начинающих
исследователей. Понимание основных положений и их ограничений
очень важно, но еще важнее полное представление обо всех доступных
алгоритмах, программах и банках данных. Сейчас наблюдается экспо-
ненциальное развитие технологических возможностей молекулярного
моделирования, равно как и других областей, связанных с компьютер-
ными технологиями. Почти ежедневно появляются новые алгоритмы
сравнения аминокислотных последовательностей белков, поиска новых
источников данных и т. д., но единственным способом получения качес-
твенного результата остается правильное применение программ с уче-
том их ограничений.
Таким образом, исследователь должен понимать, что для анализа
взаимодействий лиганда и белка минимизация энергии in vacuo не име-
ет большого смысла. Надо знать также, что белковая молекул сворачи-
вается из линейной полипептидной цепи не совсем просто. Более того,
существует альтернативное (множественное) связывание: даже в ряду
близких аналогов связывающиеся с ферментом ингибиторы внутри ак-
тивного центра могут характеризоваться различной геометрией. Малые
изменения структуры могут изменить ориентацию лиганда в активном
центре. Необязательно верно и то, что структурно-ориентированное на-
ложение окажется лучше, чем предложенное интуитивно или основан-
ное на свойствах стерических или электростатических поверхностей.
Современное молекулярное моделирование пошло значительно даль-
ше представлений Лукреция. Оно не останавливается на уровне анали-
тического описания свойств или взаимосвязей, не только создает «цвет-
ные картинки», но и «воспитывает» в начинающем исследователе сис-
темное мышление. Именно системный подход необходим для того, что-
бы, правильно учитывая ограничения используемых методов, все же
избегать слишком простых объяснений.
Именно к этому мы стремимся побудить читателя. Описывая соб-
ственный опыт работы в области молекулярного дизайна на двух приме-
рах (один — для малых молекул — лигандов, другой — для больших —
белков), мы стараемся ориентировать начинающих исследователей на
критическую оценку результатов.
Малые молекулы
2

2.1. Генерация трехмерных координат


Молекулярное моделирование начинается с формирования компьютер-
ной модели молекулы путем задания пространственного расположения
ее атомов в виде их декартовых координат. Разумный выбор начальной
геометрии молекулы в значительной степени определяет качество по-
следующего исследования. Информация о начальной геометрии может
быть получена различными путями. Для получения пространственных
(трехмерных, 3D) координат молекулярных структур в основном
используются следующие источники:
1. базы рентгеноструктурных данных;
2. поиск стандартных геометрий в библиотеках фрагментов;
3. построение трехмерных структур из двумерных с помощью различ-
ного программного обеспечения.

2.1.1. Рентгеноструктурные данные


Для начала остановимся на использовании рентгеноструктурных дан-
ных при построении моделей молекул. Важнейшей базой кристаллогра-
фических данных для малых молекул является Кембриджская кристал-
лографическая база структурных данных (Cambridge Crystallographic
Structural Database, CCSD; http://www.ccdc.cam.ac.uk/products/csd/)
[1]. Она содержит экспериментально определенные атомные координа-
ты для органических1 и неорганических2 соединений размером до
500 атомов и постоянно обновляется. Кембриджский центр кристалло-
1
Существует ряд специализированных банков структурной информации для полимер-
ных биомолекул. Структуры полипептидов и полисахаридов, состоящих более чем из
24 остатков, хранятся в Банке данных белковых молекул (Protein Data Bank, PDB;
http://pdb.org/; подробнее см. гл. 4) . Структуры олигонуклеотидов и нуклеиновых кис-
лот содержатся в Банке данных нуклеиновых кислот (Nucleic Acids Data Bank, NDB;
http://ndbserver.rutgers.edu/).
2
В настоящее время главным источником данных о строении неорганических соедине-
ний является База структурных данных неорганических кристаллов (Inorganic Crystal
Structure Database, ICSD; http://www.fiz-karlsruhe.de/icsd.html). Структуры металлов
и сплавов хранятся в базе данных CRYSTMET (http://www.tothcanada.com/).
18 Молекулярное моделирование

графических данных (Cambridge Crystallographic Data Centre, CCDC),


поддерживающий эту базу, предоставляет платные услуги поиска и ана-
лиза этих данных, а также соответствующее программное обеспечение.
Итогом поиска по базам данных является файл, содержащий информа-
цию о пространственном строении интересующей молекулы. Этот файл
легко считывается большинством коммерческих программных пакетов
для молекулярного моделирования (см., например, [2–4]).
При считывании файла программой для молекулярного моделиро-
вания атомные координаты, записанные в базе данных, автоматически
преобразуются в декартовы координаты. Затем структура может быть
визуализирована с использованием молекулярной графики и изучена в
трехмерном виде.
Структуры молекул, полученные методом рентгеноструктурного
анализа (РСА), обычно характеризуются достаточно хорошим разреше-
нием, но при этом отсутствует гарантия точности исходных данных.
Определение положения атомов водорода в кристалле является в рам-
ках рентгеноструктурного анализа довольно сложной задачей. РСА
основан на закономерностях дифракции рентгеновского излучения на
электронном «облаке», окружающем ядра атомов. Электронное облако
атома водорода содержит единственный электрон, поэтому такие атомы
слабо влияют на картину рассеяния в целом и обычно в явном виде не
принимаются во внимание при установлении структуры. Конечно, мес-
тонахождение атомов водорода может быть определено из данных о ве-
личинах стандартных длин связей и валентных углов, однако в этом
случае обычно утрачиваются индивидуальные особенности геометрии.
По этой причине перед использованием данных из базы РСА рекоменду-
ется проверить атомные координаты, длины связей и валентные углы на
внутреннюю согласованность. В частности, перед началом любой рабо-
ты с рентгеноструктурными данными молекулы необходимо прояснить
следующее:

1. правильно ли определены виды атомов;


2. правдоподобны ли величины длин связей и валентных углов;
3. являются ли выбранный порядок связей правильным;
4. в случае, если молекула хиральна, соответствуют ли данные нужно-
му энантиомеру.

После проверки этих деталей молекула может быть сохранена в фай-


ле молекулярных данных. Организация файла, его тип, формат и инфор-
мация, содержащаяся в файле, зависят от используемой программы.
Следует иметь в виду, что геометрия молекулы в кристаллическом
состоянии подвержена влиянию сил, действующих в кристаллической
упаковке, поэтому длины связей и валентные углы могут отличаться от
теоретических или стандартных значений. Более того, твердофазная гео-
метрия молекулы обычно соответствует единственной из множества воз-
можных, многих низкоэнергетических конформаций, доступных для
Глава 2. Малые молекулы 19

конформационно подвижной молекулы, и всегда испытывает влияние


соседних молекул в кристаллической ячейке, а иногда подвергается воз-
действию и со стороны молекул растворителя, включенных в кристал-
лическую структуру. Другие разрешенные по энергии конформации
должны быть исследованы методом конформационного анализа для
окончательного отбора биологически значимых конформеров. Следует
отметить, что информация о наиболее стабильной конформации, соотве-
тствующей глобальному энергетическому минимуму, важна для оценки
вероятности существования конформеров, имеющих более высокую
энергию. Используемые для этой цели методы изложены в разд. 2.2.

2.1.2. Библиотеки фрагментов


Второй распространенный метод построения молекулярной геометрии
основан на использовании фрагментов, предварительно собранных в
библиотеки. Этот метод выбирают, когда нет доступа к кристаллографи-
ческой базе данных или рентгеноструктурные данные об искомых
структурах отсутствуют. В настоящее время большинство коммерчес-
ких программ для молекулярного моделирования предоставляет воз-
можность построения молекул с применением библиотек фрагментов.
Библиотеки фрагментов — это удобный набор моделей для построе-
ния трехмерных структур. Так как все элементы в группе фрагментов
обладают предварительно оптимизированной стандартной геометрией,
итоговые трехмерные структуры также имеют приемлемую геометрию.
В уточнении, как правило, нуждаются только значения торсионных
углов во избежание наложения атомов или чрезвычайно близких ван-
дер-ваальсовых контактов. Могут возникнуть трудности с сопряженны-
ми системами циклов из-за неоднозначности способа сочленения цик-
лов друг с другом. Для решения этой проблемы рекомендуется, по воз-
можности, обратиться к рентгеноструктурным или иным эксперимен-
тальным данным для сходных циклических систем с тем, чтобы
выбрать правильный способ сочленения циклов.
В любой структуре каждый атом обладает некоторым набором ха-
рактеристических свойств. При молекулярном моделировании следует
учитывать гибридизацию атомных орбиталей, атомный объем и другие
характеристики. Соответствующие им параметры и определяют тип
атомов, а общая совокупность всех этих параметров представляет собой
атомную составляющую силового поля. В структурных фрагментах,
взятых из библиотек, типы атомов уже определены и обычно определе-
ны верно. Во многих случаях, однако, не так просто определить, какой
тип атома подходит для данного случая. Обсудим эту задачу на примере
N-ацетилпиперидина.
Когда для построения N-ацетилпиперидина из библиотеки фраг-
ментов берут кольцо пиперидина и ацетильную группу, тип атома азота
пиперидина определяется как sp3-гибридизованный с тетраэдрической
геометрией. Но когда атом азота связан с ацетильным остатком, он мо-
жет рассматриваться также как амидный, для которого характерна пла-
20 Молекулярное моделирование

нарная тригональная геометрия sp2-типа. В этом случае правильное ре-


шение может быть принято только путем сравнения с геометрией, уста-
новленной по рентгеноструктурным данным либо с использованием
квантово-механических вычислений, позволяющих надежно рассчи-
тать геометрию интересующего нас структурного фрагмента. На рис.
2.1.1 представлены результаты полуэмпирических расчетов и вычисле-
ний ab initio в сравнении со структурами, полученными методом силово-
го поля, а также кристаллическая структура N-ацетилпиперидин-2-
карбоновой кислоты [5].
В то время как sp3-гибридизованный атом азота в структуре, полу-
ченной методом силового поля, имеет тетраэдрическую геометрию,
кристаллическая структура и геометрия, вычисленная квантово-меха-
ническим методом, указывают на почти плоскую конфигурацию атома
азота. Чтобы избежать дальнейших ошибок, атому азота должен быть
приписан тип с планарной геометрией.
Другой проблемой, возникающей при построении систем, содержа-
щих замещенные насыщенные циклы, является определение правиль-
ной конфигурации цикла в силу влияния на нее различных замести-
телей. Циклогексан — одна из наиболее изученных циклических моле-
кул в органической химии. Много работ посвящено исследованию
относительных энергий различных конформаций циклогексана и энер-
гетических барьеров между ними [6, 7]. Без сомнения, конформация
«кресло» является самой стабильной как для циклогексана, так и для
монозамещенных циклогексанов, причем для любого заместителя пред-
почтительным оказывается экваториальное положение. Разница энер-

Рис. 2.1.1. Геометрия амидной группы в N-ацетилпиперидине зависит как от


применяемого метода, так и от типа атома, используемого для оптимизации. Для
сравнения показана кристаллическая структура N-ацетилпиперидин-2-карбо-
новой кислоты (а). Здесь и далее используется следующее цветовое обозначение:
атом углерода — белый, кислорода — красный, азота — синий, водорода — голубой
Глава 2. Малые молекулы 21

гий экваториального и аксиального положений незначительна в случае


небольших заместителей, но возрастает в присутствии групп больших
размеров [8]. Из-за этого необходимо всегда сверять структуру, постро-
енную из библиотечных фрагментов, с экспериментальными данными.

2.1.3. Преобразование двумерных структур в трехмерные


Еще один путь генерации пространственных структур молекул — на-
чать с одно- или двумерных представлений и преобразовать их в
трехмерную модель. Существуют многочисленные программы для раз-
личных манипуляций с информацией о структуре молекул, позволяю-
щие сохранять данные о ней в виде файла. Многие поставщики програм-
много обеспечения разработали свои собственные форматы таких фай-
лов, вследствие чего возникла потребность в стандартном формате. Два
формата получили наибольшее распространение. Формат Molfile и свя-
занный с ним формат SD (Structure-Data) [9], разработанные в 1980-х гг.
компанией Molecular Design Limited (MDL), а также линейная нотация
SMILES (Simplified Molecular Input Line Entry System), разработанная
Дэвидом Вэйнингером в 1986 г. [10, 11], стали стандартами для файлов
с целью хранения молекулярных структур. Помимо файлов типа Mol
компании MDL и линейной нотации SMILES, в системах молекулярного
моделирования часто используются и другие форматы файлов. Так,
Mol2-формат компании Tripos [2] является стандартом представления
трехмерных структур малых молекул (см. гл. 3), в то время как формат
PDB (Protein Data Bank) [12, 13] в основном используется для хранения
информации о пространственной структуре белков и других макромо-
лекул (см. разд. 4.1).
В линейной нотации SMILES информация о химической структуре
сильно сжата и упрощена (см. рис. 7.4). Химическая структура описы-
вается в виде простых одномерных массивов данных [10]. Нотация
SMILES основана на систематической химической номенклатуре и не
зависит от конкретной программы. В данной нотации используется ряд
правил преобразования пространственных структур в строку симво-
лов.Детальная информация о SMILES может быть найдена в работах
[10, 11] и на сайте http://www.daylight.com/daylight/smiles. Компакт-
ный текстовый код, используемый в SMILES, позволяет хранить боль-
шое количество структурной информации и осуществлять быстрый об-
мен между разными программами или компьютерами.
Расширением формата Mol компании MDL является формат SD или
SDF (см. рис. 7.4). Он содержит структуру и данные (свойства) для одной
или нескольких молекул, что делает его особенно удобным для хране-
ния информации о большом числе молекул. Многие компании и постав-
щики химических соединений хранят свои данные о структурах в этом
двумерном (2D) формате. Для того чтобы создать 3D-структуры в форма-
те, отличном от SD-файла или нотации SMILES, используются такие ге-
нераторы 3D-структур, как CONCORD [14, 15], CORINA [16] или Omega
[17]. Эти программы позволяют автоматически генерировать 3D-струк-
22 Молекулярное моделирование

туры. Они используют систему правил и баз данных для автоматической


генерации декартовых координат атомов молекулы, исходя из таблицы
связности (как в SD-файле) или линейного кода (SMILES), достаточно
мощную и надежную для преобразования огромных баз данных, содер-
жащих сотни тысяч или даже миллионы соединений.
Алгоритм CONCORD использует для формирования структур чрез-
вычайно подробную таблицу длин связей. При определении длин связей
учитываются не только такие характеристики, как атомный номер, гиб-
ридизация и тип атома, но и химическое окружение атомов, образую-
щих связь. Точный выбор величин длин связей особенно важен при со-
здании систем, содержащих циклы, поскольку их неверное задание
может оказывать значительное влияние на геометрию цикла.
В начале преобразования из двумерного представления в трехмер-
ное определяется так называемое наименьшее множество наименьших
циклов (Smallest Set of Smallest Rings, SSSR). Затем этот логический
анализ проводится для каждой циклической системы. На основе полу-
ченной таким образом информации о связности циклов и ограничени-
ях, наложенных на циклы, определяется, какие циклы и как будут по-
строены. Кроме того, проводится грубая оценка конформации каждого
цикла системы с учетом планарности или стереохимических напряже-
ний.
Если общие атомы нескольких колец не определены, то CONCORD
создает изомер, обладающий самым низким значением энергии. После
построения циклов и связывания их в циклическую систему программа
изменяет базовые конформации так, чтобы убрать внутреннее напряже-
ние, распределив его симметрично на все атомы цикла. Этот прием при-
водит к достаточно ненапряженным структурам.
Следующим шагом в построении структур является добавление
ациклических подструктур. Углы и длины связей также берутся из
таблиц. Во избежание слишком близких ван-дер-ваальсовых контак-
тов торсионные углы в формирующейся структуре изменяют таким об-
разом, чтобы получить энергетически приемлемые конформации. По-
мимо высокой скорости вычислений, важным достоинством метода
CONCORD является отслеживание топологии растущей модели моле-
кулы на каждом шаге. В результате CONCORD строит 3D-структуры
хорошего качества за приемлемое время. Это важный критерий в слу-
чае, когда большие двумерные базы данных необходимо преобразовать
в трехмерные.
Программа CORINA работает схожим образом. Начало построения
циклических систем аналогично программе CONCORD, но на следую-
щем этапе CORINA использует другой метод соединения кольцевых сис-
тем. Кольца смыкаются, и энергии возможных конформаций вычисля-
ются с использованием грубого силового поля. Если обнаруживается,
что выбор этого соединения циклов энергетически неблагоприятен, де-
лается новая попытка с использованием других энергетически возмож-
ных конформаций. После генерации циклических структур следует
оптимизация геометрии.
Глава 2. Малые молекулы 23

Так же, как и в программе CONCORD, ациклические структуры вво-


дятся в конструкцию после того, как определена структура циклов.
Цепи, добавляемые к циклам, обычно находятся в полностью раскры-
тых конформациях, что, конечно же, приводит к геометрии, нуждаю-
щейся в дальнейшем уточнении. Торсионные углы варьируются до дос-
тижения первой конформации, устраняющей близкие контакты. В ре-
зультате достаточно грубого конформационного поиска программа
все-таки выдает приемлемые структуры.
Важно отметить, что полученные конформации только случайно
могут соответствовать конформациям в кристаллическом окружении
или некой низкоэнергетической конформации. Окончательно полу-
ченная структура должна быть подвергнута конформационному ана-
лизу с целью обнаружения всех возможных низкоэнергетических кон-
формаций.
Все рассматриваемые здесь программы являются эффективными
альтернативами для построения структур. Они быстры и надежны: обес-
печивают хорошую (99,5%) степень преобразования при испытании на
выборке примерно в четверть миллиона соединений из открытой базы
данных Национального института рака США (National Cancer Institute
Open Database) [18]. Эта база находится в свободном, бесплатном доступе
и содержит огромное число структу органических соединений и лека-
рственных веществ, проверенных на противораковую активность в
Национальном институте рака.
Так как все больше и больше предприятий и организаций предлага-
ют базы данных соединений, в которых химические структуры сохране-
ны в виде SD-файлов или строк SMILES, мощные программы генерации
3D-структур становятся все более необходимыми для обработки боль-
ших баз данных за приемлемое время. В настоящее время еще одним пу-
тем получения трехмерных структур является загрузка из Интернета
уже преобразованных структур, например из некоммерческой базы про-
екта ZINC (http://zinc.docking.org) [19]. Научная группа руководителя
этого проекта Брайана Шойхета тщательно конвертировала из доступ-
ных источников в 3D-структуры 4,6 миллиона молекул1.
Дополнительная информации о представлении химических струк-
тур, структурных генераторах и протоколах обмена между различными
программами может быть найдена в [20, 21].

Цитированная литература
1. Olga Kennard, F. R. S. Cambridge Structural Database, Cambridge Crystallo-
graphic Data Centre, http://www.ccdc.cam.ac.uk.
2. SYBYL, Tripos Associates, St. Louis, http://www.tripos.com.
3. INSIGHT/DISCOVER, Accelrys Inc., San Diego, http://www.accelrys.com.

1
По состоянию на ноябрь 2011 г. в базе ZINC содержится более 13 миллионов структур.
24 Молекулярное моделирование

4. MOE, Chemical Computing Group, Montreal, http://www.chemcomp.com.


5. Rae, I. D., Raston, C. L., and White, A. H. (1980) Crystal and molecular struc-
ture of (+)-(e)-n-acetylpiperidine-2-carboxylic and. Australian Journal of Chem-
istry, 33, 215.
6. Bucourt, R. (1974). The torsion angle concept in conformational analysis, in Top-
ics in Stereochemistry (eds E. L. Eliel and N. L. Allinger) John Wiley & Sons,
New York, Vol. 8, pp. 159–224.
7. Shopee, C. W. (1946) Steroids and the Walden inversion. Part II. Derivatives of
D5-cholestene and D5-androstene. Journal of the Chemical Society, 1147–51.
8. Hirsch, J. A. (1967) Tables of conformational energies, in Topics in
Stereochemistry, (eds. E. L., Eliel and N. L. Allinger), John Wiley & Sons, New
York, Vol. 1, pp. 199–222.
9. MDL Informations Systems, http://www.mdli.com.
10. Weininger, D. (1988) SMILES, a chemical language and information-system. 1.
introduction to methodology and encoding rules. Journal of Chemical informa-
tion and Computer Sciences, 28, 31–36.
11. Weininger, D. (1990) SMILES. 3. DEPICT — graphical depiction of chemical
structures. Journal of Chemical Information and Computer Sciences, 30,
237–43.
12. Bernstein, F. C., Koetzle, T. F., Williams, G. J. B. et al. (1977) Protein data
bank — computer-based archival file for macromolecular structures. Journal of
Molecular Biology, 112, 535–42.
13. PDB Format Description, http://www.rcsb.org/pdb.
14. Pearlman, R. S. (1987) Rapid generation of high quality approximate 3D molec-
ular structures. Chemical Design Automation News, 2, 1–7.
15. Pearlman, R. S. (1993) 3D molecular structures: generation and use in 3D
searching, in 3D QSAR in Drug Design (ed. H. Kubinyi), Escom Science Publish-
ers, Leiden, pp. 41–79.
16. Gasteiger, J., Rudolph, C., and Sadowski, J. (1990) Automatic generation of
3D-atomic coordinates for organic molecules. Tetrahedron Computer Methodo-
logy, 3, 537–47.
17. Omega, Version 2.0, OpenEye Scientific Software, Santa Fe, http://www.
eyesopen.com.
18. National Cancer Institute, National Institute of Health (Development Therapeu-
tics Program), http://dtp.nci.nih.gov/docs/3d.data.
19. Irwin, J. J. and Shoichet, B. K. (2005) ZINC — A free database of commercially
available compounds for virtual screening. Journal of Chemical Information
and Modeling, 45, 177–82.
20. Engel, T. (2003) Representation of chemical compounds, in Chemoinformatics
(eds J. Gasteiger and T. Engel), Wiley-VCH, Weinheim, pp. 15–168.
21. Engel, T. (2006) Basic overview of chemoinformatics. Journal of Chemical In-
formation and Modeling, 46, 2267–77.
Глава 2. Малые молекулы 25

2.2. Вычислительные методы оптимизации геометрии


2.2.1. Силовые поля
Структуры молекул, полученные с использованием процедур, описан-
ных в разд. 2.1, должны быть оптимизированы для того, чтобы найти со-
стояния с минимальной энергией, индивидуальные для каждой молеку-
лы. Обычно это делается методами молекулярной механики, которая
представляет собой общепринятый вычислительный метод расчета гео-
метрии и энергии молекул.
В отличие от квантово-механических подходов, в молекулярной ме-
ханике электроны и ядра явно при расчетах не учитываются. Молеку-
лярная механика рассматривает атомы в составе молекулы как набор
материальных точек, взаимодействующих друг с другом как в модели
гармонического осциллятора. В результате этого упрощения молеку-
лярная механика является относительно быстрым вычислительным ме-
тодом, пригодным как для малых, так и для больших молекул и даже
олигомолекулярных систем.
В молекулярной механике атомы в молекуле рассматриваются как
упругие шарики различных размеров (атомных типов), соединенные
вместе пружинками различной длины (связями). Для вычисления по-
тенциальной энергии такого атомного ансамбля используется закон
Гука. Полная энергия системы Etot (1) минимизируется относительно
атомных координат.
Etot = Estr + Ebend + Etors + Evdw + Eelec + ..., (1)
где Estr — энергия деформации связей; Ebend — энергия деформации ва-
лентных углов; Etors — энергия деформации торсионных углов; Evdw —
энергия ван-дер-ваальсовых взаимодействий; Eelec — энергия электро-
статического взаимодействия.
Компоненты полной энергии молекулы (пространственной молеку-
лярной модели) чаще всего выражаются в терминах отклонений длин
связей, валентных и торсионных углов, а также параметров несвязных
взаимодействий от некоторых стандартных, «ненапряженных» значе-
ний. Набор этих ненапряженных значений вместе с теми величинами,
которые можно называть силовыми константами (которые на самом
деле являются эмпирическими подгоночными параметрами) и называ-
ется силовым полем. Первое слагаемое в уравнении (1) описывает изме-
нение энергии, когда связь растягивается или сокращается относитель-
но своей стандартной длины. Подразумевается, что межатомные силы
являются гармоническими, так что энергетический вклад растяжения
связей может быть описан простой квадратичной функцией вида (2).

Estr = 12 kb (b - b0 )2 , (2)

где kb — силовая константа растяжения связей; b0 — стандартная длина


связи; b — текущая длина связи.
26 Молекулярное моделирование

Для большей точности в выражение (2) для энергии растяжения


связей могут включаться члены третьего [1] или четвертого [2–4] поряд-
ков по (b–b0). С этой же целью иногда используется функция Морзе [5].
Деформации валентных углов также в основном описываются про-
стым гармоническим представлением. Вклад, относящийся к таким
искажениям, задается уравнением (3):
Ebend = 12 kq (q - q0 )2 , (3)

где kq — силовая константа деформации валентных углов; q0 — равновес-


ное значение валентного угла; q — текущее значение валентного угла.
Вклад внутреннего вращения вокруг химических связей выражает-
ся через значения межплоскостных (двугранных, торсионных) углов с
помощью тригонометрических функций вида (4):
Etors = 12 kj [1 + cos(nj - j0 )], (4)

где kj — торсионный барьер (барьер вращения); j — текущее значение


торсионного угла; n — период (число минимумов энергии на один по-
лный цикл); j0 — стандартное значение торсионного угла (обычно при-
нимается 0° для косинуса, тогда максимум энергии приходится на 0°,
или 180° для синуса с минимумом энергии при 0°).
Ван-дер-ваальсовы взаимодействия между не связанными непосред-
ственно атомами обычно выражаются потенциалом Леннард-Джонса1 [6]:
Aij Bij
Evdw = å - . (5)
rij12 rij6

где Aij — коэффициент вклада отталкивания; Bij — коэффициент вкла-


да притяжения; rij — расстояние между атомами i и j.
Это одна из форм потенциала Леннард-Джонса, существуют и дру-
гие его модификации, которые используются в различных силовых по-
лях. Пи описании электростатических взаимодействий соответствую-
щая компонента энергии чаще всего вычисляется в соответствии с зако-
ном Кулона для точечных (атомных) зарядов:
1 QQ
Eelec = × 1 2 , (6)
e r
где e — диэлектрическая проницаемость; Q1, Q2 — заряды на взаимодей-
ствующих атомах; r — межатомное расстояние.
Заряды могут быть рассчитаны с использованием методов, описан-
ных в разд. 2.4.1.1, а в отдельные силовые поля [2–4] они входят как эм-
пирически подобранные параметры.
1
Джон Эдвард Леннард-Джонс (1894–1954) — английский математик и физик, внесший
огромный вклад в теорию молекулярных структур и межмолекулярных взаимодей-
ствий. Считается основателем современной вычислительной химии. За научные заслуги
удостоен рыцарского звания.
Глава 2. Малые молекулы 27

Некоторые силовые поля включают перекрестные члены, внеплос-


костные вклады, вклады водородных связей и т. д., а также используют
другие функции потенциальной энергии для описания системы. Так
как существует довольно много силовых полей, различающихся по сво-
ей функциональной форме, нет возможности рассмотреть их все подроб-
но в настоящей книге, но для этой цели имеются замечательные обзоры
[7, 8].
Основная идея молекулярной механики основана на существовании
неких «естественных» длин связей и валентных углов. Равновесные
значения этих длин связей и валентных углов, а также соответствую-
щие силовые константы, используемые в функциях потенциальной
энергии, задаются в силовом поле и в дальнейшем будут называться па-
раметрами силового поля. Любое отклонение от этих стандартных зна-
чений приведет к увеличению полной энергии молекулы. Поэтому пол-
ная энергия молекулы служит мерой внутримолекулярного напряже-
ния относительно некой гипотетической молекулы с идеальной
геометрией. Сама по себе эта энергия не имеет физического смысла.
Универсальное силовое поле должно описывать как можно больше
различных классов молекул с приемлемой точностью. Надежность мо-
лекулярно-механического расчета зависит от функций потенциальной
энергии и от качества параметров, входящих в эти функции. Поэтому
легко понять, что точный расчет не может быть выполнен, если отсут-
ствуют параметры для этих важных геометрических характеристик. Во
избежание этой ситуации необходимо для каждой конкретной задачи
подбирать подходящее силовое поле.
Некоторые силовые поля были разработаны применительно к ши-
рокому набору органических соединений и малых молекул [1–4, 9, 10],
тогда как другие пригодны в основном для белков и других биомолекул
[11–13]. Отсутствие подходящих экспериментальных данных может
значительно затруднить разработку усовершенствованных функций
энергии для более точных вычислений. Это послужило причиной раз-
работки так называемых силовых полей класса II, таких как согласо-
ванное силовое поле (Consistent Force Field, CFF) [11] и молекулярное
силовое поле компании Merck (Merck Molecular Force Field, MMFF)
[10]; обе группы силовых полей основаны преимущественно на квантово-
механических расчетах поверхности потенциальной энергии. Целью
MMFF является учет всех функциональных групп, интересных для ко-
нструирования лекарств, включая малые молекулы и макромолеку-
лярные структуры. Текущая версия, MMFF94, реализована в различ-
ных программах и коммерческих пакетах, таких как SYBYL, MOE или
Cerius2.
Для всех силовых полей необходимо отметить следующее: они мо-
гут быть применены для решения конкретной задачи только в том слу-
чае, если полностью содержат все необходимые параметры. Если пара-
метры для определенных типов атомов, типов и длин связей, валентных
или торсионных углов отсутствуют, то неизбежно приходится добав-
лять недостающие данные в силовое поле [14, 15].
28 Молекулярное моделирование

2.2.2. Оптимизация геометрии


Уже отмечалось, что полученная описанными выше методами простра-
нственная модель молекулы почти наверняка не идеальна, что приводит
к необходимости проведения соответствующей оптимизации ее геомет-
рии путем релаксации структуры. Из примера, представленного на
рис. 2.2.1 и в табл. 2.2.1, видно, что внутренние напряжения в структу-
рах, полученных из кристаллографических данных, в основном об-
условлены малыми отклонениями от «идеальных» длин связей. Таким
образом, все вышеупомянутые энергетические вклады (энергия растя-
жения связей и изменения валентных углов) изменяются в процессе
оптимизации методом силового поля. Торсионные же углы изменяются
мало, несмотря на заметные изменения энергии. Это четко указывает на
хорошо известное наблюдение, что в кристаллах почти без исключения
обнаруживаются только низкоэнергетические конформации. Ни в коем
случае не следует считать, что кристаллические структуры характери-
зуются «плохой» геометрией. Из рис. 2.2.1 легко видеть, что отличие ге-
ометрии кристаллической структуры от геометрии структуры, оптими-
зированной по методу силового поля, довольно незначительно. Этот
факт можно интерпретировать и в том смысле, что не следует ожидать
значительных вариаций в геометрическом строении, если используют-
ся различные хорошо параметризованные силовые поля. В рассмотрен-
ном здесь частном случае реальная кристаллическая структура рамип-
рилата сравнивается со структурой, полученной при помощи хорошо
известного многоцелевого силового поля фирмы Tripos [9].
Перед началом оптимизации геометрии следует устранить неприем-
лемые ван-дер-ваальсовы контакты, потому что в конце оптимизации
энергия минимума зависит от начальной геометрии [7].
Такие преимущества, как скорость вычисления, достаточная точ-
ность, а также возможность широкого применения как к малым моле-
кулам, так и к большим системам, сделали молекулярную механику на-
иболее важным стандартным методом оптимизации геометрии. По при-

Рис. 2.2.1. Наложение кристаллической (красной) и молекулярно-механичес-


кой, оптимизированной с помощью силового поля Tripos (зеленой), структур ра-
миприлата, ингибитора ангиотензин-превращающего фермента
Глава 2. Малые молекулы 29

Таблица 2.2.1. Вклады в молекулярно-механическую энергию молекулы


рамиприлата до и после оптимизации геометрии
(силовое поле Tripos)

Энергия, ккал/моль
Энергетические вклады Кристаллическая Оптимизированная
структура структура
Энергия растяжения связей 179,514 0,982
Энергия деформации валентных 15,693 10,372
углов
Энергия деформации торсионных 17,230 14,335
углов
Энергия внеплоскостных откло- 0,043 0,011
нений
Энергия 1–4 ван-дер-ваальсовых 18,538 4,791
взаимодействий
Энергия ван-дер-ваальсовых взаи- –3,839 –7,822
модействий
Полная энергия 227,179 22.669

чине сложности и значительных требований к вычислительным


ресурсам методы квантовой механики следует применять только в осо-
бых случаях, которые будут рассмотрены позже.
Далее мы остановимся на некоторых общепринятых процедурах ми-
нимизации энергии, которые используются в молекулярной механике.
При этом важно отметить, что алгоритмы минимизации позволяют най-
ти только локальные минимумы на поверхности потенциальной энер-
гии, но не глобальный минимум.

2.2.3. Методы минимизации энергии


Методы минимизации энергии можно разделить на два класса: методы,
основанные на градиентной технике, такие как метод скорейшего спус-
ка или метод сопряженных градиентов, и методы с использованием вто-
рой производной, такие как метод Ньютона—Рафсона и родственные
ему методы.

2.2.3.1. Метод скорейшего спуска


Для приближения к энергетическому минимуму в методе скорейшего
спуска используются рассчетные значения первых производных функ-
ции энергии. Энергия вычисляется сначала для исходной геометрии, а
затем при сдвиге одного из атомов на малое расстояние вдоль одной из
координатных осей. Этот процесс повторяется для всех атомов, которые
30 Молекулярное моделирование

все в конечном счете перемещаются в новые положения, находящиеся


ниже на поверхности потенциальной энергии [7]. Процесс останавлива-
ется, когда оказывается выполнено некоторое заданное наперед условие
достижения минимума (критерий сходимости). Такая процедура в
окрестностях минимума протекает медленно, поэтому метод наискорей-
шего спуска обычно применяют для оптимизации структур, располо-
женных вдали от минимума. Этот метод следует использовать для по-
строения низкоэнергетических структур на основании кристаллографи-
ческих данных с недостаточным разрешением, либо для быстрой
минимизации молекул, созданных с помощью графических пакетов.
В большинстве случаев оптимизация методом наискорейшего спуска яв-
ляется первоначальным, грубым приближением; за этой процедурой
обычно следует более точная оптимизация, основанная на более совер-
шенном алгоритме, например, методе сопряженных градиентов.

2.2.3.2. Метод сопряженных градиентов


В методе сопряженных градиентов происходит накопление информа-
ции о минимизируемой функции в ходе пошаговой процедуры, от итера-
ции к итерации. Таким образом удается избежать осцилляций из-за об-
ращения результата, достигнутого в итоге предыдущих итераций. На
каждой стадии минимизации вычисляется градиент, который далее в
качестве дополнительной информации для расчета нового вектора на-
правления минимизации, и так каждая последующая стадия уточняет
направление к минимуму. Метод сопряженных градиентов рекоменду-
ют применять к большим системам, хотя для него затраты на вычисле-
ния и требования к памяти выше, чем для метода наискорейшего спуска,
поскольку при этом сложность вычислений и большее время, затрачи-
ваемое на одну итерацию, с лихвой компенсируются более эффективной
сходимостью метода в целом.
Метод Пауэлла очень похож на метод сопряженных градиентов.
При его применении сходимость достигается еще быстрее, и он подхо-
дит для разнообразных задач, однако применять его следует с опре-
деленной осторожностью, поскольку в ходе оптимизации иногда могут
слишком сильно изменяться торсионные углы. Поэтому метод Пауэлла
неприменим для минимизации энергии после конформационного поис-
ка, поскольку обнаруженные низкоэнергетические конформации могут
быть изменены нежелательным образом. В такой ситуации рекоменду-
ется выполнять минимизацию энергии при помощи метода сопряжен-
ных градиентов.

2.2.3.3. Метод Ньютона—Рафсона


В методе Ньютона—Рафсона, основанном на использовании вторых
производных, при определении направления поиска в дополнение к гра-
диенту учитывается кривизна функции. Вторая производная также ис-
пользуется для того, чтобы предсказать, где функция проходит через
минимум. Эффективность метода Ньютона—Рафсона увеличивается по
мере приближения к минимуму. Недостатками являются затраты на
Глава 2. Малые молекулы 31

вычисления и требования к памяти, когда метод применяется для рас-


чета больших систем. Для высоконапряженных структур процесс мини-
мизации может стать нестабильным, поэтому этот алгоритм в основном
применяется к задачам, в которых требуется быстрая сходимость, начи-
ная с предварительно оптимизированной геометрии к очень точному
значению минимума. Более подробная информация о методах оптими-
зации приводится в работах [16, 17].
Можно заключить, что выбор метода минимизации зависит от двух
факторов — размера системы и текущей степени оптимизации. Для
структур, находящихся вдали от минимума, метод скорейшего спуска
является, как правило, наилучшим для проведения первых 10–100 ите-
раций. Затем минимизация может быть завершена при помощи метода
сопряженных градиентов или метода Ньютона—Рафсона. Для расчета
систем, которые слишком велики для вычисления и хранения матрицы
вторых производных, единственным применимым методом является
метод сопряженных градиентов. Процедура минимизации продолжает-
ся до достижения сходимости.
Критерии сходимости при минимизации молекул могут быть опре-
делены несколькими способами. В неградиентных методах, таких как
метод скорейшего спуска, только изменения энергии и/или координат
могут служить мерой оптимальности текущей геометрии молекулярной
системы. В градиентных же методах для этой цели используются сред-
неквадратичные градиенты сил на каждом атоме молекулы. К тому же
всегда рекомендуется проверять максимальное значение производной
для того, чтобы определить неблагоприятные геометрические области.
Минимизированная геометрия является вполне удовлетворительной,
если все производные меньше некоего заданного значения. Выбор тако-
го значения, например максимального значения производной, зависит
от цели оптимизации. Если желательна только простая релаксация на-
пряженной молекулы, то применим довольно грубый критерий сходи-
мости, например, достаточно, чтобы максимальное абсолютное значе-
ние первой производной было меньше или равно 0,1 ккал/(моль·C), тогда
как в других случаях для нахождения минимума требуется сходимость
к точке с модулем максимальной компоненты градиента не более
0,001 ккал/(моль·C).
Выбор критериев сходимости должен определяться, с одной сторо-
ны, достаточной точностью минимизируемой структуры, с другой — от-
сутствием лишних расчетов, которые не приводят к дальнейшему улуч-
шению результатов [17].

2.2.4. Влияние зарядов и растворителя


В молекулярной механике вычисления часто проводят в «условиях ва-
куума» (in vacuo, e = 1). В случае неполярных углеводородов явное
включение растворителя в расчет приводит к пренебрежимо малым от-
личиям от результатов для расчета газообразного состояния. Однако ис-
следование заряженных и поляризованных молекул требует учета влия-
32 Молекулярное моделирование

ния растворителя [7]; в противном случае стабильность конформаций,


наиболее подверженных влиянию сильных электростатических взаимо-
действий, будет неоправданно высокой. Под действием силового поля
максимально усиливается электростатическое притяжение; это приво-
дит к появлению очень энергетически выгодных конформаций молеку-
лы с нереально низкими значениями энергии. Это можно нивелировать,
введя в расчеты диэлектрическую проницаемость соответствующего
растворителя [18], например для воды e = 80. В отличие от макромоле-
кул электростатическое поле малых молекул считается однородным,
благодаря чему можно перейти к использованию единой диэлектричес-
кой проницаемости. Экспериментальные значения e опубликованы в
литературе и могут использоваться для более точного описания куло-
новских взаимодействий молекул в растворе.
Отказ от включения в расчет взаимодействия атомных зарядов и ди-
полей, индуцированных растворителем, сильно упрощает расчет в про-
цессе оптимизации молекулярной структуры. Такие результаты очень
часто оказываются вполне приемлемыми по качеству; это приближение
особенно рекомендуется для минимизации результатов конформацион-
ного анализа, поскольку электростатическое взаимодействие зарядов
может существенно искажать конформацию. Однако всегда необходимо
учитывать заряды при расчетах, когда требуется описание водородных
связей.
Энергия электростатического взаимодействия уменьшается обратно
пропорционально расстоянию. Поэтому в некоторых силовых полях ди-
электрическая проницаемость принимается зависимой от расстояния,
чтобы учесть при моделировании эффект вытеснения молекул раствори-
теля при сближении молекулы лиганда с поверхностью макромолеку-
лы. Это особенно важно, если конформационный анализ является час-
тью задачи поиска фармакофора.
Всегда, когда это возможно, результаты вычислений необходимо
проверять с использованием имеющихся экспериментальных данных.
Крайне важными в этом отношении являются данные спектроскопии
ядерного магнитного резонанса (ЯМР). Поскольку данные ЯМР в боль-
шинстве случаев получены для растворов в хлороформе или другом
органическом растворителе, включение в явном виде соответствующей
диэлектрической постоянной в электростатическое слагаемое силового
поля делает возможным более точное согласование результатов расчета
и эксперимента.
Учет диэлектрической проницаемости — только один из возмож-
ных вариантов моделирования влияния растворителя. Другой способ —
создание вокруг исследуемой молекулы «оболочки» из отдельных моле-
кул растворителя. Существенными недостатками такого подхода явля-
ются большое количество дополнительных вычислений, а также огра-
ничение на возможное число молекул в этой оболочке, накладываемое в
подавляющем большинстве силовых полей.
Глава 2. Малые молекулы 33

2.2.4.1. Растворитель как статистический континуум


Для определения наиболее вероятной конформации лиганда в водной
среде весьма важен учет влияния растворителя на поведение всей систе-
мы. На этот вопрос можно ответить с помощью моделирования молекул
растворителя как части системы, однако для больших молекул, напри-
мер, лиганд-белковых комплексов, это оказывается сопряжено с очень
большим объемом вычислений. В связи с этим были разработаны мето-
ды, в которых растворитель рассматривается как непрерывная протя-
женная среда вокруг молекулы растворенного вещества, что позволило
оценить влияние сольватации с меньшими затратами на вычисления.
Соответствующие расчеты в числе прочего обычно включают в себя раз-
личные математические выражения для описания электростатического
взаимодействия в среде растворителя, а также поверхностных явлений:
гидрофобных и ван-дер-ваальсовых взаимодействий. При конструиро-
вании молекул лекарственных веществ чаще всего применяются две
континуальные модели. В одной для описания электростатической со-
ставляющей (с учетом поверхностных взаимодействий) используется
уравнение Пуассона—Больцмана — модель обозначается PB–SA
[19, 20]; вторая описывает зарядовые взаимодействия с помощью обоб-
щенного приближения Борна (GB–SA) [21–23]. В модели PB–SA пара-
метры электростатических полей в исследуемой системе вычисляются
путем решения уравнения Пуассона—Больцмана, однако для раство-
ренных веществ со сложной, нерегулярной формой поверхности (бел-
ков, нуклеиновых кислот) аналитического решения для данного урав-
нения может не существовать. Оказываются необходимыми численные
методы решения, реализация которых даже на больших вычислитель-
ных системах требует значительных расчетных ресурсов. В модели
GB–SA при оценке сольватации используется ряд упрощений; при зна-
чительно меньшей сложности вычислений точность этой модели срав-
нима с точностью PB–SA. Одна из первых реализаций приближения
GB–SA, предложенная Стиллом с соавт. [21], хорошо соотносится с
PB–SA в оценке свободной энергии сольватации малых молекул.

2.2.5. Квантовомеханические методы


Необходимо хотя бы кратко рассмотреть методы квантовой механики,
так как они имеют большое значение в вычислительной химии. Такие
параметры, как геометрия молекулы и ее конформационная энергия,
могут быть рассчитаны с приемлемой точностью для значительного чис-
ла структур при использовании хорошо параметризованного и доста-
точно общего силового поля. Если же параметры силового поля для ка-
кой-либо структуры неизвестны, то для оптимизации геометрии можно
использовать методы квантовой химии. Квантово-механические мето-
ды также применяются для расчета переходных состояний и путей ре-
акций, кроме того, они позволяют определить геометрию молекул с
учетом поляризации или в случае необычного распределения электро-
нной плотности. Недостатком является сложность вычислений, ограни-
34 Молекулярное моделирование

чивающая область применимости этих методов относительно малыми


молекулами. Таким образом, их следует применять лишь для решения
отдельных задач. Не ставя перед собой цель вдаваться в теорию кванто-
во-механических расчетов, мы постараемся вместо этого дать ряд прак-
тических советов по применению программ полуэмпирических и неэм-
пирических (ab initio) расчетов. Читателю, желающему вникнуть в де-
тали теории, необходимо ознакомиться с обзорными статьями и
книгами [29–32].

2.2.5.1. Неэмпирические (ab initio) методы


В отличие от молекулярной механики и полуэмпирических методов мо-
лекулярных орбиталей в неэмпирической квантовой химии возможно
воспроизводить экспериментальные данные без использования эмпири-
ческих параметров. Таким образом, применение расчетов ab initio осо-
бенно удобно в тех случаях, когда экспериментальная информация не-
достаточна или отсутствует.
Качество неэмпирических расчетов зависит от используемого базис-
ного набора функций (базиса) [33, 34]. Выбор базиса определяется
целью расчета, а также природой исследуемых молекул. Следует по-
мнить, что даже очень большой базис не гарантирует точного соответ-
ствия расчетных и экспериментальных данных [35]. Неправильный ба-
зис может лишить всякой значимости результаты квантово-химичес-
ких вычислений, зачастую весьма продолжительных по времени.
Мы рассмотрим лишь наиболее часто применяемые в расчетах бази-
сы. STO-3G — минимальный базис — ранее использовался весьма широ-
ко. Его название представляет собой аббревиатуру «слэйтеровские орби-
тали» (Slater-Type Orbitals); каждая из слэйтеровских функций, в свою
очередь, аппроксимируется тремя функциями Гаусса (Gaussian functi-
ons). Минимальный базис содержит число атомных орбиталей, мини-
мально необходимое для описания всех электронов атома в основном со-
стоянии, что предполагает сферическую симметрию каждого атома.
Позднее весьма популярными стали так называемые «валентно-рас-
щепленные» базисы. В них орбитали валентной оболочки атома пред-
ставлены с помощью двух наборов — внешнего и внутреннего. Таким об-
разом увеличиваются возможности для описания докализации электро-
нов [36]. Валентно-расщепленные базисы дают лучшее описание
молекулы по сравнению с минимальным базисом; базисы 3-21G, 4-31G и
особенно 6-31G широко используются в расчетах1. Они различаются по
числу гауссовых функций, используемых для разложения выражений
для внутренней оболочки (остова) и внутренней сжатой валентной обо-
лочки [35]. К примеру, в базисе 4-31G орбитали остова состоят из четы-
рех функций, внутренняя валентная оболочка — из трех, а внешняя —
из одной.

1
В настоящее время наиболее широкое распространение при проведении квантово-хими-
ческих расчетов получили корреляционно согласованные базисы Даннинга
[Peterson K. A., Dunning Jr. T. H. J. Chem. Phys. 2002. V. 23. P. 10548–10560].
Глава 2. Малые молекулы 35

Следующим этапом является введение наборов поляризационных


функций. Для тяжелых атомов добавляются d-орбитали, что позволяет
орбиталям p-оболочки «сдвигаться» относительно ядра, что вызывает
деформацию (поляризацию) орбиталей. Такая поправка особенно важна
в случае соединений, содержащих малые циклы [36]. Поляризованные
базисы обозначаются символом «*»; например, базис 6-31G* использует
шесть гауссовых примитивов для орбиталей остова, расщепление 3:1
для s- и p-орбиталей валентной оболочки, а также один набор из шести
d-функций.
Более подробное описание базисов можно найти в книгах и обзорах,
например [32, 35].
К сожалению, не существует общего простого правила для подбора
адекватного базиса. Уровень приближения зависит от желаемой точнос-
ти и от исследуемого свойства. Оптимизация геометрии простой молеку-
лы среднего размера может быть проведена с приемлемой точностью в
базисе 3-21G, однако для иных задач такого уровня приближения мо-
жет оказаться недостаточной. Если на геометрию молекулы сильно вли-
яет поляризация, делокализация электронов или эффекты сверхсопря-
жения (гиперконъюгация), необходимо использовать базис 6-31G*
(включающий d-функции; см. выше) или еще более расширенный набор
(рис. 2.2.2).
Несмотря на развитие вычислительной техники, неэмпирические
расчеты до сих пор могут быть проведены далеко не во всех случаях.
Обычным способом уменьшить временные затраты на расчеты можно
при использовании базиса 3-21G для оптимизации структуры с последу-
ющим расчетом волновой функции в приближении 6-31G*. Такая про-
цедура обычно обозначается 6-31G*//3-21G.
Расширение базиса не приводит к автоматическому увеличению точ-
ности расчета молекулярных свойств. Чтобы найти наиболее подходящее
приближение, необходимо «калибровать» метод по экспериментальным
результатам или же опытным путем подобрать базис, при использовании
которого получаются результаты, приемлемые по точности.

Рис. 2.2.2. Показана окончательная геометрия 2,6-диазаспиро[3.3]гептил- 2-форм-


амида после оптимизации геометрии с использованием различных базисов атомных
орбиталей. Этот пример ясно указывает на зависимость полученной геометрии от
используемого базиса. Использование минимального базиса STO-3G и базиса 3-21G
приводит к различной геометрии. Включение в расчет d-орбиталей (базис 6-31G*)
приводит к структуре, в которой поляризационные эффекты и напряжения цикла
отражены более точно, поэтому окончательная геометрия амидного атома азота ле-
жит между тетраэдрическим и тригональным состояниями гибридизации
36 Молекулярное моделирование

2.2.5.2. Полуэмпирические методы молекулярных орбиталей


Полуэмпирические методы молекулярных орбиталей сочетают в себе
элементы молекулярной механики и неэмпирических расчетов. Явля-
ясь по своей природе квантово-механическими, они отличаются от мето-
дов ab initio прежде всего использованием эмпирических величин для
уменьшения временных издержек, необходимых для оценки всех ин-
тегралов. В частности, одноцентровые интегралы межэлектронного от-
талкивания и резонансные интегралы замещаются параметрами, кото-
рые подгоняются под известные экспериментальные данные с наиболь-
шей возможной точностью.
Вторая основная идея полуэмпирического подхода состоит в том,
что большинство представляющих интерес свойств молекулы определя-
ется в наибольшей степени именно валентными электронами соотве-
тствующих атомов. Исходя из этого в расчеты вовлекаются только ва-
лентные электроны, что ведет к дальнейшему сокращению расчетного
времени.
Все полуэмпирические методы основаны на одних и тех же теорети-
ческих положениях, различаясь лишь по форме приближений, реализу-
ющих эти положения [37]. Такие методы, как AM1 (Austin Model 1 [38])
или PM3 (Parametric Method 3 [39–41]), являются удачным компромис-
сом между точностью результатов и сложностью вычислений. Результа-
ты проведенных с их помощью расчетов соответствуют эксперименту
практически с той же точностью, что и результаты неэмпирического
расчета в малом базисе. Преимущества полуэмпирических методов не
исчерпываются лишь тем, что они на несколько порядков быстрее, —
моделировать системы размером более 200 атомов в настоящий момент
возможно лишь с помощью полуэмпирических методов. Однако к полу-
ченным результатам необходимо очень осторожное отношение. Подобно
выбору неверного базиса для неэмпирических вычислений в полуэмпи-
рических расчетах результаты вычислений при отсутствии точных пара-
метров могут оказаться бессмысленными. Качество полуэмпирических
расчетов для многих молекул с различными свойствами рассматривается
в ряде обзоров [28–31]. Следует также отметить, что полуэмпирические
методы склонны давать ошибочные результаты при расчете соедине-
ний, включающих элементы третьего периода1.

2.2.5.3. Комбинированные методы квантовой и молекулярной механики


Теоретические ограничения молекулярной механики, с одной стороны,
и сложность неэмпирических расчетов, с другой, способствовали в даль-
нейшем разработке гибридной схемы, в которой сочетались бы преиму-
щества обоих подходов. Впервые подобную комбинацию продемонстри-
ровали Уоршел и Левитт в 1976 г. [42].

1
К настоящему времени предложена новая модификация метода MNDO (аналогично
AM1 и PM3) — PM6, в которой значительно расширен набор параметризованных эле-
ментов и устранен ряд существенных недостатков [Stewart J. J. P. J. Mol. Model. 2007.
V. 13. P. 1173–1213].
Глава 2. Малые молекулы 37

Несмотря на грандиозный прогресс вычислительной техники и тео-


ретической методологии, что позволило давать системам гораздо боль-
ших размеров квантово-механическое описание, большие биологичес-
кие системы (белки, ДНК, липидные мембраны), состоящие из тысяч
атомов, до сих пор невозможно исследовать методами квантовой химии.
К сожалению, эти методы незаменимы при описании химических реак-
ций, протекающих с разрывом и образованием ковалентных связей, и
при точной оценке энергии взаимодействия лекарств с биологическими
мишенями. При этом чаще всего квантово-механическое описание рас-
творителя или макромолекулы в целом не требуется. Процессы, для ко-
торых необходимо такое описание, чаще всего происходят в довольно
локальных областях, например, в активном центре фермента. В гибрид-
ных схемах эти области моделируются методами квантовой механики
(область КМ), тогда как остальная часть макромолекулы и растворитель
описываются молекулярной механикой (область ММ). Схема на рис.
2.2.3 также поясняет, почему методы КМ–ММ называют также
вложенными: область КМ погружена (вложена) внутрь области ММ.
В различных методах и программах КM–MM, опубликованных к на-
стоящему времени, все модификации, производимые для того, чтобы
иметь возможность сочетать расчеты с помощью силовых полей и мето-
дов квантовой механики, аналогичны. Основная идея состоит в том, что
атомы различных областей (КM и MM) могут взаимодействовать; атомы
области КM «видят» атомы области MM и наоборот. Полная энергия сис-
темы в методе КM–MM определяется уравнением (7). При вычислении
КМ-составляющей атомы области MM представляют собой точечные за-
ряды и таким образом оказывают влияние на атомы области КM. Ван-
дер-ваальсовы взаимодействия атомов областей КM и MM не зависят от
состояния электронов и поэтому рассчитываются по формулам класси-
ческой молекулярной механики, как и в области MM.

Рис. 2.2.3. Организация системы при расчетах методом КМ–ММ


38 Молекулярное моделирование

Etot = EQMelec + EQMvdW + EMM . (7)


Здесь: Etot — полная энергия; EQMelec — электростатическая энергия
атомов области КM; EQMvdW — энергия ван-дер-ваальсова взаимоде-
йствия атомов области КM; EMM — энергия атомов области MM.
В общем случае возможно сочетание любого силового поля и любого
квантово-механического метода. Некоторые хорошо известные и широ-
ко распространенные программы содержат модуль КM–MM (CHARMM,
QSite, QuanteMM [43–45]).
В последние годы методы КM–MM все чаще применяют для исследо-
вания ферментативных реакций. Описание реакции на уровне отдель-
ных атомов наглядно обеспечивает лучшее понимание сути процесса и
механизма реакции. Первым ферментом, исследованным в таком при-
ближении, стал лизоцим [42]; в дальнейшем были детально изучены
триозофосфатизомераза [46], цитратсинтаза [47] и фармацевтически
важные b-лактамазы [48].

Цитированная литература
1. Allinger, N.L. (1977) Conformational analysis. 130. MM2. А hydrocarbon force
field utilizing V1 and V2 torsional terms. Journal of the American Chemical Soci-
ety, 99, 8127–34.
2. Allinger, N.L., Yuh, Y.H., and Lii, J. H. (1989) Molecular mechanics. The MM3
force-field for hydrocarbons. 1. Journal of the American Chemical Society, 111,
8551–66.
3. Lii, J. H, and Allinger, N. L. (1989) Molecular mechanics. The MM3 force-field
for hydrocarbons. 2. Vibrational frequencies and thermodynamics. Journal of
the American Chemical Society, 111, 8566–76.
4. Lii, J. H. and Allinger, N. L. (1989) Molecular mechanics. The MM3 force-field
for hydrocarbons. 3. The van der Waals potentials and crystal data for aliphatic
and aromatic hydrocarbons. Journal of the American Chemical Society, 111,
8576–82.
5. Morse, P. M. (1929) Diatomic molecules according to the wave mechanics. II. Vi-
brational levels. Physical Review, 34, 57–64.
6. Jones, J. E. (1924) On the determination of molecular fields. II. From the equa-
tion of state of a gas. Proceedings of the Royal Society, 106A, 463–77.
7. Burkert, U. and Allinger, N.L. (1982) Molecular Mechanics, ACS Monograph,
Vol. 177, American Chemical Society, Washington, DC.
8. Dinur, U. and Hagler, A. T. (1991) New approaches to empirical force fields, in
Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH,
New York, Vol. 2, pp. 99–164.
9. Clark, M., Cramer III, R. D., and Van Opdenbosch, N. (1989) Validation of the
general purpose Tripos 5.2 force field. Journal of Computational Chemistry, 10,
982–1012.
10. Halgren, N. A. and Nachbar, R. B. (1996) Merck molecular force field. 4.
Conformational energies and geometries for MMFF94. Journal of Computa-
tional Chemistry, 17, 587–615.
Глава 2. Малые молекулы 39

11. Maple, J. R., Hwang, M. J., Jalkanen, K. J. et al. (1998) Derivation of class II
force fields: V. Quantum force field for amides, peptides, and related com-
pounds. Journal of Computational Chemistry, 19, 430–58.
12. Brooks, B. R., Bruccoleri, R. E., Olafson, B. D. et al. (1983) CHARMM: a pro-
gram for macromolecular energy, minimization, and dynamics calculations.
Journal of Computational Chemistry, 4, 187–217.
13. van Gunsteren, W. F. and Berendsen, H. J. C. (1985) Molecular dynamics simula-
tions: techniques and applications to proteins, in Molecular Dynamics and Pro-
tein Structure (ed. J. Hermans), Polycrystal Books Service, Western Springs,
pp. 5–14.
14. Maple, J. R., Dinur, U., and Hagler, A. T. (1988) Derivation of force fields for
molecular mechanics and dynamics from ab initio energy surfaces. Proceedings
of the National Academy of Sciences of the United States of America, 85,
5350–54.
15. Bowen, J. P. and Allinger, N. L. (1991) Molecular mechanics: the art and science
of parameterization, in Reviews in Computational Chemistry (eds
K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 2, pp. 81-97.
16. Press, W.H., Flannery, B.P., Teukolsky, S.A., and Vetterling, W.T. (1988) Nu-
merical Recipes in C: The Art of Scientific Computing. Cambridge University
Press, Cambridge, p. 301.
17. Schlick, T. (1992) Optimization methods in computational chemistry, in Reviews
in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New
York, Vol. 3, pp. 1–71.
18. Eliel, E. L., Allinger, N. L., Angyal, S. J., and Morrison, G. A. (1965)
Conformational Analysis, Wiley-Interscience, New York.
19. Ooi, T., Oobatake, M., Nemethy, G., and Scheraga, H. A. (1987) Accessible sur-
face areas as a measure of the thermodynamics parameters of hydration of pep-
tides. Proceedings of the National Academy of Sciences of the United States of
America, 84, 3086–90.
20. Gilson, M. K., Sharp, K. A. and Honig, B. (1988) Calculating the electrostatic po-
tential of molecules in solution — method and error assessment. Journal of Com-
putational Chemistry, 9, 327–35.
21. Still, W. C., Tempczyk, A., Hawley, R. C. and Hendrickson, T. (1990)
Semianalytical treatment of solvation for molecular mechanics and dynamics.
Journal of the American Chemical Society, 112, 6127–29.
22. Wojciechowski, M. and Lesyng, B. (2004) Generalized Born model: analysis, re-
finement, and applications to proteins. Journal of Physical Chemistry B, 108,
18368–76.
23. Guvench, O., Weiser, J., Shenkin, P. et al. (2002) Application of the frozen atom
approximation to the GB/SA continuum model for solvation free energy. Jour-
nal of Computational Chemistry, 23, 214–21.
24. Apostolakis, J., Pluckthun, A., and Caflisch, A. (1998) Docking small ligands in
flexible binding sites. Journal of Computational Chemistry, 19, 21–37.
25. Kang, X., Shafer, R. H., and Kuntz, I. D. (2004) Calculation of ligand-nucleic
acid binding free energies with the Generalized Born model in DOCK.
Biopolymers, 73, 192–204.
40 Молекулярное моделирование

26. MOE, Chemical Computing Group, Montreal. http://www.chemcomp.com.


27. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) Macromodel — an in-
tegrated software system for modeling organic and bioorganic molecules using
molecular mechanics. Journal of Computational Chemistry, 11, 440–67.
28. Cornell, W. D., Cieplak, P., Bayly, C. I. et al. (1995) A 2nd generation force-field
for the simulation of proteins, nucleic acids, and organic molecules. Journal of
the American Chemical Society, 117, 5179–88.
29. Pople, J. A. (1970) Molecular orbital methods in organic chemistry. Accounts of
Chemical Research, 3, 217–23.
30. Hehre, W. J., Radom, L., Schleyer, P. v. R., and Pople, J. A. (1986) Ab Initio Mo-
lecular Orbital Theory, Wiley-Interscience, New York.
31. Szabo, A. and Osthund, N. S. (1985) Modern Quantum Chemistry: Introduction
to Advanced Electronic Structure Theory, Revised 1st edn, McGraw-Hill, New
York.
32. Clark, T. (1985) A Handbook of Computational Chemistry: A Practical Guide to
Chemical Structure and Energy Calculations, Wiley-Interscience, New York.
33. De Frees, D. J., Levi, B. A., Pollack, S. K. et al. (1979) Effect of electron correla-
tion on theoretical equilibrium geometries. Journal of the American Chemical
Society, 101, 4085–89.
34. Davidson, E. R. and Feller, D. (1986) Basis set selection for molecular calcula-
tions. Chemical Reviews, 86, 681–96.
35. Feller, D. and Davidson, E. R. (1990) Basis sets for ab initio molecular orbital cal-
culations and intermolecular interactions, in Reviews in Computational Chemis-
try (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1, pp. 1–43.
36. Boyd, D. B. (1990) Aspects of molecular modeling, in Reviews in Computational
Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1,
pp. 321–54.
37. Kunz, R. W. (1991) Molecular Modelling fur Anwender, Teubner Studien-
bucher, Stuttgart.
38. Dewar, M. J. S., Zoebisch, E. G., Healy, E. F., and Stewart, J. J. P. (1985) The de-
velopment and use of quantum mechanical molecular models. 76. AM1: a new
general purpose quantum mechanical molecular model. Journal of the American
Chemical Society, 107, 3902–9.
39. Stewart, J. J. P. (1990) Semiempirical molecular orbital methods, in Reviews in
Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York,
Vol. 1, pp. 45–81.
40. Stewart, J. J. P. (1989) Optimization of parameters for semiempirical methods.
1. Method. Journal of Computational Chemistry, 10, 209–20.
41. Stewart, J. J. P. (1989) Optimization of parameters for semiempirical methods.
2. Applications. Journal of Computational Chemistry, 10, 221–64.
42. Warshel, A., and Levitt, M. (1976) Theoretical studies of enzymic reactions —
dielectric, electrostatic and steric stabilization of carbonium-ion in reaction of
lysozyme. Journal of Molecular Biology, 103, 227–49.
43. CHARMM, Harvard University, Cambridge, http://www.charmm.org.
Глава 2. Малые молекулы 41

44. QSite, Schrodinger Inc., Portland, http://www.schrodinger.com.


45. QuantaMM, Accelrys, http://www.accelrys.com.
46. Bash, P. A., Field, M. J., Davenport, R. C. et al. (1991) Computer simulation and
analysis of the reaction pathway of triosephosphate isomerase. Biochemistry,
30, 5826–32.
47. Mulholland, A. J. and Richards, W. G. (1997) Acetyl-CoA enolization in citrate
synthase: a quantum mechanical (QM/MM) study. Proteins, 27, 9–25.
48. Hermann, J. C., Hensen, C., Ridder, L. et al. (2005) Mechanisms of antibiotic
resistence: QM/MM modeling of the acylation reaction of a class A b-lactamase
with benzylpenizillin. Journal of the American Chemical Society, 127, 4454–65.

2.3. Конформационный анализ


Молекулы не являются абсолютно жесткими структурами: при ком-
натной температуре их кинетическая энергия достаточно велика для
того, чтобы все атомы в молекуле находились в постоянном движении.
Это означает, что, во-первых, абсолютные положения атомов в молеку-
ле, равно как и всей молекулы в целом, не могут быть зафиксированы,
и, во-вторых, относительное положение заместителей при ординарной
химической связи со временем может изменяться. Таким образом, сое-
динение, содержащее одну или несколько ординарных связей, в каж-
дый момент времени существует в виде смеси (ансамбля) так называе-
мых ротамеров, или конформеров. Количественный и качественный
состав этой смеси постоянно меняется, причем с большой вероятнос-
тью могут быть обнаружены лишь наиболее низкоэнергетические кон-
формеры.
Переход из одной конформации в другую связан прежде всего с из-
менением торсионных углов при ординарных химических связях; в
этом случае изменение длин связей и валентных углов намного менее
значительно. Изменению молекулярной конформации соответствует
перемещение на многомерной поверхности, описывающей зависимость
потенциальной энергии молекулы от некоторых ее геометрических па-
раметров. Каждая точка этой потенциальной поверхности представляет
собой энергию единственной конформации; в частности, стабильные кон-
формации соответствуют локальным минимумам поверхности потенци-
альной энергии. Относительная заселенность конформации зависит от ее
статистического веса, который определяется не только потенциальной
энергией, но и энтропией. Как следствие, глобальный минимум повер-
хности потенциальной энергии (конформация, обладающая наимень-
шей потенциальной энергией) не обязательно соответствует структуре с
максимальным статистическим весом (более подробно см. в [1]).
Хорошо известны такие примеры молекулярных конформаций, как
заторможенная и заслоненная формы этана, анти-транс- и гош-формы
н-бутана, конформации циклогексана «кресло» и «ванна». Изменение
потенциальной энергии в молекуле этана при вращении вокруг связи
42 Молекулярное моделирование

C 3 - C 3 описывается периодической функцией, близкой к синусоиде


sp sp
(рис. 2.3.1). Минимумы энергии, расположенные при 60, 180 и 300°, со-
ответствуют заторможенной конформации этана, а максимумы при 120,
240 и 360° — заслоненной. Структуры, отвечающие максимуму потен-
циальной энергии, неустойчивы, поэтому все данные, касающиеся хи-
мических свойств этана, относятся лишь к его устойчивой, заторможен-
ной форме. Ситуация значительно усложняется в случае больших и бо-
лее гибких молекул, которые при комнатной температуре существуют в
виде нескольких возможных конформеров. Например, приблизительно
70% молекул н-бутана при комнатной температуре находится в
анти-транс-форме, тогда как остальные 30% — в гош-форме [2]. Следо-
вательно, при изучении свойств этой алифатической молекулы с линей-
ной углеродной цепью в рассмотрение должны приниматься и анти-
транс-, и гош-форма. Примером может служить циклогексан, для кото-
рого должны рассматриваться две формы — и «кресло», и «ванна».1
Предполагается, что биологическая активность лекарственного ве-
щества определяется одной, так называемой «биоактивной» конформа-
цией его молекул, которую необходимо обнаружить среди множества
всех низкоэнергетических конформаций [3]. Поиск молекул с такой
конформацией для многих химических соединений составляет одну из
главных задач медицинской химии. Основываясь на сведениях об ак-
тивной конформации, можно сконструировать новые активные лиган-
ды для конкретной рецепторной системы. Считается, что биоактивная
конформация может не совпадать с глобальным минимумом. Тем не ме-
нее, она не может быть настолько выше его по энергии, чтобы ее содер-
жание в растворе оказалось исчезающе мало (обсуждение см. в [4]). Та-

Рис. 2.3.1. Зависимость потенциальной энергии молекулы этана от угла пово-


рота вокруг связи C–C (торсионного угла H–C–C–H)
1
Конформация «ванны» циклогексана соответствует переходному состоянию в процессе
псевдопревращения (взаимопревращения двух конформеров с конформацией «твист»
шестичленного цикла). Поэтому для циклогексана в качестве парной к основной конфор-
мации «кресло» следует рассматривать именно конформацию «твист»; см. разд. 2.3.3.
Глава 2. Малые молекулы 43

ким образом, установление низкоэнергетических конформаций имеет


важное значение для понимания корреляции между структурой и
биологической активностью молекул.
Экспериментальные методы, такие как ЯМР, предоставляют ин-
формацию лишь об одной или о нескольких конформациях. Полная
картина конформационного пространства молекулы может быть полу-
чена исключительно теоретическими методами, многочисленные при-
ложения которых нашли отражение в литературе [5–12]. Наиболее об-
щими являются методы, позволяющие обнаружить все минимумы на
поверхности потенциальной энергии. Поскольку их число быстро уве-
личивается с увеличением числа связей со свободным вращением, ис-
черпывающее определение всех минимумов превращается в трудную и
требующую длительных расчетов задачу.
Конечно, затраты времени на конформационный анализ прямо за-
висят от выбора метода расчета энергии. Конформационная энергия мо-
жет рассчитываться с привлечением квантово-механических методов
или методов молекулярной механики. Поскольку квантово-механичес-
кие расчеты требуют значительного времени, их крайне трудно приме-
нять для больших или подвижных молекулярных систем. По этой при-
чине в подавляющем большинстве программ конформационного поиска
для оценки энергий используются методы молекулярной механики.
В данной главе, кроме процедур систематического поиска, мы рассмат-
риваем также применение методов Монте-Карло и молекулярной дина-
мики для конформационного анализа молекул.

2.3.1. Конформационный анализ методом


систематического поиска
Систематический поиск [6, 7, 13] дает наилучшие результаты при кон-
формационном анализе. Он производится путем систематического изме-
нения каждого из торсионных углов молекулы с целью получения всех
возможных конформаций. Если шаг изменения угла достаточно мал, то
такая процедура дает полную картину конформационного пространства
любой молекулы.
Шаг, который используется при систематическом поиске, чаще все-
го равен 30°. Это означает, что за полный поворот на 360° генерируется
12 конформаций. В непосредственной близости от оптимального значе-
ния может потребоваться уменьшение шага до 5° для точного определе-
ния положения минимума. Число порождаемых конформаций зависит
не только от шага, но и от числа свободно вращающихся связей в моле-
куле. Если n — число свободно вращающихся связей, то число конфор-
маций быстро растет с увеличением n:
n
æ 360° ö
число конформаций = ç ÷
è шаг ø
Например, для молекулы с шестью свободно вращающимися связя-
ми при шаге поиска в 30° число конформаций составляет
44 Молекулярное моделирование

126 = 2 985 984. Такой объем данных невозможно обрабатывать вруч-


ную, следовательно, необходимо его уменьшить.
Первый шаг — отбор по критерию ван-дер-ваальсовых объемов, или
проверка пересечения. Он также проводится перед точным вычислением
потенциальной энергии конформации. Процедура отбора исключает все
конформации, в которых обнаруживается пересечение ван-дер-ваальсо-
вых объемов атомов, не связанных непосредственно. Математическим
критерием определения пригодности конформации, таким образом, ока-
зывается сумма ван-дер-ваальсовых радиусов для двух несвязанных ато-
мов. Жесткость ван-дер-ваальсовых сфер может регулироваться введени-
ем так называемого ван-дер-ваальсова множителя, влияющего на взаимо-
проникновение атомов; его уменьшение «смягчает» межатомные контак-
ты, в результате чего увеличивается число отобранных конформаций.
Для конформеров, отобранных в ходе проверки пересечения, вычис-
ляется потенциальная энергия методом молекулярной механики. В об-
щем случае конформационная энергия вычисляется без оценки элек-
тростатических взаимодействий — заряды на атомах не принимаются
во внимание, конформационный анализ проводится in vacuo. Положе-
ния, лежащие в основе подобного подхода, обсуждаются в разд. 2.2.
В случае, когда необходимо включение в конформационный анализ
электростатических взаимодействий, вся процедура значительно услож-
няется. Атомные заряды зависят не только от связности, но чувстви-
тельны и к пространственному окружению атомов. Поэтому величины
атомных зарядов, рассчитанные для начальной конформации, нужно
обновлять после каждого изменения торсионного угла. В дополнение к
этому может оказаться необходимым имитировать влияние растворите-
ля, который ослабляет электростатические взаимодействия, установив-
шиеся между атомами in vacuo. Очевидно, что подобная процедура по-
требовала бы значительного увеличения расчетного времени даже для
малых молекул. При этом важно отметить, что такое усложнение систе-
мы не прибавляет глубины постижения конформационного поведения
молекулы в растворе за исключением того, что ослабляются внутримо-
лекулярные взаимодействия. Аналогичный результат мы получаем при
анализе in vacuo, полностью пренебрегая зарядами на атомах. Кроме
того, в активном центре рецептора или фермента уменьшается значи-
мость внутримолекулярных контактов лиганда.
После расчета конформационной энергии для всех конформеров,
сохранившихся после проверки пересечения, число исследуемых кон-
формаций можно снизить с помощью метода «энергетического окна».
Лежащая в основе его применения идея заключается в том, что кон-
формации с более высокой энергией по сравнению с формами, соответ-
ствующими энергетическим минимумам, встречаются в наборе всех
конформаций лишь в пренебрежимо малых количествах; это означает,
что их влияние на биологическую активность данной молекулы край-
не невелико. Величина «энергетического окна» зависит от размера ис-
следуемой молекулы и применяемого силового поля; обычно она со-
ставляет от 5 до 15 ккал/моль [11–15].
Глава 2. Малые молекулы 45

Структуры, прошедшие отбор — все они представлены энергетичес-


ки достижимыми конформациями данной молекулы. Однако во многих
случаях их число все еще слишком велико, что не позволяет эффектив-
но применять надежные методы исследования. Многие из этих конфор-
маций схожи друг с другом, различаясь, например, лишь одним шагом
угла вращения вокруг единственной связи. Очевидно, что конформации
с выраженным сходством могут быть объединены в одно семейство. Опи-
сание конформационных свойств молекулы не потеряет общности, если
в дальнейшем исследовании из каждого семейства конформаций будет
участвовать лишь конформер с минимальной энергией. Предложено не-
сколько способов для разбиения совокупности конформаций на семей-
ства [15–17], основанных на значениях торсионных углов. Известные
методы классификации конформаций различаются процедурой отнесе-
ния конформации к семейству. В другом способе обработки больших
массивов данных, накопленных в процессе систематического поиска,
используются методы математической статистики, в частности, кластер-
ный или факторный анализ. Более подробное рассмотрение см. в [18].
Проведение систематического конформационного анализа продемон-
стрировано на примере проведенного нашей группой исследования двух
антигистаминных препаратов, действующих на рецепторы H2, тиотиди-
на и ICI127032 (рис. 2.3.2) [19]. Для этого использовался модуль
SEARCH пакета молекулярного моделирования SYBYL [16].

Рис. 2.3.2. Строение молекул антагонистов гистаминовых рецепторов H2 тио-


тидина и ICI127032. Атомы серы обозначены желтым цветом
46 Молекулярное моделирование

Шаг приращения углов выбран в 15°; метильный заместитель в циа-


ногуанидиновой группе из-за симметрии вращали с шагом в 30° в интер-
вале от 0 до 120°. Теоретическое число конформаций 3,98 · 107 было
уменьшено в ходе отбора по ван-дер-ваальсовым радиусам до 4,6 · 106,
то есть по результатам отбора пригодные к исследованию конформации
составили приблизительно 10%. «Энергетическое окно» в 15 ккал/моль
дало дополнительное уменьшение числа конформаций на 90%; в итоге
было отобрано 453 393 конформации, однако и это число конформаций
с трудом поддается анализу. Поэтому оставшиеся структуры были раз-
биты на семейства с помощью разработанной в нашей группе программы
IXGROS [17]. Было получено 227 семейств, каждое из которых было
представлено единственной структурой с минимальной энергией.
Уменьшение числа конформаций с 4,6 · 106 до 227 впечатляет, однако
нельзя не признать, что и это (последнее) число еще слишком велико.
Невозможно определить, какой из 227 конформеров является биологи-
чески активным — а ведь нас интересует только это. Решение не может
быть найдено, если нет жесткой или хотя бы полужесткой сходной
структуры, обладающей подобной биологической активностью. Должно
быть доказано также, что эта структура взаимодействует с тем же са-

Рис. 2.3.3. Результаты конформационного поиска для тиотидина и ICI127032


(изображены наложенные друг на друга конформеры с минимальной энергией).
Локальные минимумы для конформационных семейств обозначены крестика-
ми, соответствующими центрам концевой цианогуанидиновой группировки тио-
тидина и ICI127032 (зеленого и красного цвета соответственно). Расчет прово-
дился с помощью программ SYBYL 6.1 [16] и IXGROS [17]
Глава 2. Малые молекулы 47

мым центром связывания рецептора по аналогичному механизму. Как


правило, для нахождения биоактивной конформации подвижной моле-
кулы требуются похожие по активности, но более жесткие родственные
структуры. В случае антагонистов H2 таким сходным соединением ока-
залось ICI127032. После отбора немногочисленных низкоэнергетичес-
ких конформаций этой жесткой матрицы и дальнейшего использования
IXGROS были отобраны всего восемь конформационных семейств. Они
были успешно использованы для выявления биологически активной
конформации тиотидина (рис. 2.3.3).
Очень полезно использовать конформационно жесткие молекулы
при конформационном поиске для родственных, но более подвижных
структур: структурно жесткие биологически активные соединения
служатматрицей для более гибких. Маршалл [7] расширил этот подход,
включив в исследования также жесткие неактивные структуры. При
этом конформационное пространство можно сузить еще сильнее, и та-
ким образом на один или несколько порядков сократить время, которое
требуется для полного поиска. Этот подход получил название метода
активного аналога.

2.3.2. Конформационный анализ методом МонтеКарло


Совершенно другой подход к исследованию конформационного простра-
нства реализуется в методе Монте-Карло, также именуемого «методом
случайного поиска». Этот метод имеет стохастическую природу [20]: на
каждом шаге поиска рассматриваемая конформация изменяется слу-
чайным образом, превращаясь в другую.
Случайный поиск начинается с оптимизированной структуры. На
каждом шаге итерационной процедуры молекуле случайным образом
присваиваются новые значения торсионных углов [11] или декартовых
координат [8, 9]. Получившаяся конформация минимизируется, и ите-
рация повторяется вновь. Минимизированная конформация сравнива-
ется с предыдущими и отбирается лишь в том случае, если она уникаль-
на. Теоретически случайный процесс покрывает все конформационное
пространство, но в действительности это происходит после весьма дли-
тельных вычислений, поскольку вероятность обнаружить новую кон-
формацию резко падает с ростом числа обнаруженных конформеров.
Кроме того, даже при очень длительном расчете невозможно гарантиро-
вать полноту исследования конформационного пространства, поэтому
очень важно иметь способ проверки полноты анализа. Эффективным
может оказаться запуск в параллельном режиме нескольких расчетных
задач с различными начальными конформациями. Если результаты
одинаковы или очень близки, тогда можно предположить, что поиск
был исчерпывающим. Другая мера оценки полноты исследования осно-
вана на частоте возвращения к любой из низкоэнергетических конфор-
маций, поскольку случайный процесс такого рода обязан многократно
воспроизводить это возвращение.
Главным преимуществом метода случайного поиска является прин-
ципиальная возможность исследовать молекулы любого размера. На
48 Молекулярное моделирование

практике в исследованиях высокоподвижных молекул часто отсутству-


ет сходимость результатов из-за очень большого объема соответствую-
щего конформационного пространства. Метод Монте-Карло успешно
применяется для исследования молекул, содержащих циклы, посколь-
ку циклические системы в общем случае трудно исследовать с помощью
систематического поиска.
Эффективность методов случайного поиска была показана на следу-
ющем примере. Молекулу циклогептадекана изучали с использованием
нескольких методов, включая и методы случайного поиска [12]. Сопос-
тавление результатов позволило выявить 262 различные конформации
с минимальной энергией. Ни один из использованных методов не позво-
лил выявить все конформеры, однако один из вариантов случайного по-
иска оказался способен обнаружить 260 из них. Таким образом, можно с
уверенностью сказать, что методы случайного поиска могут быть край-
не полезными для анализа конформационного поведения, хотя могут
при этом потребовать значительного расчетного времени для обеспече-
ния полноты покрытия конформационного пространства.
Другой метод нахождения выборки конформаций, широко приме-
няющийся в сложных задачах конформационного поиска, называется
методом полюсов [21]. Изменения конформации организуются посре-
дством добавления к стандартному молекулярно-механическому сило-
вому полю так называемой «функции полюсов», которая изменяет по-
верхность потенциальной энергии так, чтобы «штрафовать» участки
конформационного пространства вблизи конформеров («полюсов»), об-
наруженных на предыдущих этапах. Как следствие, такой метод увели-
чивает разнообразие конформаций и избавляет от избыточных в преде-
лах, которые определяются самой функцией. Метод полюсов реализо-
ван в программе CATALYST [22], он может быть использован для
поиска в больших молекулярных базах данных.

2.3.3. Конформационный анализ


методами молекулярной динамики
Систематический конформационный поиск является важным методом
обнаружения большого количества минимумов на поверхности потен-
циальной энергии гибкой молекулы. В принципе можно провести по-
строение всех разрешенных конформаций и с высокой вероятностью
достигнуть полноты конформационного поиска, однако область приме-
нимости такого метода имеет очевидные ограничения. Задача для мно-
жества минимумов может быть решена только в случае достаточно не-
больших молекул с ограниченным числом свободно вращающихся
связей.
Как упоминалось в разд. 2.3.1, систематический конформационный
поиск для молекулы с шестью вращающимися связями сопряжен с
большими трудностями в обработке данных из-за слишком большого
числа конформеров. В связи с этим изучение подвижных молекул, на-
пример арахидоновой кислоты (рис. 2.3.4), которая содержит 15 враща-
Глава 2. Малые молекулы 49

Рис. 2.3.4. Одна из разрешенных по энергии конформаций арахидоновой


кислоты

ющихся связей, становится практически невозможным. Даже после


применения нескольких методов уменьшения массива конформацион-
ных данных систематический поиск дает для нее почти 500 000 различ-
ных конформеров. Программа автоматически останавливается из-за пе-
реполнения массива данных, не успев закончить перебор полного кон-
формационного пространства.
Метод случайного поиска для данной молекулы также оказывается
неэффективным, поскольку требует слишком много времени для выпол-
нения расчета.
Кроме того, немалые сложности возникают при систематическом
конформационном поиске для насыщенных или частично ненасыщен-
ных циклических систем. Для нахождения некоторых конформаций
требуется разрывать отдельные химические связи. Эффективность и
надежность подобной процедуры рассмотрена в обзорах [13, 14].
Обычным путем преодоления вышеупомянутых трудностей являет-
ся использование методов молекулярной динамики для исследования
конформационного пространства. Цель молекулярной динамики — вос-
произвести движение молекулы во времени. В основе молекулярной ди-
намики лежит молекулярная механика. Предполагается, что атомы в
молекуле взаимодействуют между собой в соответствии с типом исполь-
зуемого в данном случае силового поля, как описано в разд. 2.2.1. В про-
цессе моделирования через равные промежутки времени t находят ре-
шение классического уравнения движения (второй закон Ньютона):
Fi (t) = mi × ai (t), (1)
гдe Fi(t) — сила, действующая на i-ый атом в момент времени t; mi —
масса i-го атома; ai(t) — ускорение i-го атома в момент времени t.
Для расчета силы, действующей на атом, используется градиент по-
тенциальной энергии, а начальные скорости присваиваются атомам
случайным образом. Исходя из начальных координат атомов в системе
рассчитываются новые положения атомов и их скорости для момента
времени t, а затем атомы перемещаются в новые положения. В результа-
те этих перемещений образуется новая конформация. Далее этот цикл
повторяется во времени для некоторого предварительно заданного чис-
50 Молекулярное моделирование

ла шагов. Совокупность энергетически доступных конформаций, появ-


ляющихся в результате данного расчетного процесса, называется ан-
самблем.
Уравнения движения Ньютона (1) применяются во всех методах мо-
лекулярной динамики; методы различаются используемыми алгорит-
мами интегрирования. Наиболее распространенными методами интег-
рирования уравнений движения являются алгоритм Верле [23], а также
его относительно простые модификации: алгоритмы Бимана [24] и схе-
ма «прыжок лягушки» (leapfrog) [25]. В данной книге углубленное об-
суждение теории молекулярной динамики вряд ли возможно, однако
заинтересованному читателю можно предложить более подробные
обзоры [26–29].
Перед тем как использовать молекулярную динамику в целях кон-
формационного поиска, необходимо обратить внимание на некоторые
особенности данного подхода. В отличие от консервативных процедур
оптимизации геометрии, молекулярная динамика позволяет преодоле-
вать энергетические барьеры, разделяющие различные конформации.
Таким образом можно найти на потенциальной поверхности не только
ближайшие локальные минимумы. Однако, если энергетический барь-
ер высок или число степеней свободы молекулы очень велико, то весьма
возможно, что для исследуемой системы не будут найдены некоторые
конформеры из числа существующих. Учитывая большую размерность
конформационного пространства, оказывается трудным обеспечить по-
лноту конформационного поиска за фиксированный отрезок времени.
Для наращивания числа конформаций, отобранных в процессе мо-
делирования молекулярной динамики, обычно применяется повыше-
ние температуры модельного вещества [29]. При высокой температуре
возрастают шансы достичь полноты поиска, поскольку молекулы стано-
вятся способными преодолевать даже высокие энергетические барьеры,
разделяющие некоторые конформации. Можно самостоятельно убе-
диться в том, что оптимальный выбор температуры и времени моделиро-
вания сильно завиcит от исследуемой молекулы.
Для иллюстрации мы изложим подробное исследование зависимос-
ти конформационной подвижности молекулы от температуры модели-
рования. Данные были предоставлены Ф. С. Йоргенсеном (Датская ко-
ролевская школа фармакологии, Копенгаген, Дания). Моделирование
молекулярной динамики проводилось для хорошо изученной экспери-
ментально молекулы циклогексана при использовании различных на-
чальных температур и стартовых конформаций1 (рис. 2.3.5).
Конформация «твист» циклогексана (T1 = 0°), использованная в ка-
честве начального приближения, переходит при 400 К лишь в ближай-

1
Программа SYBYL (версия 6.0.3) от Tripos Associates Inc., St. Louis, USA. Минимизация
энергии: силовое поле Tripos, частичные атомные заряды PM3, диэлектрическая прони-
цаемость 20 D, порог сходимости 0,005 ккал/(моль·C). Молекулярная динамика: 1000
пс при различных температурах с сохранением полной энергии. Запись одной конфор-
мации за пикосекунду.
Глава 2. Малые молекулы 51

Рис. 2.3.5. Изменение торсион-


ного угла T1 (T1 = C1 – C2 – C3 – C4)
в циклогексане. При температу-
ре 400 К происходит переход
между двумя конформациями
«твист», что выражается в зна-
чительной флуктуации значе-
ния торсионного угла. Повыше-
ние температуры до 600 К
приводит к образованию одной
из более стабильных конформа-
ций «кресло». Моделирование
динамики при 1000 К показыва-
ет наличие «кресла» при одно-
временном наличии и конфор-
мации «твист», и конформации
«ванны»

шие «твист»-формы, тогда как при 600 К молекуле хватает кинетичес-


кой энергии для превращения в одну из конформаций «кресло»
(T1 = 300°). Дальнейшее увеличение температуры до 1000 К приводит к
образованию «кресла» из «твиста» (T1 = 300° ® 60°), при этом также на-
блюдаются конформационные переходы типа «кресло»—«кресло». Че-
рез 800 пс существует только одна из форм «кресла» (T1 = 60°).
Второе исследование посвящено динамике трех ди- и тетраметилза-
мещенных циклогексанов (1,1-диметил-, 1,1,3,3- и 1,1,4,4-тетраметил-
52 Молекулярное моделирование

циклогексанов) при различных температурах. Наблюдаемые при опре-


деленной температуре превращения типа «кресло»—«кресло» сравни-
вали с экспериментально определяемой энергией барьера инверсии цик-
логексанового кольца [30] (табл. 2.3.1). В итоге сравнения можно
заключить, что моделирование средствами молекулярной динамики по-
зволяет качественно оценить относительные величины барьеров инвер-
сии кольца, определяемых экспериментально. Этот пример высокотем-
пературной молекулярной динамики ясно показывает важность провер-
ки, достаточна ли текущая температура моделирования для того, чтобы
предотвратить «запирание» системы в отдельно взятой области конфор-
мационного пространства.
В методе молекулярной динамики при поиске конформаций их об-
ычно отбирают через фиксированный интервал времени и минимизиру-
ют по алгоритму локальной оптимизации. Такая процедура использова-
лась в ряде конформационных исследований для небольших молекул,
содержащих полициклическую систему [14, 31]. Ярким примером в
данном случае может служить конформационный анализ полигидрок-
сильного аналога сесквитерпеноидного лактона тарпсигаргина (рис.
2.3.6), также выполненный в лаборатории Ф. С. Йоргенсена.
C целью исследования конформационного поведения циклической
системы данной молекулы было проведено моделирование молекуляр-
ной динамики при температуре 1200 К1. Семичленный цикл в процессе
моделирования принимал несколько различных конформаций, кроме
того, происходили разнообразные изменения формы цикла, что ясно по-
казало значительное покрытие конформационного пространства.

Таблица 2.3.1. Существование двух возможных конформаций «кресло»


для трех метилзамещенных циклогексанов при разных
температурах моделирования в сравнении с экспериментально
полученными величинами барьеров инверсии цикла

600 К 800 К 1000 К 1200 К DG


(ккал/моль)
кресло кресло+ кресло+ кресло+ 9,6
кресло¢ кресло¢ кресло¢
кресло кресло кресло+ кресло+ 10,6
кресло¢ кресло¢
кресло кресло кресло кресло+ 11,7
кресло¢

1
Программа SYBYL (версия 6.5) от Tripos Associates Inc., St. Louis, USA. Минимизация энер-
гии: силовое поле Tripos, частичные атомные заряды PM3, диэлектрическая проницаемость
20 D, порог сходимости 0,005 ккал/(моль·C). Молекулярная динамика: 1000 пс при 1200 К с
сохранением полной энергии. Запись одной конформации за пикосекунду. — Прим. автора.
Глава 2. Малые молекулы 53

Рис. 2.3.6. Структурная формула


полигидроксильного аналога тарп-
сигаргина

Каждая полученная конформация была затем оптимизирована пу-


тем минимизации энергии. Конформеры сравнивались только по кон-
формации семичленного цикла, конформации со среднеквадратичным
отклонением менее 0,1 C рассматривались как тождественные. В итоге
были получены пять различных конформеров. Спектр ЯМР тарпсигар-
гина [32] соответствовал одной из теоретически найденных конформа-
ций трициклической системы, которая показана на рис. 2.3.7.
В некоторых случаях для нахождения конформации с минималь-
ной энергией недостаточно просто минимизировать все структуры вы-
борки. Задача высокотемпературного моделирования молекулярной ди-
намики — снабдить молекулу достаточным количеством кинетической
энергии для преодоления барьеров между конформациями. Однако в
процессе моделирования молекулярная структура может быть искаже-
на настолько, что для ее релаксации будет недостаточно простой проце-
дуры минимизации.

Рис. 2.3.7. Одна из найденных теоретически конформаций полигидроксильно-


го аналога тарпсигаргина. Конформация цикла согласуется с данными ЯМР
54 Молекулярное моделирование

В подобном случае рекомендуется проводить молекулярно-динами-


ческое моделирование методом отжига (annealing) [33]. Согласно тако-
му подходу, все конформации выборки после высокотемпературного мо-
лекулярно-динамического эксперимента сначала оптимизируются, за-
тем для них проводят моделирование динамики при более низкой
температуре, например 300 К, чтобы снять внутренние напряжения в
молекуле. В конце низкотемпературного этапа проводится оптимиза-
ция, результаты которой — конформации, имеющие более низкую энер-
гию по сравнению с высокотемпературными конформациями; в даль-
нейшем ансамбль конформаций окончательно оптимизируется до дос-
тижения локального минимума.
Метод моделирования отжига представляет собой модификацию ме-
тода отжига (simulated annealing). В этом варианте система ступенчато
охлаждается через постоянные интервалы времени путем постепенного
понижения температуры моделирования. Когда температура прибли-
жается к абсолютному нулю, молекула оказывается «запертой» вблизи
одной из конформаций с минимальной энергией. Эта структура записы-
вается по окончании цикла отжига и в дальнейшем служит исходной
для нового этапа высокотемпературного моделирования. Для получе-
ния ряда конформаций с минимальной энергией этот цикл необходимо
неоднократно повторить. Поскольку конечная структура уже близка к
потенциальному минимуму, нет необходимости в ее дальнейшей мини-
мизации. Метод и его приложения были рассмотрены в работах [35, 36];
там же можно почерпнуть дополнительную информацию по данному
вопросу.

2.3.4. Какой метод выбрать?


При таком разнообразии доступных методов исследования конформа-
ционного пространства порой бывает трудно принять правильное реше-
ние. Каждый метод имеет свои сильные и слабые стороны. Системати-
ческий поиск подвержен «комбинаторному взрыву» числа конформа-
ций и не может применяться к исследованию циклических молекул.
Методы случайного поиска требуют долгого времени для подтвержде-
ния полноты покрытия конформационного пространства. В дополнение
к этому, из результатов необходимо удалять повторы конформаций.
Проверка адекватности методов конформационного поиска чаще
всего проводится путем сравнения со стандартными тестовыми набора-
ми. В одном подходе сравниваются и число конформеров, и их энергии.
Альтернативой является сравнение сгенерированных конформаций с
экспериментально определенными структурами из Кембриджской базы
кристаллографических данных (CCDB). В работе [38] сообщается, что
программа CORINA, написанная для преобразования структурных фор-
мул в пространственные структуры, для массива данных из 639 молекул
правильно воспроизвела конформацию более чем в половине случаев.
В настоящее время, когда в Банке данных белковых молекул (PDB)
[39] быстро возрастает число структур высокого разрешения для ком-
плексов белков и лигандов, появляется новый подход к тестированию
Глава 2. Малые молекулы 55

процедур конформационного поиска. Стало возможным проверить, со-


держится ли биологически активная конформация в конформационных
ансамблях, построенных разными методами. Не так давно програм-
мы-генераторы конформеров были исследованы с целью показать, на-
сколько точно генерированные ими конформации соответствуют мини-
мальной энергии. Однако некоторые исследователи подвергают сомне-
нию предположение, что биологически активная конформация должна
быть вблизи глобального минимума энергии [40–47]. Энергетический
уровень связанных с белком конформеров часто бывает значительно
выше глобального минимума. В структурах лиганд-белковых комплек-
сов, получаемых путем рентгеноструктурного анализа монокристалла,
обе молекулы испытывают некоторые конформационные затруднения;
в итоге структура связанного лиганда отличается от той, что наблюдает-
ся для него в кристаллах чистого вещества.
Бострем и др. провели сравнение различных методов построения
конформационных выборок на тестовом множестве лиганд-белковых
комплексов из PDB [41, 42]. Авторы исследовали, до какой степени ре-
зультаты, полученные с помощью некоторых программ конформацион-
ного поиска, близки к экспериментальным. Методы систематического и
случайного конформационного поиска были применены к 32 структу-
рам лигандов, для которых известны структуры комплексов с белками.
Согласно этому исследованию, заметно лучше других проявил себя низ-
комодовый конформационный поиск (low-mode conformational search),
реализованный в программе MacroModel [48]. И при введении модели
растворителя, и при пренебрежении атомными зарядами уменьшение
роли электростатических взаимодействий способствует успешному по-
иску биоактивной конформации. Во всех методах возникли затрудне-
ния при обработке структур, содержащих восемь и более связей, вокруг
которых возможно внутримолекулярное вращение. Результаты свиде-
тельствуют о том, что ряд молекул лигандов в минимальной по энергии
конформации не в состоянии взаимодействовать с белком.
Недавно было опубликовано еще более общее исследование [49], в
ходе которого сравнивали способность различных конформационных
генераторов воспроизводить биоактивные конформации. Алгоритм
конформационного разделения, реализованный в программе Catalyst
[22], сравнивался с конформационным генератором Omega 2.0 компа-
нии OpenEye. Исследование основывалось на обширной (778 структур)
библиотеке молекул лекарств и фармакологически значимых веществ,
извлеченной из PDB. Были опробованы два протокола для двух вариан-
тов генерации конформеров: 1) высокопроизводительный (для обработ-
ки больших баз данных) и 2) высококачественный (для исследования
центров связывания и улучшения описания ведущей структуры).
Исследование показало, что качество конформационных моделей всегда
диктуется компромиссом между плотностью покрытия конформацион-
ного пространства и сложностью вычислений по используемому алго-
ритму. С увеличением размера и подвижности исследуемой молекулы
необходимо увеличить размер ансамбля для эквивалентного качества
56 Молекулярное моделирование

представления молекулы. В программе CATALYST более чем для 80%


исследованных случаев совмещение конформера с минимальной энер-
гией и биоактивного конформера давало среднеквадратичное отклоне-
ние менее 1,50 C, а в 93% — менее 2,0 C. В итоге Omega и CATALYST
дали очень хорошие результаты при построении конформационных мо-
делей. Программа Omega показала себя лучше в качестве генератора
высококачественных моделей, а CATALYST — для высокопроизводи-
тельной генерации.
В заключение можно сказать, что существует много методов иссле-
дования конформационного пространства и поиска конформаций.
Пользователю следует тщательно подбирать подходящие методы и усло-
вия моделирования, чтобы гарантировать полноту охвата конформаци-
онного пространства и адекватность результатов. Не следует забывать,
что каждый из подходов имеет сильные и слабые стороны, так что всег-
да, когда это возможно, следует сверять результаты с имеющимися экс-
периментальными данными.

Цитированная литература
1. Scheraga, H. A. (1971) Theoretical and experimental studies of conformations of
polypeptides. Chemical Reviews, 71, 195–217.
2. Rademacher, P. (1987) In Strukturen Organischer Molekule (ed. M. Klessinger),
VCH Publishers, Weinheim, New York, p. 139.
3. Ghose, A. K., Crippen, G. M., Revankar, G. R. et al. (1989) Analysis of the in vi-
tro antiviral activity of certain ribonucleosides against para-influenza virus us-
ing a novel computer-aided receptor modeling procedure. Journal of Medicinal
Chemistry, 32, 746–56.
4. Jorgensen, W. L. (1991) Rusting of the lock and key model for protein-ligand
binding. Science, 254, 954–55.
5. Howard, A. E. and Kollman, P. A. (1988) An analysis of current methodologies
for conformational searching of complex molecules. Journal of Medicinal Chem-
istry, 31, 1669–75.
6. Smellie, A., Kahn, S. D., and Teig, S. L. (1995) Analysis of conformational cover-
age. 1. Validation and estimation of coverage. Journal of Chemical Information
and Computer Sciences, 35, 285-94.
7. Dammkoehler, R. A., Karasek, S. F., Shands, E. F. B., and Marshall, G. R. (1989)
Constrained search of conformational hyperspace. Journal of Computer-Aided
Molecular Design, 3, 3–21.
8. Saunders, M. (1987) Stochastic exploration of molecular mechanics energy sur-
faces — hunting for the global minimum. Journal of the American Chemical So-
ciety, 109, 3150–52.
9. Saunders, M. (1989) Stochastic search for the conformations of bicyclic hydro-
carbons. Journal of Computational Chemistry, 10, 203–8.
10. Ferguson, D. M. and Raber, D. J. (1989) A new approach to probing conformati-
onal space with molecular mechanics — random incremental pulse search. Jour-
nal of the American Chemical Society, 111, 4371–78.
Глава 2. Малые молекулы 57

11. Chang, G., Guida, W. C., and Still, W. C. (1989) An internal coordinate Monte-
Carlo method for searching conformational space. Journal of the American
Chemical Society, 111, 4379–86.
12. Saunders, M., Houk, K. N., Wu, Y.-D. et al. (1990) Conformations of cyclohepta-
decane — a comparison of methods for conformational searching. Journal of the
American Chemical Society, 112, 1419–27.
13. Ghose, A. K., Jaeger, E. P., Kowalczyk, P. J. et al. (1993) Conformational sear-
ching methods for small molecules. 1. Study of the Sibyl search method. Journal
of Computational Chemistry, 14, 1050–65.
14. Bohm, H.-J., Klebe, G., Lorenz, T. et al. (1990) Different approaches to confor-
mational analysis — a comparison of completeness, efficiency, and reliability
based on the study of a 9-membered lactam. Journal of Computational Chemis-
try, 11, 1021–28.
15. Taylor, R., Mullier, G. W., and Sexton, G. J. (1992) Automation of conformati-
onal analysis and other molecular modeling calculations. Journal of Molecular
Graphics, 10, 152–60.
16. SYBYL Theory Manual, Tripos Associates, St. Louis, http://www.tripos.com.
17. Sippl, W. (1997) Theoretische Untersuchungen zum Bindungsverhalten von His-
tamine H2- and H3-Rezeptor Liganden, Ph. D. Thesis, Heinrich-Heine-Univer-
sity, Duesseldorf, Germany.
18. Shenkin, P. S. and McDonald, D. Q. (1994) Cluster analysis of molecular confor-
mations. Journal of Computational Chemistry, 15, 899–916.
19. Holtje, H.-D. and Batzenschlager, A. (1990) Conformational analyses on hista-
mine H2 receptor antagonists. Journal of Computer-Aided Molecular Design, 4,
391–402.
20. Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N. et al. (1953) Equation of
state calculations by fast computing machines. Journal of Chemical Physics, 21,
1087–92.
21. Smellie, A., Kahn, S. D., and Teig, S. L. (1995) Analysis of conformational cover-
age. 2. Applications of conformational models. Journal of Chemical Informa-
tion and Computer Sciences, 35, 295–304.
22. Catalyst, Accelrys Inc., San Diego, http://www.accelrys.com.
23. Verlet, L. (1967) Computer experiments on classical fluids. 1. Thermodynamical
properties of Lennard-Jones molecules. Physical Review, 159, 98–103.
24. Beeman, D. (1976) Some multistep methods for use in molecular dynamics calcu-
lations. Journal of Computational Physics, 20, 130–39.
25. Hochney, R. W. and Eastwood, J. W. (1981) Computer Simulation Using
Particels, McGraw-Hill, New York.
26. van Gunsteren, W. F. and Berendsen, H. J. C. (1990) Molekhldynamik-Compu-
tersimulationen: Methodik, Anwendungen und Perspectiven in der Chemie.
Angewandte Chemie, 102, 1020–55.
27. Lybrand, T. P. (1990) Computer simulation of biomolecular systems using molec-
ular dynamics and free energy perturbation methods, in Reviews in Computa-
tional Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New
York, Vol. 1, pp. 295–320.
58 Молекулярное моделирование

28. Karplus, M. and Kuriyan, J. (2005) Molecular dynamics and protein function.
Proceedings of the National Academy of Sciences of the United States of Ameri-
ca, 102, 6679–85.
29. Leach, R. A. (1991) A survey of methods for searching the conformational space
of small and medium-sized molecules, in Reviews in Computational Chemistry
(eds K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New York, Vol. 2, pp.
1–47.
30. Friedolin, H., Schmid,H. G., Kabu8 S., and Fai8t, W. (1969) Konformative
Beweglichkeit Flexibler Ringsysteme-XI Untersuchungen mit Hilfe der Proto-
nenresonanzspektroskopie Ringinversion bei Methyl- und Alkoxylcyclo-
hexanen. Organic Magnetic Resonance, 1, 147–62.
31. Kawai, T., Tomioka, N., Ichinose, T. et al. (1994) High-temperature simulation
of dynamics of cyclohexane. Chеmical & Pharmaceutical Bulletin, 42, 1315–21.
32. Christensen, S. B. and Schaumburg, K. (1983) Stereochemistry and C-13 nuclear
magnetic resonance spectroscopy of the histamine-liberating sesquiterpene
lactone thapsigargin — a modification of Horeau method. The Journal of Or-
ganic Chemistry, 48, 396–99.
33. Auffinger, P. and Wipff, G. (1990) High-temperature annealed molecular dy-
namics simulations as a tool for conformational sampling — application to the
bicyclic-222 cryptand. Journal of Computational Chemistry, 11, 19–31.
34. Kirkpatrick, S., Gelatt, C. D., and Vecchi, M. P. (1983) Optimization by simu-
lated annealing. Science, 220, 671–80.
35. Salvino, J. M., Seoane, P. R., and Dulle, R. E. (1993) Conformational analysis of
bradykinin by annealed molecular dynamics and comparison to MMR-derived
conformations. Journal of Computational Chemistry, 14, 438–44.
36. Laughton, C. A. (1994) A study of simulated annealing protocols for use with mo-
lecular dynamics in protein structure prediction. Protein Engineering, 7,
235–41.
37. Olga Kennard, F. R. S., Cambridge Structural Database, Cambridge Crystallo-
graphic Data Centre, http://www.ccdc.cam.ac.uk.
38. Sadowski, J., Gasteiger, J., and Klebe, G. (1994) Comparison of automatic three-
dimensiional model builders using 639 X-ray structures. Journal of Chemical
Informatiion and Computer Sciences, 34, 1000–8.
39. Bernstein, F. C., Koetzle, T. F., Williams, G. J. B., et al. (1977) Protein data
bank — computer-based archival file for macromolecular structures. Journal of
Molecular Biology, 112, 535–42.
40. Bostrom, J. (2001) Reproducing the conformations of protein-bound ligands: a
critical evaluation of several popular conformational searching tools. Journal of
Computer-Aided Molecular Design, 15, 1137–52.
41. Bostrom, J., Greenwood, J. R., and Gottfries, J. (2003) Assessing the perfor-
mance of OMEGA with respect to retrieving bioactive conformations. Journal of
Molecular Graphics & Modelling, 21, 449–62.
42. Vieth, M., Hirst, J. D., and Brooks, C. L. (1998) Do active site conformations of
small ligands correspond to low free-energy solution structures? Journal of Com-
puter-Aided Molecular Design, 12, 563–72.
Глава 2. Малые молекулы 59

43. Bostrom, J., Norrby, P.-O., and Liljefors, T. (1998) Conformational energy pen-
alties of protein-bound ligands. Journal of Computer-Aided Molecular Design,
12, 383–96.
44. Kirchmair, J., Laggner, C., Wolber, G., and Langer, T. (2005) Comparative anal-
ysis of protein-bound ligand conformations with respect to catalyst's conforma-
tional space subsampling algorithms. Journal of Chemical Information and
Modeling, 45, 422–30.
45. Nicklaus, M. C., Wang, S. M., Driscoll, J. S., and Milne, G. W. A. (1995) Confor-
mational changes of small molecules binding to proteins. Bioorganic & Medici-
nal Chemistry, 3, 411–28.
46. Perola, E. and Charifson, P. S. (2004) Conformational analysis of drug-like mole-
cules bound to proteins: an extensive study of ligand reorganization upon bind-
ing. Journal of Medicinal Chemistry, 47, 2499–510.
47. Sadowski, J. and Bostrom, J. (2006) MIMUMBA revisited: torsion angle rules
for conformer generation derived from X-ray structures. Journal of Chemical
Information and Modeling, 46, 2305–9.
48. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) MacroModel — an
integrated software system for modeling organic and bioorganic molecules using
molecular mechanics. Journal of Computational Chemistry, 11, 440–67.
49. Kirchmair, J., Wolber, G., Laggner, C., and Langer, T. (2006) Comparative per-
formance assessment of the conformational model generators Omega and Cata-
lyst: a large-scale survey on the retrieval of protein-bound ligand conformations.
Journal of Chemical Information and Modeling, 46, 1848–61.
50. Omega, Version 2.0, OpenEye Scientific Software, Santa Fe,
http://www.eyesopen.com.

2.4. Потенциалы молекулярных взаимодействий


Начальным этапом образования любого комплекса, например, ком-
плекса между лекарственным веществом и рецептором, является акт
распознавания. Рецептор должен распознать, обладает ли приближаю-
щаяся молекула свойствами, необходимыми для специфического и
сильного связывания. Этот процесс происходит на довольно значитель-
ном расстоянии и предшествует образованию комплекса. Трехмерное
электростатическое поле, окружающее каждую молекулу, играет реша-
ющую роль в распознавании. Другие молекулярные характеристики,
такие как поляризуемость и гидрофобность, становятся значимыми,
когда расстояние между взаимодействующими поверхностями умень-
шается. Понятно, что молекулярные поля, определяемые путем систе-
матических вычислений и сравнений энергий взаимодействия между
изучаемыми молекулами и различными химическими зондами (проб-
ными частицами), имеют большое значение для понимания межмолеку-
лярных взаимодействий в интересующем нас молекулярном ансамбле
любой сложности.
В последующих разделах дается описание и оценка методов расчета
и анализа этих молекулярных свойств.
60 Молекулярное моделирование

2.4.1. Молекулярный электростатический потенциал


Информация о молекулярном электростатическом потенциале (МЭП)
оказывается критически важной для изучения взаимодействий моле-
кул и химических реакций. При сближении молекул сначала контакт
между ними достигается благодаря дальнодействующим электростати-
ческим силам. Эти силы можно разделить на три типа: собственно
электростатические, индуктивные и дисперсионные. Первый тип взаи-
модействия возникает между полярными молекулами, обладающими
зарядом или постоянным дипольным моментом. Второй тип обнаружи-
вается при взаимодействии полярной и неполярной молекул. В этом
случае диполь полярной молекулы порождает электрическое поле, ко-
торое изменяет распределение электронной плотности в неполярной мо-
лекуле, индуцируя таким образом дипольный момент. Наконец, в
третьем случае, если обе молекулы неполярны и гидрофобны, то непре-
рывные флуктуации электронного распределения в одной молекуле мо-
гут индуцировать мгновенный дипольный момент в соседней молекуле.
Этот тип взаимодействия называется дисперсионным. Дисперсионные
силы слабы и резко уменьшаются с увеличением расстояния между вза-
имодействующими молекулами (см. разд. 2.2.1). Тем не менее именно
они определяют взаимодействие между нейтральными неполярными
молекулами. Дисперсионные силы также называют лондоновскими или
ван-дер-ваальсовыми силами.
Электростатическое взаимодействие может приводить как к притя-
жению, так и к отталкиванию, так что электроположительная часть
приближающейся молекулы будет стремиться сблизиться с электроот-
рицательной областью другой, в то время как одинаково заряженные
части будут отталкивать друг друга. Очевидно, что нековалентное взаи-
модействие особенно велико между заряженными фрагментами моле-
кул. Присутствие в молекуле зарядов и постоянных дипольных момен-
тов порождает в окружающей среде трехмерное электростатическое
поле. Поэтому на небольших расстояниях от полярных или даже ней-
тральных молекул всегда существует значительный МЭП. Этот электро-
статический потенциал (ЭСП) может быть определен как энергия взаи-
модействия между электронным облаком в молекуле и положительным
точечным зарядом, который располагается в узлах трехмерной решет-
ки, окружающей молекулу. Для расчета МЭП необходимо знание точ-
ных электронных характеристик молекулы. Поэтому в следующих раз-
делах нам придется иметь дело с методами расчета плотности заряда в
молекулах.
2.4.1.1. Методы расчета частичных атомных зарядов
Электронные свойства молекулы определяются распределением элек-
тронной плотности вокруг положительно заряженных ядер. Подробная
информация о молекулярной электронной плотности может быть полу-
чена как экспериментально, например, методом дифракции рентгенов-
ских лучей, так и путем расчета с использованием различных кванто-
во-механических методов. Однако результатом расчета может являться
Глава 2. Малые молекулы 61

лишь пространственная плотность вероятности нахождения электрона.


Для вычисления энергии взаимодействия чаще всего требуется знать ве-
личины точечных зарядов, расположенных в центре атома. Безусловно,
это является крайним упрощением картины распределения электро-
нной плотности в молекуле. Подобное преобразование достигается
путем преобразования пространственной функции распределения элек-
тронной плотности в совокупность дискретных величин — частичных
или точечных зарядов. Это может быть сделано путем «конденсации»
всей распределенной в пространстве электронной плотности атома в
одну точку — в место расположения атомного ядра, и именно благодаря
этому появилось представление молекулы как системы точечных ато-
мов, несущих определенные заряды. Введение таких эмпирических
атомных зарядов несколько произвольно, поскольку распределение
электронов в молекуле приписывается отдельным атомным центрам,
иначе говоря, молекулярная характеристика описывается как совокуп-
ность атомных свойств. Частичные заряды нельзя определить экспери-
ментально, поэтому метод приписывания таких зарядов уместен и на-
учно обоснован только в тех случаях, когда он используется для корре-
ляций или предсказания физико-химических свойств молекул. Как
указывалось ранее, электростатическая составляющая полной энергии
межмолекулярного взаимодействия очень велика, поэтому больши-
нство широко используемых программ молекулярной механики вклю-
чают соответствующий энергетический вклад, зависящий от частичных
атомных зарядов. Применение эмпирических методов делает возмож-
ным быстрый расчет электростатической энергии даже для макромоле-
кул, состоящих из сотен атомов. Для этих целей разработаны различ-
ные методики расчета частичных атомных зарядов, обзор которых дан в
работе [1].
Следует различать два методологически различных подхода:
1. к первому относятся топологические методы [2–6]1, такие как метод
Гастайгера—Хюккеля [2];
2. ко второму — способы вычисления атомных зарядов квантово-хими-
ческих волновых функций, такие как анализ заселенностей [7] или
извлечение зарядов из рассчитанного электростатического потенци-
ала [8–11].

Топологические методы
Топологические методы основаны на понятии электроотрицатель-
ности. Распределение атомных зарядов по непосредственно связанным
атомам осуществляется по определенным правилам с использованием
электроотрицательностей атомов и экспериментальных структурных
данных о связях, соединяющих эти атомы. В топологических методах

1
Значительный прогресс в разработке топологических методов для молекулярного моде-
лирования достигнут российскими учеными под руководством академика РАН Н. С. Зе-
фирова. См. дополнительную литературу (с. 80).
62 Молекулярное моделирование

такого рода не нужно знание геометрии или конформационного состоя-


ния молекулы: расчет ведется исходя из матрицы связности атомов. Ме-
тод Дель Ре [3], первоначально разработанный для насыщенных моле-
кул, был в дальнейшем усилиями Пюльман и др. распространен на со-
пряженные системы [4]. Оба эти метода до сих пор используются в
некоторых программах для моделирования. Предложенный позднее ме-
тод, дающий результаты, более близкие к экспериментальным, — это
метод Гастайгера—Хюккеля. Он является комбинацией метода Гастай-
гера— Марсили [2] для расчета s-компоненты атомного заряда и хорошо
известной теории Хюккеля для сопряженных систем [12]. Теория Хюк-
келя позволяет быстро и эффективно вычислять p-компоненту атомного
заряда; полный заряд получается как сумма s- и p-компонент. Формаль-
ные заряды на атомах, входящих в p-систему, считаются делокализо-
ванными по всей p-системе. Поэтому сначала рассчитываются заряды по
Хюккелю, а затем — по Гастайгеру. Основным преимуществом тополо-
гических методов является быстрота расчета и хорошее соответствие с
экспериментально наблюдаемыми свойствами во многих случаях. Одна-
ко этим результатам можно доверять, только если метод протестирован
для изучаемой группы молекул. Часто такими процедурами валидации
пренебрегают, что полностью обесценивает подобное исследование.
Топологические методы часто включаются в коммерческие про-
граммные пакеты как стандартные инструменты расчета зарядов.

Квантовохимические методы
В зависимости от требуемой точности и доступных вычислительных
ресурсов волновая функция может быть получена либо полуэмпиричес-
кими методами, либо «из первых принципов» (first-principles calcula-
tions). Зарядовые плотности могут быть выведены из волновых функ-
ций с использованием различных процедур. Наиболее часто используе-
мым подходом является анализ заселенностей по Малликену1 [7],
который включен как стандартный метод в различные квантово-меха-
нические программы [13–15]. Анализ заселенностей распределяет элек-
тронную плотность, получаемую из волновой функции, по отдельным
атомам на основе величин занятости соответствующих атомных орбита-
лей. Несмотря на широкую применимость, в литературе уже давно при-
знано, что успех метода Малликена сильно зависит от используемого ба-
зиса. В работах [16, 17] отмечается, что метод часто дает результаты, не
соответствующие экспериментальным данным (также см. табл. 2.4.1).
Улучшенным методом, в котором отсутствует большинство проблем,
возникающих в методе Малликена, является анализ натуральных засе-
ленностей [18], но он эффективен только при использовании неэмпири-
ческих волновых функций.

1
Роберт Малликен (1896–1986) — выдающийся американский физикохимик, один из соз-
дателей метода молекулярных орбиталей, лауреат Нобелевской премии по химии 1966 г.
В 1983 г. награжден медалью Пристли — высшей наградой Американского химическо-
го общества.
Таблица 2.4.1. Сравнение экспериментальных и теоретических значений дипольных моментов. Расчет проводился несколькими
методами: топологическим (методом Гастайгера—Хюккеля) и квантово-механическим (вычисление дипольного
момента непосредственно из волновой функции (SCF), по Малликену, а также из молекулярного
электростатического потенциала (ESP))

Вещество Экспери- Гастай- AM1 PM3 STO-3G 3-21G* 6-31G**


мент (газ) гер—
Хюккель
SCF Мал- ESP SCF Мал- ESP SCF Мал- ESP SCF Мал- ESP SCF Мал- ESP
ликен ликен ликен ликен ликен

Имидазол 3,8±0,4 3,118 3,508 2,129 3,575 3,861 2,412 3,869 3,535 2,213 3,494 4,025 2,855 3,962 3,855 2,822 3,810

Тиазол 1,61±0,03 1,466 2,012 2,680 2,041 1,249 1,463 1,259 1,986 2,554 1,989 1,683 3,556 1,709 1,435 2,594 1,507

Фуран 0,66 0,599 0,493 0,354 0,484 0,216 0,066 0,234 0,532 0,675 0,498 1,101 2,222 3,936 0,772 1,813 0,738

Метилсилан 0,735 — 0,374 0,276 0,331 0,432 0,175 0,402 — — — 0,702 1,572 0,238 0,672 0,027 0,658

Аммиак 1,470 0,593 1,848 0,644 1,793 1,550 0,011 1,499 1,876 0,902 1,869 1,752 1,189 1,869 1,839 1,384 1,867

Диметиловый 1,31 1,764 1,429 1,052 1,473 1,254 0,854 1,3194 1,333 1,181 1,384 1,847 3,109 1,901 1,475 2,512 1,531
эфир
64 Молекулярное моделирование

Другой, разработанный недавно метод, основанный на волновых


функциях, вычисляет точечные заряды путем подгонки значений моле-
кулярного электростатического потенциала (МЭП; англ. ESP fit).
В рамках квантовой механики молекул электронная плотность, в отли-
чие от системы частичных атомных зарядов, представляет собой непро-
тиворечиво определяемую функцию [19], содержащую подробную и
важную информацию о молекуле в целом, поскольку все электроны вно-
сят свой вклад в это распределение. В эксперименте электронная плот-
ность находится из результатов измерения дифракции рентгеновских
лучей [20], однако данный метод требует значительных временных и вы-
числительных ресурсов, так что не может выступать в роли стандартной
процедуры. Набор атомных зарядов, способных воспроизводить трех-
мерную электронную плотность, является хорошим способом отображе-
ния электронных свойств любой молекулы. Математический аппарат,
на котором основан метод подгонки ЭСП, включает в себя подгонку
атомных зарядов по методу наименьших квадратов так, чтобы они наи-
лучшим образом воспроизводили плотность заряда, которая вычисляет-
ся квантовомеханически в узлах трехмерной решетки, окружающей мо-
лекулу. Это позволяет получить лучшие результаты [9, 11] по сравне-
нию с анализом заселенностей по Малликену.
Надежность распределения зарядов в молекуле позволяет иметь
представление о реальных электронных характеристиках соответству-
ющих атомов путем сравнения с экспериментальными данными.
Одним из легко определяемых экспериментально свойств молекулы
является дипольный момент. С другой стороны, дипольный момент
можно легко и быстро вычислить из частичных атомных зарядов и
сравнить с имеющимися экспериментальными значениями, которые
приведены в справочной литературе для многих соединений (см., на-
пример, [21]). Так как дипольный момент сильно зависит от конформа-
ции молекулы, для сравнения могут быть использованы только ди-
польные моменты для жестких молекул. Для того чтобы определить
применимость какого-либо метода расчета зарядов к серии молекул,
часто проводится исследование не всей конформационно подвижной
молекулы, а лишь ее небольших и жестких фрагментов. В табл. 2.4.1
приведены расчетные и экспериментальные значения дипольных мо-
ментов для представительной выборки небольших жестких структур.
Их значения были получены с использованием различных методов и
базисов, а также рассмотренных выше процедур. Дипольный момент
можно определить квантово-механическим расчетом с использовани-
ем волновых функций (которые в табл. 2.4.1 обозначены как самосог-
ласованные, SCF). Наиболее хорошо согласуются с экспериментальны-
ми значениями результаты, полученные для базисов, подобных
6-31G**.
Выбор метода для исследования отдельной молекулярной системы
зависит от нескольких факторов. С одной стороны, важное значение
имеет размер молекул, с другой — при выборе метода роль сдерживаю-
щего фактора играет доступность вычислительных ресурсов.
Глава 2. Малые молекулы 65

Топологические методы превосходят квантово-химические по быс-


троте; кроме того, с их помощью получается приемлемая оценка физи-
ческих свойств, связанных с зарядом. Дипольные моменты, получен-
ные с помощью этих методов, обычно соответствуют эксперименталь-
ным данным отчасти вследствие того, что методы параметризованы по
экспериментальным данным. Главным их недостатком следует при-
знать независимость от геометрии и конформации молекул. Кроме того,
топологические методы неспособны дать результат в случае, если моле-
кула содержит те атомы, которые не поддерживаются параметризацией
(см., например, данные для метилсилана в табл. 2.4.1 — параметры для
кремния не включены в метод Гастайгера—Хюккеля).
Вычисление атомных зарядов из электронной плотности — лучший
метод в том случае, если результаты в дальнейшем используются для
вычисления энергии взаимодействия с помощью эмпирического потен-
циала. Из табл. 2.4.1 видно, что при этом совсем не обязательно исполь-
зовать неэмпирические расчеты с большим базисом. На относительно
небольших базисах даже с помощью полуэмпирического метода AM1
получаются значения дипольных моментов, хорошо согласующиеся с
экспериментальными данными. Однако качество такого расчета очень
сильно зависит от способа определения частичных атомных зарядов. Ре-
зультаты, основанные на распределении электронной плотности в моле-
куле, более реалистичны, чем те, которые получаются из анализа засе-
ленностей по Малликену; последние для ряда приближений очень гру-
бы и неточны (см. табл. 2.4.1).
Если исследуемая структура состоит более чем из 100 атомов, точ-
ное вычисление волновой функции для молекулы в целом представляет
значительную трудность. Это препятствие можно преодолеть, разделяя
молекулу на перекрывающиеся фрагменты, результаты для которых
можно впоследствии перенести на всю структуру при условии, что свой-
ства фрагментов правильно отражают свойства исходной структуры.
Даже если точечные заряды для целого ряда молекул рассчитаны
при помощи высокоточных методов, их значения не позволяют досто-
верно судить о степени подобия молекул. Намного большее значение
для адекватного установления подобия молекул имеет пространствен-
ное распределение заряда. Самым удачным подходом к оценке этой важ-
ной величины является использование МЭП.

2.4.1.2. Методы расчета МЭП


МЭП представляет собой энергию взаимодействия единичного точечно-
го положительного заряда (протона) с плотностью заряда, создаваемой
совокупностью ядер и электронов молекулы в любой точке пространства
вблизи молекулы. На практике используют пороговое значение потен-
циала для ограничения числа рассчитываемых точек этой функции.
В молекулярном моделировании МЭП оказывается очень полезным: он
описывает электростатические особенности молекулы, так что его мож-
но использовать для анализа и предсказания межмолекулярных взаи-
модействий. Для его расчета используются два различных метода.
66 Молекулярное моделирование

Очень привлекательной выглядит возможность вычислять МЭП непос-


редственно из волновых функций в рамках квантовой механики. Этот
подход является более точным и поэтому требует большего расчетного
времени. Более простым является вычисление МЭП из частичных атом-
ных зарядов, которыми задано распределение электронной плотности
молекулы. Таким образом, МЭП можно рассчитать при применении за-
кона Кулона. Несомненно, первый метод предпочтителен, и именно им
следует пользоваться, если для данной молекулы можно получить дос-
таточно точную волновую функцию.
Существует множество работ по зависимости квантового МЭП от ба-
зисного набора [22–25]; показано также, что электростатический потен-
циал, вычисляемый методом AM1, хорошо соответствует неэмпиричес-
кому потенциалу [22]. Таким образом, в тех случаях, когда проведение
неэмпирических расчетов затруднено из-за значительного размера сис-
темы, возможно использование полуэмпирического метода AM1.
Для отображения МЭП используются разнообразные процедуры.
Главным препятствием для быстрого и легкого использования МЭП при
сравнении различных молекул является большой объем данных, связан-
ных с этим свойством. Широко используется визуализация МЭП в виде
двумерной контурной карты изолиний на плоскости, заданной на основе
геометрии молекулы. Такая карта впоследствии может быть отображена
на цветном графическом мониторе, с ней можно работать в режиме реаль-
ного времени. Каждая контурная линия соответствует значениям с оди-
наковой энергией. Области с высоким вкладом электростатического вли-
яния ядер характеризуются положительными значениями поля, соотве-
тствующими отталкиванию точечного положительного заряда, области
со значительным влиянием электронной плотности обладают отрица-
тельным значением поля, соответствующим притяжению такого заряда.
Следующим уровнем сложности является переход в отображении от
плоскости (2D) к пространству (3D). Принципиальных отличий при
этом не возникает: молекула полностью покрывается множеством экви-
потенциальных оболочек. В каждой точке такой оболочки ЭСП имеет
один и тот же знак, одну и ту же абсолютную величину. С помощью это-
го метода можно очень ясно представить общее расположение положи-
тельно и отрицательно заряженных областей вокруг молекулы. Двумер-
ные карты, конечно, далеко не всегда дают полное представление МЭП,
тогда как трехмерное изображение эквипотенциальных поверхностей
можно качественно интерпретировать и сравнивать с его помощью раз-
личные соединения.
Третий метод отображения МЭП связан с расчетом и изображением
молекулярных поверхностей. Рассмотрим различные способы определе-
ния молекулярных поверхностей. В формальном представлении поло-
жения атомов представляются точками, а электронам соответствуют
«электронные облака» сферической формы с центром в этих точках.
Если у таких атомно-центрированных сфер радиусы равны ван-дер-
ваальсовым для данного элемента, то их совокупность называется
ван-дер-ваальсовой поверхностью или поверхностью ван дер Ваальса
Глава 2. Малые молекулы 67

для данной структуры. Такая поверхность обычно представляется как


граница той области пространства, которую занимает данная молекула.
Другим типом поверхностей, часто используемым в молекулярном мо-
делировании, является поверхность, доступная для молекул растворите-

Рис. 2.4.1. Визуализация МЭП нифедипина разными методами. (а) Двумерные


изолинии потенциала в плоскости дигидропиридинового кольца. МЭП рассчитан
из неэмпирической волновой функции в базисе 6-31G**; контуры проведены от
–50 ккал/моль (красный) до 90 ккал/моль (синий). (б) МЭП в виде эквипотенци-
альной поверхности. Потенциал вычислен в приближении точечных зарядов (за-
ряды подогнаны под неэмпирический ЭСП, рассчитанный в базисе 6-31G**). По-
казаны области –5 ккал/моль (синим) и 5 ккал/моль (красным). Расчет был
проведен в программе SPARTAN 3.0 [14]. (в) и (г) демонстрируют электростатичес-
кий потенциал нифедипина на поверхности Коннолли. Потенциал рассчитан из
подогнанных под ЭСП зарядов аналогично случаю (б) и показан в виде триангули-
рованной (в) и простой непрозрачной (г) поверхностей. Синий цвет отвечает учас-
ткам с отрицательными, красный — с положительными значениями потенциала.
Расчет проведен с помощью программы MOLCAD [27]
68 Молекулярное моделирование

ля, часто называемая также поверхностью Коннолли [26]. Она определя-


ется как поверхность, описываемая центром пробной молекулы раство-
рителя, представленной в виде шарика, в то время как эта пробная
молекула перемещается по ван-дер-ваальсовой поверхности молекулы.
ЭСП на поверхности Коннолли или Ван дер Ваальса может отобра-
жаться с помощью цветового кода: различный цвет в точках поверхности
соответствует различным значениям потенциала. Это позволяет одно-
временно отобразить форму молекулы и ее электростатические свой-
ства. Однако при исследовании больших молекул подобное изображе-
ние может быть очень сложным. Удачным решением иногда оказывает-
ся комбинирование различных методов отображения: области, скрытые
при использовании одного метода, оказываются явными в другом ис-
полнении (см. рис. 2.4.1).
МЭП в качестве электростатического индикатора реакционной спо-
собности намного более надежен, чем точечные заряды. Доказана
эффективность анализа МЭП и его пространственных отображений при
изучении и предсказании взаимодействия лигандов с их рецепторами.
МЭП различных молекул, связывающихся с одним и тем же рецепто-
ром одним и тем же образом, должны иметь одни и те же особенности. По-
казано, что во многих случаях совмещение молекул, основанное на МЭП,
дает приемлемое наложение, в то время как совмещение «атом-на-атом»
не приводит к удовлетворительному результату (см. разд. 2.5.3).
Приведем в качестве примера исследование ЭСП гистаминэргичес-
ких антагонистов рецептора H2 [28]: показано, что фрагменты имидазо-
ла в составе молекулы циметидина и гуанидинтиазола в тиотидине мо-
гут быть совмещены на основе их электростатического потенциала, что
хорошо видно на рис. 2.4.2.

Рис. 2.4.2. Электростатический потенциал имидазола (а) и гуанидинтиазола (б).


Неэмпирический электростатический потенциал (базис 6-31G**), контуры от –50
ккал/моль (красный) до 90 ккал/моль (синий). Программа SPARTAN 3.0 [14]
Глава 2. Малые молекулы 69

2.4.2. Поля молекулярного взаимодействия


Многие биологические процессы определяются невалентными взаимо-
действиями между структурами молекул: лиганд-рецепторное взаимо-
действие, реакция фермента и субстрата, сворачивание белковой струк-
туры. В кристаллических структурах силы невалентного взаимодей-
ствия в значительной степени определяют геометрию и симметрию
расположения и окружения молекул. Общей закономерностью являет-
ся возникновение связывания лишь в том случае, когда выделившаяся
при этом энергия компенсирует силы ван-дер-ваальсова отталкивания.
Еще одним методом исследования энергетики сближения молекул явля-
ется построение полей молекулярного взаимодействия. Эти поля пред-
ставляют собой распределение энергии взаимодействия между целевой
молекулой и химическим зондом (пробным атомом), расположенным в
узлах окружающей ее пространственной решетки. Зонды моделируют
химические характеристики связывающейся молекулы-партнера или
ее фрагментов. Компьютерная графика позволяет отобразить поля мо-
лекулярного взаимодействия в виде контурных изоэнергетических ли-
ний в пространстве. Контуры, соответствующие положительным значе-
ниям энергии, обозначают области, откуда зонд будет выталкиваться, а
контуры отрицательных значений поля соответствуют областям, в кото-
рых связывание энергетически благоприятно.
Вычисление полей молекулярного взаимодействия может быть про-
ведено с помощью ряда программ: GRID [29], MOE [30], HINT [31],
ISOSTAR/SUPERSTAR [32–34].
Программа GRID является одной из наиболее широко применяемых
для исследования полей молекулярного взаимодействия как для малых
молекул, так и для больших белковых молекул, например ферментов.
На входе она требует только декартовы координаты атомов и предлагает
возможность исследования с помощью большого числа различных зон-
дов. Энергия взаимодействия рассчитывается на регулярной решетке
вокруг молекулы. Решетку, если требуется, можно ограничить отдель-
ным фрагментом молекулы. Результаты расчета энергии помещаются в
файл и могут быть проанализированы или визуализированы с помощью
большинства программ молекулярного моделирования [35–38]. Изопо-
верхности могут быть построены для любого выбранного значения и ото-
бражаться вместе с целевой молекулой в системе машинной графики.
Построение изолиний и изоповерхностей — быстрая процедура, кото-
рая позволяет пользователю интерактивно управлять процессом графи-
ческого вывода.
В данном разделе мы сосредоточимся на вычислении полей взаимо-
действия для малых молекул. Исследование соответствующих полей
для макромолекул будет рассмотрено ниже (см. разд. 4.6).
2.4.2.1. Вычисление полей с помощью программы GRID
Зонды, используемые для расчета молекулярных полей, представляют
собой малые молекулы, фрагменты молекул или отдельные атомы, на-
пример молекула воды, гидроксильная группа или ион кальция. Такие
70 Молекулярное моделирование

зонды моделируют химические свойства взаимодействующих молекул-


партнеров: центр связывания белка-рецептора или соседнюю молекулу
в кристалле. В ходе вычислений с помощью GRID зонд систематически
перемещается по точкам регулярной пространственной решетки, задан-
ной вокруг целевой молекулы. В каждой точке вычисляется полная
энергия взаимодействия зонда и молекулы Etot в виде суммы трех
компонент:
Etot = Evdw + Eel + Ehb , (1)
где Evdw — энергия ван-дер-ваальсова взаимодействия; Eel — электро-
статическая энергия; Ehb — энергия образования водородных связей.
Энергия ван-дер-ваальсова взаимодействия рассматривается как
комбинация сил отталкивания и притяжения между несвязанными ато-
мами. Атомы зонда не могут приблизиться к атомам целевой молекулы
из-за межатомного отталкивания и перекрывания электронных оболо-
чек. Силы отталкивания могут оцениваться в виде эмпирической энер-
гетической функции, которая становится положительной и быстро воз-
растает, когда расстояние между атомами при сближении становится
меньше суммы их ван-дер-ваальсовых радиусов. Силы притяжения в
рамках дисперсионного взаимодействия возникают благодаря электро-
нной корреляции — согласованному движению электронов в поле ядер,
что приводит к возникновению и взаимодействию так называемых «ин-
дуцированных диполей». Для неполярных молекул баланс между дис-
персионным притяжением и отталкиванием на малых расстояниях опи-
сывается с помощью потенциала Леннард-Джонса [38] (см. уравнение
(5) в разд. 2.2); именно он используется в программе GRID.
Электростатические взаимодействия в значительной степени опре-
деляют притяжение молекул лиганда и рецептора, так как являются
дальнодействующими. В молекулярной механике для вычисления
электростатической составляющей чаще всего используется закон Ку-
лона (уравнение (6) в разд. 2.2). Его недостатком, очевидно, является от-
сутствие точного учета гетерогенности системы, состоящей из молекул с
различными диэлектрическими свойствами. Разрывность свойств сис-
темы при переходе от растворителя к молекуле растворенного вещества
учитывается в расширенной и обобщенной форме закона Кулона [29],
которая используется в программе GRID.
Свойство направленности водородных связей в подавляющем боль-
шинстве случаев определяет специфический характер межмолекуляр-
ных взаимодействий. Таким образом, для правильной оценки энергии
взаимодействия крайне важно корректное описание этой составляющей
сил межмолекулярного притяжения. Водородная связь может быть
представлена как взаимодействие на средних расстояниях положитель-
но заряженного атома водорода и электроотрицательного атома — ак-
цептора водородной связи [39]. Итоговое расстояние между акцептором
и донором водородной связи оказывается меньше суммы их ван-дер-ва-
альсовых радиусов. В отличие от других нековалентных взаимодей-
ствий — дисперсионного и электростатического — взаимодействие пу-
Глава 2. Малые молекулы 71

тем образования водородной связи обладает свойством направленности,


т. е. зависит от ориентации неподеленных электронных пар атома-ак-
цептора и их способности образовывать эту связь.
Для соответствия этим требованиям программа GRID включает в
себя выражение энергии водородных связей в явном виде [40]. Функци-
ональная форма этого потенциала подбиралась для соответствия экспе-
риментальным значениям: ее параметры основываются на классифика-
ции соответствующих кристаллографических данных (таких, как на-
правленность, тип и энергия связи).
Для зондов программы GRID определено большое число парамет-
ров, например возможность образования водородной связи, радиус ван
дер Ваальса, атомный заряд. Такое подробное описание делает их доста-
точно специфичными для повышения реалистичности модели той или
иной функциональной группы, важной для формирования активного
центра в макромолекулах. Свойства и параметры трех зондов приведе-
ны в табл. 2.4.2.
GRID также включает в себя таблицы параметров, описывающих
каждый тип атомов, встречающийся в целевой молекуле. Они определя-
ют для атома данного типа силу ван-дер-ваальсова и электростатическо-
го взаимодействия, возможность образования и прочность водородной
связи. Тщательная параметризация и большое количество зондов сдела-

Таблица 2.4.2. Примеры параметров, необходимых для определения


групп-зондов в методе GRID

Зонд
Параметр
Метил Гидроксил Карбоксил
Радиус ван дер Ваальса, C 1,950 1,650 1,600

Эффективное число элек- 8 7 6


тронов

Поляризуемость, C3 2,170 1,200 2,140

Электрический заряд 0 –0,100 –0,450


Энергия оптимальной 0 –3,500 –3,500
водородной связи,
ккал/моль
Радиус образования водо- — 1,400 1,400
родной связи
Число доноров водородной 0 1 0
связи
Число акцепторов водо- 0 2 2
родной связи
Тип водородной связи 0 4 8
72 Молекулярное моделирование

ли GRID весьма распространенным и достаточно точным методом иссле-


дования полей взаимодействия как для малых молекул, так и для мак-
ромолекулярных структур.
Вычисление полей молекулярного взаимодействия выполнено в
ходе ряда исследований по молекулярному моделированию [41–46].
Стратегия их использования зависит от доступной информации о ли-
гандах и мишенях. Если известна пространственная структура макро-
молекулы, поля взаимодействия позволяют точно локализовать облас-
ти предпочтительного связывания лигандов. В дальнейшем эти области
используются в качестве отправной точки при конструировании новых
лигандов для данного рецептора. Ряд успешных приложений програм-
мы GRID можно найти в работе [47].
Чаще встречается ситуация, когда отсутствует информация о струк-
туре рецептора, а имеются лишь данные о свойствах лигандов. В этом
случае поля молекулярного взаимодействия могут помочь в создании
более или менее подробного представления о строении центра связыва-
ния в рецепторе. Предварительным условием в данном случае является
требование, чтобы все лиганды связывались в одном и том же месте по
одному и тому же механизму: только в этом случае можно ожидать одну
и ту же схему связывания. Значение энергии сравниваемых контуров
сильно зависит от выбранного зонда. На рис. 2.4.3 в качестве примера
приведены два разных поля взаимодействия молекулы нифедипина —
блокатора кальциевых каналов.

Рис. 2.4.3. Визуализация полей молекулярного взаимодействия нифедипина.


(а) Области предпочтительного образования водородных связей (метод GRID с
гидроксильным зондом), контурная линия –3,5 ккал/моль. (б) Области предпоч-
тительного гидрофобного взаимодействия, найденные с помощью метильного
зонда, контурная линия –1,4 ккал/моль
Глава 2. Малые молекулы 73

Поля взаимодействия отмечают участки области связывания, обла-


дающие особыми физическими и химическими свойствами. Эти особен-
ности можно перенести в модель области связывания полимерной ми-
шени. Если мишень — белок, модель должна состоять из отдельных
аминокислот, остатки которых расположены в областях, соответствую-
щих типу взаимодействия. Например, поле гидрофобного взаимодей-
ствия отражает расположение гидрофобных аминокислот: фенилалани-
на, триптофана, валина, лейцина, изолейцина. Для установления точ-
ного типа аминокислот в каждом случае, конечно, требуются
дополнительные исследования [48]. Сведения о полях взаимодействия
для совокупности наложенных друг на друга молекул различных лиган-
дов можно использовать для уточнения так называемых «моделей псев-
дорецептора» (разд. 2.6.3) или моделей белков, построенных по гомоло-
гии (разд. 4.3).
При изучении большой выборки соединений порой трудно распоз-
нать все возможные схемы взаимодействия. Одно из возможных реше-
ний состоит в расчете общих для различных молекул областей взаимо-
действия для каждого типа зонда. Общие области находятся математи-
чески путем поточечного сравнения полей. Для поиска общих областей
взаимодействия используется файл, содержащий структуры только сое-
динений-хитов [49].
Применение методов хемометрики [50–53] позволяет достичь более
значимых результатов количественного анализа полей молекулярного
взаимодействия. Подробно этот аспект освещается в разд. 2.6.

2.4.2.2. Гидрофобные взаимодействия


Уже упоминалось, что межмолекулярное притяжение — отталкивание
обусловлено различными типами взаимодействия. До сих пор мы не рас-
сматривали так называемые «гидрофобные взаимодействия» между мо-
лекулами, которые представлены сложными процессами и управ-
ляются в наибольшей степени энтропийными факторами, изменяющи-
ми не только ориентацию молекул растворителя в сольватной оболочке
вокруг молекул растворенного вещества, но и свойства растворителя в
целом. Для проявления гидрофобных взаимодействий необходим тес-
ный контакт между взаимодействующими гидрофобными поверхностя-
ми [54, 55].
Суть гидрофобного связывания состоит в следующем. Неполярная
часть глубокой полости связывания в белке непосредственно не сольва-
тирована. Расположенные поблизости молекулы воды экранируют по-
лость и формируют структуру, подобную структуре льда, стабилизиро-
ванную межмолекулярными водородными связями. Взаимодействие
гидрофобных поверхностей полости связывания и входящей в нее моле-
кулы субстрата приводит к разрушению упорядоченной льдоподобной
структуры. Это разрушение увеличивает энтропию системы, что и при-
водит в итоге к уменьшению свободной энергии системы [55]. При этом
необходимо учитывать также то, что десольватация субстрата приводит
к появлению дополнительных свободных молекул растворителя. На се-
74 Молекулярное моделирование

годняшний день энтропийными эффектами в большинстве случаев пре-


небрегают из-за отсутствия простого метода их оценки. В то же время
общепринято мнение о значительности вклада этих эффектов при взаи-
модействии лекарственных веществ с рецептором [57], а также при сво-
рачивании белка [58]. Поэтому включение гидрофобных взаимодей-
ствий в энергетический баланс подобных процессов вполне законо-
мерна.
Гидрофобность может рассматриваться как эмпирическое свойство
вещества, в котором скрыта термодинамическая информация о взаи-
модействии молекулы вещества с ее окружением. На основе экспери-
ментальных данных известен целый ряд оценок влияния гидрофобных
эффектов. Самой важной экспериментальной мерой гидрофобности со-
единения является коэффициент распределения P в системе
вода—неполярный органический растворитель; обычно используется
логарифмический параметр — logP. Поскольку коэффициент распреде-
ления Р можно определить экспериментально, он является весьма удоб-
ной характеристикой и, в частности, может быть использован для улуч-
шения эмпирических методов [27, 58]. Оценка logP проводится путем
обработки экспериментальных данных для рядов веществ в систему так
называемых «гидрофобных вкладов фрагментов». Эти константы ха-
рактеризуют относительную липофильность каждого отдельного струк-
турного фрагмента молекул, входящих в обучающую выборку; общая
липофильность данной молекулы в виде logP получается суммировани-
ем вкладов для входящих в ее состав фрагментов. На сегодняшний день
известны значения липофильных вкладов большого числа фрагментов,
входящих в молекулы разнообразных биологически важных органичес-
ких соединений.
Следует отметить, что logP представляет собой простейшее «одно-
мерное» представление гидрофобности, отражая это свойство в целом,
чего явно недостаточно для более подробного, детального рассмотрения
взаимодействий между лигандом и макромолекулой.
По этой причине предпринимались попытки использовать коэффи-
циент распределения Р для построения пространственного представле-
ния гидрофобности молекулы. Один из подходов состоит в построении
поля гидрофобности по аналогии с электростатическим полем. Он при-
меняется в программе HINT [31], а также при использовании зонда DRY
в программе GRID [29].
Модель гидрофобных взаимодействий в программе HINT основана
на том, что данные о растворимости являются всего лишь еще одним фи-
зическим свойством, отражающим взаимодействие между молекулами
растворителя и частицами растворенного вещества. В рамках этой тео-
рии константы гидрофобности фрагментов молекулы преобразуются к
атомным вкладам в гидрофобность молекулы [59]. Эти вклады, припи-
сываемые отдельным атомам исследуемой молекулы, являются харак-
теристическими параметрами в теории гидрофобного взаимодействия.
Поскольку эти параметры выводятся из экспериментальных величин,
то включают в себя не только собственно гидрофобные взаимодействия,
Глава 2. Малые молекулы 75

но и другие типы взаимодействия, такие как электростатические и


ван-дер-ваальсовы. Получающееся поле, называемое гидропатичес-
ким, содержит как гидрофобные, так и гидрофильные параметры взаи-
модействия. Вычисления проводятся с помощью эмпирического выра-
жения, функциональная форма которого представлена в работе [59].
В вычислениях используются константы гидрофобности атомов, доля
доступной растворителю поверхности отдельных атомов, а также рас-
стояние, которое необходимо для точного учета зависимых гидрофоб-
ных взаимодействий в окружении биомолекулы. HINT генерирует ото-
бражения для решеток из точек в пространстве аналогично тому, как
это было рассмотрено выше для подобных программ.
Результатом моделирования в программе HINT является контурная
карта полей гидрофобности/гидрофильности вокруг молекулы: поло-
жительные значения поля соответствуют гидрофобной области, отрица-
тельные — гидрофильной (полярной). Из-за эмпирической природы
полей трудно заранее сделать рекомендации для построения контуров и
изоповерхностей. Выбранный уровень энергии определяет размер визу-
ализируемой части поля. Для формирования изображения, сбалансиро-
ванного по размеру гидрофильных и гидрофобных областей, изоповер-
хность гидрофильного участка рекомендуется строить для значений, в
2–5 раз больших по абсолютной величине, чем соответствующий уро-
вень гидрофобности [60].
Гидрофильные и гидрофобные участки поля молекулы уже упоми-
навшегося блокатора кальциевых каналов нифедипина изображены на
рис. 2.4.4, а.

Рис. 2.4.4. а — Карта гидропатического поля нифедипина. Зеленым обозначе-


ны гидрофобные области (контур для значения 4), красным — гидрофильные
(контур для значения –8). Программа HINT, версия 2.02. б — Молекулярный ли-
пофильный потенциал нифедипина, отображенный на поверхность Коннолли.
Коричневым обозначены липофильные участки, голубым — гидрофильные.
Программа MOLCAD [33]
76 Молекулярное моделирование

Результаты анализа гидропатического поля можно использовать


по-разному. Качественная картина распределения гидрофобных и по-
лярных областей для окрестностей ряда молекул может использоваться
для создания пространственной карты активного центра рецептора с не-
известным пространственным строением. Если исследуемый ряд ве-
ществ велик, а результаты сложно интерпретировать, следует провести
более точный и тщательный анализ с помощью метода CoMFA [60].
Если структура рецептора известна, то значения гидропатического
поля могут использоваться для оптимизации структуры лигандов для
поиска веществ с большей биологической активностью. Более подроб-
ный обзор приложений можно найти в [61].

2.4.3. Отображение свойств на молекулярную поверхность


Отображение распределения гидрофобных и гидрофильных свойств
можно провести с использованием молекулярных поверхностей. Прог-
рамма MOLCAD [62] использует поверхность Коннолли [26] для отобра-
жения на нее в виде цветового кода локальных свойств молекулы, таких
как липофильность. Для корректного учета влияния отдельных атомов
или фрагментов на локальную липофильность необходимо ввести функ-
циональную зависимость от расстояния. Реализация такого подхода
была выполнена в виде определения потенциала молекулярной липо-
фильности [63], который может рассматриваться в качестве дополнения
к МЭП. Как и в случае с МЭП, отображение данного локального свойства
на некоторую поверхность в пространстве улучшает восприятие и облег-
чает интерпретацию распределения свойства. Главным преимуществом
отображения гидрофобности на поверхность оказывается легкость ана-
лиза (по сравнению с вычислением гидропатических полей) даже для
больших белковых молекул. В основе обоих методов лежит одно и то же
теоретическее обоснование, поэтому их результаты должны находиться
в качественном соответствии. Для обоих методов надежность расчета
проверяется путем корреляции результа расчетов для веществ с извест-
ным значением logP. Однако коэффициент распределения, подобно рас-
пределению заряда, зависит от конформации молекулы; более того, си-
туация усложняется возможным изменением конформации при перехо-
де из водной фазы в органическую и обратно. Это обстоятельство
ограничивает совокупность молекул, пригодных для валидации мето-
дов, до небольшого количества жестких или по крайней мере полужест-
ких молекул. Пример изображения поверхности гидрофобности, полу-
ченный в программе MOLCAD, приведен на рис. 2.4.4, б.

Цитированная литература
1. Williams, D. E. (1991) Net atomic charge and multipole models for the ab initio
molecular electric potential, in Reviews in Compitational Chemistry (eds
K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New York, Vol. 4, pp. 219–71.
2. Gasteiger, J. and Marsili, M. (1980) Iterative partial equalization of orbital
electronegativity — a rapid access to atomic changes. Tetrahedron, 36, 3219–28.
Глава 2. Малые молекулы 77

3. Del Re, G. (1958) A simple MO-LCAO method for the calculation of charge distri-
butions in saturated organic molecules. Journal of the Chemical Society,
4031–40.
4. Berthod, H. and Pullman, A. (1965) Sur le calcul des caracteristiques du squelette
sigma des molecules conjuguees. Journal de chemie physique, 62, 942–46.
5. Abraham, R. J. and Hudson, B. (1985) Charge calculations in molecular mechan-
ics. 3. Aminoacids and peptides. Journal of Computational Chemistry, 6, 173–81.
6. Mullay, J. (1986) A simple method for calculating atomic charge in molecules.
Journal of the American Chemical Society, 108, 1770–75.
7. Mulliken, R. S. (1955) Electronic population analysis on CAO—MO all caps mo-
lecular wave function. 1. Journal of Chemical Physics, 23, 1833–40.
8. Momany, F. A. (1978) Determination of partial atomic charges from ab initio mo-
lecular electrostatic potentials — application to formamide, methanol, and for-
mic acid. Journal of Physical Chemistry, 82, 592–601.
9. Cox, S. R. and Williams, D. E. (1981) Representation of the molecular electro-
static potential by a net atomic charge model. Journal of Computational Chemis-
try, 2, 304–23.
10. Singh, U. C. and Kollman, P. A. (1984) An approach to computing electrostatic
charges for molecules. Journal of Computational Chemistry, 5, 129–45.
11. Chirlian, L. E. and Francl, M. M. (1987) Atomic charges derived from electro-
static potentials — a detailed study. Journal of Computational Chemistry, 8,
894–905.
12. Purcell, W. P. and Singer, J. A. (1967) A brief review and table of semiempirical
parameters used in the Hueckel molecular orbital method. Journal of Chemical
and Engineering Data, 12, 235–46.
13. Frisch, M., Binkley, J. S., Schlegel, H. B. et al. GAUSSIAN, Department of Chem-
istry, Carnegie Mellon University, Pittsburgh, http://www.gaussian.com.
14. JAGUAR, Schrodinger Inc., http://www.schrodinger.com.
15. Schmidt, M. W., Boatz, J. A., Baldrige, K. K. et al. GAMESS, Program No. 115,
Quantum Chemistry Program Exchange, Indiana University, Bloomington,
http://www.qcpe.chem.indiana.edu.
16. Williams, D. E. and Yan, J. M. (1987) Point charge models for molecules derived
from least squares fitting of the electric potential. Advances in Atomic and Mo-
lecular Physics, 23, 87–130.
17. Wiberg, K. B. and Rablen, P. R. (1993) Comparison of atomic charges derived via
different procedures. Journal of Computational Chemistry, 14, 1504–18.
18. Reed, A. E., Weinstock, R. B., and Weinhold, F. (1985) Natural population anal-
ysis. Journal of Chemical Physics, 83, 735–46.
19. McWeeney, R. (1989) Methods of Molecular Quantum Mechanics, 2nd Edition,
Academic Press, San Diego.
20. Destro, R., Bianchi, R., and Morosi, G. (1989) Electrostatic properties of
L-alanine from X-ray diffraction at 23 K and abinitio calculations. Journal of
Physical Chemistry, 93, 4447–57; Destro, R., Bianchi, R., Gatti, C., and
Merati, F. (1991) Total electronic charge density of L-alanine from X-ray diffra-
tion at 23 K. Chemical Physics Letters, 186, 47–52.
78 Молекулярное моделирование

21. McClellan, A. L. (1974) Tables of Experimental Dipole Moments, Rahara Enter-


prise, Vol. 2, El Cerrito.
22. Ferenczy, G. G., Reynolds, C. A., and Richards, W. G. (1990) Semiempirical AM1
electrostatic potentials and AM1 electrostatic potential derived charges — a com-
parison with abinitio values. Journal of Computational Chemistry, 11, 159–69.
23. Rodriguez, J., Manaut, F., and Sanz, F. (1993) Quantitative comparison of mo-
lecular electrostatic potential distributions from several semiempirical and ab
initio wave functions. Journal of Computational Chemistry, 14, 922–27.
24. Ford, G. P. and Wang, B. Z. (1993) New approach to the rapid semiempirical cal-
culation of molecular electrostatic potentials based on the AM1 wave function —
comparison with ab initio HF/6-31G* asterisk results. Journal of Computational
Chemistry, 14, 1101–11.
25. Price, S. L., Harrison, R. J., and Guest, M. F. (1989) An ab initio distributed
multipole study of the electrostatic potential around an undecapeptide
cyclosporine derivative and a comparison with point charge electrostatic models.
Journal of Computational Chemistry, 10, 552–67.
26. Connolly, M. L. (1983) Solvent accessible surfaces of proteins and nucleic acids.
Science, 221, 709–13.
27. Rekker, R. F. and Mannhold, R. (1992) Calculation of Drug Lipophilicity, VCH
Publishers, Weinheim.
28. Holtje, H.-D. and Batzenschlager, A. (1990) Conformational analysis on hista-
mine H2 receptor antagonists. Journal of Computer-Aided Molecular Design, 4,
391–402.
29. Goodford, P. J. (1985) A computational procedure for determining energetically
favorable binding sites on biologically important macromolecules. Journal of
Medicinal Chemistry, 28, 849–57.
30. MOE, Chemical Computing Group, Montreal, http://www.chemcomp.com.
31. Kellogg, G. E., Semus, S. F., and Abraham, D. J. (1991) HINT — a new method of
empirical hydrophobic field calculation for CoMFA. Journal of Computer-Aided
Molecular Design, 5, 545–52.
32. Bruno I. J., Cole, J. C., Lommerse, J. P. et al. (1997) IsoStar: a library of infor-
mation about nonbonded interactions. Journal of Computer-Aided Molecular
Design, 11, 525–37.
33. Verdonk, M. L., Cole, J. C., and Taylor, R. (1999) SuperStar: a knowledge based
approach for identifying interaction sites in proteins. Journal of Molecular Biol-
ogy, 289, 1093–108.
34. Boer, D. R., Kroon, J., Cole, J. C. et al. (2001) SuperStar: comparison of CSD and
PDB-based interaction fields as a basis for the prediction of protein-ligand inter-
actions. Journal of Molecular Biology, 312, 275–87.
35. INSIGHT/DISCOVER, Accelrys Inc., San Diego, http://www.accelrys.com.
36. SYBYL, Tripos Associates, St. Louis, http://www.tripos.com.
37. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) MACROMODEL —
an integrated software system for modeling organic and bioorganic molecules us-
ing molecular mechanics. Journal of Computational Chemistry, 11, 440–67.
38. Jones, J. E. (1924) On the determination of molecular fields. II. From the equa-
tion of state of a gas. Proceedings of the Royal Society of London, 106A, 463–77.
Глава 2. Малые молекулы 79

39. Dean, P. M. (1986) Molecular Foundations by Drug-Receptor Interaction, Cam-


bridge University Press, Cambridge.
40. Wade, R. C. (1993) Molecular interaction fields, in 3D QSAR in Drug Design —
Theory Methods and Application (ed. H. Kubinyi), ESCOM Science Publish-
ers B. V., Leiden, pp. 486–505.
41. Wade, R. C., Clark, K. J., and Goodford, P. J. (1993) Further development of hy-
drogen bond functions for use in determining energetically favorable binding
sites on molecules of known structure. 1. Ligand probe groups with the ability to
form 2 hydrogen bonds. Journal of Medicinal Chemistry, 36, 140–47.
42. Sippl, W., Contreras, J. M., Parrot, I. et al. (2001) Structure based 3D QSAR and
design of novel acetylcholinesterase inhibitors. Journal of Computer-Aided Mo-
lecular Design, 15, 395–410.
43. Meng, E. C., Shoichet, B. K., and Kuntz, I. D. (1992) Automated docking with
grid based energy evaluation. Journal of Computational Chemistry, 13, 505–24.
44. Jendretzki, U. K., Elz, S., and Holtje, H.-D. (1994) Computer aided molecular
analysis of 5-HT2A agonists. Pharmaceutical and Pharmacological Letters, 3,
260–63.
45. Wade, R. C. (1988) The use of molecular graphics in the design of anti-influenza
agents. British Journal of Pharmacology, 95, (Suppl.), 588.
46. Cruciani, G. and Watson, K. A. (1994) Comparative molecular field analysis us-
ing GRID force field and GOLPE variable selection methods in a study of inhibi-
tors of glycogen-phosphorylase-B. Journal of Medicinal Chemistry, 37,
2589–601.
47. Cruciani, G. (2005) Molecular Interaction Fields, in Methods and Principles in
Medicinal Chemistry (Series eds H. Kubinyi, G. Folkers and R. Mannhold), VCH
Publishers, New York.
48. H`ltje, H.-D. and Jendretzki, U. K. (1995) Construction of a detailed serotonin-
ergic 5-HT2A receptor model. Archiv der Pharmazie, 328, 577–84.
49. H`ltje, H.-D., and Anzali, S. (1992) Molecular modeling studies on the digitalis
binding site of the Na+/K+ATPase. Die Pharmazie, 47, 691–97.
50. Baroni, M., Costantino, G., Cruciani, G. et al. (1993) Generating optimal linear
PLS estimations (GOLPE) — an advanced chemometric tool for handling
3D-QSAR problems. Quantitative Structure-Activity Relationships, 12, 9–20.
51. Wold, S., Johansson, E., and Cocchi, M. (1993) PLS — partial least squares pro-
jections to latent structures, in 3D QSAR in Drug Design — Theory Methods and
Applications, (ed. H. Kubinyi), ESCOM Science Publishers B.V., Leiden, pp.
523–50.
52. Klebe, G. and Abraharm, U. (1993) On the prediction of binding properties of
drug molecules by comparative molecular field analysis. Journal of Medicinal
Chemistry, 36, 70–80.
53. Folkers, G., Merz, A., and Rognan, D. (1993) CoMFA: scope and limitations, in
3D-QSAR in Drug Design — Theory, Methods and Application (ed. H. Kubinyi),
ESCOM Science Publishers B. V., Leiden, pp. 583–618.
54. Tanford, C. (1978) Hydrophobic effect and the organization of living matter. Sci-
ence, 200, 1012–18.
80 Молекулярное моделирование

55. Tanford, C. (1980) The Hydrophobic Effect., 2nd Edition, John Wiley & Sons,
New York.
56. Suzuki, T. and Kudo, Y. (1990) Automatic log P-estimation based on combined
additive modeling methods. Journal of Computer-Aided Molecular Design, 4,
155–98.
57. Nicholls, A., Sharp, K. A., and Honig, B. (1991) Protein folding and associa-
tion — insights from the interfacial and thermodynamic properties of hydrocar-
bons. Proteins, 11, 281–96.
58. Hansch, C. and Fujita, T. (1964) p-s-p analysis. Method for correlation of biologi-
cal activity and chemical structure. Journal of the American Chemical Society,
86, 1616–26.
59. Kellogg, G. E., Joshi, G. S., and Abraham, D. J. (1992) New tools for modeling
and understanding hydrophobicity and hydrophobic interactions. Medicinal
Chemistry Research, 1, 444–53.
60. Kellogg, G. E. and Abraham, D. J. (1992) Key, lock, and locksmith — comple-
mentary hydropathic map predictions of drug structure from a known receptor
structure from known drugs. Journal of Molecular Graphics, 10, 212–17.
61. Abraham, D. J., and Kellogg, G. E. (1993) Hydrophobic fields, in 3D QSAR in
Drug Design — Theory Methods and Applications (ed. H., Kubinyi), ESCOM Sci-
ence Publishers B. V., Leiden, pp. 506–22.
62. Heiden, W., Moeckel, G., and Brickmann, J. (1993) A new approach to analysis
and display of local lipophilicity hydrophilicity mapped on molecular surfaces.
Journal of Computer-Aided Molecular Design, 7, 503–14.
63. Furetm, P., Sele, A., and Cohen, N. C. (1988) 3D molecular lipophilicity poten-
tial profiles — a new tool in molecular modeling. Journal of Molecular Graphics,
6, 182–89.

Дополнительная литература
Ghose, A. K. and Crippen, G. M. (1986) Atomic physicochemical parameters for
3-dimensional structure directed quantitative structure-activity relationships.
1. Partition coefficients as a measure of hydrophobicity. Journal of Computa-
tional Chemistry, 7, 565–77.

Дополнительная литература по топологическим методам


Кирпиченок М. А., Зефиров Н. С., ДАН СССР, 1989, 304, 887.
Oliferenko, A. A.; Palyulin, V. A.; Pisarev, S. A.; Neiman, A. V.; Zefirov, N. S.
J. Phys. Org. Chem. 2001, 14, 355–369.
Oliferenko, A. A.; Krylenko, P. V.; Palyulin, V. A.; Zefirov N. S. SAR QSAR En-
viron. Res. 2002, 13, 297–305.
Oliferenko, A. A.; Pisarev, S. A.; Palyulin, V. A.; Zefirov, N. S. Adv. Quantum
Chem. 2006, 51, 139–146.
Yakovenko A, Oliferenko A. A, Bdzhola V., Palyulin V. A., Zefirov N. S. J. Com-
put. Chem., 2008, 29, 1332–1343.
Shulga D. A., Oliferenko, A. A.; Palyulin, V. A.; Pisarev, S. A.; Zefirov, N. S.
SAR QSAR Environ. Res. 2008, 19, 153–165.
Глава 2. Малые молекулы 81

2.5. Фармакофорный поиск


2.5.1. Совмещение молекул
В предыдущих разделах данной главы мы описали, каким образом мож-
но рассчитать и визуализировать физико-химические характеристики
молекул. Теперь мы перейдем к тому, как это можно применять для по-
нимания или предсказания фармакологических свойств соединения.
В основе фармакобиологического действия, как правило, лежит взаимо-
действие вещества с белком, обладающим физиологическим эффектом,
скажем, с ферментом или рецептором. В обоих случаях существует вы-
сокоспецифичная полость — место связывания молекулы лекарства.
Вещества, проявляющие сходную активность по отношению к одному и
тому же рецептору или ферменту, должны обладать и сходными свой-
ствами связывания, т. е., в связывании с белком должны участвовать
структурные элементы этих молекул со сходной химической функцио-
нальностью в положениях, стерически согласованных со строением по-
лости. Иными словами, в одну и ту же фармакологическую группу вхо-
дят соединения, содержащие один и тот же фармакофор, поэтому одной
из главных задач молекулярного моделирования становится определе-
ние структуры фармакофора для рядов близкородственных молекул ле-
карственных веществ. Пространственное строение многих рецепторов
до сих пор неизвестно, так что достоверная информация о соответствую-
щем рецептору фармакофоре крайне важна для понимания взаимодей-
ствия лекарственного вещества и рецептора на молекулярном уровне.
После тщательного изучения физико-химических характеристик
остается еще вопрос, каким образом необходимо совмещать молекулы
данного ряда, чтобы выявить фармакофор? Чтобы ответить на этот воп-
рос, вначале необходимо найти фармакофорные элементы, то есть ре-
шить, какие именно атомы и функциональные группы требуется со-
вместить. Конечно, с помощью автоматических процедур нельзя отве-
тить на этот вопрос, поскольку предварительно необходимо решить
вопрос о парном соответствии атомов между молекулами. На данном
этапе можно получить огромный объем совершенно бесполезной инфор-
мации, если пренебрегать ранее полученными данными о связи структу-
ры и активности; такие знания существенно ускоряют процедуру совме-
щения, сильно ограничивая число возможных решений. Нужно отме-
тить, что при этом структурное сходство между различными лигандами
может не быть полным, поскольку далеко не все лиганды при взаимодей-
ствии с соответствующим центром мишени оказываются целиком внут-
ри полости связывания.
Если рассматривать способность к образованию водородных связей
как существенное свойство фармакофора, то в шаблон модели исследуе-
мого ряда молекул необходимо ввести описание числа и расположения
неподеленных электронных пар. Одним из вариантов реализации тако-
го описания является добавление к модели соответствующим образом
расположенных фиктивных атомов. Эти последние затем помечаются
82 Молекулярное моделирование

как места расположения акцепторов либо доноров водородной связи


(в качестве последних могут выступать только атомы водорода, связан-
ные с гетероатомами). Эта разметка затем может быть использована в
качестве предварительного шаблона для проверки на совмещение, на-
пример, в программе AUTOFIT [1]. Более того, планарные структурные
фрагменты, в частности ароматические циклические системы, также
могут рассматриваться как отдельные структурные единицы. В послед-
нем случае совмещение проводится для центров колец вместо подгонки
по всей системе; аналогичным образом можно подходить и к совмеще-
нию других планарных подструктур.
Если исходная выборка состоит лишь из очень подвижных струк-
тур, поиск общего фармакофорного фрагмента оказывается не просто
трудным, долгим и утомительным — он может закончиться безрезуль-
татно или дать произвольное, а значит, совершенно бесполезное совме-
щение. Процесс поиска значительно ускоряется, а его результат оказы-
вается гораздо более значимым, если в распоряжении имеется лиганд с
жесткой или хотя бы полужесткой структурой; несомненно, он должен
обладать высокой активностью, так как в противном случае его структу-
ру нельзя использовать в качестве матрицы для более гибких лигандов.
К тому же включение в исследование высокоактивных молекул с малой
конформационной подвижностью снимает необходимость в дополни-
тельных затратах на доказательство того, что мы будем совмещать
именно биоактивные конформации молекул лигандов.
Выбор совмещаемых молекул очень важен для получения значи-
мых результатов. Наиболее простой случай, который, однако, не особо
результативен — это совмещение структурно схожих молекул, но при
этом мы не получаем из итогового совмещения никакой новой информа-
ции. Намного более эффективным может оказаться наложение молекул
с различными скелетами. Естественным образом это приводит к более
интересной ситуации, когда невозможно совместить между собой моле-
кулы путем простого наложения «атом-на-атом»; вместо этого необхо-
димо провести наложение одинаковых функциональных групп или мо-
лекулярных полей.
Следует рассмотреть и другой случай: необходимо ли учитывать не-
активные молекулы или молекулы, которые обладают низкой актив-
ностью? Кажется разумным рассмотреть сначала суперпозицию одних
лишь высокоактивных молекул. Менее активные и неактивные молеку-
лы могут быть в дальнейшем включены в проверку на соответствие най-
денному фармакофору, и сам фармакофор может быть при необходимос-
ти изменен. Аналогичная ситуация имеет место и при исследовании аго-
нистов и антагонистов одного и того же типа рецепторов: наложение
необходимо проводить отдельно в каждой группе, однако впоследствии
две модели могут быть соотнесены, поскольку конкурентные антагонис-
ты зачастую взаимодействуют и с центром связывания агонистов. Важ-
но отметить, что общие элементы в строении центров связывания аго-
нистов и антагонистов, часто проявляющиеся в ходе исследования, не
обязательно являются таковыми.
Глава 2. Малые молекулы 83

Следует также помнить, что непрямые подходы обладают серьезны-


ми ограничениями. Во-первых, лиганды должны связываться с одной и
той же областью белковой мишени одинаковым образом. Если это усло-
вие не выполняется, то результаты совмещения могут оказаться не-
однозначными (см., например [2, 3]). Далее, модели фармакофоров
обычно строят на основе низкоэнергетических конформаций. Число та-
ких конформаций резко возрастает с увеличением пороговой энергии,
так что при формировании фармакофора невозможно учитывать все воз-
можные конформации. Таким образом, при моделировании фармакофо-
ров из рассмотрения исключаются напряженные конформации, возни-
кающие, в частности, как переходные состояния при химических реак-
циях. Недавно опубликовано подробное сравнение энергий для
конформаций лигандов, связанных с мишенью; такие лиганды генери-
рованы in silico1 и найдены экспериментально [4, 5].
Известно несколько методов совмещения молекул. Они основаны на
«ручной» или автоматизированной подгонке с помощью операций вра-
щения жесткой модели молекулы, а также гибкой подгонке, в ходе ко-
торой одновременно минимизируются среднеквадратичное отклонение
длин связей с участием парных (одинаковых) атомов и конформацион-
ная энергия молекул. Другой важный класс методов совмещения позво-
ляет выравнивать молекулы, совмещая эквивалентные области, кото-
рые могут быть выделены на молекулярных поверхностях или в молеку-
лярных полях.

2.5.2. Совмещение «атомнаатом»


При наложения молекул наиболее часто применяется метод наимень-
ших квадратов. Две молекулы совмещают путем минимизации среднек-
вадратичного отклонения расстояний между парами соответствующих
атомов в этих молекулах, значение которого является мерой качества
совмещения. Сильной стороной метода является возможность обнару-
жения различия между молекулами, которые на первый взгляд кажут-
ся похожими. Слабое место метода — в том, что пары совмещаемых ато-
мов должны быть определены заранее; очевидно, что для различных на-
боров атомов, используемых для совмещения, будут получены
различные результаты. Такой метод неприменим для тех молекуляр-
ных систем, где невозможно предварительно указать соответствие ато-
мов. С другой стороны, для взаимодействия различных молекул с одним
и тем же рецептором не требуется очень строгого соответствия молеку-
лярных структур. Таким образом, для большого числа случаев, когда
данные фармакологии и исследования связи структура — активность
свидетельствуют о едином механизме действия для совокупности не-
сходных между собой молекул, обычный метод наименьших квадратов
для совмещения молекул оказывается неадекватным.
1
Термин in silico (искаж. лат. «в кремнии») предполагает компьютерное моделирование
биологического процесса в отличие от лабораторных экспериментов на целом организме
(in vivo) или вне его (in vitro).
84 Молекулярное моделирование

В случае небольших выборок молекул этой ситуации можно избе-


жать путем проведения «ручного» (интерактивного) совмещения.
В принципе любое число молекул можно исследовать и совместить пря-
мо на графическом дисплее при визуальной оценке качества подгонки.
Это, несомненно, очень творческий процесс, который может привести к
появлению новых идей о механизме, лежащем в основе связи экспери-
ментально наблюдаемой активности со структурой. С другой стороны,
такая процедура очень необъективна и часто не может быть воспроизве-
дена, поскольку не подчиняется строгим критериям оптимальности.
Метод активного аналога [6, 7] — быстрая и эффективная процедура
поиска, которая может успешно использоваться для построения моде-
лей фармакофора. В методе используется алгоритм систематического
поиска для генерации представительной совокупности стерически и
энергетически разрешенных конформаций ряда родственных молекул.
Для каждой конформации вычисляется множество расстояний между
фармакофорными группами, взаимодействия которых с рецептором
считаются важными для распознавания. Если с целью поиска соответст-
вий сравнивать каждое такое множество расстояний для одной молеку-
лы со всеми другими аналогичными множествами, вычисленными для
других молекул, это позволит решить данную задачу только для неболь-
ших молекул. Однако в рамках задачи поиска фармакофора мы сосредо-
тачиваемся не на общем для всех молекул конформационном простра-
нстве, а лишь на его областях, одновременно доступных для всех лиган-
дов. Выше мы уже обсуждали, какую пользу приносит введение в
выборку конформационно жесткого или полужесткого аналога при кон-
формационном анализе гибких лигандов. По этой причине конформа-
ционный поиск начинают с наиболее жесткой молекулы. После опреде-
ления для данного соединения карты соответствующих расстояний их
значения используются как ограничения для последующего конформа-
ционного поиска в более гибких молекулах. Именно таким образом на
основе результатов конформационного поиска для активной и конфор-
мационно жесткой молекулы проводятся исследования конформацион-
ного пространства для всех ее более гибких аналогов из исследуемой со-
вокупности. Поскольку все активные молекулы должны соответство-
вать модели взаимодействия с рецептором, поиск конформаций можно
ограничить только теми областями конформационного пространства,
которые соответствуют модели взаимодействия, сформированной на
предыдущем этапе. Например, если условие состоит в том, что расстоя-
ние между двумя конкретными атомами согласно некоторой модели
должно лежать в определенном интервале, из множества конформаций,
получаемых вращением вокруг всех связей, расчеты проводятся только
для таких вращений, которые удовлетворяют данному условию. При-
мер, демонстрирующий успешное применение метода активного анало-
га, включал 28 ингибиторов ангиотензин-превращающего фермента
(angiotensin-converting enzyme, ACE) с целью предсказать строение его
центра связывания [8]. При применении этого метода время поиска
уменьшилось на три порядка по сравнению с обычным методом система-
Глава 2. Малые молекулы 85

тического поиска, который использовал ранее для этих же целей и с эти-


ми же соединениями.
Другой способ отображения, в котором не используется совмещение
«атом-на-атом» явным образом, реализуется программой SEAL [9]. Эта
программа позволяет быстро попарно сравнивать непохожие молекулы.
Индекс сходства (индикатор качества подгонки) суммируется по всем
возможным парам атомов в молекулах. Каждой паре атомов соответ-
ствует статистический вес, связанный с относительным расстоянием
между этими атомами. Таким образом, функция выравнивания в про-
цессе сравнения учитывает все возможные пары атомов в молекулах,
а не только одну, как при совмещении «атом-на-атом». В результате при
этом итоговом совмещении до определенной степени учитываются свой-
ства, связанные с общей формой молекулы. Программа также предлага-
ет возможность учитывать в процессе выравнивания физико-химичес-
кие свойства. Таким образом, слагаемые, возникающие при попарном
суммировании, могут сочетаться с физико-химическими величинами,
которые считаются важными для проявления биологической активнос-
ти. В исходной версии для оптимизации выравнивания были использо-
ваны ван-дер-ваальсовы радиусы — учет стерических факторов, а также
точечные атомные заряды — учет электростатических составляющих.
Расширенная версия программы SEAL была разработана Клебе
и др. [10]. В ней предлагаются различные методы структурного вырав-
нивания, в том числе методы совмещения жестких тел на основе опти-
мизации эффективного перекрывания. Различные молекулярные поля
описываются наборами гауссовых функций. В программе также имеет-
ся возможность оценки внутримолекулярной энергии конформацион-
ного напряжения, а также процедура «гибкой» подгонки [11].
Существуют методы отображения, которые включают автоматичес-
кое (следовательно, воспроизводимое) распознавание атомов лиганда
или фрагментов центра связывания как точек соответствия для их даль-
нейшего совмещения на ранних стадиях вычислительной процедуры.
Фрагменты центра связывания могут соответствовать точкам молеку-
лярной поверхности, представляющей такие свойства, как способность
выступать донором или акцептором водородной связи. Такие же воз-
можности предоставляются некоторыми коммерческими программны-
ми пакетами (например, Catalyst [12]). Другие пакеты — DISCO [13],
RECEPS [14], AUTOFIT [1] — были рассмотрены в недавно вышедшем
обзоре программ выравнивания [15]. Как описано выше, совмещение в
них проводится путем сближения пар атомов, считающихся соответ-
ствующими, а также фрагментов центра связывания во всех возможных
сочетаниях.
Подавляющее большинство современных программ выравнивания
совмещают молекулы как гибкие при условии, что существует одна жес-
ткая опорная молекула. Известная программа FlexS [16] использует та-
кое «гибкое» совмещение на основе комбинаторной процедуры совме-
щения конформаций. Выравнивание проводится для пары молекул,
одна из которых рассматривается как жесткая, а вторая «гибко» подго-
86 Молекулярное моделирование

няется по структуре к первой. Этот метод создан на основе программы


молекулярного докинга FlexX [17]. Перед началом поиска фармакофор-
ных структур FlexS пытается разложить структуру на ряд относительно
жестких фрагментов; в ходе итеративной процедуры наращивания фор-
мируется молекула в целом. Степень сходства между совмещенными
молекулами определяется с помощью оценочных параметров, сходных
по форме с парными компонентами энергии межмолекулярного взаимо-
действия, и оценок перекрывания с использованием гауссовых функ-
ций. Проверка данного подхода проводилась на экспериментальных
рентгеноструктурных данных. Этот метод является весьма быстрым и
благодаря своей эффективности позволяет сканировать значительные
массивы данных.
2.5.3. Совмещение молекулярных полей
Решение задач молекулярного подобия должно проходить с учетом мо-
лекулярных полей, поскольку молекулы распознают друг друга по ха-
рактеристическим свойствам не на уровне атомного скелета, а на
ван-дер-ваальсовой поверхности или снаружи ее. Следовательно, мето-
ды совмещения молекул должны быть основаны на отображении и срав-
нении именно этих свойств. С целью приведения молекул в соответствие
друг другу их структуры располагают внутри равномерной простран-
ственной решетки, состоящей из точек, на которых определено данное
поле. Каждая точка несет информацию о величине некоторого характе-
ристического свойства, например плотности заряда, гидрофобного по-
тенциала или просто стерического объема. Для приведения процедуры к
однозначному и осмысленному результату могут быть заданы порого-
вые значения меры молекулярного подобия. Отдельным точкам либо
группам (кластерам) соседствующих точек могут быть приписаны зна-
чения весов, чтобы отразить связь структура — активность. Одна моле-
кула, предпочтительно конформационно жесткая, выбирается в качест-
ве шаблона; величины, которые в этом случае отображаются на решет-
ку, характеризуют различные свойства. Решетки для других молекул
подгоняются с помощью перемещений и вращений до совпадения этих
величин с шаблонными. Такой процесс подгонки требует огромных вы-
числительных ресурсов. Описано большое количество процедур, отли-
чающихся по сложности, в которых для повышения эффективности ис-
пользуются свойства самих полей. Опубликован эффективный метод
максимизации меры подобия молекулярных поверхностей с использо-
ванием МЭП [19]. Другие авторы — Кларк [20], Дин [21] — вычисляли
молекулярные поля физико-химических свойств с использованием по-
тенциала Леннард-Джонса, либо в процессе определения МЭП заменяли
вычисления с помощью регулярных решеток интегрированием гауссо-
вых функций. В качестве оценки качества подгонки можно вычислить,
например, отношение числа точек, «занятых» всеми молекулами, к
общему числу точек решетки.
Подведем итог. Существуют методы совмещения молекулярных по-
верхностей. Они могут быть успешно применены к задаче совмещения
Глава 2. Малые молекулы 87

структурно несходных молекул, поскольку не требуют построения пар-


ных соответствий атомов между различными молекулами. Однако эти
методы могут стать общепринятыми только тогда, когда можно будет
достаточно быстро проводить сложные вычисления с целью совмещения
значительного числа конформаций каждой из исследуемых молекул.
Подробное сравнение методов совмещения молекул «атом-на-атом» и
суперпозиции молекулярных полей изложено в соответствующей лите-
ратуре [15, 22, 23]. В работе [24] рассмотрено большое количество статей
и обзоров, посвященных фармакофорам.

Цитированная литература
1. Kato, Y., Inoue A., Yamada, M. et al. (1992) Automatic superposition of drug
molecules based on their common receptor site. Journal of Computer-Aided Mo-
lecular Design, 6, 475–86.
2. Klebe, G. and Abraham, U. (1993) On the prediction of binding properties of drug
molecules by comparative molecular field analysis. Journal of Medicinal Chem-
istry, 36, 70–80.
3. B`hm, H. J., Klebe, G., and Kubibyi, H. (1996) Wirkstoffdesign, Spektrum
Akademischer Verlag.
4. Bostr`m, J. (2001) Reproducing the conformations of protein-bound ligands: a
critical evaluation of several popular conformational searching tools. Journal of
Computer-Aided Molecular Design, 15, 1137–52.
5. Bostrom, J., Norrby, P.-O., and Liljefors, T. (1998) Conformational energy pen-
alties of protein-bound ligands. Journal of Computer-Aided Molecular Design,
12, 383–96.
6. Marshall, G. R., Barry, C. D., Bosshard, H. E. et al. (1979) The conformational pa-
rameter in drug design: the active analog approach, in Computer-Assisted Drug
Design, ACS Monograph, Vol. 112 (eds E. C. Olsen and R. E. Christoffersen),
American Chemical Society, Washington, DC, pp. 205–26.
7. Dammkoehler, R. A., Karasek, S. F., Shands, E. F. B., and Marshall, G. R (1989)
Constrained search of conformational hyperspace. Journal of Computer-Aided
Molecular Design, 3, 3–21.
8. Mayer, D., Naylor, C. B., Motoc, I., and Marshall, G. R. (1987) A unique geome-
try of the active site of angiotensin converting enzyme consistent with struc-
ture-activity studies. Journal of Computer-Aided Molecular Design, 1, 3–16.
9. Kearsley, S. K., and Smith, G. M. (1990) An alternative method for the align-
ment of molecular structures: maximizing electrostatic and steric overlap. Tet-
rahedron Computer Methodology, 3, 615–33.
10. Klebe, F., Mietzner, T., and Weber, F. (1994) Different approaches toward an au-
tomatic structural alignment of drug molecules — applications to sterol mimics,
thrombin and thermolysin inhibitors. Journal of Computer-Aided Molecular De-
sign, 8, 751–78.
11. Klebe, G., Mietzner, T., and Weber, F. (1999) Methodological developments and
strategies for a fast flexible superposition of drug-size molecules. Journal of
Computer-Aided Molecular Design, 13, 35–49.
12. Catalyst Accelrys Inc., San Diego, http://www.accelrys.com.
88 Молекулярное моделирование

13. Martin, Y. C., Bures, M. G., Danaher, E. A. et al. (1993) A fast new approach to
pharmacophore mapping and its application to dopaminergic and benzodiazepine
agonists. Journal of Computer-Aided Molecular Design, 7, 83–102.
14. Kato, Y., Itai, A., and Iitaka, Y. (1987) A novel method for superimposing mole-
cules and receptor mapping. Tetrahedron, 43, 5229–36.
15. Lemmen, C. and Lengauer, T. (2000) Computational methods for the structural
alignment of molecules. Journal of Computer-Aided Molecular Design, 14, 215–32.
16. Lemmen, C. and Lengauer, T. (1997) Time efficient flexible superposition of me-
dium-sized molecules. Journal of Computer-Aided Molecular Design, 11, 357–68.
17. Rarey, M., Kramer, B, Lengauer, T., and Klebe, G. (1996) A fast flexible docking
method using an incremental construction algorithm. Journal of Molecular Biol-
ogy, 261, 470–89.
18. Lemmen, C., Lengauer, T., and Klebe, G. (1998) FLEXS: a method for fast flexi-
ble ligand superposition. Journal of Medicinal Chemistry, 41, 4502–20.
19. Manaut, M., Sanz, F., Jose, J., and Milesi, M. (1991) Automatic search for maxi-
mum similarity between molecular electrostatic potential distributions. Journal
of Computer-Aided Molecular Design, 5, 371–80.
20. Clark, M., Cramer, R. D. III, Jones, D. M. et al. (1990) Comparative molecular
field analysis (CoMFA). 2. Toward its use with 3D-structural databases. Tetrahe-
dron Computer Methodology, 3, 47–59.
21. Dean, P. M. (1990) Molecular recognition the measurement and search for molec-
ular similarity in ligand-receptor interaction, in Concepts and Applications of
Molecular Similarity (eds M. A. Johnson and G. M. Maggiora), John Wiley &
Sons, New York, pp. 211–38.
22. Mason, J. S., Good, A. C., and Martin, E. J. (2001) 3-D Pharmacophores in drug
discovery. Current Pharmaceutical Design, 7, 567–97.
23. Good, A. C. and Mason, J. S. (1995) Three-dimensional structure database
search, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and
D. B. Boyd), VCH Publishers, New York, Vol. 7, pp. 73–95.
24. Langer, R. and Hoffmann, R. (2006) In Pharmacophores and Pharmacophore
Concepts, Methods and Principles in Medicinal Chemistry, Series (eds
H. Kubinyi, G. Folkers and R. Mannhold), VCH Publishers, New York.

2.6. Методы 3DQSAR


Методы исследования количественных соотношений «пространственная
структура — активность» (three-dimensional quantitative structure —
activity relationship, 3D-QSAR) получили наибольшее распространение
при проведении вычислений на основе химической информации в ходе
исследований по разработке лекарств, действующих на мишени, струк-
тура которых неизвестна. Основная цель этих методов заключается в
установлении соответствия между биологической активностью ряда
структурно и биологически охарактеризованных соединений и простра-
нственными особенностями различных молекулярных полей, таких
как стерические, липофильные и электростатические. Обычное иссле-
дование 3D-QSAR позволяет выявить расположение фармакофорных
Глава 2. Малые молекулы 89

фрагментов молекулы в пространстве и сформулировать указания для


конструирования следующего поколения соединений с улучшенными
биологическими свойствами.
Число исследований методами 3D-QSAR в последнее десятилетие
увеличивалось экспоненциально, поскольку множество различных ме-
тодов реализовано в коммерчески доступном, легко осваиваемом про-
граммном обеспечении [1–3]. Помимо доступности основной причиной
неизменного интереса к 3D-QSAR служит доказанная возможность пра-
вильно прогнозировать биологическую активность новых соединений
[4]. Однако простота программы 3D-QSAR может вдохновить начинаю-
щего исследователя на использование всех доступных наборов данных
при моделировании этими методами. Цель данной главы состоит не
только в ознакомлении читателя с возможностями различных методов
3D-QSAR, но и в анализе их ограничений.

2.6.1. Метод CoMFA


Метод сравнительного анализа молекулярных полей (Comparative
Molecular Field Analysis, CoMFA) [1] был разработан для проведения
количественных исследований (3D-QSAR). В различных реализациях
3D-QSAR используются статистические (хемометрические) методы
нахождения связи биологической активности и химических свойств с
информацией о трехмерной структуре соединений. Анализ CoMFA на-
чинается с традиционного моделирования фармакофора, в результате
которого определяются биоактивные конформации молекул и способы
их наложения. Это не тривиальная задача. Идея CoMFA заключается
в том, что различия в исследуемом свойстве, например биологической
активности, зачастую соотносятся с эквивалентными изменениями
формы и энергии полей нековалентных взаимодействий, окружающих
молекулы. Иными словами, стерические и электростатические поля со-
держат всю информацию, необходимую для понимания биологических
свойств набора соединений. Как и в методе GRID, молекулы помещают
в кубическую решетку и для каждой точки решетки рассчитывают энер-
гию взаимодействия между молекулой и определенным пробным ато-
мом. Обычно в методе CoMFA используют лишь два потенциала, а имен-
но стерический потенциал в виде функции Леннард-Джонса и электро-
статический потенциал в виде кулоновской функции. Очевидно, что ни
описание молекулярного подобия, ни описание процесса взаимодейст-
вия лигандов с соответствующими биологическими мишенями вовсе не
тривиальная задача. Потенциалы, используемые в стандартном вариан-
те метода CoMFA, описывают только энтальпийный вклад в свободную
энергию связывания [5], хотя многие эффекты, сопровождающие свя-
зывание, обусловлены гидрофобным и энтропийным вкладами. Поэто-
му необходимо вдумчиво характеризовать ожидаемые вклады различ-
ной природы и анализировать, может ли в данных условиях использова-
ние метода CoMFA привести к реалистичным результатам.
90 Молекулярное моделирование

2.6.1.1. Биологические данные, используемые в 3DQSAR


При использовании любого метода QSAR весьма важно знать, все ли
данные по биологической активности исследуемых соединений имеют
сравнимое качество. Наиболее предпочтителен вариант, когда данные
получены в одной лаборатории в одних и тех же условиях. Все иссле-
дуемые соединения должны иметь один и тот же механизм действия
(способ связывания), для неактивных соединений должно быть показа-
но, что они действительно неактивны. Следует рассматривать только ре-
зультаты испытаний in vitro, поскольку только в этом случае проводит-
ся истинно равновесный эксперимент; все остальные системы подверже-
ны изменениям во времени, поскольку в них протекает множество
параллельных биохимических процессов, а механизм транспорта и гра-
диенты диффузии лежат в основе почти всех этих процессов. Следует по-
мнить, что метод CoMFA разрабатывался лишь для описания процесса
взаимодействия, а не всего цикла существования лиганда. Во всех слу-
чаях, когда возникают нелинейные явления, связанные с транспортом и
распределением лекарств, любой метод 3D-QSAR следует применять с
осторожностью.
В идеальном случае диапазон параметров биологической активнос-
ти, используемых для исследования с применением метода CoMFA, дол-
жен охватывать не менее трех порядков. Для всех исследуемых молекул
необходимо знание трехмерной структуры. Если отсутствует точная ин-
формация о стереохимии соединений (данные приведены для смесей
энантиомеров или диастереомеров), то такие соединения не следует
включать в исследование CoMFA.

2.6.1.2. Построение модели CoMFA


После проверки биологической активности и наложения предполагае-
мых биоактивных конформаций молекул в ходе анализа CoMFA вычис-
ляются поля межмолекулярных взаимодействий, окружающие каж-
дую молекулу. Это осуществляется с помощью создания решетки,
окружающей все молекулы, в узлах которой вычисляются энергии
электростатического и ван-дер-ваальсова взаимодействия с помощью
выбранного пробного атома. В большинстве случаев выбор решетки,
простирающейся по умолчанию на 4 C в каждом направлении от всех
молекул выборки, достаточен для большинства моделей CoMFA [4]. Рас-
стояние между узлами решетки обычно выбирают равным 2 C, хотя в
литературе идет полемика относительно такого выбора расстояния [6],
поскольку зачастую при шаге решетки 2 C получаются результаты луч-
шие, чем при более точно описывающем пространство шаге решетки
1 C. Кроме того, программа CoMFA предоставляет пользователю воз-
можность настройки ряда других параметров, например пробных ато-
мов, зарядов, масштаба и граничного значения энергии и др. Эта гиб-
кость настройки параметров позволяет пользователю подогнать метод к
задаче насколько возможно близко, что, впрочем, увеличивает шанс
случайных корреляций. Интересно отметить, что почти все исследова-
Глава 2. Малые молекулы 91

ния, с успехом проведенные методом CoMFA, были выполнены с ис-


пользованием стандартных параметров. Обсуждение всех результатов
изменения параметров CoMFA выходит за рамки данной главы; заинте-
ресованный читатель может обратиться к двум статьям, посвященным
широкому анализу параметров и их влиянию на модели CoMFA [6, 7].

2.6.1.3. Статистическое качество моделей CoMFA


Количественные соотношения между биологической активностью и по-
строенными полями взаимодействий вычисляют с помощью особого
многомерного статистического метода регрессии частичных наимень-
ших квадратов (Partial Least Squares, PLS)1. Детальное описание мате-
матических основ метода можно найти в литературе [8, 9]. Метод PLS
позволяет построить статистическую модель даже в тех случаях, когда
число значений энергии в узлах решетки превышает число соединений,
поскольку многие значения энергии коррелируют друг с другом или не
имеют отношения к биологической активности. Эти особенности дают
возможность извлекать слабый сигнал, распределенный по многим пе-
ременным. Для построения реалистичной модели необходимо обычно не
более пяти-шести линейных комбинаций значений энергии. Поскольку
PLS обрабатывает огромное число переменных (значений энергии взаи-
модействия), всегда существует опасность переучивания модели, поэто-
му за качеством модели следят с помощью перекрестного контроля ме-
тодом исключения по одному ('leave-one-out', LOO). При использовании
этого метода строится столько моделей, сколько соединений в выборке,
причем для каждой модели соединения поочередно исключаются из по-
строения модели и их активность прогнозируется с помощью получен-
ной модели. После того как активность каждого соединения предсказа-
на по одному разу, с использованием экспериментальных и спрогнози-
рованных значений активности каждого соединения рассчитываются
значения Q2 (квадрата коэффициента корреляции перекрестного кон-
троля) и стандартной ошибки прогноза (Standard Deviation of Error
Prediction; SDEP):

å (yobs - y pred ) ,
2
2
Q = 1- (1)
å (yobs - ymean )
2

(yobs - y pred )
2

SDEP = å N
, (2)

где yobs — экспериментальное значение; ypred — предсказанное значе-


ние; ymean — среднее значение; N — число объектов.

1
В последнее время встречается также другое название метода — проекция на латентные
структуры (Projection to Latent Structures), которое, как считается, лучше отражает
суть метода. В русскоязычной хемометрической терминологии чаще употребляется пре-
жнее наименование.
92 Молекулярное моделирование

Значение SDEP обычно уменьшается для нескольких первых латен-


тных переменных, затем достигает минимума и начинает увеличивать-
ся, что свидетельствует о переучивании модели. Следует весьма взве-
шенно подходить к выбору числа латентных переменных для использо-
вания в модели. Если добавление одной переменной уменьшает SDEP
менее чем на 5%, следует предпочесть более простую модель, потому что
она содержит большую часть информации при меньшем числе перемен-
ных. Использование большего числа переменных создает в модели ин-
формационный шум. Значения Q2 > 0,3 обычно считаются статистичес-
ки значимыми и приемлемыми для метода CoMFA [6], хотя некоторые
исследования показали, что в статистической достоверности моделей
CoMFA следует надежно удостовериться. Для исследования риска слу-
чайной корреляции обычно выполняют проверку методом перемешива-
ния: молекулам обучающей выборки случайным образом присваивают
значения биологической активности (также из обучающей выборки), по-
сле чего строят модели методом CoMFA и вычисляют для них Q2. Если
слишком многие перемешанные модели сравнимы по качеству с исход-
ной моделью, то это является весьма надежным доказательством случай-
ной корреляции как исходного, так и перемешанного набора данных.
Кристек и др. использовали проверку методом перемешивания для
определения риска случайной корреляции в их CoMFA-модели 36 ли-
гандов эндотелинового рецептора подтипа А (ETA) [10]. Для модели на
одной латентной переменной с использованием перемешанных значе-
ний биологической активности Q2 = 0,43, в то время как для модели с
правильно отнесенными активностями Q2 = 0,70. Значения R2 для пра-
вильной и перемешанной моделей были вполне сравнимы, что указыва-
ет на недопустимость использования значения коэффициента корреля-
ции для валидации модели CoMFA. Полученные результаты свидет-
ельствуют также о том, что при случайной корреляции невозможно
предложить точное граничное значение Q2. Исходя из нашего опыта,
для надежных предсказательных моделей значение Q2 должно состав-
лять как минимум 0,5 [7, 11–13].
Предложены и некоторые другие стратегии решения проблемы слу-
чайной корреляции [6]. Например, можно применять более надежные
способы перекрестного контроля, выбирая случайным образом 10, 20
или 50% соединений, строя модель на оставшихся 90, 80 или 50% и
предсказывая по ней активность остальных соединений. Для получения
статистически достоверных результатов эту процедуру повторяют не-
сколько раз [12–14].
2.6.1.4. Интерпретация результатов
Одно из важнейших преимуществ 3D-QSAR перед традиционными ме-
тодами QSAR состоит в возможности графической интерпретации ре-
зультатов. Коэффициенты уравнений можно визуализировать в облас-
тях, окружающих лиганды, и при визуальном анализе легко обнару-
жить области пространства, вносящие наибольший вклад в активность.
Графическая интерпретация результатов позволяет с легкостью удосто-
Глава 2. Малые молекулы 93

вериться в надежности модели или предложить новые модификации со-


единений, приводящие к повышению активности или селективности.
Такие методы 3D-QSAR, как CoMFA или GRID—GOLPE (Graphic
Retrieval and Information Display — General Optimal Linear PLS
Estimation), оказались очень удобными для этой цели.
Обычно изображают контурные трехмерные представления полей,
вносящих наибольший вклад в модель. Стерические и электростатичес-
кие вклады изображают разными цветами отдельно друг от друга.
Интерпретация стерических контуров достаточно проста: положитель-
ные контуры ограничивают область пространства, заполнение которой
приводит к увеличению активности, а отрицательные контуры — об-
ласть, заполнение которой приводит к уменьшению активности. Интер-
претация электростатических карт более сложна из-за требования элек-
тронейтральности и того, что к увеличению активности могут приво-
дить как положительные, так и отрицательные заряды. Если в анализе
CoMFA обнаруживаются значительные электростатические эффекты,
следует внимательно изучить лежащие в их основе электронные эффек-
ты соответствующих функциональных групп и установить, является ли
это истинным эффектом или искусственной корреляцией.
Обычно контурные карты CoMFA не рассматриваются как эквива-
ленты соответствующих свойств белка-мишени, и такое сравнение сле-
дует проводить с крайней осторожностью. Однако если выравнивание
лигандов основано на конформациях лигандов в области связывания,
контурные стерические и электростатические карты CoMFA могут до
некоторой степени соответствовать стерическому и электростатическо-
му окружению места связывания. Например, Опреа и др. [15] использо-
вали рентгеноструктурные данные для комплексов ферментов с ингиби-
торами не только для выравнивания молекул, но и для оценки результа-
тов CoMFA путем сравнения контурных карт со структурой центра
связывания. Было обнаружено, что различные важные для связывания
лиганда аминокислотные остатки соответствуют определенным стери-
ческим и электростатическим полям, однако обнаружились и некото-
рые ограничения модели, поскольку не все ключевые остатки соответ-
ствуют полям CoMFA. Похожие наблюдения были сделаны и в наших
исследованиях этим методом [11–13].

2.6.2. Другие методы, подобные CoMFA


2.6.2.1. CoMSIA
Из-за сложностей, связанных с формой потенциала Леннард-Джонса,
используемого в большинстве методов CoMFA [16], Клебе и др. [2] разра-
ботали метод, родственный CoMFA, но основанный на индексах подо-
бия, назвав его сравнительным анализом индексов молекулярного подо-
бия (Comparative Molecular Similarity Indices Analysis, CoMSIA). В этом
методе вместо традиционных потенциалов CoMFA используются гауссо-
вы функции. В их исследовании классической тестовой выборки стерои-
дов, используемой фирмой Tripos, были использованы три различных
94 Молекулярное моделирование

типа индексов, относящихся к стерическому, электростатическому и


гидрофобному потенциалу. С помощью метода CoMSIA были построены
модели сравнимого статистического качества как по внутреннему пере-
крестному контролю обучающей выборки, так и по предсказательной
способности для контрольной выборки. Преимущество метода заключа-
ется в функциях, используемых для описания молекул, и в получаю-
щихся контурных картах, которые легче интерпретировать, чем карты
CoMFA. Кроме того, в методе CoMSIA отсутствуют граничные значения,
используемые в методе CoMFA для ограничения функций потенциалов
сверху. Детальное описание метода и его приложений читатель может
найти в литературе [17, 18]. Недавно авторы CoMSIA разработали но-
вый дескриптор водородной связи, с помощью которого можно преодо-
леть проблему недооценки водородных связей в CoMFA [19].

2.6.2.2. GRID и GOLPE


Программа GRID [20, 21] использовалась многими авторами [22, 23] для
расчета полей взаимодействий в качестве альтернативы методу CoMFA.
Важным преимуществом метода GRID, помимо большого числа различ-
ных пробных атомов, является использование для вычисления в точках
решетки потенциалов функции типа 6–4, которая меняется не так рез-
ко, как функция леннард-джонсовского типа 6–12. Хорошие статисти-
ческие результаты были получены, например, Кручиани и др. [24]при
анализе ингибиторов гликогенфосфорилазы b. Они использовали сило-
вое поле GRID в сочетании с программой GOLPE [25] для выполнения
хемометрического анализа. Данная выборка представляет особый инте-
рес потому, что для всех лиганд-рецепторных комплексов имеются рен-
тгеноструктурные данные. Это позволило авторам исследовать выборку
с помощью некоторых новых методов, в том числе методов 3D-QSAR.
Дальнейшее улучшение оригинальной методологии CoMFA было
достигнуто при использовании концепции отбора и уменьшения числа
переменных. Как говорилось в разд. 2.6.1.3, большое число переменных
(энергий взаимодействия) в матрице дескрипторов представляет собой
статистическую проблему метода CoMFA. С ростом числа переменных
при использовании методов многомерных проекций, таких как PLS,
становится все труднее отделить полезную информацию, содержащую-
ся в дескрипторной матрице, от менее полезной или шума, поэтому не-
обходимы способы поиска значимых переменных среди большого коли-
чества незначимых. Статистическая процедура под названием GOLPE
была разработана Барони и др. [3] для улучшения предсказательной
способности моделей QSAR. В эту программу включены различные ме-
тоды отбора переменных, такие как метод D-оптимального предвари-
тельного отбора и план факторного эксперимента с дробными реплика-
ми (Fractional Factorial Design, FFD). Предсказательная способность
каждой переменной определяется путем построения большого числа
3D-QSAR-моделей, для каждой из которых рассчитывается SDEP. Пос-
ле завершения расчета методом FFD каждая переменная оценивается и
помещается в одну из трех категорий: улучшающих предсказательную
Глава 2. Малые молекулы 95

способность, ухудшающих предсказательную способность или неодноз-


начных. Окончательный анализ методом PLS проводится только для пе-
ременных из первой категории. При использовании отбора переменных
обычно получаются модели с лучшими значениями Q2, чем соответству-
ющие модели, построенные традиционными методами CoMFA [11–13,
24, 26]. Детальное описание метода см. в [3, 24, 26].
Несмотря на широкое применение методов, подобных CoMFA, сле-
дует сделать ряд предостережений. В процессе использования метода на
практике возникает множество проблем. Результаты сильно зависят от
выбранной конформации лиганда, достоверности выравнивания, хими-
ческих параметров описания полей взаимодействия и от выбранного ме-
тода статистической оценки [14]. Читателю следует помнить, что про-
грамма представляет собой мощный инструмент в руках опытного поль-
зователя, однако новичок может испытать с ней определенные
трудности.

2.6.2.3. Методы, не зависящие от выравнивания


Наиболее важным и сложным этапом CoMFA-подобного анализа явля-
ется построение реалистичного выравнивания изучаемых молекул. Не-
давно несколькими группами был описан вариант метода CoMFA, по-
зволяющий избавиться от этой проблемы [27–29]. Сильверман и Платт
[27] использовали в своем методе сравнительного анализа молекуляр-
ных моментов (Comparative Molecular Moment Analysis, CoMMA) дес-
крипторы, которые характеризуют форму с помощью главных момен-
тов инерции, а распределение зарядов — на основе параметров, получен-
ных из дипольных и квадрупольных моментов. Авторы исследовали
большое число различных выборок и получили модели с хорошей внут-
ренней согласованностью и предсказательной способностью. Подобный
подход, эксплуатирующий для построения главных моментов силовое
поле GRID, был разработан Кручиани и др. [28] и интегрирован в ком-
мерчески доступные программы VOLSURF и ALMOND [30, 31]. Деталь-
ное описание этих относительно новых методов можно найти в
литературе [28, 29].

2.6.3. Другие методы 3DQSAR


За последние несколько лет были разработаны и другие методы
3D-QSAR. Некоторые из них не основаны на расчете свойств в узлах ре-
шетки, характерном для всех CoMFA-подобных подходов. Методы
GERM [32], Compass [33], поверхности рецептора [34] и QUASAR [35]
основаны на расчете свойств в дискретных точках пространства, распо-
ложенных на общей поверхности активных лигандов или рядом с ней.
Построенная таким образом «поверхность рецептора» должна модели-
ровать свойства активного центра макромолекулы. Этот подход доста-
точно надежен в случае, когда все молекулы выборки не слишком силь-
но искажают расположение аминокислотных остатков в области связы-
вания. Надежность подхода подтверждается наличием достоверных
96 Молекулярное моделирование

моделей, построенных с его помощью. Тем не менее существуют два не-


достатка атомно-молекулярных моделей и моделей поверхности рецеп-
тора, основанных на обобщенных представлениях об изменении формы
области связывания из-за индуцированного соответствия и образования
водородных связей. Если энергия лиганд-рецепторного взаимодействия
определяется для усредненной модели рецептора, небольшие измене-
ния, связанные с адаптацией рецептора к определенным молекулам
лиганда, остаются неучтенными. Кроме того, аминокислотные остат-
ки биологического рецептора, содержащего конформационно подвиж-
ный донор или акцептор водородной связи, могут образовывать разно-
направленные водородные связи с различными лигандами. Этот эффект
также невозможно смоделировать с помощью усредненной структуры
рецептора.
Другой путь построения моделей QSAR заключается в создании так
называемых моделей псевдорецепторов — моделей центра связывания.
Суть данного подхода заключается в построении трехмерной модели об-
ласти связывания белка-мишени с неизвестной структурой на основе
наложения структур известных лигандов в биоактивной конформации с
учетом экспериментально определенных значений аффинности. В осно-
ве концепции псевдорецептора лежит идея об участии связанной формы
лиганда в таком специфическом нековалентном связывании, которое
бы имитировало существенные лиганд-белковые взаимодействия в ис-
тинном биологическом рецепторе (см., например, [36–39]). На первом
этапе построения псевдорецептора идентифицируются потенциальные
точки связывания (якорные точки) для каждой молекулы. Затем выбира-
ются подходящие партнеры взаимодействия (например, аминокислоты,
ионы металлов, молекулы воды) и располагаются соответствующим обра-
зом в пространстве. Ансамбль партнеров, полученный после оптимиза-
ции, представляет собой псевдорецептор для лигандов, использованных
при его построении. В общем случае тип и расположение элементов псев-
дорецептора, окружающих модель фармакофора, не будет структурно по-
добно реальной биомишени. Псевдорецептор следует рассматривать как
чисто гипотетическую модель связывающей полости, в которой располо-
жены структурно родственные лиганды, а не как воспроизведение слож-
ной структуры взаимодействующего с лигандом белка. Оценка аффин-
ности лиганда складывается из энергии взаимодействия лиганда с псев-
дорецептором, энергии десольватации лиганда и изменения внутренней
энергии и энтропии лиганда в процессе связывания. Концепция псевдо-
рецептора, реализованная в программе PrGen [40], была проверена при
конструировании псевдорецепторов карбоангидразы человека, дофами-
нэргических и b2-адренэргических рецепторов. Значения свободной энер-
гии связывания лиганда, предсказанные с помощью модели и определен-
ные экспериментально, согласуются в пределах 1,2 ккал/моль [41]. Пре-
имущества концепции псевдорецептора заключаются в использовании
направленного силового поля, которое может корректно описывать во-
дородные связи и взаимодействия между белками, лигандами и ионами
металлов, играющими зачастую важнейшую роль в связывании моле-
Глава 2. Малые молекулы 97

кул лекарств, а также в возможности учета сольватации и энтропии,


чего лишены многие другие методы 3D-QSAR [42].

2.6.4. 3DQSAR, основанный на рецепторе


Такие методы, основанные на структуре мишени, как докинг, позволя-
ют определить положение и ориентацию потенциального лиганда в цен-
тре связывания белка с достаточной точностью. Существуют различные
методы и программы докинга (см. гл. 5), успешно используемые для кон-
струирования лекарств (см., например, [43–47]). Методы докинга дают
важную информацию о пространственной ориентации лигандов в облас-
ти связывания и о других лигандах, взаимодействующих с той же ми-
шенью. Основным недостатком современных методов докинга является
отсутствие возможности точного вычисления свободной энергии связы-
вания для оценки биологической активности. Проблема предсказания
аффинности пробудила интерес к созданию методов достоверного вы-
числения аффинности лигандов для обширных серий разнообразных
молекул, взаимодействующих с одной и той же биомишенью, структура
которой известна [48–52]. Большинство способов вычисления свобод-
ной энергии связывания основано на молекулярно-механических сило-
вых полях, в которых ван-дер-ваальсовы и кулоновские взаимодей-
ствия представлены в виде эмпирических потенциалов. В других мето-
дах используются более простые оценочные функции, не связанные с
вычислением аффинности с помощью молекулярной механики (подроб-
ный обзор см. в [52]), а базирующиеся на экспериментальных данных
при выводе параметров относительно простых функций, позволяющих
быстро оценивать энергию связывания. Оценочные значения энергии
связывания широко используются для различения активных и неактив-
ных лигандов, например, при виртуальном скрининге баз данных, но в
большинстве своем они недостаточно надежны для точного предсказа-
ния биологической активности. Основная сложность при предсказании
биологических свойств заключается в том, что лежащие в их основе мо-
лекулярные взаимодействия сложны и для оценки свободной энергии
взаимодействия следует учитывать различные факторы. Правильное
предсказание аффинности возможно лишь с использованием точных ме-
тодов, таких как метод возмущения свободной энергии (Free Energy
Perturbation, FEP) или метод термодинамического интегрирования
(Thermodynamic Integration, TI), требующих значительных вычисли-
тельных ресурсов (более подробную информацию об этих методах мож-
но найти в [53] и [54]).
Программы докинга, использующие информацию о белке и методы
3D-QSAR при построении предсказательных моделей для родственных
молекул, сочетают сильные стороны обоих подходов в автоматизирован-
ной помехоустойчивой («несмещенной») процедуре, получившей назва-
ние «3D-QSAR, основанный на рецепторе» [11–13, 55–67]. В данном
контексте трехмерная структура белка-мишени и протокол докинга
используются при построении выравнивания для дальнейшего иссле-
дования методом CoMFA [11]. С помощью этого метода были получены
98 Молекулярное моделирование

достоверные предсказательные модели. Помимо хорошей предсказа-


тельной способности модели могут указать на точки взаимодействия в
области связывания, которые могут отвечать за изменение биологичес-
кой активности. В работе [68] приведены примеры успешного примене-
ния 3D-QSAR, основанного на модели рецептора.
Другой интересный метод, позволяющий преодолеть проблему пре-
небрежения информацией о белке в методах 3D-QSAR, был недавно
предложен Гольке и Клебе [69]. Суть метода адаптации полей для срав-
нения молекул (Adaptation of Fields for Molecular Comparison, AFMoC)
заключается в построении потенциальных полей в области связывания
белка-мишени с помощью оценочной функции DrugScore. Данная про-
грамма методологически близка к CoMFA и CoMSIA, но имеет перед
ними преимущество — учет белкового окружения в анализе 3D-QSAR.
Вместо кулоновского или леннард-джонсовского потенциала расчет
AFMoC начинает с предварительно приписанных по точкам решетки
значений потенциала DrugScore. На основе лигандов, для которых из-
вестен способ связывания и биологическая активность, отдельным зна-
чениям потенциалов приписывается определенный вес. Получающиеся
поля взаимодействий обрабатываются с помощью PLS. Было показано,
что для моделей AFMoC наблюдается значительно лучшая корреляция
между расчетными и экспериментальными значениями активности,
чем для функции DrugScore [70].

2.6.5. Надежность моделей 3DQSAR


Качество и надежность моделей 3D-QSAR сильно зависят от вниматель-
ной проверки каждого этапа анализа. Как и для любого другого метода,
для QSAR принципиально важно, все ли значения биологической ак-
тивности соединений одинакового качества (см. также разд. 2.6.1.1).
Поиск биологически активной конформации и построение выравни-
вания молекул является важнейшей задачей при любом исследовании
3D-QSAR, поскольку это один из основных источников ложных заклю-
чений и ошибок. Риск использования неверной геометрии можно
уменьшить, рассматривая жесткие аналоги. Но даже в этом случае мо-
гут возникнуть затруднения, поскольку имеются примеры различных
способов связывания, казалось бы, для близкородственных соединений.
Впрочем, если способы связывания похожи, но использованы непра-
вильные конформации лигандов, результаты анализа 3D-QSAR могут
оказаться вполне надежными. Проблемы построения конформаций и их
корректного выравнивания можно избежать, если использовать кон-
формации из трехмерных структур лиганд-белковых комплексов, полу-
ченных с помощью РСА, ЯМР или моделирования по гомологии, как
описывалось в разд. 2.6.4.
Последней стадией анализа 3D-QSAR является статистическая ва-
лидация, в ходе которой определяется предсказательная способность
модели — способность предсказывать биологическую активность новых
соединений. В большинстве исследований для этой цели использовали
перекрестный контроль методом исключения по одному (LOO). С по-
Глава 2. Малые молекулы 99

мощью этого метода рассчитываются Q2 и SDEP, которые обычно рас-


сматриваются как основные критерии надежности и предсказательной
способности модели. LOO — это простейший метод перекрестного кон-
троля, заключающийся в извлечении одного объекта и предсказании
его активности; более надежным методом перекрестного контроля счи-
тается метод исключения группы. Например, при перекрестном контро-
ле методом исключения 20%-я выборка разделяется на 5 групп прибли-
зительно равного размера; таким образом, 80% выборки используются
для построения модели, с помощью которой предсказывается актив-
ность оставшихся соединений. Эту операцию следует повторить не-
сколько раз для получения надежных статистических результатов. Ме-
тоды исключения по 20 и 50% (более требовательные к ресурсам) явля-
ются значительно более надежными индикаторами качества модели,
чем обычно используемый метод LOO [7, 12, 46], который зачастую
слишком оптимистично оценивает модели, не обладающие предсказа-
тельной способностью для молекул истинной контрольной выборки.
Несмотря на известные ограничения метода LOO, до сих пор далеко
не всегда исследователи проверяют возможность модели 3D-QSAR пра-
вильно предсказывать биологическую активность молекул внешней
контрольной выборки. Многие авторы заявляют, что их модели, имею-
щие высокое значение Q2 для метода LOO, обладают высокой предсказа-
тельной способностью, но не проводят валидацию с помощью внешней
контрольной выборки (детальное обсуждение этой проблемы см. в [14,
71–76]). Эти ожидания совершенно не оправданы, поскольку в несколь-
ких исследованиях было показано, что корреляция между значением Q2
и значением коэффициента корреляции R2 для наблюдаемых и предска-
занных значений активности контрольной выборки отсутствует
[72, 75]. Поэтому мы настойчиво рекомендуем использовать надежные
методы перекрестного контроля и внешние контрольные выборки для
валидации моделей 3D-QSAR.

Цитированная литература
1. Cramer, R. D., Patterson, D. E., and Bunce, J. D. (1988) Comparative molecular
field analysis (CoMFA). 1. Effect of shape on binding of steroids to carrier pro-
teins. Journal of the American Chemical Society, 110, 5959–67.
2. Klebe, G., Abraham, U., and Mietzner, T. (1994) Molecular similarity indexes in
a comparative analysis (CoMSIA) of drug molecules to correlate and predict their
biological activity. Journal of Medicinal Chemistry, 37, 4130–46.
3. Baroni, M., Constantino, G., Cruciani, G. et al. (1993) Generating optimal linear
РLS estimations (GOLPE) — an advanced chemometric tool for handling
3D-QSAR problems. Quantitative Structure-Activity Relationships, 12, 9–20.
4. Martin, Y. C. (1998) 3D- QSAR current state, scope, and limitations. Perspec-
tives in Drug Discovery and Design, 12, 3–23.
5. Klebe, G. and Abraham, U. (1993) On the prediction of binding properties of
drug molecules by comparative molecular field analysis. Journal of Medicinal
Chemistry, 36, 70–80.
100 Молекулярное моделирование

6. Kim, K. H., Greco, G., and Novellino, E., (1998) A critical review of recent
CoMFA applications. Perspectives of Drug Discovery and Design, 12, 257–315.
7. Folkers, G., Merz, A., and Rognan, D. (1993) CoMFA: scope and limitations, in
3D QSAR in Drug Design: Theory, Methods and Applications (ed. H. Kibinyi),
ESCOM, Leiden, pp. 583–618.
8. Wold, S. (1991) Validation of QSARs. Quantitative Structure Activity Relation-
ship, 10, 191–93.
9. Wold, S., Johansson, E., and Cocchi, M. (1993) PLS — partial least squares pro-
jections to latent structures, in 3D-QSAR in Drug Design: Theory, Methods and
Applications (ed. H. Kubinyi), ESCOM, Leiden, pp. 523–50.
10. Krystek, S. R., Hunt, J. T., Stein, P. D., and Stouch, T. R. (1995) 3-dimensional
quantitative structure-activity relationships of sulfonamide endothelin inhibi-
tors. Journal of Medicinal Chemistry, 38, 659–68.
11. Sippl, W. (2000) Receptor-based 3D QSAR analysis of estrogen receptor
ligands — merging the accuracy of receptor-based alignments with the computa-
tional efficiency of ligand-based methods. Journal of Computer-Aided Molecu-
lar Design, 14, 559–72.
12. Sippl, W., Contreras, J.M., Parrot, I. et al. (2001) Structure-based 3D QSAR and
design of novel acetylcholinesterase inhibitors. Journal of Computer-Aided Mo-
lecular Design, 15, 395–410.
13. Sippl, W. (2002) Binding affinity prediction of novel estrogen receptor ligands
using receptor-based 3D-QSAR methods. Bioorganic & Medicinal Chemistry,
10, 3741–55.
14. Oprea, T. I. and Garcia, A. E. (1996) Three-dimensional quantitative structure-
activity relationships of steroid aromatase inhibitors. Journal of Computer-
Aided Molecular Design, 10, 186–200.
15. Oprea, T. I., Waller, C. L., and Marshall, G. R. (1994) 3-dimensional quantitative
structure-activity relationship of human-immunodeficiency-virus-(i) protease
inhibitors. 2. Predictive power using limited exploration of alternate binding
modes. Journal of Medicinal Chemistry, 37, 2206–15.
16. Norinder, U. (1998) Recent progress in CoMFA methodology and related tech-
niques. Perspectives in Drug Discovery and Design, 12, 25–39.
17. Klebe, G. and Abraham, U. (1999) Comparative molecular similarity index anal-
ysis (CoMSIA) to study hydrogen-bonding properties and to score combinatorial
libraries. Journal of Computer-Aided Molecular Design, 13, 1–10.
18. Bohm, M., Sturzebecher, J., and Klebe, G. (1999) Three-dimensional quantita-
tive structure-activity relationship analyses using comparative molecular field
analysis and comparative molecular similarity indices analysis to elucidate selec-
tivity differences of inhibitors binding to trypsin, thrombin, and factor Xa.
Journal of Medicinal Chemistry, 42, 458–77.
19. Bohm, M. and Klebe, G. (2002) Development of new hydrogen bond descriptors
and their application to comparative molecular field analyses. Journal of Medici-
nal Chemistry, 45, 1585–97.
20. Goodford, P. J. (1985) A computational procedure for determining energetically
favorable binding sites on biologically important macromolecules. Journal of
Medicinal Chemistry, 28, 849–57.
Глава 2. Малые молекулы 101

21. Wade, R. C., Clark, K. J., and Goodford, P. J. (1993) Further development of hy-
drogen-bond functions for use in determining energetically favorable binding
sites on molecules of known structure. 1. Ligand probe groups with the ability to
form 2 hydrogen bonds. Journal of Medicinal Chemistry, 36, 140–47.
22. Davis, A. M., Gensmantel, N. P., Johansson, E., and Marriott, D. P. (1994) The
use of the GRID program in the 3D-QSAR analysis of a series of calcium channel
agonists. Journal of Medicinal Chemistry, 37, 963–72.
23. Kim, K. H., Greco, G., Novellino, E. et al. (1993) Use of the hydrogen-bond po-
tential function in a comparative molecular field analysis (CoMFA) on a set of
benzodiazepines. Journal of Computer-Aided Molecular Design, 7, 263–80.
24. Cruciani, G. and Watson, K. A. (1994) Comparative molecular field analysis us-
ing GRID force field and GOLPE variable selection methods in a study of inhibi-
tors of glycogen-phosphorylase-B. Journal of Medicinal Chemistry, 37,
2589–601.
25. GOLPE, Multivariate Infometric Analysis, Perugia. http://www.miasrl.com.
26. Cruciani, G., Clementi, S., and Partor, M. (1998) GOLPE-guided region selec-
tion. Perspectives in Drug Discovery and Design, 12, 71–86.
27. Silverman, B. D. and Platt, D. E. (1996) Comparative molecular moment analysis
(CoMMA): 3D-QSAR without molecular superposition. Journal of Medicinal
Chemistry, 39, 2129–40.
28. Cruciani, C., Crivori, P., Carupt, P. A., and Testa, B. (2000) Molecular fields in
quantitative structure-permeation relationships: the VolSurf approach.
Theochem, 503, 17–30.
29. Pastor, M., Cruciani, G., McLay, I. et al. (2000) Grid-Independent descriptors
(GRIND): a novel class of alignment-independent three-dimensional molecular
descriptors. Journal of Medicinal Chemistry, 43, 3233–43.
30. VOLSURF, Molecular Discover Ltd., Oxford, http://www.moldiscovery.com.
31. ALMOND, Multivariate Infometric Analysis, Perugia. http://www.miasrl.com.
32. Walters, D. E. (1998) Genetically evolved receptor models (GERM) as a
3D-QSAR tool. Perspectives in Drug Discovery and Design, 12, 159–66.
33. Jain, A. N., Koile, K. and Chapman, D. (1994) Compass: predicting biological-
activities from molecular surface properties — performance comparisons on a
steroid benchmark. Journal of Medicinal Chemistry, 37, 2315–27.
34. Hahn, M. and Rogers, D. (1998) Receptor surface models. Perspectives in Drug
Discovery and Design, 12, 117–33.
35. Vedani, A. and Zbinden, P. (1998) Quasi-atomistic receptor modeling: a bridge be-
tween 3D-QSAR and receptor fitting. Pharmaceutica Acta Helvetiae, 73, 11–18.
36. Sippl, W., Stark, H., and Holtje, H.-D. (1998) Development of a binding site
model for histamine H-3-receptor agonists. Pharmazie, 53, 433–37.
37. Holtje, H.-D. and Jendretzki, U. K. (1993) Construction of a detailed serotonin-
ergic 5-HT2A receptor model. Archiv der Pharmazie, 328, 577–84.
38. Greenidge, P. A., Merz, A., and Folkers, G. (1995) A pseudoreceptor modeling
study of the varicella-zoster virus and human thymidine kinase binding sites.
Journal of Computer-Aided Molecular Design, 9, 473–78.
102 Молекулярное моделирование

39. Schmetzer, S., Greenidge, P. A., Kovar, K. A. et al. (1997) Structure-activity re-
lationships of cannabinoids: a joint CoMFA and pseudoreceptor modeling study.
Journal of Computer-Aided Molecular Design, 11, 278–92.
40. PrGen, Biographics Laboratory, Basel. http://www.biograf.ch.
41. Vedani, A., Zbinden, P., Snyder, J. P., and Greenidge, P. A. (1995) Pseudorecep-
tor modeling — the construction of 3-dimensional receptor surrogates. Journal
of the American Chemical Society, 117, 4987–94.
42. Schleifer, K. J. (2006) in Concepts and Applications of Pseudoreceptors, Series:
Methods and Principles in Medicinal Chemistry — Pharmacophores and
Pharmacophore Concepts (eds T. Langer, R. Hoffmann, H. Kubinyi et al.), VCH
Publishers, New York, pp. 117–30.
43. Kramer, B., Rarey, M., and Lengauer, T. (1997) CASP2 experiences with dock-
ing flexible ligands using FLEXX. Proteins, 28, (Suppl. 1), 221–25.
44. Bohm, H. J. (1994) The development of a simple empirical scoring function to es-
timate the binding constant for a protein-ligand complex of known three-dimen-
sional structure. Journal of Computer-Aided Molecular Design, 8, 243–56.
45. Verdonk, M. L., Cole, J. C., Hartshorn, M. J. et al. (2003) Improved protein-
ligand docking using GOLD. Proteins, 52, 609–23.
46. Meng, E. C., Shoichet, B. K., and Kintz, I. D. (1992) Automated docking with
grid-based energy evaluation. Journal of Computational Chemistry, 13, 505–24.
47. Kontoyianni, M., McClellan, I. M., and Sokol, G. S. (2004) Evaluation of docking
performance: comparative data on docking algorithms. Journal of Medicinal
Chemistry, 47, 558–65.
48. Tame, J. R. H. (1999) Scoring functions: a view from the bench. Journal of Com-
puter-Aided Molecular Design, 13, 99–108.
49. Bohm, H. J. (1998) Prediction of binding constants of protein ligands: a fast
method for the prioritization of hits obtained from de novo design or 3D database
search programs. Journal of Computer-Aided Molecular Design, 12, 309–23.
50. Wang, R., Lu, Y., Fang, X., and Wang, S. (2004) An extensive test of 14 scoring
functions using the PDBbind refined set of 800 protein-ligand complexes. Jour-
nal of Chemical Information and Computer Sciences, 44, 2114–25.
51. Perola, E., Walters, W. P., and Charifson, P. S. (2004) A detailed comparison of
current docking and scoring methods of systems of pharmaceutical relevance.
Proteins, 56, 235–49.
52. Gohlke, H. and Klebe, G. (2002) Approaches to the description and prediction of
the binding affinity of small molecule ligands to macromolecular receptors.
Angewandte Chemie International Edition, 41, 2644–76.
53. Masukawa, K. M., Kollman, P. A., and Kuntz, I. D. (2003) Investigation of neu-
raminidase-substrate recognition using molecular dynamics and free energy cal-
culations. Journal of Medicinal Chemistry, 46, 5628–37.
54. Huang, D. and Caflisch, A. (2004) Efficient evaluation of binding free energy using
continuum electrostatics salvation. Journal of Medicinal Chemistry, 47, 5791–97.
55. Sippl, W., Contreras, J. M., Rival, Y., and Wermuth, C. G. (2000) In molecular
Modelling and Predicting of Bioactivity (eds K. Gundertofte and F. S. Jorgen-
sen). Plenum Press, New York, pp. 53–58.
Глава 2. Малые молекулы 103

56. Sippl, W. (2002) Development of biologically active compounds by combining


3D-QSAR and structure-based design methods. Journal of Computer-Aided
Molecular Design, 16, 825–30.
57. Cinone, N., Holtje, H.-D., and Carotti, A. (2000) Development of a unique 3D in-
teraction model of endogenous and synthetic peripheral benzodiazepine receptor
ligands. Journal of Computer-Aided Molecular Design, 14, 753–68.
58. Hammer, S., Spika, I., Sippl. W. et al. (2003) Glucocorticoid receptor interac-
tions with glucocorticoids: evaluation by molecular modeling and functional
analysis of glucocorticoid receptor mutants. Steroids, 68, 329–39.
59. Pastor, M., Cruciani, G., and Watson, K. A. (1997) A strategy for the incorpora-
tion of water molecules present in a ligand binding site into a three-dimensional
quantitative structure-activity relationship analysis. Journal of Medicinal
Chemistry, 40, 4089–102.
60. Tervo, A. J., Nyronen, T. H., Ronkko, T., and Poso, A. (2003) A structure-
activity relationship study of catechol-O-methyltransferase inhibitors com-
bining molecular docking and 3D-QSAR methods. Journal of Computer-Aided
Molecular Design, 17, 797–810.
61. Pandey, G. and Saxena, K. A. (2006) 3D QSAR studies on protein phosphatase 1B
inhibitors: Comparison of the quality and predictivity among 3D-QSAR models
obtained from different conformer-based alignments. Journal of Chemical
Information and Modeling, 46, 2579–90.
62. Waller, C. L., Oprea, T. I., Giolitti, A., and Marshall, G. R. (1993) 3-dimensional
QSAR of human-immunodeficiency-virus-(1) protease inhibitors. 1. A CoMFA
study employing experimentally determined alignment rules. Journal of
Medicinal Chemistry, 36, 4152–60.
63. De Priest, S. A., Mayer, D., Naylor, C. B., and Marshall, G. R. (1993) 3D-QSAR
of angiotensin-converting enzyme and thermolysin inhibitors — a comparison of
CoMFA models based on deduced and experimentally determined active-site
geometries. Journal of the American Chemical Society, 115, 5372–84.
64. Cho, S. J., Garsia, M. L. S., Bier, J., and Tropsha, A. (1996) Structure-based
alignment and comparative molecular field analysis of acetylcholinesterase
inhibitors. Journal of Medicinal Chemistry, 39, 5064–71.
65. Vaz, R. J., McLean, L. R., and Pelton, J. T. (1998) Evaluation of proposed modes
of binding of (2S)-2-4-(3S)-1-acetimidoyl-3-pyrrolidinyloxyphernyl-3-(7-amidino-
2-naphthyl)propanoic acid hydrochloride and some analogs to Factor Xa using a
comparative molecular field analysis. Journal of Computer-Aided Molecular
Design, 12, 99–110.
66. Ortiz, A. R., Pisabarro, M. T., Gago, F., and Wade, R. C. (1995) Prediction of
drug-binding affinities by comparative binding energy analysis. Journal of
Medicinal Chemistry, 38, 2681–91.
67. Lozano, J. J., Pastor, M., Cruciani, G. et al. (2000) 3D-QSAR methods on the ba-
sis of ligand-receptor complexes. Application of COMBINE and GRID/GOLPE
methodologies to a series of CYP1A2 ligands. Journal of Computer-Aided
Molecular Design, 14, 341–53.
68. Sippl, W. (2006) In Application of Structure-based Alignment Methods for
3D-QSAR, Series: Methods and Principles in Medicinal Chemistry —
104 Молекулярное моделирование

Pharmacophores and Pharmacophore Concepts (eds T. Langer, R. Hoffmann,


H. Kubinyi et al.), VCH Publishers, New York, pp. 223–49.
69. Gohlke, H. and Klebe, G. (2002) DrugScore meets CoMFA: adaptation of fields
for molecular comparison (AFMoC) or how to tailor knowledge-based pair-poten-
tials to a particular protein. Journal of Medicinal Chemistry, 45, 4153–70.
70. Silber, K., Kurz, T., Heidler, P., and Klebe, G. (2005) AFMoC enhances
predictivity of 3D QSAR: a case study with DOXP-reductoisomerase. Journal of
Medicinal Chemistry, 48, 3547–63.
71. Golbraikh, A., and Tropsha, A. (2002) Beware of q(2)! Journal of Molecular
Graphics & Modelling, 20, 269–76.
72. Kubinyi, H., Hamprecht, F. A., and Mietzner, T. (1998) Three-dimensional
quantitative similarity-activity relationships (3D QSiAR) from SEAL similarity
matrices. Journal of Medicinal Chemistry, 41, 2553–64.
73. Golbraikh, A., Shen, M., Xiao, Z. Y. et al. (2003) Rational selection of training
and test sets for the development of validated QSAR models. Journal of Com-
puter-Aided Molecular-Design, 17, 243–53.
74. Norinder, U. (1996) Single and domain mode variable selection in 3D QSAR
applications. Journal of Chemometrics, 10, 95–105.
75. Doweyko, A. M. (2004) 3D-QSAR illusions. Journal of Computer-Aided Molecular
Design, 18, 587–96.

Дополнительная литература
Vedani, A., Zbinden, P., and Snyder, J. P. (1993) Pseudo-receptor modeling —
a new concept for the 3-dimensional construction of receptor-binding sites.
Journal of Receptor Research, 13, 163–77.
Пример
3
моделирования малых молекул:
антагонисты дофаминового
рецептора подтипа D3

В этой главе мы опишем построение модели фармакофора и последую-


щий анализ 3D-QSAR (разд. 2.6.2.2) для антагонистов дофаминового ре-
цептора подтипа D3. При построении модели фармакофора мы использо-
вали стерические и электростатические параметры, полученные на
основании данных для структур частично жестких высокоаффинных
лигандов. После выявления особенностей фармакофора модель была
проверена путем более тщательного исследования молекулярных по-
лей, создаваемых лигандами, наложенными друг на друга в фармако-
форных конформациях. На последнем этапе поля молекулярных взаимо-
действий, построенные программой GRID, были использованы для уста-
новления соотношений 3D-QSAR путем их корреляции с энергией свя-
зывания по методу частичных наименьших квадратов (PLS). Эта модель
была проверена различными методами перекрестного контроля, а ее
предсказательная способность продемонстрирована с помощью внешней
контрольной выборки лигандов.
Для построения модели фармакофора были использованы конфор-
мационно ограниченные антагонисты рецептора D3, исследованные
нами [1], и антагонисты, известные из литературы [2–4]. Для последую-
щего анализа методом GRID—GOLPE были использованы только 40 ли-
гандов (табл. 3.1—3.3), полученных от нашего коллеги (профессора
Х. Штарка (Университет Франкфурта-на-Майне, Германия), чтобы обе-
спечить согласованность данных об их связывании.

3.1. Модель фармакофора антагонистов


D 3 рецептора
Пять антагонистов D3-рецептора были детально исследованы для выяв-
ления их биоактивной конформации (табл. 3.4). Их молекулярную
структуру можно рассматривать как композицию трех фрагментов:
основно-ароматического элемента, амидно-ароматического элемента и
ароматического или алифатического спейсера. На рис. 3.1 они пока-
заны для вещества BP897 [2]. Варианты этой структуры, а также их
константы связывания приведены в табл. 3.1.
Таблица 3.1. Антагонисты D3-рецептора с различной длиной спейсера и различными заместителями

Соединение R1 R2 n D3 pKi Соединение R1 R2 n D3 pKi


ST-63 H 4 7,59 ST-64 H 4 7,37

ST-65 H 4 8,00 ST-66 OCH3 3 6,67

ST-67 OCH3 3 6,52 ST-68 OCH3 3 6,40

ST-69 OCH3 4 8,11 ST-70 OCH3 4 8,04

ST-71 OCH3 4 8,41 ST-82 OCH3 4 8,55


ST-84 OCH3 4 7,42 ST-85 OCH3 4 7,63

ST-86 OCH3 4 7,54 ST-88 OCH3 3 6,25

ST-92 OCH3 4 7,49 ST-93 OCH3 3 6,97

ST-95 OCH3 4 8,60 ST-96 OCH3 4 9,00

ST-98 OCH3 4 8,18 ST-99 OCH3 4 8,83

(Окончание таблицы на следующей странице)


Таблица 3.1. (Окончание)
Соединение R1 R2 n D3 pKi Соединение R1 R2 n D3 pKi
ST-100 OCH3 4 8,02 ST-101 OCH3 4 8,53

ST-144 OCH3 4 8,74 ST-150 OCH3 4 7,38

ST-152 OCH3 4 8,20 ST-167 OCH3 4 9,30

ST-168 OCH3 4 9,21 ST-188 OCH3 4 9,16

ST-189 OCH3 4 8,67 ST-317 OCH3 4 7,99


Глава 3. Пример моделирования малых молекул 109

Таблица 3.2. Антагонисты D3-рецептора с различными спейсерами

Соединение R D3 pKi Соединение R D3 pKi


ST-81 7,40 ST-176 7,00

ST-177 6,12 ST-205 7,43

Таблица 3.3. Антагонисты D3-рецептора с аминотетралинами в качестве


основно-ароматических элементов

Соединение X D3 pKi Соединение X D3 pKi


ST-124 6,63 ST-125 7,32

ST-126 7,55 ST-127 7,22

ST-185 7,42

Большинство антагонистов D3-рецептора подходит под эту схему.


Тем не менее у некоторых лигандов, подобных соединению 1 (табл. 3.4),
амидные фрагменты заменены на различные группы, которые способны
быть акцепторами водородных связей. Поэтому все лиганды могут быть
110 Молекулярное моделирование

Таблица 3.4. Антагонисты D3-рецептора, использованные для построения


модели фармакофора

Соединение Структурная формула D3 pKi


1 [3] 7,59

2 [4] 9,00

ST-205 7,43

ST-84 7,42

ST-85 7,63

приближенно описаны так, как показано на рис. 3.2. Поскольку все ис-
следованные лиганды содержат одни и те же фармакофорные элементы
(например, основный атом азота, ароматические группировки, акцепто-
ры водородных связей), мы предполагаем, что они связываются похо-

Рис. 3.1. Разделение структуры


BP897 на три фрагмента: a — основно-
ароматический фрагмент, б — спейсер,
в — амидно-ароматический фрагмент
Глава 3. Пример моделирования малых молекул 111

Рис. 3.2. Общая схема антагонистов D3-рецептора

жим образом с одной и той же областью D3-рецептора. Чтобы опреде-


лить биоактивную конформацию, в которой они находятся в месте свя-
зывания, мы сконцентрировались на анализе конформационного про-
странства лигандов с жесткими фрагментами структуры.
Поскольку ни один из исследованных лигандов не является абсо-
лютно жестким, но некоторые из них конформационно ограничены, на
первом этапе мы разбили каждую из этих молекул на три фрагмента и
изучали конформационно ограниченные фрагменты по отдельности.
Выбранные фрагменты частично перекрывались для того, чтобы опреде-
лить биоактивную конформацию связывающих их частей. После опреде-
ления предполагаемых биоактивных конформаций фрагментов была за-
ново выполнена сборка структур для определения конформаций, в кото-
рых молекулы могли бы участвовать в связывании.

3.1.1. Основноароматический фрагмент


Большинство соединений выборки (табл. 3.1—3.4) обладает довольно
подвижной N-4-(2-метоксифенил)пиперазин-1-иловой группировкой,
вследствие чего циклическая система может принимать различные
энергетически выгодные конформации. Напротив, конформация соеди-
нения 2 зафиксирована, поскольку структуры эта часть содержит цик-
лическую систему без подвижных связей.
На первом этапе было детально исследовано конформационное про-
странство октагидробензохинолинового фрагмента соединения 2 с по-
мощью метода моделирования отжига (см. разд. 2.3.3): 10 раз имитиро-
вали нагрев 4-метил-1,2,3,4,4a,5,6,10b-октагидробензо[f]хинолин-7-олового
фрагмента до 2000 К и охлаждение до 0 К. Низкотемпературные кон-
формации подвергали визуальному анализу. Были обнаружены два клас-
тера очень похожих низкоэнергетических конформаций циклической
системы (рис. 3.3).
1-(2-Метоксифенил)-4-метилпиперазиновая система была наложе-
на на обе структуры, показанные на рис. 3.4, с помощью программы
FlexS [5] (см. разд. 2.5.2), которая не только учитывает стерические и
электростатические требования фрагментов в процессе наложения, но и
предлагает виртуальные точки взаимодействия, которые могут пред-
ставлять собой противоионы или принимать участие в водородных свя-
зях. На рис. 3.4 изображены наложения фенилпиперазиновой системы
на обе конформации трициклической системы соединения 2. В обоих
случаях конформация фенилпиперазина одинакова. Легко видеть, что
112 Молекулярное моделирование

Рис. 3.3. Структура октагидро-


бензохинолинового фрагмента

Рис. 3.4. Наложение 1-(2-метоксифенил)-4-метилпиперазина (атомы углерода


белые) на оба низкоэнергетических конформера 4-метил-1,2,3,4,4a,5,6,10b-
октагидробензо[f]хинолин-7-ола (атомы углерода серые) с помощью программы
FlexS. Точки виртуального взаимодействия изображены в виде оранжевых ша-
риков

различные фрагменты могут взаимодействовать с одними и теми же


предполагаемыми донорами водородной связи или образовывать анало-
гичные солевые мостики.

3.1.2. Спейсер
Спейсерные фрагменты являются наиболее гибкими в имеющемся набо-
ре, поэтому достаточно сложно понять, в какой конформации они свя-
зываются с рецептором. К счастью, соответствующие спейсеры соедине-
ний 1 и ST-205 конформационно ограничены (рис. 3.5) и потому были
детально исследованы.
На первом этапе было исследовано конформационное пространство
спейсера ST-205. Для бициклической системы было проведено модели-

Рис. 3.5. Соединения 1 и ST-205.


Выделены фрагменты, детально
исследованные при изучении кон-
формации спейсера
Глава 3. Пример моделирования малых молекул 113

Рис. 3.6. Фрагмент ST-205. Для бициклической системы возможны три кон-
формации

Рис. 3.7. Расширенный спейсер ST-205. Отмечен-


ные связи поворачивали с шагом 10°

Рис. 3.8. Фрагменты соединений 1 и ST-205. Показана конформация с наивыс-


шей оценкой FlexS

рование отжига, результатом которого явились три различных конфор-


мации, изображенные на рис. 3.6.
Затем в рассмотрение были включены соседние фрагменты молеку-
лы. Подвижные связи этих фрагментов исследовали методом система-
тического поиска (рис. 3.7).
В результате моделирования отжига для бициклической системы в
комбинации с систематическим поиском получили 992 возможные кон-
формации расширенного спейсерного фрагмента ST-205. Аналогичный
фрагмент соединения 1 накладывали на каждую из этих 992 конформа-
ций, полученные наложения ранжировали по значению оценочной
функции FlexS. Наложение, получившее лучшую оценку, предположи-
тельно соответствует конформации, в которой эти фрагменты связыва-
ются с рецептором. Эта конформация показана на рис. 3.8.
114 Молекулярное моделирование

3.1.3. Амидноароматический фрагмент


В некоторых соединениях, связывающихся с рецептором D3 с высокой
аффинностью, так называемый «амидно-ароматический фрагмент»
представлен жесткой фталимидной группировкой, поэтому опреде-
лить фармакофорную конформацию этой части лиганда достаточно
легко. Для определения фармакофорной конформации амидно-арома-
тического фрагмента антагонистов.были использованы планарные фта-
лимидные системы соединений ST-84 и ST-85.

3.1.4. Конечная модель фармакофора


После определения предпочтительной конформации всех фрагментов
лиганды были собраны заново. Окончательный фармакофор изображен
на рис. 3.9; обозначены расстояния между элементами фармакофора.
На рис. 3.10 показано наложение четырех лигандов в их предполагае-
мых биоактивных конформациях. Лиганды принимают вытянутую
конформацию. Элементы фармакофора, которые могут вступать в на-

Рис. 3.9. Модель фармакофора антагонистов D3-рецептора

Рис. 3.10. Наложение четырех лигандов в фармакофорных конформациях:


ST-127 (синий), ST-205 (желтый), ST-84 (голубой) и ST-86 (красный)
Глава 3. Пример моделирования малых молекул 115

правленные взаимодействия с рецептором, — акцепторы водородной


связи и основные атомы азота — расположены примерно в 6,5 C друг от
друга. Ароматическая область амидно-ароматического фрагмента может
быть значительно удлинена.

3.1.5. Поля молекулярных взаимодействий


Как уже упоминалось в разд. 2.5.3, распознавание молекул происходит
по характеристическим свойствам, среди которых — их ван-дер-вааль-
сов объем. Поэтому при построении наложений фармакофоров следует
не только строить наложение атомных скелетов, но также анализиро-
вать создаваемые ими поля взаимодействий.
На рис. 3.11 изображено наложение 4 высокоаффинных лигандов в
фармакофорных конформациях. Поля молекулярных взаимодействий
каждого лиганда вычислены средствами программы GRID [6] с исполь-
зованием различных пробных атомов (зондов). Во время проведения
анализа оснoвные атомы азота были протонированы для точного соответ-
ствия физиологическим условиям. Как можно видеть на рис. 3.11, б–г,
протонированные атомы азота всех лигандов могут вступать во взаимо-
действие с зондами «ионизированная алифатическая карбоксильная
группа» (рис. 3.11, в) и «sp2-NH с неподеленной парой» (рис. 3.11, б),
а также вступать в липофильные взаимодействия с зондом «sp2-CH»
(рис. 3.11, г). Во всех случаях соответствующие поля находятся в анало-
гичных областях. Описанные взаимодействия критичны для связыва-

Рис. 3.11. Лиганды ST-205 (атомы углерода желтые), ST-84 (фиолетовые),


ST-127 (оранжевые) и ST-86 (зеленые) изображены вместе с контурами полей
GRID в соответствующих цветах. a — Контуры GRID, полученные с помощью
зонда «карбонильный кислород». Контур энергии –2,5 ккал/моль. б — Контуры
GRID, полученные с помощью зонда «sp2-NH с неподеленной парой». Контур
энергии –4 ккал/моль. в — Контуры GRID, полученные с помощью зонда «ионизи-
рованная алифатическая карбоксильная группа». Контур энергии –3,5 ккал/моль.
г — Контуры GRID, полученные с помощью зонда «ароматический sp2-CH». Кон-
тур энергии –1,2 ккал/моль
116 Молекулярное моделирование

ния с рецептором. Некоторые другие выгодные взаимодействия лиган-


дов и пробных атомов возникают лишь для отдельных членов ряда. Это
поведение показано на рис. 3.11, а, изображающем взаимодействие ли-
гандов с зондом «карбонильный кислород» — акцептором водородной
связи. Только амидные фрагменты лигандов ST-127 и ST-205 могут
быть донорами водородной связи, поэтому данное взаимодействие для
них выгодно. Тем не менее, поскольку все лиганды, изображенные на
рис. 3.11, связываются с рецептором с высокой аффинностью, это взаи-
модействие кажется менее важным. Информация, полученная из полей
GRID, может быть использована для предположений о строении центра
связывания в рецепторе. В нашем случае с антагонистами D3-рецептора
скорее всего взаимодействует аминокислота — донор водородной связи,
аминокислота, образующая солевой мостик, а также липофильные ами-
нокислоты. Относительное пространственное расположение этих ами-
нокислот может соответствовать расположению соответствующих по-
лей GRID.

3.2. Анализ 3DQSAR


Для сорока антагонистов рецептора D3 (табл. 3.1—3.3) было построено
наложение фармакофорных конформаций методом FlexS. Уточнение
наложения производилось утилитой Multifit из программного пакета
SYBYL (детальное описание методологии см. в [1]). Полученное наложе-
ние 40 лигандов изображено на рис. 3.12. Затем были вычислены поля
взаимодействий GRID с использованием различных пробных атомов,
расположенных в каждом узле решетки, в которую заключены все ли-
ганды. Размер решетки был выбран таким образом, чтобы она простира-
лась примерно на 4 C от структур лигандов. Поля рассчитывались с ис-
пользованием шага решетки 1 C, в результате чего для каждого
соединения были получены 14580 значений энергии взаимодействия
лиганда и пробных атомов.

Рис. 3.12. Наложение всех антагонистов D3-рецептора в фармакофорной кон-


формации
Глава 3. Пример моделирования малых молекул 117

3.2.1. Уменьшение числа переменных


и регрессия частичных наименьших квадратов
Прежде всего в программе GOLPE с помощью главных компонент мы
проанализировали, взаимодействие с каким пробным атомом GRID луч-
ше всего описывает выборку антагонистов D3-рецептора. Было обнаруже-
но, что таким атомом является гидроксильный (OH) зонд. В связи с этим
дальнейший анализ проводили для гидроксильной модели.
Как уже говорилось в разд. 2.6.2.2, большое число переменных (т. е.
энергий взаимодействия) в дескрипторной матрице проблематично для
статистического анализа в методах многомерных проекций. Лишь не-
многие полученные значения энергии взаимодействия несут полезную
информацию, в то время как другие лишь приводят к шуму в статисти-
ческом анализе. Поэтому был проведен отбор переменных и построена
модель методом PLS в программе GOLPE [7].
Предварительная обработка данных началась с удаления тех из
14580 переменных, которые принимали только два или три значения
или имели абсолютное значение < 10–7 ккал/моль. После проведения
такого отбора остались 13556 переменных. Они были разбиты на классы
с помощью анализа главных компонент, после чего была построена
предварительная модель PLS с перекрестного контролем методом LOO.
Процедуру уменьшения числа переменных повторили несколько раз ме-
тодом D-оптимального предварительного отбора, реализованным в про-
грамме GOLPE, после чего получили модель PLS на 1682 переменных,
которая не отличалась от первой модели по качеству, контролируемому
методом LOO. Для окончательного уменьшения числа переменных и по-
строения рабочей модели был выбран метод плана факторного экспери-
мента с дробными репликами (FFD) в комбинации с интеллектуальным
определением областей (Smart Region Definition, SRD) [8]. Как уже упо-
миналось в разд. 2.6.2.2, этот метод отбора переменных позволяет эф-
фективно отбирать те из них, которые способствуют увеличению пред-
сказательной способности моделей. Валидацию окончательной модели
проводили как методом LOO, так и исключением 20% соединений. Ме-
тоды исключения группы (например, исключение 20%) приводят к бо-
лее высокой надежности модели, чем обычная процедура LOO.

å (yobs - ycalc ) ,
2
R2 = 1- (1)
å (yobs - ymean )
2

(yobs - ycalc )2
SDEC = å N
, (2)

å (yobs - y pred )
2
2
Q = 1- (3)
å (yobs - ymean )
2
118 Молекулярное моделирование

Таблица 3.5. Модели PLS (три главные компоненты)


Число Метод Метод
R2 SDEC Q2 SDEP
переменных отбора валидации
13665 — 0,9545 0,1863 0,7041 0,4753 LOO
6728 D-опти- 0,9545 0,1863 0,7041 0,4753 LOO
мальный
3364 D-опти- 0,9545 0,1863 0,7041 0,4753 LOO
мальный
1682 D-опти- 0,9545 0,1683 0,7044 0,4751 LOO
мальный
799 SRD—FFD 0,9673 0,1580 0,8743 0,3098 LOO
799 SRD—FFD 0,9673 0,1580 0,8549 0,3328 «исключе-
ние 20%»

(yobs - y pred )
2

SDEP = å N
(4)

где: yobs — экспериментальное значение; ycalc — расчетное значение;


ypred — предсказанное значение; ymean — среднее значение; N — число
объектов.
Результаты анализа 3D-QSAR представлены в табл. 3.5. Методы LOO
и исключения 20% дают высокие значения Q2, что свидетельствует о
надежности и внутренней предсказательной способности модели. Для
построения моделей были использованы три главных компоненты.
Качество моделей описывается такими характеристиками, как число
переменных, значения коэффициента корреляции R2 (уравнение (1)),
стандартной ошибки коррекции SDEC (Standard Error of Correction)
(уравнение (2)), коэффициента корреляции перекрестного контроля Q2
(уравнение (3)) и стандартной ошибки прогноза SDEP (уравнение (4)).
На рис. 3.13 изображена корреляция между предсказанными и экспери-
ментально определенными значениями pKi для окончательной модели
после перекрестного контроля методом LOO.

3.2.2. Валидация модели


На следующем этапе была проверена правильность выбора метода
3D-QSAR. Как говорилось в разд. 2.6, обработка больших объемов дан-
ных статистическими методами может привести к случайной корреля-
ции. Для того чтобы убедиться в неслучайности корреляции, была про-
ведена проверка методом перемешивания: значения констант связыва-
ния были перемешаны и отнесены к лигандам случайным образом. Для
этой системы была построена модель PLS и проведена процедура умень-
Глава 3. Пример моделирования малых молекул 119

Рис. 3.13. Модель PLS после перекрестного контроля методом LOO

шения числа переменных способом, описанным выше. Итоговая модель


была подвергнута перекрестному контролю методом LOO. Процедуру
перемешивания и построения модели повторили 10 раз. Характерис-
тики полученных моделей приведены в табл. 3.6.

Таблица 3.6. Модели, построенные после перемешивания значений констант


связывания

Модель R2 SDEC Q2 SDEP


1 0,7449 0,4413 –0,4612 1,0562
2 0,7871 0,4032 0,1757 0,7923
3 0,7874 0,4028 0,2367 0,7634
4 0,8521 0,3360 0,3356 0,7122
5 0,8066 0,3843 0,2233 0,7700
6 0,8719 0,3129 0,3979 0,6780
7 0,7481 0,4385 –0,4564 1,0545
8 0,8176 0,3732 –0,2714 0,9852
9 0,9128 0,2581 –0,1091 0,9202
10 0,8010 0,3898 –0,0810 0,9085
120 Молекулярное моделирование

Интересно, что для каждой модели получены достаточно высокие


значения коэффициента корреляции, но ни одна из них не проходит пе-
рекрестный контроль: значения Q2 лежат в диапазоне от –0,4564 до
0,3979. Значения SDEC и SDEP также высоки по сравнению с исходной
моделью. Такие результаты означают, что этим методом можно строить
хорошие модели только для соединений с правильными значениями кон-
стант связывания.

3.2.3. Прогноз для внешней выборки лигандов


На последней стадии необходимо проверить предсказательную способ-
ность модели на лигандах, не использованных для ее построения
(табл. 3.7). Для 12 лигандов, синтезированных и испытанных в тех же
лабораториях, что и лиганды обучающей выборки [9–11], было проведе-
но предсказание значений констант связывания и сравнение их с реаль-
ными величинами. Поскольку эти соединения были синтезированы и
испытаны позже и не были использованы при построении модели, они

Таблица 3.7. Структуры лигандов внешней контрольной выборки


Предсказан- Наблюдае-
Соединение Структурная формула ное зна- мое зна-
чение pKi чение pKi
ST-73 7,33 6,62

ST-75 7,10 6,66

ST-76 7,32 6,71

ST-78 7,02 6,39


Предсказан- Наблюдае-
Соединение Структурная формула ное зна- мое зна-
чение pKi чение pKi
ST-87 7,91 7,62

ST-104 8,04 8,69

ST-106 7,57 7,12

ST-109 7,70 6,97

ST-111 7,32 6,75

ST-115 7,59 7,13

ST-128 7,50 7,66

ST-129 8,10 8,55


122 Молекулярное моделирование

представляют собой истинно внешнюю контрольную выборку. Хими-


ческие структуры этих соединений приведены в табл. 3.7.
Для прогноза на внешней выборке значение SDEP составляет 0,57.
Обычно pKi находится в пределах ±0,5 от экспериментальных значе-
ний, поэтому в данном случае мы получили разумный результат. Как
часто бывает при предсказании для внешней выборки с помощью моде-
лей 3D-QSAR, разница между истинными и предсказанными значения-
ми максимальна для наиболее и наименее активных соединений: для
наиболее активных антагонистов прогноз занижает активность, а для
наименее активных — завышает ее.

Цитированная литература
1. Hackling, A., Ghosh, R., Perachon, S. et al. (2003) N-(omega-(4-(2-methoxy-
phenyl)piperazin-1-yl)alkyl)carboxamides as dopamine D2 and D3 receptor li-
gands. Journal of Medicinal Chemistry, 46, 3883–99.
2. Pilla, M., Perachon, S., Sautel, F. et al. (1999) Selective inhibition of cocaine-
seeking behaviour by a partial dopamine D3 receptor agonist. Nature, 400,
371–75.
3. Moore, K. W., Bonner, K., Jones, E. A. et al. (1999) 4-N-linked-heterocyclic pi-
peridine derivatives with high affinity and selectivity for human dopamine D4
receptors. Bioorganic & Medicinal Chemistry Letters, 9, 1285–90.
4. Avenell, K. Y., Boyfield, I., Coldwell, M. C. et al. (1998) Fused aminotetralins:
novel antagonists with high selectivity for the dopamine D3 receptor. Bioorganic
& Medicinal Chemistry Letters, 8, 2859–64.
5. Lemmen, C., Lengauer, T., and Klebe, G. (1998) FLEXS: a method for fast flexi-
ble ligand superposition. Journal of Medicinal Chemistry, 41, 4502–20.
6. GRID, Molecular Discovery Ltd., London, http://www.moldiscovery.com.
7. GOLPE, Multivariate Infometric Analysis, Perugia,
http://www.miasrl.com/golpe.htm.
8. Cruciani, G., Clementi, S., and Pastor, M. (1998) GOLPE-guided region selec-
tion. Perspectives in Drug Discovery and Design, 12, 71–86.
9. Mach, U., Hackling, A. E., Perachon, S. et al. (2004) Development of novel
1,2,3,A-tetrahydroisoquiniline derivatives and closely related compounds as po-
tent and selective dopamine D3 receptor ligands. Chembiochem, 5, 508–18.
10. Hackling, A. E. and Stark, H. (2002) Dopamine D3 receptor ligands with antago-
nist properties. Chembiochem, 3, 946–61.
11. Ghosh, R. (2002) Molecular Modelling Untersuchungen am Dоpamin D3
Rezeptor and Seinen Liganden, Ph. D. Thesis, Heinrich-Heine-University
Dusseldorf, Germany.
Моделирование белков.
4
Введение

4.1. Где и как получить информацию о белках


Вплоть до этой главы мы рассматривали малые молекулы; далее книга
будет посвящена биополимерам. Поскольку большинство известных ре-
цепторов и молекулярных мишеней представляют собой полипептиды,
мы будем обсуждать преимущественно моделирование белковых
структур.
Достоверность каждой модели сильно зависит от качества экспери-
ментальных данных, на которых базируется процедура построения ги-
потетической модели. Поэтому первым этапом построения модели всег-
да должно быть внимательное изучение литературных данных и баз дан-
ных и четкое уяснение уровня знаний о структуре исследуемого
биополимера. Весьма ценной, например, может быть информация о пол-
ной трехмерной структуре рецептора или фермента, полученная методом
РСА или ЯМР. После соответствующей обработки такая структура
может быть непосредственно использована для определения различных
свойств белка или исследования лиганд-белковых взаимодействий.
Число исследованных трехмерных структур белков быстро увеличива-
ется, но скорость накопления данных об аминокислотных последова-
тельностях значительно выше, и именно поэтому для подавляющего
большинства последовательностей трехмерная структура неизвестна.
С начала 1990-х гг. многие лаборатории проводят полный анализ ге-
номов таких организмов, как бактерии, дрожжи, мыши и человек. Бла-
годаря этим усилиям в общедоступных базах данных хранится огромное
количество информации. Главной задачей этих баз данных является не
столько хранение и поиск информации, сколько предоставление иссле-
дователям возможности сравнения нуклеотидных или аминокислотных
последовательностей для выявления подобий и различий. Поскольку
количество опубликованных последовательноcтей и объем информации
о структурах быстро увеличиваются, эффективный поиск может быть
выполнен лишь с использованием специализированного программного
обеспечения. К настоящему времени разработаны и внедрены различ-
ные алгоритмы взаимодействия графических пользовательских интер-
124 Молекулярное моделирование

фейсов с имеющимися базами данных, благодаря которым сравнение


вновь обнаруженной последовательности с имеющимися в базе может
быть проведено за считанные минуты. Тем не менее всегда очень важно
внимательно анализировать результаты и в случае необходимости изме-
нять критерии поиска по базе. С помощью программ анализа последова-
тельностей можно быстро определять различия между белками разных
биологических видов, а также белками здорового и больного индивиду-
умов. Одна из широко известных программ такого рода GCG [1] разрабо-
тана Генетической компьютерной группой из Висконсина (Genetic
Computer Group) и включена в программный пакет фирмы Accelrys [2].
Эта программа позволяет работать с несколькими базами данных, кото-
рые могут быть использованы для поиска структуры индивидуального
белка или ДНК. Настройка критериев поиска производится с помощью
ключевых слов (например, имен авторов, названий журналов или
семейств белков).
Многие базы нуклеотидных и белковых последовательностей под-
держиваются научным сообществом и доступны через интернет. База
нуклеотидных последовательностей Европейской лаборатории молеку-
лярной биологии (European Molecular Biology Laboratory, EMBL) [3],
также известная как EMBL-банк, представляет собой основное европей-
ское хранилище нуклеотидных последовательностей, которое создается
в сотрудничестве с GenBank (США) и Базой данных ДНК Японии (DNA
Database of Japan, DDBJ). Каждая из этих трех групп собирает часть
публикуемых во всем мире данных о последовательностях; обмен данны-
ми производится ежедневно. Главными источниками знаний о последо-
вательностях нуклеиновых кислот являются данные отдельных исследо-
вателей, проектов по секвенированию генома и заявок на патенты.
Центральное хранилище данных о последовательностях и функци-
ях белков — база данных Универсального белкового ресурса (Universal
Protein Resource, UniProt, http://www.uniprot.org) [4]. В ней содержат-
ся точно аннотированные белковые последовательности; бесплатно дос-
тупен для научного сообщества широкий спектр перекрестных ссылок и
интерфейсов запроса. База Uniprot поддерживается консорциумом, со-
стоящим из Европейского института биоинформатики (European Bio-
informatics Institute, EBI), Швейцарского института биоинформатики
(Swiss Institute of Bioinformatics, SBI) и Ресурса белковой информации
(Protein Information Resource, PIR). Каждый член консорциума многие
годы занимается поддержкой и аннотацией белковых баз данных: EBI и
SBI совместно создали базу Swiss-Prot & TrEMBL (Swiss-Protein and
Translated European Molecular Biology Laboratory), а PIR создал базу
белковых последовательностей (Protein Sequence Database, PIR-PSD) [5, 6].
Ранее эти базы существовали параллельно, различаясь количеством
белковых последовательностей и приоритетами в аннотации. Swiss-Prot
считалась «золотым стандартом» аннотации, поскольку имела всеох-
ватную сеть перекрестных ссылок, содержала ссылки на литературу и
результаты компьютерного анализа, проведенного экспертами. По-
скольку скорость накопления экспериментальных данных превышала
Глава 4. Моделирование белков. Введение 125

возможности экспертов Swiss-Prot, была создана база TrEMBL на основе


банка EMBL, в которую автоматически помещались аннотации для бел-
ков, не вошедших в Swiss-Prot. В то же время PIR занимался поддер-
жкой PIR-PSD и сопряженных баз, таких как база особо важных белко-
вых семейств (curated families). Впоследствии членами консорциума
было принято решение об объединении данных и совместном использо-
вании ресурсов.
Наиболее важной базой данных о трехмерных структурах макромо-
лекул является Банк белковых данных (Protein Data Bank, PDB) [7], до-
ступный через интернет (http://www.rcsb.org). В нем содержатся атом-
ные координаты структур белков и нуклеиновых кислот. Поскольку чис-
ло экспериментально определенных структур постоянно увеличивается,
база данных непрерывно обновляется (примерно 41 000 структур в конце
2006 г.)1. В ней возможен поиск информации по ключевым словам, та-
ким как имя автора, название журнала или часть последовательности.
На основе PDB были созданы несколько меньших структурных баз
данных, например HSSP (Homology-Derived Secondary Structure of
Protein) [8] и SCOP (Structural Classification Of Proteins) [9]. В HSSP на-
ходится информация о вторичной структуре белков, полученная путем
исследования гомологии между структурами из PDB и последователь-
ностями из Swiss-Prot. В базе SCOP упорядочены все известные структу-
ры белков на основе их эволюционных и структурных взаимоотноше-
ний; белковые домены группируются по видам и иерархически разделя-
ются на семейства, суперсемейства, укладки (folds) и классы.
Формат и организация информации в различных файлах структур-
ных данных имеют общие черты. Поскольку весьма широко использует-
ся формат PDB, мы кратко опишем этот стандартный формат файла дан-
ных о белке. Заголовок файла содержит общую информацию о белке; по-
сле заголовка следует информация об атомных координатах. Атомы,
относящиеся к стандартным аминокислотам, помечены в начале строки
ключевым словом ATOM; для различения индивидуальных белковых
цепей между блоками ATOM вводят ключевое слово TER. При чтении
файла программой моделирования связи между атомами типа ATOM
обычно достраиваются автоматически. Атомы, не относящиеся к стан-
дартным аминокислотам, помечаются ключевым словом HETATM; они
могут относиться к нестандартным аминокислотам или в случае ком-
плексов к молекуле лиганда или кофактора. Для этих молекул нет внут-
ренних стандартов связности, поэтому в конец файла добавляется мат-
рица связности, помеченная ключевым словом CONECT.
При чтении PDB-файла стандартными программами моделирова-
ния определение типов атомов в блоке HETATM зачастую происходит
некорректно. Следует уделять особое внимание правильному построе-
нию этого блока. Многие программы предлагают возможность автома-
тического определения типов атомов, но пользователь должен осозна-
вать, что эта процедура часто приводит к ошибочным молекулярным
1
По состоянию на ноябрь 2011 г. — 77 000 структур.
126 Молекулярное моделирование

структурам. Поэтому необходимо внимательно проверять структуры во


избежание ошибок, приводящих к неверной геометрии лигандов (эта
проблема обсуждалась в разделе 2.1.2).
Обычно структуры из PDB не содержат атомов водорода. В некото-
рых исследованиях ими можно пренебречь, однако при изучении ли-
ганд-белковых взаимодействий добавлять атомы водорода необходимо.
Для молекул лиганда также необходимо проверять правильность опре-
деления состояния гибридизации (тип атома) и протонирования (фор-
мальный заряд), в особенности в случае кислых и основных молекул.
Координаты атомов водорода также по умолчанию неизвестны для
молекул воды, вследствие чего они представлены в виде одиночных ато-
мов кислорода. Молекулы воды могут представлять собой кристаллиза-
ционную воду, находящуюся рядом с поверхностью белка, либо нахо-
диться в активном центре. В последнем случае имеет смысл использо-
вать их координаты в дальнейших исследованиях, поскольку они могут
быть так же критичны для конфигурации активного центра, как и кати-
оны, встречающиеся в кристаллической структуре, которые могут иг-
рать важную роль в связывании лиганда или ферментативной активнос-
ти, если они находятся в активном центре.
Подавляющее большинство программ моделирования могут без ка-
ких-либо проблем читать файлы данных, полученные непосредственно
из PDB, и трансформировать структурную информацию в трехмерное
изображение белка. Тем не менее при использовании эксперименталь-
ной информации стоит уделить внимание некоторым вещам.
Разрешение кристаллической структуры должно быть не хуже
2,5 C, иначе структурная информация не слишком надежна. Процесс
очистки белка — сложная задача, требующая больших временных за-
трат, и может случиться так, что из-за протеолитической активности
часть информации потеряется до того, как закончится процесс кристал-
лизации. Как следствие, иногда аминокислотные остатки могут отсут-
ствовать в структурном файле, что приводит к неполноте содержащейся
в нем информации.
Некоторые белки выполняют свою биологическую функцию только
в димерной или мультимерной форме. Нет никакого смысла исследо-
вать функциональность активного центра димерного белка, если в PDB-
файле присутствует лишь структура мономера. Новая версия интернет-
сайта PDB содержит информацию о биологической единице (biological
unit) и кристаллической форме каждой записи, позволяющую восстано-
вить структуру мультимера по структуре мономера.
С недавних пор метод ядерного магнитного резонанса (ЯМР) широко
используется для получения структурной информации о белках. Этот
метод особенно плодотворен в тех случаях, когда потерпели неудачу все
попытки вырастить достаточно большие кристаллы белка; дополни-
тельное преимущество метода ЯМР заключается в том, что на конфор-
мацию белка не оказывают влияния молекулы кристаллического окру-
жения. Поскольку исследование структуры этим методом проводится в
растворе, результаты сильно зависят от растворителя. Эксперименты в
Глава 4. Моделирование белков. Введение 127

неполярных растворителях приводят к переоценке роли водородных


связей, поэтому исследование водных растворов белков дает более реа-
листичную картину структуры белка.
Объем информации о белках очень велик и постоянно увеличивает-
ся, но до сих пор большинство доступных баз данных содержат инфор-
мацию о первичных структурах. Для того чтобы построить трехмерную
модель белка с помощью этих данных, необходимо использовать методы
выравнивания и моделирования белков по гомологии. Их подробное
обсуждение будет дано в разд. 4.3.

Цитированная литература
1. Devereux, J., Haeberli, P. and Smithies, O. (1984) A comprehensive set of se-
quence analysis programs for the VAX. Nucleic Acids Research, 12, 387–95.
2. Genetics Computer Group (GCG), Accelrys Inc., San Diego.
http://www.accelrys.com.
3. Emmert, D. B., Stoehr, P. J., Stoesser, G. and Cameron, G. N. (2994) The Euro-
pean Bioinformatics Institute (EВI) databases. Nucleic Acids Research, 22,
3445–49.
4. Bairoch, A., Apweiler, R., Wu, C. H. et al. (2005) The universal protein resource
(UniProt). Nucleic Acids Research, 33, D154–59.
5. Bairoch, A. and Boeckmann, B. (1994) The SWISS-PROT protein sequence data
bank: current status. Nucleic Acids Research, 22, 3578–80.
6. George, D. G., Barker, W. C., Mewes, H.-W. et al. (1994) The PIR-international
protein sequence database. Nucleic Acids Research, 22, 3569–73.
7. Berman, H. M., Westbrook, J., Feng, Z. et al. (2000) The Protein Data Bank. Nu-
cleic Acids Research, 28, 235–42.
8. Sander, C, and Schneider, R. (1994) The HSSP database of protein structure-se-
quence alignments. Nucleic Acids Research, 22, 3597–99.
9. Lo Conte, L., Brenner, S. E., Hubbard, T. J. P. et al. (2002) SCOP database in 2002: re-
finements accommodate structural genomics. Nucleic Acids Research, 30, 264–67.

4.2. Принципы организации структуры белков.


Терминология
Выделяют четыре уровня организации трехмерной структуры белков:
первичную, вторичную, третичную и четвертичную структуру.
1. Первичная структура — это линейная последовательность амино-
кислотных остатков в белке.
2. Вторичная структура описывает локальную архитектуру линей-
ных сегментов полипептидной цепи (a-спиралей, b-листов) без учета
конформаций боковых цепей. Недавно был предложен новый тер-
мин «мотив» (супервторичная структура), описывающий другой
уровень организации: ассоциацию элементов вторичной структуры
благодаря взаимодействиям боковых цепей.
128 Молекулярное моделирование

3. Третичная структура — общая топология свернутой полипептид-


ной цепи.
4. Четвертичная структура — пространственная (трехмерная) упа-
ковка субъединиц или мономеров в функциональном белке.
Благодаря способности полипептидных цепей укладываться в функ-
циональные белки не только in vivo, но и in vitro, в настоящее время
считается, что большинство особенностей структуры и организации
конкретного белка напрямую зависит от свойств конкретной последова-
тельности аминокислот, составляющих полипептидную цепь, т. е. от
первичной структуры. Среди этих свойств — свойства боковых цепей
каждого аминокислотного остатка и влияние основной цепи на конфор-
мацию белковой молекулы в целом. Эта информация достаточна для по-
нимания трехмерной структуры белка. Детальное описание всех факто-
ров, влияющих на конформацию белка, выходит за рамки данного
раздела; основные характеристики изложены в следующих главах.
Подробное описание принципов строения белка читатель может найти в
литературе [1–4].

4.2.1. Конформационные свойства белков


В природных белках чаще всего встречаются всего лишь 20 аминокис-
лот. Они заметно различаются по таким свойствам своих боковых це-
пей, как размер, форма, гидрофобность, заряд, способность к образова-
нию водородных связей. Однако они не обладают ни высокой реакцион-
ной способностью, ни, за исключением пролина, значительными
ограничениями степеней свободы. При рассмотрении пространственной
структуры белков наиболее важным является вопрос о том, как боковые
цепи взаимодействуют друг с другом и с основной цепью, какую роль
они играют в различных типах вторичных и третичных структур белка.
Кроме линейной связности и стерического объема остатков, определяю-
щее влияние аминокислотной последовательности белка на его конфор-
мационные свойства проявляется за счет способности остатков образо-
вывать водородные связи, а также благодаря хиральности всех, за ис-
ключением глицина, аминокислотных остатков. Все 19 хиральных
аминокислот относятся к L-ряду; по системе Кана-Ингольда-Прелога
они обладают S-конфигурацией, за исключением L-цистеина, R-конфи-
гурация которого определяется изменением в приоритете заместителей.
Для понимания информации о конкретных белках необходимо
знать способы обозначения индивидуальных атомов и структурных эле-
ментов белка. Все атомы, углы между связями и торсионные углы обо-
значаются с помощью букв греческого алфавита. Первый атом углерода
от пептидной связи обозначается буквой a, а атомы боковой цепи — b, g,
d, e и z в алфавитном порядке, начиная с a-атома. Белковая цепь состав-
лена из повторяющихся последовательностей трех атомов, относящих-
ся к одному аминокислотному остатку — амидного азота N, атома Ca и
карбонильного углерода C¢; обычно эти атомы обозначают как Ni, Cia и
Глава 4. Моделирование белков. Введение 129

Рис. 4.2.1. Обозначение атомов и торсионных


углов белка

Ci¢ соответственно, где i — это номер остатка, начиная с N-конца белко-


вой цепи. На рис. 4.2.1 приведен фрагмент полипептидной цепи, иллюс-
трирующий основные соглашения об обозначениях.
Торсионные углы белковой цепи называются j («фи»), y («пси») и
w («омега»). Вращение вокруг связи N—Ca характеризуется торсион-
ным углом j, вращение вокруг связи Ca—C¢ — углом y, а вращение вок-
руг пептидной связи — углом w. Торсионные углы боковых цепей обо-
значаются cj («хи1», «хи2» и т. д.), где j — номер связи, отсчитываемый
от Ca-атома.
Пептидная связь обычно планарна, поскольку имеет частично при-
роду двойной связи и почти всегда транс-конфигурацию (w = 180°), ко-
торая энергетически более благоприятна, чем цис- (w = 0°). Цис-конфи-
гурация иногда (~10% случаев) встречается у остатков пролина. Неболь-
шие отклонения от планарности цис- или транс-формы (Dw < 20°)
считаются энергетически приемлемыми.
Вариации углов j и y геометрически ограничены из-за взаимодей-
ствий с соседними непосредственно не связанными атомами. Разрешен-
ные значения j и y были впервые определены и проанализированы Ра-
мачандраном с сотр. [5]. Они систематически исследовали торсионные
углы в компьютерных моделях небольших пептидов, пытаясь выявить
стабильные конформации. Для каждой конформации, характеризую-
щейся определенной комбинацией значений j и y, искали близкие меж-
атомные контакты. Была использована достаточно грубая модель, в ко-
торой атомы рассматривались как жесткие сферы, а геометрия связей
была фиксирована. Только те значения j и y, для которых в этой модели
не было обнаружено близких контактов, считаются разрешенными;
обычно их представляют в виде двумерной карты, называемой картой
Рамачандрана. Поскольку углы j и y позволяют практически исчерпы-
вающе описать конформацию основной цепи, карта Рамачандрана явля-
ется простым и надежным способом проверки достоверности трехмер-
ной структуры белка.
130 Молекулярное моделирование

Рис. 4.2.2. Карта Рамачан-


драна для полиаланина

На рис. 4.2.2 в качестве примера приведена карта Рамачандрана для


полиаланина. Бoльшая часть карты (белый цвет) относится к конфор-
мациям, где атомы полипептидной цепи расположены на расстояниях
меньших, чем сумма ван-дер-ваальсовых радиусов. Эти области стери-
чески запрещены для всех аминокислот, за исключением глицина. Для
глицина, у которого нет боковой цепи, доступна почти вся поверхность
карты. Затененные области относятся к конформациям, для которых
нет стерических препятствий, иными словами, это разрешенные области.
Область, расположенная непосредственно рядом с границами разрешен-
ной, включает конформации, приемлемые в случае, если допустимы не-
большие вариации углов между связями. Карты Рамачандрана для дру-
гих аминокислот имеют сходную форму областей.
Подобласти (j, y)-пространства обычно называют по элементам вто-
ричной структуры, которые возникают при повторении соответствую-
щих углов. Например, правозакрученной a-спирали отвечает область
внизу слева около (–60°, –40°); b-листам — обширная область слева
вверху вокруг (–120°, 140°); энергетически невыгодным левозакручен-
ным a-спиралям — область справа вверху (60°, 40°). Далее мы опишем
конформационные свойства и другие важные параметры элементов вто-
ричной структуры.

4.2.2. Элементы вторичной структуры белков


4.2.2.1. aСпираль
Правая a-спираль — наиболее известный и легко узнаваемый элемент
вторичной структуры белков [6, 7]. Примерно 35% аминокислотных
остатков известных глобулярных белков находятся в a-спиральной кон-
формации [8]. a-Спирали характеризуются повторяющейся вторичной
Глава 4. Моделирование белков. Введение 131

структурой, что означает, что все Ca-атомы аминокислот a-спиралей на-


ходятся в идентичных относительных позициях и поэтому пары торси-
онных углов (j, y) одинаковы для каждого остатка спирали. Структура
a-спирали повторяется каждые 5,4 C вдоль оси спирали, то есть шаг
a-спирали p = 5,4 C. На виток a-спирали приходится 3,6 аминокислот-
ных остатка, то есть 10 витков спирали состоят из 36 аминокислотных
остатков.
a-Спиральная структура стабилизируется повторяющимися водо-
родными связями между карбонильными функциями остатков с номе-
ром n и амидными NH остатков с номером (n + 4) (см. рис. 4.2.3), благо-
даря чему данное конформационное состояние энергетически выгодно и
отличается регулярностью структуры. В белках всегда наблюдаются
правозакрученные a-спирали, поскольку L-аминокислоты не могут
формировать обширные левозакрученные спирали, в которых Cb-атомы
контактировали бы со следующим витком спирали. Найдены лишь
отдельные остатки, которые обладают парами торсионных углов (j, y),
характерными для левых спиралей. Поэтому, говоря об a-спирали, мы
обычно имеем в виду правую a-спираль.
В природных белках геометрия a-спирали может немного отличаться
от идеала в зависимости от окружения. Идеальная a-спираль (j = –57°,
y = –47°) — лишь один из представителей семейства схожих структур
[6]. Более того, обычно в белках наблюдается несколько иная геометрия
a-спирали (j = –62°, y = –41°); эта конформация более выгодна, чем иде-
альная a-спираль, поскольку она позволяет карбонильному кислороду
остатка n образовывать водородные связи не только с NH-группой
(n + 4)-го остатка, но и с водой или другими донорами водородной связи.
Боковые цепи a-спирали направлены в окружающее пространство.
Существуют различные ограничения на их конформации, в особенности

Рис. 4.2.3. Общая архитектура a-спирали


132 Молекулярное моделирование

для разветвленных боковых цепей (Val, Ile, Thr). a-Спиральная конфор-


мация неприемлема для остатков пролина, поскольку амидный азот
входит в состав цикла, что не позволяет ему выступать в качестве донора
при образовании водородной связи. Если одиночный остаток пролина
входит в длинную a-спираль (например, в некоторые трансмембранные
спирали бактериородопсина), возникает локальное нарушение геомет-
рии спирали.
Варианты классической a-спирали, в которой основная цепь белка
свернута более плотно или менее плотно (с водородными связями от
остатка n к остаткам (n + 3) или (n + 5)), называются, соответственно,
310-спиралью и p-спиралью. В большинстве случаев эти типы спиралей
не играют определяющую роль в архитектуре белков. Последний виток
классических a-спиралей часто представляет собой 310-спираль.
4.2.2.2. bЛист
b-Лист — это второй часто встречающийся и легко распознаваемый пе-
риодический элемент вторичной структуры [9, 10]. b-Листы состоят из
b-цепей (b-strands), характеризующихся линейной (развернутой) кон-
формацией полипептидной цепи (j = –120°, y = 140°). Поскольку взаи-
модействия между аминокислотами одной и той же b-цепи, если эти
аминокислоты не соседи, невозможны, она устойчива только во вто-
ричной структуре b-листа. Как и в случае a-спиралей, все доноры и ак-
цепторы белковой цепи участвуют в образовании водородных связей;
тем не менее, поскольку эти водородные связи ближе к межмолекуляр-
ным, чем к внутримолекулярным, b-листы менее устойчивы по сравне-
нию с a-спиралями. В отличие от a-спиралей, составленных из амино-
кислотных цепей, b-листы оказывают значительно большее упорядо-
чивающее влияние на структуру белковой молекулы, поскольку
несколько b-цепей распределены вдоль полипептидной цепи.
Соседние b-цепи могут быть расположены параллельно или антипа-
раллельно друг другу. В параллельных листах цепи направлены в одну
и ту же сторону (рис. 4.2.4, а), а в антипараллельных — в противопо-
ложные (рис. 4.2.4, б).
В b-листах боковые цепи располагаются приблизительно перпенди-
кулярно плоскости водородных связей между отдельными цепями;
вдоль цепи их направление чередуется. В случае антипараллельных
b-листов обычно одна сторона листа направлена внутрь белка, а дру-
гая — в сторону растворителя, поскольку в первичной структуре череду-
ются гидрофобные и гидрофильные остатки. Обе стороны параллельных
b-листов обычно находятся внутри белка, поэтому центральные остатки
преимущественно гидрофобны, а гидрофильные расположены главным
образом на концах b-цепей. В обоих случаях крайние цепи могут быть
значительно более гидрофильны, чем центральные.
Структура b-листа широко распространена в глобулярных белках
(около 24%) [8]. Они могут состоять как исключительно из параллель-
Глава 4. Моделирование белков. Введение 133

Рис. 4.2.4. Архитектура параллельных (а) и антипараллельных (б) b-листов

ных или антипараллельных листов, так и из их смеси. Чисто параллель-


ные листы довольно редки, в то время как чисто антипараллельные
встречаются довольно часто; они могут состоять из двух или трех цепей,
в то время как параллельные листы состоят минимум из четырех. Число
цепей в листах смешанного типа — от 3 до 15.
В большинстве случаев периодические структурные элементы белка
(a-спирали и b-листы) довольно коротки. Длина a-спирали обычно со-
ставляет 10–15 остатков (12–22 C), а одиночная b-цепь обычно состоит
из 3–10 остатков (7–30 C). Большинство описанных выше идеальных
геометрий спиралей и листов редко встречаются в природе. Реальные
листы и спирали более или менее искривлены: очень часто при контакте
a-спирали с растворителем происходит искривление оси спирали; боль-
шинство b-листов в свернутых белках не планарны, а слегка скручены,
угол скручивания между отдельными цепями может быть от 0° до 30°.

4.2.2.3. Петли
Приблизительно треть аминокислотных остатков глобулярных белков
находится в петлях (turns). Структурная функция петель — изменять и
разворачивать направление полипептидной цепи. Зачастую они нахо-
134 Молекулярное моделирование

дятся на поверхности белка и поэтому преимущественно содержат иони-


зированные (заряженные) и полярные аминокислотные остатки.
Существуют различные типы упорядоченных и неупорядоченных бел-
ковых петель. Их характерные особенности зависят, например, от типа
вторичных структур, которые они соединяют. Детальное описание раз-
личных типов петель читатель может найти в литературе [1–4, 11, 12].
Петли, соединяющие антипараллельные b-цепи, обычно называют
b-петлями или шпильками (hairpin bends) [12]. Около 70% шпилек ко-
роче семи остатков; чаще всего они состоят из двух остатков. Конформа-
ция бoльших петель отличается значительно меньшей определенностью
и часто подвергается влиянию со стороны остальной части белка. Во
всех петлях пептидные фрагменты не спарены регулярными водородны-
ми связями и доступны для растворителя, поскольку петли и шпильки
часто встречаются на поверхности белка.
В данном разделе описаны лишь самые общие правила организации
белковой архитектуры. Каждый природный белок уникален и приобре-
тает свой функциональный и структурный характер благодаря специ-
фичным нековалентным взаимодействиям. Поэтому необходимо срав-
нивать любую структуру, построенную с помощью компьютера, с реаль-
ными трехмерными структурами белков и использовать в процессе
моделирования как можно больше информации о реальных белковых
структурах.
Схемы мотивов вторичной структуры сложного белка весьма полез-
ны для понимания его общей структуры. Обычно при таком изображе-
нии белка опускают боковые цепи для того, чтобы получить более чет-
кую картину различных элементов вторичной структуры белка в целом.
Спирали часто изображают в виде цилиндров или свернутых лент, а
b-цепи — с помощью толстых стрелок, направленных от аминоконца
цепи к С-концу. Трехмерная структура триозофосфатизомеразы пред-
ставлена на рис. 4.2.5.

Рис. 4.2.5. Трехмерная струк-


тура триозофосфатизомеразы,
представленная в упрощенной
форме с использованием про-
граммы MOLSCRIPT [13]
Глава 4. Моделирование белков. Введение 135

4.2.3. Гомологичные белки


Давно известно, что мутационный механизм молекулярной эволюции
приводит к дивергенции и, как следствие, появлению семейств род-
ственных белков с похожими аминокислотными последовательностями
и трехмерными структурами. Белки, произошедшие от общего предка,
называют гомологичными. Две гомологичных последовательности мо-
гут обладать разной степенью подобия: от почти полной идентичности
до полной непохожести друг на друга вследствие большого количества
мутаций. Подобие последовательностей гомологичных белков в ходе
эволюции сохраняется хуже, чем структурное подобие. Другими слова-
ми, трехмерные структуры гомологичных белков консервативны, по-
скольку структурное подобие критично для сохранения функции белка.
Консервативность структуры белка была обнаружена во многих белко-
вых семействах. В качестве примера можно привести структуры a-хи-
мотрипсина и трипсина — оба относятся к семейству сериновых проте-
аз. Они очень похожи друг на друга, хотя лишь 44% аминокислотных
остатков в обеих последовательностях идентичны. Топологическое по-
добие этих белков легко видеть на рис. 4.2.6. Другие представители се-
мейства сериновых протеаз изменились в ходе эволюции более ради-
кально: например, бактериальные сериновые протеазы идентичны
протеазам млекопитающих (тромбину, трипсину, химотрипсину) лишь
на 20%. Тем не менее, если рассматривать подобие трехмерных струк-
тур, можно увидеть, что основные особенности структуры сохраняются
в ходе эволюции.
Вдумчивый исследователь может сразу задаться вопросом: как
столь большие различия первичных последовательностей могут быть со-
вместимы с наблюдаемым структурным подобием? Ответ на этот вопрос
был найден опытным путем и может быть кратко обобщен следующим
образом. Наиболее заметные различия обычно возникают в областях,
близких к поверхности белка, в районе петель. В этих областях часто
меняются даже физико-химические свойства боковых цепей. Остатки,

Рис. 4.2.6. Трехмерные структуры двух гомологичных белков (красным цве-


том изображены a-спирали, синим — b-цепи, желтым — основная цепь белка)
136 Молекулярное моделирование

расположенные внутри белка, варьируются реже и менее широко, вслед-


ствие чего остов белка и основные элементы вторичной структуры в се-
мействе гомологичных белков остаются высококонсервативными.
Элементы вторичной структуры гомологичных белков могут дви-
гаться друг относительно друга, меняться по длине или даже бесследно
исчезать. Впрочем, обычно a-спираль не заменяется на b-лист и наоборот.
Более того, у различных белков одного семейства ни порядок, ни ориен-
тация (параллельная или антипараллельная) b-цепей не меняется.
Подводя итог, можно сказать, что общие конформации гомологич-
ных белков сохраняются в ходе эволюции. На этом факте основан метод
моделирования белков по гомологии, который будет описан в следую-
щем разделе.

Цитированная литература
1. Creighton, T. E. (1992) Proteins: Structures and Molecular Properties, 2nd edn,
W H. Freeman and Company, New York.
2. Branden, C. and Tooze, J. (1991) Introduction to Protein Structure, Garland
Publishing, New York.
3. Schulz, G. E. and Schirmer, R. H. (1979) Principles of Protein Structure,
Springer-Verlag, New York.
4. Fasman, G. D. (1989) Prediction of Protein Structure and the Principles of Pro-
tein Conformation, Plenum Press, New York.
5. Ramachandran, G. N. and Sasisekharan, V. (1968) Conformation of polypeptides
and proteins. Advances in Protein Chemistry, 23, 283–437.
6. Pauling, L., Corey, R. B., and Branson, H. R. (1951) The structure of proteins; two
hydrogen-bonded helical configuration of the polypeptide chain. Proceeding of the
National Academy of Sciences of the United States of America, 37, 205–11.
7. Barlow, D. J. and Thornton, J. M. (1988) Helix geometry in proteins. Journal of
Molecular Biology, 201, 601–19.
8. Kabsch, W. and Sander, C. (1983) Dictionary of protein secondary structure:
pattern recognition of hydrogen bonded and geometrical features. Biopolymers,
22, 2577–637.
9. Chou, K. C., Pottle, M., Nemethy, G. et al. (1982) Structure of beta-sheets. Ori-
gin of the right-handed twist and of the increased stability of antiparallel over
parallel sheets. Journal of Molecular Biology, 162, 89–112.
10. Pauling, L. and Corey, R. B. (1951) Configurations of polypeptide chains with fa-
vored orientation around single bonds: two new pleated sheets. Proceedings of
the National Academy of Sciences of the United States of America, 37, 729–40.
11. Rose, G. D., Gierasch, L. M., and Smith, J. A. (1985) Turns in peptides and pro-
teins. Advances in Protein Chemistry, 37, 1–109.
12. Sibanda, B. L. and Thornton, J. M. (1985) Beta-hairpin families in globular pro-
teins. Nature, 316, 170–74.
13. Kraulis, P. J. (1991) MOLSCRIPT: a program to produce both detailed and sche-
matic plots of protein structures. Journal of Applied Crystallography, 24, 946–50.
Глава 4. Моделирование белков. Введение 137

4.3. Моделирование белков по гомологии


Как уже говорилось в разд. 4.1, большой объем информации о первичных
и вторичных структурах белков хранится в различных базах данных.
Определение последовательности белка — рутинная задача многих моле-
кулярно-биологических лабораторий. В последние годы в рамках проек-
та «Геном человека» частота и скорость публикаций первичных структур
значительно увеличились: в базе данных UniProt доступны последова-
тельности более чем 3 млн белков. Тем не менее переход от последователь-
ностей к установлению («решению») трехмерных структур с помощью
рентгеновской кристаллографии или ЯМР требует значительно больше
времени. В зависимости от типа белка полное решение его структуры мо-
жет занять больше года [1], вследствие чего число известных последова-
тельностей значительно превышает число известных структур: в базе дан-
ных PDB доступны структуры более чем 40 000 белков (на конец 2006 г.)1.
В связи с техническими проблемами, сопряженными с эксперименталь-
ным установлением трехмерных структур, ощущается потребность в раз-
работке теоретических методов предсказания трехмерной структуры на
основе аминокислотной последовательности. Поскольку на данный мо-
мент пока не предложены общие правила укладки белковых цепей, пред-
сказание структуры можно строить на конформациях доступных гомоло-
гичных белков [2–4] (принципы, лежащие в основе идеи, см. в разд. 4.2).
Если обнаружено, что исследуемый белок гомологичен другому бел-
ку с известной трехмерной структурой, то для предсказания структуры
исследуемого белка можно использовать метод моделирования по гомо-
логии2. Идея метода состоит в использовании накопленного объема зна-
ний об уже известных структурах белков. Построение модели начинает-
ся со сравнения последовательности нового белка с последовательностя-
ми всех белков с известной структурой, хранящимися в базе данных.
Белки, для которых обнаружена гомология с исследуемым белком, из-
влекаются из базы и используются в качестве шаблонов для предсказа-
ния структуры неизвестного белка. Этот метод был предложен несколь-
кими авторами [5–8] и описан более подробно в следующих разделах.
Успех моделирования по гомологии сильно зависит от того, на-
сколько близка структура моделируемого белка к структуре выбранного
шаблона [9]. Поскольку наше понимание механизмов укладки белка в
настоящее время весьма ограничено, единственным критерием, приме-
нимым для определения возможности предсказания структуры, остает-
ся мера идентичности последовательностей белков с известными струк-
турами. Многие исследования показали, что структурная гомология со-
храняется, даже если сходство последовательностей невозможно
обнаружить, но для целей моделирования, основанного на гомологии,
наличие сходства последовательностей имеет самое важное значение.

1
См. прим. на с. 125.
2
В русскоязычной литературе встречаются также синонимы: гомологическое моделиро-
вание и сравнительное моделирование.
138 Молекулярное моделирование

Предсказание структурного сходства между различными белками мо-


жет базироваться только на определении идентичностей в последова-
тельностях. Поэтому сравнение последовательностей с использованием
методов выравнивания является важнейшим шагом моделирования по
гомологии и будет описано в деталях в разд. 4.3.1.
Традиционное моделирование по гомологии включает следующие
шаги:
1. поиск белков, родственных изучаемому белку;
2. идентификация консервативных и вариабельных областей;
3. выравнивание последовательностей исследуемого белка и шаблон-
ного белка (белков) в консервативных областях;
4. конструирование консервативных областей белка-мишени с исполь-
зованием координат шаблонных структур;
5. конструирование структурно вариабельных областей;
6. моделирование боковых цепей;
7. оптимизация структуры с помощью методов минимизации энергии
и молекулярной динамики.

4.3.1. Методы выравнивания последовательностей


Первый этап сравнительного моделирования — отнесение белка с неиз-
вестной структурой к определенному семейству. Во многих случаях эта
информация уже имеется, поскольку обычно белок принадлежит к хо-
рошо известному семейству. Впрочем, это может быть и не так. В таком
случае необходимо сравнить новую последовательность с тысячами по-
следовательностей, хранящихся в базах данных, и выявить гомологич-
ные последовательности, если это возможно.
В прошлом идентификация новых белков с помощью поиска в базах
данных была сложным и длительным процессом. Компьютерные про-
граммы требовали многих часов работы либо значительных ограниче-
ний чувствительности или селективности поиска. В последние десяти-
летия были разработаны эвристические методы решения этой задачи
[10-13], которые не всегда гарантируют нахождение наиболее оптималь-
ного решения, но на практике редко упускают значительные совпаде-
ния. Важнейшими среди этих методов являются FASTA [12] и BLAST
[13], реализованные в большинстве коммерчески доступных програм-
мных пакетов (например, HOMOLOGY [14], MODELLER [15],
COMРOSER [16], WHATIF [17], GCG [18]). Кроме того, они интегрирова-
ны в качестве поисковых инструментов в биологические базы данных и
интернет-сайты (например, www.expasy.org).
Главный метод, используемый для сравнения аминокислотных по-
следовательностей, называется выравниванием последовательностей.
В процедуре моделирования по гомологии этот метод важен по несколь-
ким причинам. Во-первых, он используется для поиска родственных по-
следовательностей в базах данных и идентификации консервативных
областей найденных белков с помощью упоминавшихся выше программ
Глава 4. Моделирование белков. Введение 139

FASTA, BLAST и PSI-BLAST, что важно для предположения о располо-


жении консервативных областей исследуемого белка. Во-вторых, вы-
равнивание используется для нахождения соответствий между амино-
кислотами шаблонного и моделируемого белков, которые представляют
собой основу для переноса координат шаблона на модель. Для решения
этой задачи необходимы более чувствительные и избирательные, чем
FASTA и BLAST, методы выравнивания, описанные далее.
Наиболее естественной процедурой выравнивания последовательнос-
тей могла бы быть простая запись их в табличной форме для визуального
анализа. Конечно, такой способ не может быть не только систематичным,
но и быстрым, в особенности если надо сравнивать более двух последова-
тельностей. В связи с этим были разработаны программы, способные вы-
полнять выравнивание автоматически [18–21]. Поскольку выравнивание
является важнейшим шагом моделирования по гомологии, было опубли-
ковано множество различных методов и программ и до сих пор разраба-
тываются новые. Их детальное обсуждение выходит за рамки данной
книги, но читатель может обратиться к литературе [12, 13, 18, 19].
Одна из первых попыток выяснить, существует ли структурное схо-
дство между белками благодаря гомологии или благодаря случаю, была
предпринята Нидлманом и Вуншем [20]. Варианты разработанного ими
алгоритма были в дальнейшем развиты другими исследователями и ис-
пользованы в различных областях. Программы, основанные на этом ал-
горитме, более чувствительны к нахождению сходства, чем программы
поиска в базах данных, но они значительно медленнее находят опти-
мальное выравнивание. Как следствие, компьютерные программы,
основанные на этом методе (например, ALIGN, BESTFIT и GAP, входя-
щие в состав программного пакета GCG [18]), широко используются для
сравнения белковых и нуклеотидных последовательностей. В то время
как оригинальный алгоритм Нидлмана и Вунша способен выравнивать
только две последовательности, большинство современных программ
позволяют выравнивать и большее число последовательностей. Методы
так называемого множественного выравнивания значительно сложнее,
чем методы попарного выравнивания вследствие того, что число воз-
можных выравниваний растет экспоненциально в зависимости от числа
сравниваемых последовательностей. Было разработано несколько про-
грамм, предлагающих приближенные решения этой проблемы, напри-
мер ClustalW, ClustalX [18] и MAXHOM [21].
В отличие от описанных выше методов исследования глобального
сходства последовательностей методы оптимального локального вы-
равнивания предназначены для поиска локального сходства и базиру-
ются на модифицированном алгоритме Нидлмана и Вунша. Они пред-
ставляют собой важный инструмент сравнения последовательностей, в
особенности при необходимости локализации высококонсервативных
областей, разбросанных по длинным последовательностям [22–24].
Основная идея этих методов заключается в рассмотрении лишь относи-
тельно консервативных подпоследовательностей гомологичных белков;
при этом непохожие области не включаются в рассмотрение (рис. 4.3.1).
140

Рис. 4.3.1. Множественное выравнивание последовательностей цефалоспориназ Enterobacter cloacae (ENTCL) и Citrobacter
freundii (CITFR) с пенициллиназами Escherichia coli (MEN1), Bacillus licheniformis (BALI) и Staphylococcus aureus (STAU).
Красным цветом отмечены консервативные области
Молекулярное моделирование
Глава 4. Моделирование белков. Введение 141

В процессе сравнения двух последовательностей алгоритмы вырав-


нивания пытаются воспроизвести результаты эволюционного процесса
превращения одной последовательности в другую. Для выполнения
этой операции требуется схема оценки, которая приписывает вес вырав-
ниванию каждой конкретной пары аминокислот с помощью матриц, в
которые сведены наиболее вероятные замены аминокислот в зависимос-
ти от их физических, химических и статистических свойств. Высокие
численные значения элементов матриц означают, что замена вероятна,
а низкие — что она вряд ли произойдет. Из многих существующих
типов матриц [25–29] наиболее часто используются:
— Единичная матрица. Простейшая матрица, в которой вес 1 присвоен
парам идентичных остатков и 0 — всем остальным.
— Матрица замены кодонов. Для каждой пары аминокислот исследу-
ются все возможные триплеты азотистых оснований ДНК, их коди-
рующие и число точечных мутаций, необходимых для замены ами-
нокислоты. Идентичные аминокислоты получают вес 9, пара с одной
мутацией — 3, пара с двумя мутациями — 1.
— Матрица мутаций, также известная как матрица Дэйхоффа или мат-
рица PAM250 [25]. Она получается путем подсчета числа замен каж-
дой конкретной аминокислоты, наблюдаемых в родственных белках
у различных видов. Большие веса приписываются идентичным и
часто взаимозаменяемым аминокислотам, а низкие веса — редким и
ненаблюдаемым мутациям. Такой метод расчета приводит к тому,
что некоторые неидентичные пары имеют больший вес, чем некото-
рые идентичные. Матрица Дэйхоффа, изображенная на рис. 4.3.2,
используется чаще всего, в частности, при поиске начального вырав-
нивания двух неизвестных последовательностей. Модификацию
матрицы Дэйхоффа предложил Грибсков [26]; максимальный вес в
ней всегда приписывается идентичным парам аминокислот.
— Матрица физических свойств. Оценочные значения соответствую-
щих матриц основаны на индексах сходства для различных физичес-
ких свойств аминокислот, таких, как гидрофобность, поляризуе-
мость или тенденция к спиральности [28].
Различия в длине последовательностей и в расположении консерва-
тивных областей усложняют процедуру выравнивания. Если возникает
одна или обе эти проблемы, в последовательность вставляют разрывы
(gaps) так, чтобы достигнуть одновременного выравнивания всех кон-
сервативных областей. Большое число разрывов делает выравнивание
бесполезным, поэтому для ограничения числа разрывов в алгоритмы
выравнивания вводится дополнительный фактор — функция штрафа
за разрыв (gap penalty function). Оптимальное выравнивание характе-
ризуется балансом между числом выравненных аминокислот и мини-
мальным числом разрывов.
Для оптимального выравнивания двух или большего числа последо-
вательностей необходима и достаточна комбинация алгоритма вырав-
нивания, оценочной матрицы и штрафной функции. Качество конкрет-
ного выравнивания описывается специальной величиной — мерой ка-
142 Молекулярное моделирование

Рис. 4.3.2. Матрица эволюционных мутаций Дэйхоффа

чества выравнивания. Важно понимать, что оптимальное выравнивание


будет таковым только для данного набора параметров; изменение пара-
метров может привести к другому выравниванию и другой величине
меры качества. Автоматическое выравнивание последовательностей да-
леко от идеала, поэтому его следует проверять на допустимость, прини-
мая во внимание всю имеющуюся информацию обо всех уровнях орга-
низации белка (первичной, вторичной и третичной структурах). По-
строенное выравнивание может быть использовано для моделирования
белка только в том случае, если оно согласуется со всеми имеющимися
структурными данными.
Другая фундаментальная проблема аминокислотных выравнива-
ний состоит в том, что распознаваемое подобие последовательностей те-
ряется в ходе эволюции быстрее, чем структурное подобие. В связи с
этим трудно сформулировать простые правила для степени подобия, что
необходимо для надежной демонстрации гомологичности двух белко-
вых последовательностей. Возможность такой демонстрации зависит от
длины и аминокислотного состава последовательностей. За последнее
десятилетие было проведено несколько исследований по количествен-
ной оценке соотношений между подобием структур и последователь-
ностей [30–32].
Глава 4. Моделирование белков. Введение 143

Дулитл с сотр. сформулировали несколько эмпирических правил,


которые могут упростить решение проблемы гомологии [30]. Если по-
следовательности длиннее 100 остатков и идентичны не менее, чем на
25% (с соответствующими разрывами), то весьма вероятно, что эти по-
следовательности родственны. Если идентичность составляет 15–25%,
то последовательности могут быть родственны, а могут и не быть. Если
же идентичность последовательностей меньше 15%, то скорее всего
такие последовательности не родственны.
Для того чтобы принять решение в области идентичностей 15–25%,
необходимо доказать, что выравнивание статистически значимо. Один
из способов сделать это заключается в сравнении меры качества данного
выравнивания, отражающей количественное подобие между двумя по-
следовательностями, со средними мерами качества выравнивания по-
следовательностей, которые получают путем случайной перестановки
аминокислот в исследуемых последовательностях. Эта процедура сохра-
няет длину и аминокислотный состав последовательностей, а статисти-
ческая вариация случайного сравнения дает меру значимости наблюда-
емого подобия. Для каждой последовательности генерируется множес-
тво (скажем, n) случайных перестановок, а затем каждая перестановка
первой последовательности выравнивается с каждой перестановкой вто-
рой последовательности, в результате чего получается n2 выравнива-
ний. Для сравнения с изначальной мерой качества выводятся среднее
значение и стандартное отклонение меры качества этих выравниваний.
Можно приблизительно руководствоваться следующим правилом: если
мера качества выравнивания превосходит среднее значение меры качес-
тва для случайных выравниваний хотя бы в 6 раз, то большинство остат-
ков во вторичных структурах правильно выравнено [31].
В середине 1980-х гг. Чотиа и Леск исследовали набор остовов пол-
ностью глобулярных белков для оценки отношения между идентичнос-
тью последовательности и подобием трехмерной структуры [32]. Они об-
наружили, что ожидаемый успех в моделировании трехмерной структу-
ры белка по его последовательности с использованием в качестве
шаблона трехмерной структуры гомологичного белка зависит от иден-
тичности последовательностей, причем структура белка является хоро-
шей моделью структуры другого белка, если идентичность их последо-
вательностей превышает 50%. Если идентичность падает до 20%, могут
возникнуть большие структурные различия (см. рис. 4.5.4). Выясни-
лось также, что активные центры дальнородственных белков могут об-
ладать похожими геометриями, поэтому даже в случае низкой идентич-
ности последовательностей возможно правдоподобное моделирование
активных центров родственных белков.
Множественное выравнивание представляет собой весьма нетриви-
альную задачу как в биологическом, так и в вычислительном плане.
Точность такого выравнивания зависит от выбора последовательностей,
целевой функции и использованной эвристики, поэтому алгоритм уточ-
нения выравниваний может быть полезен для выявления возможных
проблем. Уточнение выравнивания как операция обработки автомати-
144 Молекулярное моделирование

ческих выравниваний имеет особое значение, поскольку для моделиро-


вания по гомологии огромную важность представляет высокое качество
выравниваний. Уточнение выравниваний чаще всего базируется на ите-
рационных подходах [33]; кроме того, производительность алгоритмов
выравнивания может быть увеличена с помощью включения итераци-
онных шагов в процесс построения выравнивания. Программа выравни-
вания RASCAL, разработанная Томпсоном с коллегами [34], использует
для улучшения выравниваний стратегию, основанную на знаниях: при
выравнивании выделяют достоверные и недостоверные области, и толь-
ко недостоверные области модифицируются. Интересующийся чита-
тель может найти больше информации по этой теме в литературе [35].

4.3.2. Идентификация и моделирование консервативных областей


Метод построения модели белка по гомологии предполагает, что сущес-
твуют области во всех белках одного и того же семейства, трехмерные
структуры которых почти идентичны. Эти области расположены в глу-
бине белковой молекулы, там, где различия топологии полипептидной
цепи должны сильно влиять на третичную структуру белка [36]. Наблю-
дения показывают, что элементы вторичной структуры близкородствен-
ных белков, прежде всего a-спирали и b-цепи, действительно имеют
одинаковые относительные ориентации во всем семействе. Вполне ло-
гично, что эти элементы подходят для использования в качестве началь-
ного каркаса для присваивания атомных координат при моделировании
других белков, входящих в то же семейство. Такие фрагменты называ-
ются структурно консервативными.
На точность отнесения консервативных фрагментов внутри семей-
ства гомологичных белков влияет ряд факторов. В частности, методы
отнесения зависят от количества доступных кристаллических структур
родственных белков. Если доступно больше одной структуры с атомным
разрешением — это большая удача. В этом случае можно проверить все
структуры, чтобы выяснить, где они консервативны. Для этого их необ-
ходимо наложить друг на друга с применением метода наименьших
квадратов (МНК). Главной проблемой в этом случае является выбор
атомных соответствий для подгонки, поскольку априори неизвестно,
какую часть белка необходимо накладывать для достижения наилучше-
го пространственного совмещения. В первом приближении структуры
могут быть наложены путем подгонки Ca-атомов [3]. Начальное наложе-
ние можно оптимизировать с использованием только тех точек соответ-
ствия, которые расположены в консервативных элементах вторичной
структуры. Разработано несколько подходов, ориентированных на авто-
матическое решение проблемы подгонки [37–43].
Россманн и др. [43] предложили метод оптимального наложения по
МНК. На первом шаге две структуры белка, которые необходимо нало-
жить, подгоняются друг под друга с использованием начального набора
эквивалентных остатков. Этот набор эквивалентностей обновляется ис-
ходя из расстояний между потенциально эквивалентными остатками и
Глава 4. Моделирование белков. Введение 145

локальных направлений основной цепи. Наложение и обновление по-


вторяются до тех пор, пока число эквивалентностей не перестает увели-
чиваться.
Обычно получается так, что некоторые части двух белков очень по-
хожи по структуре и потому могут считаться структурно консерватив-
ными, в то время как другие части белков заметно различаются. Следует
отметить, что применяемые алгоритмы учитывают не только вторич-
ную структуру. Поскольку, по определению, консервативная область
обязана заканчиваться в конце элемента вторичной структуры, так,
что, например, каждая цепь b-листа представляет собой отдельную кон-
сервативную область, то необходимо сделать отнесение элементов вто-
ричной структуры до того, как определять консервативные области.
Проще всего получить информацию об элементах вторичной структуры
белков из файлов кристаллических данных (например, файлов PDB), в
которых содержится информация об элементах вторичной структуры,
определенных кристаллографически. Впрочем, поскольку эти отнесе-
ния зачастую субъективны и иногда неполны, более общепринятым ме-
тодом является использование объективных расчетных методов выяв-
ления элементов вторичной структуры. Такие программы, как DSSP
[44] и STRIDE [45], позволяют определить элементы вторичной структу-
ры на основе геометрических параметров, таких как схема системы во-
дородных связей или торсионные углы основной цепи. С помощью этих
программ, доступных на интернет-сайте EMBL в Гейдельберге, можно
быстро определять элементы вторичной структуры белков, для которых
существуют атомные координаты.
Ситуация значительно усложняется, если известен лишь один гомо-
логичный белок, который может быть использован в качестве шаблона
для исследуемой последовательности. В этом случае нет возможности
сравнения структур и необходимо относить консервативные области
вручную, руководствуясь информацией о последовательности и струк-
туре белков. Как говорилось ранее, консервативные области зачастую
обнаруживаются в стабильных элементах вторичной структуры. Поэто-
му представляется разумным внимательно изучить как можно больше
таких элементов шаблонного белка с целью обнаружения потенциаль-
ных признаков существования структурно консервативных областей.
Аминокислоты гидрофобного остова обычно более консервативны, чем
последовательность из остатков на поверхности белка. Аминокислоты,
участвующие в солевых мостиках, водородных связях и дисульфидных
мостиках, а также в активном центре, обычно сохраняются в семействе.
Для более точной локализации консервативных фрагментов может
быть с успехом использована информация из множественного выравни-
вания последовательностей. Во многих исследованиях гомологичных
белков было показано, что консервативные области отличаются высо-
ким подобием последовательностей, в то время как для вариабельных
областей наблюдаются низкая идентичность последовательностей и на-
личие инсерций и делеций. По этой причине выявленные консерватив-
ные фрагменты должны иметь идентичные или близкородственные по-
146 Молекулярное моделирование

следовательности. Для достижения структурного подобия необходимо,


чтобы в консервативных областях не было разрывов.
В случаях, когда консервативные области шаблонных белков уже
известны, необходимо лишь локализовать соответствующие им области
моделируемого белка. Это делается с помощью выравнивания последо-
вательности мишени с последовательностями консервативных фрагмен-
тов в гомологичных структурах. Процедура выравнивания, которую
применяют для этой цели, несколько отличается от той, которая была
описана выше. Поскольку консервативные элементы, по определению,
не могут содержать инсерций и делеций, необходим алгоритм, который
не допускает внедрения разрывов внутри них. К сожалению, стандарт-
ный алгоритм Нидлмана—Вунша не может отдельно обрабатывать кон-
сервативные области: он вставляет разрыв в любом месте, если это улуч-
шает меру качества выравнивания. По этой причине были разработаны
методы, рассматривающие каждый консервативный фрагмент незави-
симо [3, 22, 46]. Соответствующие программы строят выравнивания без
разрывов в консервативных областях. Поскольку при моделировании
должно быть установлено соответствие между структурами шаблона и
мишени, можно приписать координаты консервативным областям на
основе координат шаблонных белков. В сегментах, где идентичные бо-
ковые цепи обнаружены и в шаблоне, и в мишени, все координаты ато-
мов просто переносятся. В тех местах, где встречается разнообразие бо-
ковых цепей, переносятся только координаты основной цепи. Соотве-
тствующие боковые цепи добавляются после полного построения
основной цепи (см. разд. 4.3.4).

4.3.3. Конструирование вариабельных областей


Конструирование вариабельных областей представляет собой более
сложную задачу, поскольку заметные различия структур белков наблю-
даются в первую очередь в петлях. Инсерции и делеции, возникающие
из-за различия в числе аминокислот, дополнительно усложняют проце-
дуру моделирования. Разработано множество методов моделирования
петель, подробно описанных в литературе [5–7, 47–49]. Отправной точ-
кой для моделирования отсутствующей области может быть структура
сегмента эквивалентной длины в гомологичном белке. Обширные иссле-
дования вариабельных областей гомологичных белков показали, что в
случаях, когда отдельные петли имеют одинаковую длину и состоят из
аналогичных аминокислот, их конформации будут одинаковы. Их ко-
ординаты могут быть непосредственно перенесены в модель белка, как
было описано для консервативных фрагментов. Если же в белковом се-
мействе нет похожих петель, для моделирования вариабельных облас-
тей можно использовать две других стратегии: либо извлекать коорди-
наты петель из пептидных сегментов других белков, которые подходят к
данному пространственному окружению [5–7], либо моделировать пет-
лю de novo [44–46]. Первый способ (метод поиска петель) подразумева-
ет поиск пептидных сегментов, которые удовлетворяют определенному
Глава 4. Моделирование белков. Введение 147

геометрическому критерию. Программы, реализующие этот метод,


обычно сканируют базу PDB в поиске необходимых сегментов. Геомет-
рические данные, необходимые для ввода в программу, включают в себя
расстояния между ключевыми фрагментами и координаты остатков, в
том числе из областей, окружающих петлю. На выходе выдается набор
петель, удовлетворяющих заданным геометрическим ограничениям,
10–20 вариантов используются для дальнейшего анализа. Петли ран-
жируются в зависимости от того, насколько они удовлетворяют желае-
мой структуре. При отдании предпочтения одной структуре петли по
сравнению с другой можно руководствоваться дополнительными крите-
риями, явно не использованными при поиске: соответствием остатков,
ограничивающих область петли, идентичности последовательностей
оригинальной петли и найденного фрагмента, а также энергетическими
критериями для сравнительной оценки стерических взаимодействий.
Преимущество метода поиска петель заключается в том, что все най-
денные петли гарантированно обладают достоверной геометрией и отра-
жают конформации реальных белков. Впрочем, выбранный фрагмент
необязательно хорошо подходит к имеющемуся каркасу модели, что мо-
жет приводить к значительным стерическим препятствиям. Если это
происходит, в качестве альтернативы стоит использовать метод постро-
ения петель de novo.
В этом случае основная цепь белка строится между двумя консерва-
тивными сегментами с использованием случайных значений для всех
торсионных углов боковой цепи. Разработаны различные алгоритмы
оптимизации стратегии поиска и уменьшения расчетного времени. Пос-
кольку этот метод весьма сложен, его использование оправдано только
для петель длиной меньше, чем 7 остатков.
Все петли, построенные путем поиска в базах данных или случайно-
го поиска (de novo), обычно обладают далеко не оптимальной геометри-
ей. Поэтому все области петель, включая окружающие остатки, следует
впоследствии оптимизировать методом минимизации энергии, чтобы
устранить стерические препятствия и релаксировать конформации пе-
тель (см. разд. 4.4.3).

4.3.4. Моделирование боковых цепей


Следующий шаг после конструирования основной цепи белка — добав-
ление боковых цепей. Предсказание многочисленных конформаций бо-
ковых цепей — значительно более сложная задача, чем предсказание
конформации основной цепи гомологичного белка. Многие боковые цепи
имеют хотя бы одну степень свободы и потому могут находиться в одной
из нескольких энергетически разрешенных конформаций.
Существуют различные стратегии решения проблемы множества
локальных минимумов [50–57]. Их общий посыл состоит в том, что
идентичные остатки в гомологичных белках находятся в похожих кон-
формациях. Кроме того, если боковые цепи относятся к паре аминокис-
лот со значительным сходством (например, Ile и Val или Gln и Glu), то
148 Молекулярное моделирование

предполагается, что ориентация боковых цепей в них будет аналогич-


ной [50]. Ситуация усложняется, если происходит замена аминокисло-
ты на неродственную. Если рассматриваемая боковая цепь длиннее, чем
в гомологичном белке, или структурно непохожа, ей следует придать
случайную конформацию так, чтобы избежать невыгодных контактов с
другими боковыми цепями [51]. Альтернативой такому подходу может
быть выбор конформации, отвечающей расчетному минимуму поверх-
ности потенциальной энергии соответствующего дипептида [52].
Более достоверный метод был разработан с помощью анализа отно-
шений между позициями боковых цепей в гомологичных структурах
глобулярных белков. Было обнаружено, что боковые цепи обычно при-
нимают лишь некоторые из многих возможных конформаций [53, 54].
Например, для боковых цепей с двумя углами c наблюдаются от четы-
рех до шести обычных конформаций. Все наблюдаемые ротамеры пред-
ставляют собой комбинации гош- и анти-форм. На основе этих статис-
тических исследований были созданы библиотеки ротамеров [53, 56].
Некоторые программы моделирования по гомологии используют библи-
отеку боковых цепей, созданную Пондером и Ричардсом [53], которая
содержит 67 ротамеров 17 аминокислот. Выбор наиболее вероятной кон-
формации из библиотеки может быть проблематичен, поскольку в этом
случае не учитывается информация об эквивалентной боковой цепи, со-
держащаяся в шаблонной структуре. Кроме того, правильная конфор-
мация боковой цепи зависит от локального окружения аминокислоты в
реальном белке, что было показано при исследовании белковых струк-
тур с хорошим разрешением [57, 58]. Во внутреннем пространстве белка
превалируют гидрофобные взаимодействия, приводящие к плотной
упаковке аминокислотных остатков. Такие факторы, как вторичная
структура и контакты с другими остатками, также могут влиять на кон-
формацию боковой цепи. Поэтому были разработаны методы определе-
ния позиций боковых цепей, учитывающие локальное окружение и дру-
гие ограничения. Бланделл с сотр., например, разработали правила вза-
имной замены для всех 20 природных боковых цепей в областях
a-спиралей, b-листов и петель — всего 20 · 20 · 3 = 1200 правил [57]. Что-
бы определить, позиции каких атомов сохраняются при замене амино-
кислоты в топологически эквивалентной позиции, было проведено ис-
следование нескольких наборов гомологичных белков. Все остатки, со-
ответствующие какой-либо конкретной топологически эквивалентной
позиции, были выравнены по атомам основной цепи, и было определе-
но, какие атомы соответствуют друг другу.
Подход Пондера и Ричардса был в дальнейшем доработан Данбрэ-
ком и др. [59]. Их программа SCWRL распознает зависимость конфор-
маций боковых цепей от конформации основной цепи. Тем не менее все
имеющиеся методы предсказания конформаций боковых цепей работа-
ют в неизменном предположении о фиксации основной цепи.
Как уже обсуждалось, существуют различные методы моделирова-
ния боковых цепей. Все они помогают исследователю в надежном уста-
новлении конформаций боковых цепей. Тем не менее во многих ситуа-
Глава 4. Моделирование белков. Введение 149

циях приходится прибегать к ручной подгонке конформаций. Модифи-


кации требуются, например, в случаях, когда аминокислоты участвуют в
специфических взаимодействиях — ионных парах, дисульфидных мос-
тиках, внутренних зарядовых взаимодействиях или водородных связях.
Варианты могут возникнуть также в случаях, когда остатки расположе-
ны на поверхности белка и полностью доступны. Такие исключения
должны обрабатываться в индивидуальном порядке.
После построения окончательной модели обычно требуется оптими-
зация структуры. Области соединения консервативных и вариабельных
фрагментов обычно страдают от стерических напряжений и должны
быть минимизированы. Некоторые боковые цепи могут находиться в
позициях, приводящих к плохим ван-дер-ваальсовым контактам. Счи-
тается, что лучший результат дает пошаговая оптимизация структуры.
Одновременная оптимизация всех боковых цепей может разрушить
важные внутренние водородные связи и привести к конформационным
изменениям внутри консервативных областей. Чтобы удалить стеричес-
кие наложения, проводится конформационный поиск для остатков, ко-
торые участвуют в «плохих» ван-дер-ваальсовых взаимодействиях. Ми-
нимизация энергии и/или молекулярная динамика модели являются
полезными способами исследования локального конформационного
пространства и могут привести к оптимизированной структуре. Детали
проведения минимизации энергии и молекулярной динамики для опти-
мизации структуры будут описаны в разд. 4.4.3.

4.3.5. Метод дистанционной геометрии


В традиционном процессе моделирования по гомологии для построения
одной модели часто используется несколько шаблонных структур, одна-
ко для конструирования консервативной области может быть использо-
ван только один набор координат (см. разд. 4.3.2). Метод дистанцион-
ной геометрии в моделировании по гомологии [38, 60, 61] дает возмож-
ность одновременного исследования структурных особенностей всех
шаблонных белков, которые могут быть использованы для построения
конформаций, учитывающих эти особенности. При этом определяются
консервативные области и строится выравнивание последовательности
белка-мишени с последовательностями известных белков. В случае мо-
делирования белковых молекул метод дистанционной геометрии вклю-
чает в себя правила, согласно которым из множественного выравнива-
ния могут быть выведены определенные ограничения на расстояния и
конфигурацию хиральных центров, которые затем используются в рас-
чете. Таким образом можно получить набор конформаций моделируе-
мой структуры, каждый элемент которого содержит области с аналогич-
ными конформациями, подверженные ограничениям в ходе расчета, и
области с различными конформациями, свободные от ограничений.
Структуры этого набора затем подвергаются минимизации энергии для
удаления артефактов, которые иногда возникают во время расчетов ме-
тодом дистанционной геометрии. Малое различие между полученными
150 Молекулярное моделирование

конформациями свидетельствует о надежности предсказания структуры.


Подробное описание метода дано в работе [62], где данный метод был
использован для предсказания структуры флаводоксина Escherichia coli.

4.3.6. Предсказание вторичной структуры


Наилучший метод моделирования пространственной структуры белка,
для которого она неизвестна, — это уже описанное моделирование на
основе белка с известной структурой, то есть основанное на знаниях.
Для случаев, когда гомологичной структуры не существует, были раз-
работаны другие методы, концентрирующиеся на предсказании вто-
ричной структуры. В их основе лежит идея, что 90% остатков в боль-
шинстве белков находятся в a-спиралях, b-листах и шпильках.
Поэтому, если элементы вторичной структуры предсказаны правиль-
но, можно комбинировать предсказанные сегменты и получить пол-
ную структуру белка. Конечно же, такой метод следует применять с
осторожностью. Тем не менее предсказание вторичной структуры по
аминокислотной последовательности широко практикуется (обзоры
см. в [63–69]).
Для этой задачи чаще всего применяются три метода: статистичес-
кий, стереохимический и метод, основанный на гомологии и нейронных
сетях. Все эти методы так или иначе используют информацию, получен-
ную из известных трехмерных структур, хранящихся в PDB. В связи с
этим необходимо правильное отнесение областей вторичной структуры
в кристалле (см. разд. 4.3.2) для проверки достоверности методов
предсказания.
Статистические методы были разработаны одними из первых. В их
основе лежит наблюдение, что многие аминокислотные остатки co ста-
тистически значимым предпочтением находятся в конкретных вторич-
ных структурах. Например, Ala, Arg, Gln, Glu, Met, Leu и Lys находят-
ся, как правило, в a-спирали, а Cys, Ile, Phe, Thr, Trp, Tyr и Val —
в b-листах. Простейший статистический метод предсказания вторичной
структуры предложен Чоу и Фасманом [64]: предсказание делается пу-
тем вычисления вероятности того, что данная аминокислота относится
к конкретному типу вторичной структуры, такому как a-спираль,
b-лист или шпилька, на основе частоты появления данной аминокисло-
ты в соответствующем структурном элементе в PDB. Другой часто ис-
пользуемый статистический метод GOR предложен Гарнье, Осгуторпом
и Робсоном [65]. Успешное предсказание на основе этих алгоритмов
весьма сложно, поскольку они лишь демонстрируют тенденцию к пред-
почтению определенного типа вторичной структуры вместо абсолютно-
го предсказания. В связи с этим возможны различные интерпретации
методов, приводящие к ситуации, когда у разных авторов получаются
разные результаты. Возможности и ограничения статистических мето-
дов были продемонстрированы Кабшем и Сандером [66] на примере трех
широко используемых подходов, которые обеспечили точность менее
56% при предсказании спиралей, листов и петель.
Глава 4. Моделирование белков. Введение 151

Другие методы предсказания вторичной структуры основаны на


правилах свертки белков путем интерпретации гидрофобных, гидро-
фильных и электростатических свойств боковых цепей [67–69]. В мето-
де Лима [67], например, взаимодействия между боковыми цепями, раз-
деленными не более чем тремя остатками в последовательности, учиты-
ваются как вероятность их упаковки в a-спиральной или b-листовой
конформации. Последовательность с чередующимися гидрофильными
и гидрофобными остатками, например, с высокой вероятностью упако-
вана в b-цепь, у которой гидрофильные остатки направлены наружу, а
гидрофобные — внутрь белка. Стереохимические методы были успешно
использованы для предсказания амфифильных спиралей [68] и мем-
бранных сегментов [69].
Рост и Сандер сообщили об алгоритме, который использует эволю-
ционную информацию из множественных выравниваний на входе ней-
ронных сетей [70, 71]. У нейронных сетей есть потенциальное методи-
ческое преимущество перед другими подходами, поскольку их можно
обучить. Это означает, что правила, определяющие поведение изучае-
мых систем, не должны быть сформулированы изначально, а задаются
самой сетью на основе известных фактов. Точность нейросетевого мето-
да PHD составляет более 70% при предсказании трех классов вторичной
структуры (спираль, лист, петля) на основе лишь одной известной гомо-
логичной структуры [71, 72]. Другие нейросетевые методы предсказа-
ния достигли 80%-ной точности [73, 74]. Нейросетевые методы PHD
[69] и PSIPRED [73] являются в данный момент рекомендуемыми и ин-
тегрированы в различные биоинформационные интернет-сайты. Оцен-
ку различных методов предсказания вторичной структуры можно най-
ти на веб-сервере EVA (http://cubic.bioc.columbia.edu/eva/).
Информация, полученная путем предсказания вторичной структу-
ры гомологичных белков, часто используется в дополнение к информа-
ции, полученной из выравнивания первичных последовательностей,
чтобы уточнить локализацию консервативных областей в семействе го-
мологичных белков. Даже если известна структура лишь одного гомоло-
гичного белка, которая может быть использована как шаблон для моде-
лирования по гомологии, а гомологичных последовательностей не-
сколько, — все равно полезно включить в рассмотрение предсказанные
элементы вторичной структуры для локализации консервативных
фрагментов. Для нахождения наиболее вероятного отнесения элементов
вторичной структуры следует использовать все доступные методы. Ко-
нечно же, различные методы не дадут абсолютно одинаковых результа-
тов. Это показано на рис. 4.3.3, где 5 различных методов (CHOU, GOR,
ALB, JAMSEK, PHD) использованы для предсказания известной вто-
ричной структуры цефалоспориназы из Enterobacter cloacae. Предска-
зание также сравнивается с результатом работы программы DSSP, кото-
рая приписывает вторичную структуру на основе атомных координат.
Большинство из описанных методов предсказания внедрены в ком-
мерчески доступные программы молекулярного моделирования или ин-
тегрированы в веб-сайты по молекулярной биологии. Более подробную
152 Молекулярное моделирование

Рис. 4.3.3. Сравнение предсказанной различными методами вторичной струк-


туры цефалоспориназы Enterobacter cloacae, для которой имеются кристалло-
графические данные
Глава 4. Моделирование белков. Введение 153

Рис. 4.3.3. (Продолжение)

информацию о методах предсказания вторичной структуры можно най-


ти на сервере Швейцарского института биоинформатики (http://www.
expasy.org) или EMBL (http://www.embl.org).
154 Молекулярное моделирование

4.3.7. Методы протягивания


Наилучшая ситуация для моделирования белков возникает, когда для
исследуемого белка можно найти другой белок, обладающий высокой го-
мологией с ним (подобие последовательности не менее 30%) и для которо-
го структура уже была определена экспериментально. В таких случаях
описанный выше подход моделирования по гомологии позволяет скон-
струировать модель белка с достаточной точностью. Другая типичная си-
туация возникает, когда с помощью методов обработки последователь-
ностей или протягивания может быть выявлена лишь малая степень по-
добия [75–79]. Вследствие этого подобие неизвестной трехмерной
структуры с данной последовательностью и структуры шаблона не может
быть оценено априори. Два белка могут обладать одинаковой топологией,
но различаться в вариабельных областях. Кроме того, определенные эле-
менты вторичной структуры могут быть разного размера и возможна раз-
личная упаковка этих элементов. Зачастую реальное структурное подо-
бие может быть ограничено лишь частью структуры, имеющей типичный
структурный мотив, в то время как остальная часть белка кардинально
отличается [79]. В этих случаях традиционные методы моделирования по
гомологии не работают, и приходится применять методы распознавания
укладки, или протягивания (threading) [75–81]. Самые ранние методы
протягивания были созданы для распознавания укладки при полном от-
сутствии подобия последовательностей, в связи с чем структура шаблон-
ного белка вообще не принималась во внимание. В наши дни методы мо-
делирования по гомологии и методы протягивания зачастую применяют-
ся совместно. Методы протягивания родственны методам предсказания
структуры белка ab initio [82], однако методы ab initio исследуют все
возможные конформации, а методы протягивания ограничиваются лишь
конформационным пространством известных структур. Как следствие,
методы протягивания бесполезны для моделирования любого белка,
обладающего совершенно новым типом упаковки.
Общий принцип методов протягивания состоит в сравнении изучае-
мой последовательности с каждым представителем библиотеки извес-
тных белковых структур. Для каждого шаблона необходимо найти
оптимальное выравнивание последовательности со структурой на осно-
ве оценочной функции или силового поля. Эти выравнивания ранжиру-
ются по расчетным значениям оценочных функций и наилучшие из них
используются в качестве надежных кандидатов [75, 83]. Часто
применяемые методы протягивания описаны в литературе [75–79].
Для методов протягивания было разработано множество оценочных
функций [75, 76, 83, 84], обладающих некоторыми общими свойствами.
Применяемые функции должны быть простыми, поскольку расчеты по
методу протягивания должны рассматривать большое количество вари-
антов. Многие оценочные функции в методах протягивания используют
потенциалы средней силы (Potentials of Mean Force, PMF), которые так-
же называются потенциалами, основанными на знаниях (knowledge-
based) [83, 85]. Они отличаются от обычных силовых полей, описанных
Глава 4. Моделирование белков. Введение 155

в разд. 2.2.1: основная идея PMF состоит в том, что молекулярные струк-
туры, определенные рентгеноструктурным методом или с помощью ЯМР,
неявно содержат огромное количество информации о стабилизирующих
силах внутри макромолекул. С использованием статистических методов
были выявлены внутренние правила, управляющие трехмерной струк-
турой белков. В основе всех этих правил лежит принцип Больцмана
о том, что наиболее часто наблюдаемые состояния являются состояния-
ми с наименьшей энергией. Поэтому потенциалы PMF составляются пу-
тем извлечения относительных частот взаимодействий определенных
пар атомов из базы белковых структур [85]. PMF-потенциалы обычно
состоят из взаимодействий между определенными парами атомов и
между растворителем и белком. Они включают все виды сил (электро-
статические, дисперсионные и др.), действующие между определенны-
ми атомами белка, а также влияние растворителя на взаимодействие, и
поэтому могут быть использованы для предсказания структуры макро-
молекулы по ее первичной последовательности. Потенциалы PMF были
использованы для предсказания укладки белков и для поиска ошибок в
моделях белков и в экспериментально определенных белковых структу-
рах [83–85].
Полезность модели белка, полученной методом моделирования по
гомологии или методом протягивания, зависит от ее предполагаемого
использования. Точность моделей, получаемых методами протягивания
или ab initio, недостаточна для задач, требующих структуры высокого
разрешения, например, традиционной разработки лекарств. Тем не ме-
нее модель с низким разрешением, полученная этими методами, может
отражать структурные и функциональные отношения между белками,
которые не очевидны из их аминокислотной последовательности, а так-
же создавать возможность для анализа пространственных взаимоотно-
шений между консервативными остатками или остатками, для которых
экспериментально доказана их важность. Для оценки различных мето-
дов предсказания белковых структур в 1994–95 гг. было организовано
соревнование по критической оценке методов предсказания структуры
белков CASP (Critical Assessment of techniques for protein Structure
Prediction) [86]. В этих соревнованиях представителей научного сооб-
щества приглашали предсказать трехмерные структуры новых белков
по их аминокислотной последовательности. Структуры были заранее
определены методом рентгеновской кристаллографии, но не были опуб-
ликованы. К настоящему времени были проведены четыре соревнова-
ния CASP; на CASP4 был сделан вывод, что моделирование белковых
структур к настоящему времени созрело до уровня практической техно-
логии. В принципе возможно создать полезные модели для более чем по-
ловины последовательностей в основных базах данных [82]. Соревнова-
ния CASP являют собой надежный базис для оценки достоверности мо-
делей белков и подходов, на основе которых они построены.
156 Молекулярное моделирование

Цитированная литература
1. Blundell, T. L. and Johnson, L. N. (1976) Protein Crystallography, Academic
Press, New York.
2. Bashford, D., Chothia, C., and Lesk, A. M. (1987) Determinants of a protein fold.
Unique features of the globin amino acid sequences. Journal of Molecular Biology,
196, 199–326.
3. Greer, J. (1981) Three-dimensional structure of abnormal human haemoglobins
Chesapeake and J Capetown. Journal of Molecular Biology, 153, 1027–42.
4. Chothia, C. and Lesk, A. M. ( 1982) Evolution of proteins formed by beta-sheets.
I. Plastocyanin and azurin. Journal of Molecular Biology, 160, 309–42.
5. Johnson, M. S., Srinivasan, N., Sowdhamini, R., and Blundell, T. L. (1994)
Knowledge-based protein modeling. Critical Reviews in Biochemistry and
Molecular Biology,29, 193–316.
6. Sali, A., Overington, J. P., Johnson, M. S., and Blundell, T. L. (1990) From com-
parisons of protein sequences and structures to protein modeling and design.
Trends in Biochemical Sciences, 15, 235–40.
7. Jones, T. A. and Thirup, S. (1986) Using known substructures in protein model
building and crystallography. EMBO Journal, 5, 819–22.
8. Dudek, M. J. and Scheraga, H. A. (1990) Protein structure prediction uses a com-
bination of sequence homology and global energy minimization. Journal of
Computational Chemistry, 11, 121–51.
9. Levin, R. (1987) When does homology mean something else? Science, 237, 1570.
10. Thornton, J. M. and Gardner, S. P. (1989) Protein motifs and database searching.
Trends in Biochemical Sciences, 14, 300–4.
11. Orengo, C. A., Brown, N. P., and Taylor, W. R. (1992) Fast structure alignment for
protein databank searching. Proteins Structure Function and Genetics, 14, 139-46.
12. Pearson, W. R. (1990) Rapid and sensitive sequence comparison with FASTP and
FASTA. Methods in Enzymology, 183, 63–98.
13. Altschul, S. F., Madden, T. L., Schaffer, A. A. et al. (1997) Gapped BLAST and
PSI-BLAST: a new generation of protein database search programs. Nucleic
Acids Research, 25, 3389–402.
14. HOMOLOGY and MODELLER, Accelrys, San Diego. http://www.accelrys.com.
15. Sah, A. and Blundell, T. L. (1993) Comparative protein modeling by satisfaction
of spatial restraints. Journal of Molecular Biology, 234, 779–815.
16. SYBYL BIOPOLYMER, Tripos Associates, St. Louis. http://www.tripos.com.
17. Vriend, G. (1990) What If: A molecular modeling and drug design program.
Journal of Molecular Graphics, 8, 52–56. http://www.swift.cmbi.ru.hl/whatif.
18. Thompson, J. D., Higgins, D. G., and Gibson, T. J. (1994) CLUSTAL-W - improving
the sensitivity of progressive multiple sequence alignment through sequence
weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids
Research, 22, 4673–80.
19. Barton, G. J. (1990) Protein multiple sequence alignment and flexible pattern
matching. Methods in Enzymology, 183, 403–28.
20. Needleman, S. B. and Wunsch, C. D. (1970) A general method applicable to the
search for similarities in the amino acid sequence of two proteins. Journal of
Molecular Biology, 48, 443–53.
Глава 4. Моделирование белков. Введение 157

21. Sander, C. and Schneider, R. (1996) The HSSP database of protein structure-se-
quence alignments. Nucleic Acids Research, 24, 201–5.
22. Schuler, G. D., Altschul, S. F., and Lipman, D. J. (1991) A workbench for mul-
tiple alignment construction and analysis. Proteins Structure Function and
Genetics, 9, 1980–90.
23. Vingron, M., Argos, P., and Vogt, G. (1991) Protein sequence comparison: meth-
ods and significance. Protein Engineering, 4, 375–83.
24. Boswell, D. R. and McLachlan, A. D. (1984) Sequence comparison by exponen-
tially-damped alignment. Nucleic Acid Research, 12, 457–65.
25. Dayhoff, M. O., Schwartz, R. M., and Orcutt, B. C. (1978) A Model of evolution-
ary change in proteins, in Atlas of Protein Sequence and Structure (ed.
M. O. Dayhoff), National Biomedical Research Foundation, Washington, DC,
Vol. 5, Suppl. 3, pp. 345–52.
26. Gribskov, M., McLachlan, A. D., and Eisenberg, D. (1987) Profile analysis de-
tection of distantly related proteins. Proceedings of the National Academy of
Sciences of the United States of America, 84, 4355–58.
27. Landes, C., Risler, J. L., and Henaut, A. (1992) A comparison of several similarity
indices used in the classification of protein sequences: a multivariate analysis.
Nucleic Acids Research, 20, 3631–37.
28. Engelman, D. M., Steitz, T. A., and Goldman, A. (1986) Identifying nonpolar
transbilayer helices in amino acid sequences of membrane proteins. Annual
Review of Biophysics and Biophysical Chemistry, 15, 321.
29. Gonnet, G. H., Cohen, M. A., and Benner, S. A. (1992) Exhaustive matching of
the entire protein sequence database. Science, 256, 1443–45.
30. Doolittle, R. (1990) Searching through sequence databases. Method in Enzy-
mology, 183, 736–72.
31. Barton, G. J. and Sternberg, M. J. E. (1990) Flexible protein sequence patterns.
A sensitive method to detect weak structural similarities. Journal of Molecular
Biology, 212, 389–402.
32. Chothia, C. and Lesk, A. M. (1986) The relation between the divergence of sequ-
ence and structure in proteins. EMBO Journal, 5, 823–26.
33. Wang, Y, and Li, K. B. (2004) An adaptive and iterative algorithm for refining
multiple sequence alignment. Computational Biology and Chemistry, 28, 141–48.
34. Thompson, J. D., Thierry, J. C., and Poch, O. (2003) RASCAL: rapid scanning
and correction of multiple sequence alignments. Bioinformatics, 19, 1155–61.
35. Wallace, I. M., O'Sullivan, O., and Higgins, D. G. (2005) Evaluation of iterative
alignment algorithms for multiple alignment. Bioinformatics, 21, 1408–14.
36. Perutz, M. F., Bolton, W., Diamond, R. et al. (1964) Structure of haemoglobin.
An X-ray examination of reduced horse haemoglobin. Nature, 203, 687–90.
37. Maggiora, G. M., Rohrer, D. C., and Mestres, J. (2001) Comparing protein struc-
tures: a Gaussian-based approach to the three-dimensional structural similarity
of proteins, Journal of Molecular Graphics & Modelling, 19, 168–78.
38. Reinhardt, A. and Eisenberg, D. (2004) DPANN: improved sequence to struc-
ture alignments following fold recognition. Proteins, 56, 528–38.
39. Eisenberg, D., Marcotte, E., McLachlan, A. D., and Pellegrini, M. (2006)
Bioinformatic challenges for the next decade(s). Philosophical Transactions of
the Royal Society of London. Series B: Biological Sciences, 361, 525–27.
158 Молекулярное моделирование

40. Ilyin, V. A., Abyzon, A., and Leslin, C. M. (2004) Structural alignment of prote-
ins by a novel TOPOFIT method, as a superimposition of common volumes at a
topomax point. Protein Science, 13, 1865–74.
41. Jung, J. and Lee, B. (2000) Protein structure alignment using environmental
profiles. Protein Engineering, 13, 535–43.
42. Vriend, G. and Sander, C. (1991) Detection of common three-dimensional sub-
structures in proteins. Proteins Structure Function and Genetics, 11, 52–58.
43. Matthews, B. W. and Rossmann, M. G. (1985) Comparison of protein structures.
Methods in Enzymology, 115, 397–420.
44. Kabsch, W. and Sander, C. (1983) Dictionary of protein secondary structure:
pattern recognition of hydrogen-bonded and geometrical features. Biopolymers,
22, 2577–637.
45. Frishman, D. and Argos, P. (1995) Knowledge-based protein secondary struc-
ture assignment. Proteins Structure Function and Genetics, 23, 566–79.
46. Sanchez, R., Pieper, U., Melo, F. et al. (2000) Protein structure modeling for
structural genomics. Nature Structural Biology Supplement, 7, 986–90.
47. Bruccoleri, R. E. and Karplus, M. (1990) Conformational sampling using high-
temperature molecular dynamics. Biopolymers, 29, 1847–62.
48. Novotny, J., Bruccoleri, R. E., Davis, M., and Sharp, K. A. (1997) Empirical free
energy calculations: а blind test and further improvements to the method.
Journal of Molecular Biology, 268, 401–11.
49. Pellequr, J. L. and Chen, S. W. (1997) Does conformational free energy distin-
guish loop conformations in proteins? Biophysical Journal, 73, 2359–75.
50. Aloy, P., Pichaud, M., and Russell, R. B. (2005) Protein complexes: structure
prediction challenges for the 21st century. Current Opinion in Structural Biology,
15, 15–22.
51. Blundell, T. L., Sibanda, B. L., and Pearl, L. (1983) Three-dimensional struc-
ture, specificity and catalytic mechanism of rennin. Nature, 304, 273–75.
52. Allen, S. C., Acharya, K. R., Palmer, K. A. et al. (1994) A comparison of the pre-
dicted and X-ray structures of angiogenin. Implications for further studies of model
building of homologous proteins. Journal of Protein Chemistry, 13, 649–58.
53. Ponder, J. and Richards, F. M. (1987) Tertiary templates for proteins. Use of
packing criteria in the enumeration of allowed sequences for different structural
classes. Journal of Molecular Biology, 193, 775–91.
54. Summers, N. L., Carlson, W. D., and Karplus, M. (1987) Analysis of side-chain
orientations in homologous proteins. Journal of Molecular Biology, 196, 175–98.
55. Islam, S. A. and Sternberg, M. J. (1989) A relational database of protein structures
designed for flexible enquiries about conformation. Protein Engineering, 2, 431–42.
56. Nayeem, A. and Scheraga, H. A. (1994) A statistical analysis of side-chain con-
formations in proteins comparison with ECEPP predictions. Journal of Protein
Chemistry, 13, 283–96.
57. Dean, C. M. and Blundell, T. L. (2001) CODA: a combined algorithm for predicting
the structurally variable regions of protein models. Protein Science, 10, 599–612.
58. Schrauber, H., Eisenhaber, F., and Argos, P. (1993) Rotamers: to be or not to be?
An analysis of amino acid side-chain conformations in globular proteins. Journal
of Molecular Biology, 230, 592–612.
Глава 4. Моделирование белков. Введение 159

59. Canutescu, A. A., Shelenkov, A. A., and Dunbrack, R. L. Jr. (2003) A graph theory
algorithm for rapid protein side-chain prediction. Protein Science, 12, 2001–14.
60. Havel, T. F. and Snow, M. (1991) A new method for building protein conforma-
tions from sequence alignments with homologues of known structure. Journal of
Molecular Biology, 217, 1–7.
61. Srinivasan, S., March, C. J., and Sudarsanam, S. (1993) An automated method
for modeling proteins on known templates using distance geometry. Protein
Science, 2, 277–89.
62. Jang, J. X. and Havel, T. F. (1993) SESAME: a least-squares approach to the
evaluation of protein structures computed from NMR data. Journal of
Biomolecular NMR, 3, 355–60.
63. Fasman, G. D. (1989) Protein conformational prediction. Trends in Biochemical
Sciences, 14, 295–99.
64. Chou, P. Y. and Fasman, G. D. (1974) Prediction of protein conformation. Bio-
chemistry, 13, 211–45.
65. Garnier, J., Osguthorpe, D. J., and Robson, B. (1978) Analysis of the accuracy
and implications of simple methods for predicting the secondary structure of
globular proteins. Journal of Molecular Biology, 120, 97–120.
66. Kabsch, W. and Sander, C. (1983) How good are predictions of protein secondary
structure. FEBS Letters, 155, 179–82.
67. Lim, V. I. (1974) Algorithms for prediction of alpha-helical and beta-structural
regions in globular proteins. Journal of Molecular Biology, 88, 873–94.
68. Rees, D. C. DeAntonio, L., and Eisenberg, D. (1989) Hydrophobic organization
of membrane proteins. Science, 245, 510–13.
69. Kyte, J. and Doolittle, R. F. (1982) A simple method for displaying the hydro-
pathic character of a protein. Journal of Molecular Biology, 157, 105–32.
70. Rost, B. and Sander, C. (1993) Prediction of protein secondary structure at
better than 70% accuracy. Journal of Molecular Biology, 232, 584–99.
71. Rost, B. and Sander, C. (1994) Combining evolutionary information and neural
networks to predict protein secondary structure. Proteins Structure Function
and Genetics, 19, 55–72.
72. Rost, B. and Eyrich, V. A. (2001) EVA: large-scale analysis of secondary structure
prediction. Proteins Structure Function and Genetics Supplement, 5, 192–99.
73. Bryson, K., McGuffin, L. J., Marsden, R. L. et al. (2005) Protein structure pre-
diction servers at University College London. Nucleic Acids Research, 33,
W36–W38.
74. Cuff, J. A., Clamp, M. E., Siddiqui, A. S. et al. (1998) JPred: a consensus second-
ary structure prediction server. Bioinformatics, 14, 892–93.
75. Geer, L. Y., Domrachev, M., Lipman, D. J., and Bryant, S. H. (2002) CDART:
protein homology by domain architecture. Genome Research, 12, 1619–23.
76. Jones, D. T. (1999) Protein secondary structure prediction based on position-spe-
cific scoring matrices. Journal of Molecular Biology, 287, 797–815.
77. Wilmanns, M. and Eisenberg, D. (1995) Inverse protein folding by the residue
pair preference profile method: estimating the correctness of alignments of
structurally compatible sequences. Protein Engineering, 8, 626–35.
160 Молекулярное моделирование

78. Skolnick, J. (2006) In quest of an empirical potential for protein structure pre-
diction. Current Opinion in Structural Biology, 16, 166–71.
79. Panchenko, A. R., Marchler-Bauer, A., and Bryant, S. H. (2000) Combination of
threading potentials and sequence profiles improves fold recognition. Journal of
Molecular Biology, 296, 1319–31.
80. Kilinski, A., Betancourt, M. R., Kihara, D. et al. (2001) Generalized comparative
modeling (GENECOMP): a combination of sequence comparison, threading, and
lattice modeling for protein structure prediction and refinement. Proteins
Structure Function and Genetics, 44, 133–49.
81. Xu, Y. and Xu, D. (2000) Protein threading using PROSPECT: design and evalu-
ation. Proteins Structure Function and Genetics, 40, 343–54.
82. Moult, J. (1999) Predicting protein three-dimensional structure. Current
Opinion in Biotechnology, 10, 583–88.
83. Sippl, M. J. (1990) Calculation of conformational ensembles from potentials of
mean force. An approach to the knowledge-based prediction of local structures in
globular proteins. Journal of Molecular Biology, 213, 859–83.
84. Jones, D. T. and Thornton, J. M. (1996) Potential energy functions for threa-
ding. Current Opinion in Structural Biology, 6, 210–16.
85. Sippl, M. J. (1993) Recognition of errors in three-dimensional structures of
proteins. Proteins Structure Function and Genetics, 17, 355–62.
86. Mosimann, S., Meleshko, S., and James, M. N. G. (1995) A critical assessment of
comparative molecular modeling of tertiary structures of proteins. Proteins
Structure Function and Genetics, 23, 301–17.
87. Ptitsyn, O. B. and Finkelstein, A. V. (1983) Theory of protein secondary struc-
ture and algorithm of its prediction. Biopolymers, 22, 15–25.
88. Mrazek, J. and Kypr, J. (1988) Computer program Jamsek combining statistical
and stereochemical rules for the prediction of protein secondary structure.
Computer Applications in the Biosciences, 4, 297–302.

4.4. Процедуры оптимизации. Уточнение модели.


Молекулярная динамика
4.4.1. Силовые поля при моделировании белков
Как модели белков, построенные по гомологии, так и их кристалличес-
кие структуры нуждаются в уточнении. При построении модели кон-
формации петель и боковых цепей обычно выбираются случайным обра-
зом, вследствие чего они могут не соответствовать энергетически выгод-
ным структурам. Кристаллические структуры также нуждаются в
релаксации для удаления внутренних напряжений, возникающих из-за
влияния упаковки кристалла, или близких контактов между атомами
водорода или аминокислотными остатками, которые добавляют уже
после экспериментального определения структуры.
Поскольку модели белков состоят из сотен и тысяч атомов, единст-
венным подходящим способом обработки систем такого размера явля-
Глава 4. Моделирование белков. Введение 161

ются расчеты методом молекулярной механики. Обычные силовые


поля, используемые в молекулярной механике, основываются на функ-
ции потенциальной энергии (разд. 2.2.1). Белковые силовые поля отли-
чаются некоторыми характеристиками от силовых полей для малых мо-
лекул. Помимо специальной параметризации для белков и ДНК часто
вводят упрощения: например, в некоторых силовых полях неполярные
атомы водорода не представляют явно, а включают в описание тяжелого
атома, с которым они связаны; при этом полярные атомы водорода, ко-
торые могут быть потенциальными участниками водородных связей,
обрабатываются в явном виде. Этот способ рассмотрения называется мо-
делью объединенных атомов. В силовом поле AMBER [1, 2] могут быть
использованы как модель объединенных атомов, так и модель всех ато-
мов, в то время как силовое поле GROMOS [3] оперирует только первой
моделью. Важным упрощением также является использование гранич-
ного радиуса [4] для уменьшения времени расчета несвязных взаимодей-
ствий между атомами, разделенными расстояниями, большими, чем
граничный радиус.
Метод обработки электростатических взаимодействий также изме-
няется. Поскольку явное рассмотрение растворителя все еще является
проблемой, во многих силовых полях пытаются моделировать эффекты
растворителя, вводя зависимость диэлектрической проницаемости от
расстояния [1, 2]. Электростатическое поле вокруг системы не может
рассматриваться как однородное, в особенности в случае макромолекул,
поэтому при вычислении определенных свойств необходима дифферен-
цирующая процедура для учета электростатических эффектов, завися-
щих от локальной ситуации в месте связывания лиганда или на поверх-
ности белка. Подробное обсуждение этой темы и описание методов ре-
шения данной проблемы будет дано в разд. 4.6.1.
Модификации белковых силовых полей весьма многочисленны и не
могут быть описаны здесь в деталях; исчерпывающее описание подо-
бных упрощений дано в [5]. Следует иметь в виду, что каждое упроще-
ние приводит к потере точности. Решение о выборе силового поля зави-
сит от исследуемой проблемы, и всегда следует выбирать наиболее точ-
ное силовое поле, подходящее для выполнения всего исследования.
Следует избегать применения различных силовых полей в одном иссле-
довании.
В программах моделирования используются несколько общеприня-
тых силовых полей; наиболее часто встречаются AMBER [1, 2], CVFF [6],
CHARMM [7] и GROMOS [3].
4.4.2. Оптимизация геометрии
При минимизации белков используются те же алгоритмы, что и для ма-
лых молекул (разд. 2.2.3). Алгоритмы минимизации, применяемые для
оптимизации геометрии, обычно находят лишь локальный минимум на
поверхности потенциальной энергии, ближайший к начальным коорди-
натам. В случае кристаллической структуры с хорошим разрешением
минимизация напрямую приводит к одной энергетически выгодной
162 Молекулярное моделирование

конформации. Обычно релаксация кристаллической структуры вполне


очевидна, но иногда даже в качественных структурах встречаются не-
выгодные взаимодействия атомов, которые создают начальные напря-
жения, приводящие в свою очередь к искусственным искажениям на-
чальной структуры в процессе минимизации. Общий метод решения
данной проблемы — постепенная релаксация структуры белка.
На первой стадии минимизации добавляют силовые ограничения
ко всем тяжелым атомам кристаллической структуры, фиксирующие
координаты атомов на предварительно заданных позициях. Величина
допуска может быть задана пользователем и влияет на среднеквадра-
тичное отклонение атомов от начальных координат. При ограничении
движения тяжелых атомов атомы водорода и молекулы растворителя
двигаются свободно до минимизации общей потенциальной энергии. На
этой стадии наиболее подходящим методом минимизации является ал-
горитм скорейшего спуска. Для начальной релаксации можно приме-
нять грубый критерий сходимости или ограничивать число шагов мини-
мизации.
На следующей стадии рекомендуется ограничить только движение
атомов основной цепи: при этом происходит оптимизация ориентации
боковых цепей. В этом случае также подходит метод скорейшего спуска.
На последнем шаге силовые ограничения удаляются; окончатель-
ный результат представляет собой полностью релаксированную конфор-
мацию. В данном случае рекомендуется применять более эффективный
метод сопряженных градиентов.
Применение силовых ограничений может быть необходимо при мо-
делировании неполных систем, возникающих при рентгеноструктур-
ном исследовании в случае, если части кристалла или молекулы раство-
рителя не могут быть хорошо разрешены. Модели активного центра
ферментов или полостей связывания белков, используемые для изуче-
ния потенциальных лиганд-белковых взаимодействий, также являют
собой примеры типичных неполных систем.
Из-за отсутствия соседних аминокислот и молекул растворителя ато-
мы на поверхности белка достаточно подвижны. Как следствие, после ми-
нимизации могут появляться большие отклонения от начальных пози-
ций и артефакты в окончательной геометрии. Поэтому атомы на концах
боковых цепей привязываются к своим начальным положениям для
того, чтобы избежать нереалистичных искажений атомных координат.
Чтобы проверить точность оптимизированной модели белка, следу-
ет изучить ее отклонение от экспериментальной структуры. Для этого
конечную и начальную структуры накладывают друг на друга с исполь-
зованием метода наименьших квадратов. В качестве реперных точек ис-
пользуются все атомы основной цепи или атомы основной цепи хорошо
разрешенных структурных элементов. Качество подгонки можно оце-
нить среднеквадратичным отклонением оптимизированной структуры
от начальной геометрии. Его значение сильно зависит от числа и лока-
лизации атомов, рассматриваемых при наложении. Из-за высокой под-
вижности боковых цепей подгонка всех тяжелых атомов должна приво-
Глава 4. Моделирование белков. Введение 163

дить к значительно бoльшим значениям среднеквадратичного отклоне-


ния, чем подгонка лишь атомов основной цепи.
Если построенная модель базируется только на гомологии, то кон-
формации петель и боковых цепей нуждаются в уточнении. Необходимо
внимательно исследовать их конформационное поведение и анализиро-
вать поверхность потенциальной энергии для поиска других возмож-
ных низкоэнергетических конформаций. Ценным инструментом дости-
жения этой цели является молекулярная динамика. Релаксированная
геометрия, полученная в результате минимизации, может быть исполь-
зована в качестве отправной точки для моделирования молекулярной
динамики.
4.4.3. Использование молекулярной динамики
для уточнения модели
Как говорилось выше, уточнение моделей, построенных по гомологии,
совершенно необходимо. Конформации петель и боковых цепей данной
модели находятся лишь в одной из возможных конформаций, а структу-
ра после минимизации находится лишь в локальном минимуме. Для по-
иска наиболее выгодной геометрии системы необходима модифицирован-
ная стратегия более исчерпывающего исследования конформационного
пространства.
Моделирование молекулярной динамики является эффективным
способом решения данной задачи, в особенности для молекул, содержа-
щих сотни водородных связей. Оно проводится с помощью интегрирова-
ния классических уравнений движения молекулярной системы на от-
резке времени. Получающаяся траектория молекулы может быть ис-
пользована для вычисления средних и зависящих от времени свойств
системы. Теория метода молекулярной динамики и его приложение к
конформационному поиску малых молекул обсуждались в разд. 2.3.3 и
проиллюстрированы наглядными примерами. В данном разделе мы
сосредоточимся на практике использования метода оптимизации трех-
мерных структур макромолекул.
Молекулярная динамика внесла значительный вклад в понимание
динамических процессов в белках на атомном уровне. Тем не менее су-
ществуют некоторые базовые ограничения метода и проблемы, связан-
ные с огромным числом степеней свободы больших молекулярных систем.
Хотя вычислительные ресурсы стали достаточными для обработки
довольно больших систем, все еще необходимо использовать некоторые
модификации методов для уменьшения расчетного времени [5]. Очень
полезным результатом таких упрощений является возможность моде-
лирования более продолжительных периодов времени. Это позволяет
более полно изучать динамическое поведение больших молекулярных
систем.
Перед детальным обсуждением различных упрощений следует сно-
ва упомянуть, что каждая модификация и уменьшение числа степеней
свободы вызывает уменьшение точности, и всегда следует внимательно
проверять, допустимо ли соответствующее упрощение.
164 Молекулярное моделирование

Одной из наиболее простых и часто применяемых упрощающих про-


цедур является использование функций потенциальной энергии с объе-
диненными атомами. Идея этого метода уже была описана выше. На
этом алгоритме базируется большинство белковых силовых полей, на-
пример AMBER [1, 2] и GROMOS [3]. Исключение из рассмотрения не-
полярных атомов водорода значительно уменьшает число частиц в боль-
шой биомолекуле.
Алгоритм SHAKE [8] предоставляет следующую возможность для
уменьшения компьютерного времени. При использовании метода SHAKE
вводятся дополнительные силовые ограничения с целью зафиксировать
длины связей на уровне их равновесных значений. Это очень полезно по
нескольким причинам. Прежде всего для «замороженных» связей можно
не вычислять энергетические члены, соответствующие изменению дли-
ны связей. Величина шага интегрирования зависит от наиболее быстрых
колебаний, наблюдаемых в молекуле. Обычно это высокочастотное ко-
лебание, соответствующее растяжению связи C—H; период этого коле-
бания составляет порядка 10–14 с, и поэтому шаг интегрирования дол-
жен составлять 10–15 с (1 фс). При применении алгоритма SHAKE к
этим связям возможно использование большего шага интегрирования с
меньшими вычислительными затратами, что открывает возможность
моделирования более длинных отрезков времени. Установление гранич-
ного радиуса, за пределами которого пренебрегают несвязными взаимо-
действиями, имеет тот же эффект.
Кроме того, уменьшить расчетное время можно при использовании
сбалансированного вычислительного протокола. С этой целью можно
зафиксировать некоторые части белка и моделировать молекулярную
динамику лишь для подвижных частей, таких как петли и боковые цепи,
не принимая в рассмотрение четко сформированные элементы вторич-
ной структуры, такие, как a-спирали или b-листы белкового остова.
Доступные данные ЯМР могут также послужить основанием для фикса-
ции атомов, боковых цепей или частей белка во избежание их отклоне-
ния от экспериментально определенных позиций. Следует понимать,
что ограничения, накладываемые на части гибких молекул, приводят к
уменьшению числа степеней свободы. Без всякого сомнения, исчерпы-
вающее исследование конформационного пространства и, следователь-
но, лучшие результаты получаются только тогда, когда силовые ограни-
чения не используются.
Все упомянутые методы увеличивают эффективность моделирова-
ния молекулярной динамики. Тем не менее для некоторых проблем дос-
тупный масштаб времени слишком мал. Если, например, изучается свя-
зывание лиганда с ферментом или рецептором и следующие за этим кон-
формационные изменения, то время, необходимое для этого процесса,
может меняться от пикосекунд до наносекунд [9]. Тот же масштаб вре-
мени необходим для моделирования укладки белков. Оба типа задач до
сих пор до конца неразрешимы.
Несколько модификаций моделирования высокотемпературной мо-
лекулярной динамики были успешно использованы в конформацион-
Глава 4. Моделирование белков. Введение 165

ном анализе пептидов и оптимизации моделей белков. Два важных ме-


тода из этой группы — молекулярно-динамическое моделирование вы-
сокотемпературного отжига [10] и моделирование отжига [11] — были
описаны в разд. 2.3.3. Это ценные и широко применяемые методы
исследования пептидов и белков [12–16].
Во всех протоколах молекулярной динамики весьма важен выбор
подходящей температуры моделирования. Обычно моделирование про-
водится в диапазоне от 300 до 400 К. С одной стороны, температура дол-
жна быть достаточно высокой, чтобы не дать системе застрять в одной
области конформационного пространства, с другой — она не должна
быть слишком высокой, поскольку это может привести к искаженным
конформациям даже после минимизации [16]. Часто при использова-
нии высокотемпературной молекулярной динамики возникает и другая
проблема — транс-цис-обращение пептидных связей. Этих артефактов
можно избежать, используя более низкие температуры или накладывая
ограничения на торсионные углы пептидных связей.

4.4.4. Обработка сольватированных систем


Окружающая среда сильно влияет на конформационную подвижность
белка, особенно на поверхности и в районе петель. Отсутствие соседних
атомов приводит к локальному вакууму на поверхности белка; пробле-
мы, с этим связанные, уже упоминались в связи с процессом миними-
зации. К сожалению, они до сих пор не решены. Разумеется, точность
моделирования молекулярной динамики повышается при использова-
нии явно заданных молекул растворителя. Одна из возможностей ими-
тации эффектов растворителя и учета граничных явлений заключа-
ется в использовании диэлектрической проницаемости, зависящей от
расстояния.
Если молекулу заключить в сферу из молекул растворителя, точ-
ность моделирования молекулярной динамики должна увеличиться,
поскольку таким образом имитируется по крайней мере часть эффектов
сольватации. Необходимо отметить, что существуют важные различия
между сольватной водой и структурной водой. Структурная вода важна
для функции белка и может влиять даже на конформацию его остова.
Поэтому в расчетах структурную воду следует всегда учитывать в явном
виде.
На следующем уровне приближения белок помещают в бокс, запол-
ненный тысячами молекул растворителя, моделируя естественное соль-
ватное окружение. Это не всегда возможно, поскольку требует значи-
тельных расчетных усилий. Тем не менее благодаря быстрому росту вы-
числительных мощностей в последние годы проводится все больше и
больше исследований систем с явно заданным растворителем [17–22].
Обширный обзор моделирования молекулярной динамики в различных
системах можно найти в работе [23].
Во многих случаях использование реалистичных моделей воды для
многих тысяч молекул приводит к большим затратам времени, поэтому
166 Молекулярное моделирование

были разработаны специальные методы, использующие упрощенное пред-


ставление молекул растворителя [18]. Например, молекулы растворите-
ля могут быть представлены как нейтральные сферические атомы; та-
кой способ обработки значительно уменьшает время расчета. Детальное
описание всех методов выходит за рамки данной книги. Тем не менее,
важно иметь в виду, что использование сольватной оболочки на любом
уровне сложности расчета является важным способом увеличения точ-
ности и достоверности моделирования молекулярной динамики, в осо-
бенности для больших биомолекулярных систем.
Как и все остальные научные исследования, связанные с расчета-
ми, молекулярная динамика становится все мощнее с ростом произво-
дительности компьютеров. Вычисления, которые вчера с трудом могли
быть сделаны на суперкомпьютерах, завтра можно будет проводить на
обычных (так называемых «офисных») рабочих станциях. Рост эффек-
тивности вычислений позволяет моделировать все бoльшие и бoльшие
системы с более реалистичными граничными условиями и адекватным
отбором конформаций благодаря более длительным временам накопле-
ния. Недавно стало возможно моделирование таких сложных систем,
как трансмембранные каналы и рецепторы [24]. Моделирование слож-
ных систем с «природными» липидными бислоями (например, дипаль-
митоилфосфатидилхолин (DPPC), пальмитоилолеоилфосфатидилхо-
лин (POPC), димиристоилфосфатидилхолин (DMPC)) все еще искусс-
тво, поскольку модель мембраны характеризуется набором параметров
силового поля, который специальным образом адаптируется для того,
чтобы наблюдать реалистичные физические свойства во время модели-
рования молекулярной динамики [24].

4.4.5. Комплексы лигандов и центров связывания


Модели белков часто используются для исследования лиганд-белковых
взаимодействий. Малые молекулы, представляющие обычно фармацев-
тический интерес как новые лекарства, можно поместить в активный
центр белка. За последнее десятилетие было разработано множество
программ докинга, которые могут быть использованы для этой цели. Их
детальное описание приводится в гл. 5.
Поскольку природный процесс связывания нестатичен, а большин-
ство программ докинга до сих пор не учитывают подвижность белка, мо-
делирование свойств лиганд-белкового комплекса можно провести ме-
тодом молекулярной динамики. Такая ценная информация, как схема
водородных связей, среднеквадратичные отклонения и флуктуации
положения, может быть получена с помощью молекулярной динамики
и помогает различить связывающиеся и несвязывающиеся лиганды.
Для того чтобы моделирование молекулярной динамики комплекса
имело смысл, должны быть удовлетворены некоторые предварительные
требования. Начальные координаты белка и лиганда должны представ-
лять собой конформации с достоверной энергией. Моделируемая
система должна включать в себя все интересующие области и быть доста-
точно большой, чтобы корректно описывать все силы, вносящие вклад в
Глава 4. Моделирование белков. Введение 167

энергию системы. Комплексы, представляющие только активный центр,


можно изучать только в том случае, если учтены все возможные ли-
ганд-белковые взаимодействия. Кроме того, все необходимые парамет-
ры для атомов белка и лиганда должны быть учтены в силовом поле.
Поскольку исторически большинство силовых полей разрабатывалось
либо для малых органических молекул, либо для белков, иногда подбор
необходимых параметров становится проблематичным. И наконец, вре-
мя моделирования должно быть достаточно большим для накопления
представительного ансамбля данных.
Несмотря на известные ограничения, моделирование молекулярной
динамики стало мощным инструментом изучения динамического пове-
дения таких объектов, как пептиды, белки, ферменты, рецепторы и мем-
браны. Совместное использование экспериментальных результатов, по-
лученных методами ЯМР, фотоаффинного маркирования или рентгенов-
ской кристаллографии, и теоретических методов может представлять
собой путь к получению детальной трехмерной атомной картины моле-
кулярной системы и изучению до сих пор экспериментально недоступ-
ных процессов в белках.

Цитированная литература
1. Weiner, S. J., Kollman, P. A., Case, D. A. et al. (1984) New force field for molecu-
lar mechanical simulation of nucleic acids and proteins. Journal of the American
Chemical Society, 106, 765–84.
2. Weiner, S. J., Kollman, P. A., Nguyen, D. T., and Case, D. A. (1986) An all-atom
force field for simulation of proteins and nucleic acids. Journal of Computa-
tional Chemistry, 7, 230–52.
3. van Gunsteren, W. F. and Berendsen, H. J. C. (1985) Molecular dynamics simula-
tions techniques and application to proteins, in: Molecular Dynamics and Pro-
tein Structure (ed. J. Hermans), Polycrystal Books Service, Western Springs,
pp. 5–14.
4. Brooks, C. L. III, Pettitt, B. M., and Karplus, M. (1985) The effects of terminat-
ing long-ranged forces in fluids. Journal of Chemical Physics, 83, 5897–908.
5. Van Gunsteren, W. F., Bakowies, D., Baron, R. et al. (2006) Biomolecular mode-
ling: goals, problems, perspective. Angewandte Chemie (International ed. In
English), 45, 4064–92.
6. Dauber-Osguthorpe, P., Roberts, V. A., Osguthorpe, D. J. et al. (1988) Structure
and energetics of ligand binding to proteins: E. coli dihydrofolate reductase-
trimethoprim, a drug-receptor system. Proteins Structure Function and Genetics,
4, 31–47.
7. Brooks, B. R., Bruccoleri, R. E., Olafson, B. D. et al. (1983) CHARMM: a pro-
gram for macromolecular energy minimization and dynamics calculations. Jour-
nal of Computational Chemistry, 4, 187–217.
8. Ryckaert, J. P., Ciccotti, G., and Berendsen, H. J. C. (1977) Numerical integra-
tion of the Cartesian equations of motion of a system with constraints: molecular
dynamics of n-alkanes. Journal of Computational Physics, 23, 327.
168 Молекулярное моделирование

9. Lybrand, T. P. (1990) Computer simulation of biomolecular systems using mole-


cular dynamics and free energy perturbation methods, in Reviews in Computa-
tional Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1,
pp. 295–320.
10. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) MacroModel — an
integrated software system for modeling organic and bioorganic molecules using
molecular mechanics. Journal of Computational Chemistry, 11, 440–67.
11. Kirkpatrick, S., Gelatt, C. D.,and Vecchi, M. P. (1983) Optimization by simula-
ted annealing. Science, 220, 671–80.
12. Salvino, J. M., Seoane, P. R., and Dolle, R. E. (1993) Conformational analysis of
bradykinin by annealed molecular dynamics and comparison to NMR-derived
conformations. Journal of Computational Chemistry, 14, 438–44.
13. Wilson, S. R. and Cui, W. (1990) Application of simulated annealing to peptides.
Biopolymers, 29, 225–35.
14. Mackey, D. H. J., Cross, A. J., and Hagler, A. T. (1989) The role of energy
minimization in simulation strategies of biomolecular systems, in Prediction of
Protein Structure and the Principles of Protein Conformation (ed. G. Fasman),
Plenum Press, New York, pp. 317–58.
15. Kerr, I. D., Sankararamakrishnan, R., Smart, O. S., and Sansom, M. S. P. (1994)
Parallel helix bundles and ion channels: molecular modeling via simulated an-
nealing and restrained molecular dynamics. Biophysical Journal, 67, 1501–15.
16. Bruccoleri, R. E. and Karplus, M. (1990) Conformational sampling using
high-temperature molecular dynamics. Biopolymers, 29, 1847–62.
17. Vijayakumar, S., Ravishanker, G., Pratt, R. F., and Beveridge, D. L. (1995) Mo-
lecular dynamics simulation of a class A b-lactamase: structural and mechanistic
implications. Journal of the American Chemical Society, 117, 1722–30.
18. Antes, I., Thiel, W.,and van Gunsteren, W. F. (2002) Molecular dynamics simu-
lations of photoactive yellow protein (PYP) in three states of its photocycle: a
comparison with X-ray and NMR data and analysis of the effects of Glu-46
deprotonation and mutation. European Biophysics Journal, 31, 504–20.
19. Schlegel, B., Sippl, W., and Holtje, H.-D. (2005) Molecular dynamics simula-
tions of bovine rhodopsin: influence of protonation states and different mem-
brane-mimicking environments. Journal of Molecular Medicine, 12, 49–64.
20. Johren, K., and Holtje, H.-D. (2005) Different environments for a realistic simu-
lation of GPCRs-application to the M2 muscarinic receptor. Archiv der
Pharmazie, 338, 260–67.
21. Zhang, Y., Sham, Y. Y., Rajamani, R. et al. (2005) Homology modeling and mo-
lecular dynamics simulations of the mu opioid receptor in a membrane-aqueous
system. Chembiochem, 6, 853–59.
22. Haider, S., Grottesi, A., Hall. B. A. et al. (2005) Conformational dynamics of the
ligand-binding domain of inward rectifier K channels as revealed by molecular
dynamics simulations toward an understanding of Kir channel gating. Biophysi-
cal Journal, 88, 3310–20.
23. Karplus, M. and McCammon, J. A. (2002) Molecular dynamics simulations of
biomolecules. Nature Structural Biology, 9, 646–52.
24. Hansson, T., Oostenbrink, C., and van Gunsteren, W. (2002) Molecular dynam-
ics simulations. Current Opinion in Structural Biology, 12, 190–96.
Глава 4. Моделирование белков. Введение 169

4.5. Валидация моделей белков


После того как модель белка построена по гомологии и оптимизирована
с помощью молекулярной механики или молекулярной динамики, не-
обходимо убедиться в ее качестве и достоверности. Здесь уместен вопрос
о том, как можно проверить правильность и точность модели. Задача эта
очень сложная, поскольку качество модели белка, построенной по гомо-
логии, зависит от огромного числа параметров на различных уровнях
структурной организации. Они перечислены на рис. 4.5.1.

4.5.1. Стереохимическая корректность


Качество трехмерной структурной модели белка сильно зависит от точнос-
ти использованной шаблонной структуры, иными словами, от качества
кристаллической структуры [1]. Очевидно, что модель белка не может
быть точнее, чем кристаллическая структура, использованная в качестве
шаблона. Рентгеновские структуры белков могут содержать как экспери-
ментальные ошибки, так и ошибки интерпретации результатов [1–3].

Рис. 4.5.1. Алгоритм оценки качества белковых моделей


170 Молекулярное моделирование

Основные меры качества кристаллических структур — это разреше-


ние и R-фактор. Чем лучше разрешение белкового кристалла, чем боль-
ше объем дифракционных данных, полученных из экспериментальных
наблюдений, тем больше точность структуры белка [4]. Разрешение бел-
ковых структур, хранящихся в PDB, обычно находится в диапазоне
1–4 C. R-фактор — это мера согласия между полученной трехмерной
структурой кристалла (трехмерная структура, лучше всего соответству-
ющая карте электронной плотности) и «реальной» структурой кристал-
ла. R-фактор можно определить путем сравнения экспериментально на-
блюдаемых амплитуд рентгеновских отражений и амплитуд, вычислен-
ных по структуре белка, показывающей наилучшее соответствие карте
электронной плотности (детальное обсуждение точности в рентгенов-
ской кристаллографии интересующийся читатель может найти в лите-
ратуре [5]). Чем лучше согласие между наблюдаемыми и вычисленными
амплитудами (меньший R-фактор), тем лучше согласие между найден-
ной и реальной кристаллическими структурами. Существуют способы
искусственного уменьшения R-фактора, поэтому он может иногда ввес-
ти в заблуждение [2]. Общепринято рассматривать структуры с разре-
шением 2,0 C или лучше как достоверные. Если, помимо этого, R-фак-
тор составляет меньше 20%, можно уверенно предположить, что струк-
тура определена правильно.
Для проверки стереохимического качества построенной модели не-
обходимо доказать правильность таких параметров, как длины связей,
углы между связями, торсионные углы и хиральность аминокислот.
Наблюдения показывают, что в трехмерных структурах белков длины
связей и углы между ними группируются вокруг «идеальных значений».
Иными словами, средние значения для кристаллических структур рас-
сматриваются как хорошие индикаторы стереохимического качества, и
значения для моделей белков следует сравнивать с ними (см. табл. 4.5.1)
[6] для того, чтобы выявить стереохимические нарушения, которые об-
наруживаются у низкокачественных структур.
Поскольку ручная проверка всех стереохимических параметров
белка — весьма утомительное и длительное занятие, были разработаны
программы автоматической проверки всех стереохимических парамет-
ров. В качестве примера можно привести PROCHECK [7], WHATCHECK
[8] и VADAR [9], которые доступны через интернет (например,
http://www.embl.org, http://www.smb.ucl.ac.uk/).
Важным индикатором стереохимического качества является рас-
пределение торсионных углов j и y основной цепи, которое можно визу-
ализировать с помощью карты Рамачандрана. Как уже говорилось в
разд. 4.2.1, выгодные и невыгодные области классической карты Рама-
чандрана были определены при изучении конформационного поведения
изолированных дипептидов. Для сотен хорошо оптимизированных бел-
ковых структур торсионные углы обычно лежат в тех же областях.
Одно из замеченных свойств повторяющихся вторичных структур в бел-
ках состоит в том, что для них наблюдаемые значения j и y близки к
тем, которые рассчитаны Рамачандраном для оптимальных конформа-
Глава 4. Моделирование белков. Введение 171

Таблица 4.5.1. Стереохимические параметры, найденные Моррисом и др. при


исследовании кристаллических структур с высоким
разрешением [6]

Среднее Стандартное
Стереохимический параметр
значение отклонение
j–y в наиболее благоприятных областях карты > 90% —
Рамачандрана

Торсионный угол c1 в конформации гош– 64,1° 15,7°

c1 в конформации транс 183,6° 16,8°

c1 в конформации гош+ -66,7° 15,0°

Торсионный угол c2 177,4° 18,5°

Торсионный угол j для пролина -65,4° 11,2°

Торсионный угол j для a-спирали -65,3° 11,9°

Торсионный угол y для a-спирали -39,4° 11,3°


Длина дисульфидной связи (Disulfide bond 2,0 C 0,1 C
separation)

Торсионный угол w 180,0° 5,8°


Отклонение Ca от тетраэдричности: торсион- 33,9° 3,5°
ный угол z (виртуальный торсионный угол
Ca–N–C¢–Cb)

ций дипептидов. Углы j и y для неповторяющихся структур, таких, как


петли и шпильки, находятся в благоприятных о