Вы находитесь на странице: 1из 322

МОЛЕК УЛЯРНОЕ

МОДЕЛИРОВАНИЕ
Hans-Dieter Holtje, Wolfgang Sippl, Didier Rognan, Gerd Folkers

Molecular Modeling
Basic Principles and Applications

Third, Revised and Expanded Edition


Х.-Д. Хёльтье, В. Зиппль, Д. Роньян, Г. Фолькерс

МОЛЕК УЛЯРНОЕ
МОДЕЛИРОВАНИЕ
ТЕОРИЯ И ПРАКТИКА

3е издание (электронное)

Перевод с английского
канд. хим. наук А. А. Олиференко,
канд. хим. наук Д. И. Осолодкина, С. А. Писарева
и канд. хим. наук В. И. Чупахина

под редакцией
канд. хим. наук В. А. Палюлина
и канд. хим. наук Е. В. Радченко

Москва
БИНОМ. Лаборатория знаний
2015
УДК 547
ББК 24.23
Х36

Хёльтье Х.-Д.
Х36 Молекулярное моделирование: теория и практика [Электрон-
ный ресурс] / Х.-Д. Хёльтье, В. Зиппль, Д. Роньян, Г. Фолькерс ;
пер. с англ. — 3-е изд. (эл.). — Электрон. текстовые дан. (1 файл
pdf : 322 с.). — М. : БИНОМ. Лаборатория знаний, 2015. — Систем.
требования: Adobe Reader XI ; экран 10".
ISBN 978-5-9963-2401-9
В научном издании, написанном учеными из Германии, Франции
и Швейцарии, имеющими большую педагогическую практику, на современ-
ном уровне рассмотрены основные методы молекулярного моделирования
и дизайна лекарственных веществ — бурно развивающейся области современ-
ной компьютерной химии. Изложены теоретические основы моделирования
пространственной структуры малых молекул и построения зависимостей
биологической активности от пространственной структуры (на основе
3D-QSAR), принципы моделирования структуры белковых молекул, методы
молекулярного докинга и виртуального скрининга, принятые подходы
при выборе биомишени. Приведены примеры моделирования антагонистов
дофаминового рецептора D3 . В настоящем издании внесены исправления,
уточняющие перевод, и исправлены некоторые рисунки.
Для научных сотрудников, работающих в областях молекулярного
моделирования, био- и хемоинформатики, нанотехнологий и поиска новых
лекарств, а также для студентов и аспирантов.
УДК 547
ББК 24.23

Деривативное электронное издание на основе печатного аналога: Мо-


лекулярное моделирование: теория и практика / Х.-Д. Хёльтье, В. Зиппль,
Д. Роньян, Г. Фолькерс ; пер. с англ. — 2-е изд. — М. : БИНОМ. Лаборатория
знаний, 2013. — 319 с. : ил. — ISBN 978-5-9963-1070-8.

В соответствии со ст. 1299 и 1301 ГК РФ при устранении ограничений, установленных


техническими средствами защиты авторских прав, правообладатель вправе требовать
от нарушителя возмещения убытков или выплаты компенсации


c Originally published in the English
language by WILEY-VCH Verlag
GmbH & Co. KGaA, Boschstraße 12,
D-69469 Weinheim, Federal Republic
of Germany, under the title
«Molecular Modeling. Basic
Principles and Applications».
Copyright 2008 by Wiley-VCH
Verlag GmbH & Co. KGaA.
All Rights Reserved.
This EBook published under license
with the original publisher.

c Перевод на русский язык,
оформление. БИНОМ. Лаборатория
ISBN 978-5-9963-2401-9 знаний, 2010
Предисловие к русскому изданию

Молекулярное моделирование — бурно развивающаяся область совре-


менной компьютерной химии. Существует много методов молекулярно-
го моделирования, ориентированных на решение различных задач и
различающихся как стратегическим подходом, так и программной реа-
лизацией. Важность молекулярного моделирования для конструирова-
ния новых лекарственных веществ неоспорима: структуры практически
всех новых лекарств, появившихся в последние годы, прошли через ста-
дию молекулярного моделирования.
Предлагаемый читателю русский перевод книги Х.-Д. Хёльтье,
В. Зиппля, Д. Роньяна и Г. Фолькерса является пока единственным из-
данием на русском языке, охватывающим на современном уровне основ-
ные аспекты молекулярного моделирования и дизайна лекарственных
веществ. Авторы книги — известные ученые, многие годы успешно ра-
ботающие в области молекулярного моделирования. Каждый автор
ведет курс молекулярного моделирования в учебном заведении, что по-
зволяет не сомневаться в высоком научном и педагогическом уровне
издания.
Авторы книги стремятся создать у читателя системное представле-
ние о молекулярном моделировании. В книге рассматриваются все
основные аспекты этой области знания — от теории и методов моделиро-
вания малых молекул до моделирования пространственной структуры
белков и дизайна структур потенциальных лекарств, воздействующих
на определенные белковые биомишени. Книга хорошо иллюстрирована,
что значительно облегчает восприятие материала.
Особую ценность данному изданию придает наличие подробно разо-
бранных примеров решения практических задач молекулярного моде-
лирования как для малых, так и для белковых молекул, что позволит
студентам самостоятельно «прочувствовать» процесс моделирования
или осуществить его под руководством опытного наставника.
Подобная книга на русском языке принесет несомненную пользу
студентам, аспирантам и научным сотрудникам, работающим в облас-
тях молекулярного моделирования и нанотехнологий, био- и хемоин-
форматики, и, конечно же, занятым поиском новых лекарств.

Академик РАН
Н. С. Зефиров
Предисловие
редакторов перевода
В последние десятилетия молекулярное моделирование стало важней-
шей составляющей практически любого исследования в химии. Такие
области науки как изучение механизмов химических реакций, констру-
ирование молекул с заданными свойствами и с определенными геомет-
рическими характеристиками, нанотехнологии, создание новых мате-
риалов уже не могут обходиться без молекулярного моделирования. Мо-
лекулярное моделирование стало важнейним методом при дизайне
новых лекарственных веществ на первых этапах конструирования мо-
лекул, оптимальным образом связывающихся с заданными биологичес-
кими мишенями (как правило, белковой природы) и обладающих опре-
деленным комплексом свойств. В то же время литература на русском
языке в данной области практически отсутствует. Представляемая вни-
манию читателей книга, в которой в первую очередь рассматриваются
современные проблемы и методы компьютерного дизайна новых ле-
карств, достойно восполняет этот пробел.
При переводе на русский язык современной литературы по молеку-
лярному моделированию неизбежны трудности, связанные с передачей
англоязычных терминов. Вошедшие явочным порядком в русский на-
учный лексикон «кальки» из английского языка часто оказываются не-
приемлемыми и выглядят скорее научным жаргоном, чем удачными пе-
реводами или органичными заимствованиями, поэтому переводчики
старались избегать таких нововведений без крайней необходимости.
Тем не менее, создание более гибкой и адаптированной к языковым воз-
можностям научной теминологии было необходимо. Так, нами был
введен термин «докировать», проводить докинг, который оказался дос-
таточно гибким и удобным. В русском языке существует морской тер-
мин «доковать», ставить корабль в док, однако в литературе по молеку-
лярному моделированию он не прижился. Переводчики по возможности
избегали применения неустоявшегося термина «докировать», однако он
может быть рекомендован для дальнейшего использования. Единствен-
ный термин, который был напрямую заимствован из английского —
«хит» (англ. hit compound). В контексте молекулярного моделирования
он означает соединение, имеющее высший по определенным критериям
рейтинг (ср. употребление слова «хит» в массовой культуре) и пригодное
для дальнейшей оптимизации. Пройдя различные дополнительные про-
верки, соединение-хит становится соединением-лидером (ведущим сое-
динением), пригодным для создания лекарств на его основе.
Для большинства терминов, встречающихся в тексте лишь один-два
раза, приводится оригинальный англоязычный термин и сокращение
(если оно есть) в скобках. При отсутствии устоявшихся русскоязычных
сокращений и наличии устоявшихся англоязычных используются по-
следние. В особенности это касается восьмой главы, в которой встреча-
Предисловие редакторов перевода 7

ется множество общепринятых международных сокращенных назва-


ний рецепторов, которые, как правило, оставлялись без перевода.
Перевод выполнили: гл. 1 — С. А. Писарев, разд. 2.1–2.5 —
А. А. Олиференко и С. А. Писарев, разд. 2.6 и гл. 3–5 — Д. И. Осолод-
кин, гл. 6–8 — В. И. Чупахин.
Переводчики выражают сердечную благодарность П. В. Олиферен-
ко, Д. О. Чаркину, Д. А. Шульге, М. И. Лаврову, А. С. Морозову,
Д. В. Мамченкову, Н. А. Проценко, Т. П. Бутенко, О. Л. Пустоваловой и
Е. В. Демахиной, чьи критические замечания оказали неоценимую по-
мощь при подготовке текста перевода.

В. А. Палюлин, Е. В. Радченко
Предисловие к третьему изданию

...И когда после долгого поиска обнаруживается новый фрагмент ис-


тины, это не открытие, но откровение. Ответ оказывается на-
столько же неожиданным, насколько и простым, он доставляет эс-
тетическое удовольствие и мгновенно приносит с собой убежден-
ность; наступает чудесный, незабываемый момент, когда кто-то
говорит себе: «Ну конечно же! Вот оно!»...

Эти слова Лоуренса Брэгга лучше всего описывают уникальные возмож-


ности молекулярного моделирования для расширения нашего понима-
ния сложных взаимодействий между лигандами и их мишенями, что ха-
рактерно для множества областей исследования биологических наук.
Сам я всегда рассматривал эту особенность методов молекулярного
моделирования как наиболее перспективную и наиболее увлекательную.
Приложения методов молекулярного моделирования, возникшие
благодаря бурному развитию вычислительной техники и программного
обеспечения, претерпели серьезные изменения за четыре года, которые
прошли со времени выхода второго издания этой книги. Именно поэто-
му авторы и издатели решили, что наступило время для ее переработки.
В настоящее издание внесены следующие изменения:
l добавлена глава, посвященная хемогеномике
l модельный пример исследования белка заменен весьма актуальным
объектом моделирования — моделью рецептора CAR
l тщательно пересмотрены, исправлены и расширены все главы книги.
Мы также решили приводить названия всех цитируемых работ, что-
бы облегчить читателю поиск дополнительной информации.
Надеемся, что эта книга принесет пользу даже новичкам в данной
области исследований.
По поручению моих соавторов я благодарю всех, кто участвовал в
работе над этим изданием, и выражаю признательность издательству
Wiley-VCH за долговременное сотрудничество.

Октябрь 2007 г.
Дюссельдорф
Ханс-Дитер Хёльтье
Введение
1

«О, благая Венера! Под небом скользящих созвездий...». Тит Лукреций


Кар1 начинает свою известную поэму «О природе вещей» с просьбы к бо-
гине любви об усмирении бога войны Марса, управлявшего миром в то
время, когда Древний Рим находился в зените своего могущества.
Лукреций ставил своей целью объяснение. Эта цель как будто бы
вступала в странное противоречие с его воззваниями к богине любви.
Согласно Лукрецию, объяснение обычному человеку законов природы
изгоняло страх — страх перед богами и их служителями, страх перед
мощью непредсказуемой природы и властью звезд. Молнии, огонь и
свет, вино и оливковое масло — вот простые и обыденные вещи, которые
были необходимы людям и радовали их, но которых они в то же время
боялись.

Нам не составит труда объяснить на основе разумной


То, почему проникать несравненно пронзительней может
Молний огонь, чем земной, исходящий от факелов наших:
Будет довольно сказать, что небесное молнии пламя
Тоньше гораздо и все состоит из мельчайших частичек,
А потому проходить оно может в такие отверстья,
Где не пробиться огню ни от дров, ни от факелов наших.
Кроме того, через рог фонаря проникает свободно
Свет, но не дождь. Почему? Ибо света тела основные
Мельче, чем те, из каких состоит благодатная влага.
И хоть мгновенно вино, когда цедишь его, протекает,
Но потихоньку идет и сочится ленивое масло;
Иль потому, что его, очевидно, крупней элементы,
Иль крючковатей они и спутаны больше друг с другом;
И получается так, что не могут достаточно быстро
Связь меж собой разорвать по отдельности первоначала
И вытекать, проходя чрез отверстие каждое порознь2.

1
Тит Лукреций Кар (ок. 99–55 гг. до н. э.) — римский поэт и философ, последователь уче-
ния Эпикура, приверженец атомистического материализма (здесь и далее, если не ука-
зано иное— прим. перев. ).
2
Перевод Ф. А. Петровского.
10 Молекулярное моделирование

Атомистическая теория Демокрита1 позволила Лукрецию описать


качества света, воды и вина. Для того чтобы вывести соотношения
между структурой вещества и его свойствами, он использовал модели.
Основные «строительные блоки» в моделях Лукреция напоминают со-
временные атомы (сам Лукреций называл их первоначалами): это эле-
ментарные сущности, не поддающиеся какому-либо дальнейшему рас-
щеплению и обладающие способностью соединяться друг с другом.
Лукреций даже предположил наличие явлений взаимодействия и рас-
познавания, для обеспечения которых он наделил свои «блоки» меха-
ническими приспособлениями. Самыми важными условиями для быс-
троты сцепления этих воображаемых приспособлений были соответ-
ствие структур и наличие крючков.
Насколько хорошо такая модель соответствует реальности, показы-
вает объяснение поэтом различной текучести вина и масла. Модель
Кори—Полинга—Колтуна (КПК) для молекул жирных кислот и воды
удивляет своим сходством с картиной, нарисованной Лукрецием более
двух тысяч лет назад.

1.1. Историческая справка


Истоки развития современного молекулярного моделирования относят-
ся к началу XX в. Появление первых удачных представлений простран-
ственной структуры молекул связано со значительным прогрессом в об-
ласти ядерной физики.
Достижения кристаллографии имели решающее значение для раз-
вития молекулярного моделирования. Сложность исследуемых крис-
таллических структур очень быстро возрастала, и их установление
(«решение») было связано с большим объемом вычислений и неадек-
ватностью двумерного представления на бумаге. Единственной альтер-
нативой, позволяющей получить пространственное (трехмерное) пред-
ставление структуры кристалла, оказались наборы молекулярных мо-
делей.
Наиболее известными среди них стали модели Дрейдинга, в кото-
рых были обобщены все накопленные к тому времени знания в области
структурной химии. Изготовленные заранее модульные элементы, на-
пример атомы азота с правильным числом связей и углами, соответству-
ющими состоянию их гибридизации, или ароматические остатки, сде-
лали возможным построение практически точных пространственных
моделей кристаллических структур. Размеры моделей определялись пу-
тем линейного увеличения реальных молекулярных размеров. Эти мо-
дели достаточно хорошо описывали стерические затруднения при введе-
нии заместителей, образование водородных связей и многое другое.

1
Демокрит Абдерский (ок. 460 — ок. 370 до н. э.) — древнегреческий философ-материа-
лист, ученик Левкиппа, один из основателей атомистического учения.
Глава 1. Введение 11

Модели Стюарта—Бриглеба и КПК обеспечивали близкое качество


описания, однако с меньшей точностью из-за того, что элементы этих
наборов заполняли пространство.
Уотсон и Крик использовали молекулярные модели при первых по-
пытках моделирования взаимодействия пар оснований и в конце концов
пришли к модели спиральной структуры ДНК.
Однако в самом начале молекулярное моделирование не было связа-
но с вычислительной техникой. Мог ли компьютер привнести дополни-
тельные измерения в молекулярное моделирование и конструирование
молекул?
Вычислительная техника постоянно совершенствовалась. Процес-
соры с увеличившейся производительностью позволили проводить не-
обходимые расчеты за меньшее время, благодаря чему стало возмож-
ным оперировать с молекулами белков, содержащими тысячи атомов.
Прогресс технологий молекулярной графики также был связан с раз-
работкой все более быстрых процессоров. В 1970-х гг. появились пер-
вые псевдопространственные модели молекул с цветовым кодировани-
ем и возможностью вращать их на экране компьютера — виртуальные
модели Дрейдинга. Без компьютерных технологий массив данных о
сложных, в частности белковых, структурах превысил бы пределы воз-
можностей человека. Белки невозможно изучать методами рентгенос-
труктурного анализа или ядерного магнитного резонанса без соответ-
ствующих вычислительных технологий, которые сделали эти методы
такими, какими они предстают перед нами сегодня.
Была и другая область исследований и разработок, без которой был
бы немыслим сегодняшний компьютерный молекулярный дизайн.
С 1930-х гг. в ядерной физике требовалось не только аналитическое, но
и системное мышление — это было важно для создания атомной бомбы.
С тех пор вычисления приобрели смысл математического моделирова-
ния для численного определения и предсказания физических состоя-
ний.
В 1940-х годах в Лос-Аламосе «компьютеры» состояли из солдат-но-
вобранцев, собранных в большие группы. Каждый из солдат должен
был проводить определенный расчет, всякий раз один и тот же. Это было
предвестником переворота в развитии вычислительных устройств. Мо-
делирование методом Монте-Карло, который был разработан в то время,
применялось для предсказания физических состояний частиц газа. Тог-
да же появились первые примеры применения механических аналогий
для молекулярных систем. Появились силовые поля, которые постоян-
но оптимизировались и к настоящему моменту достигли невероятной
эффективности.
Приближенные математические методы, позволившие создать
квантово-химическое описание систем сложнее атома водорода, сделали
возможным даже моделирование лигандов в активном центре фермента
методами «квантовой динамики».
12 Молекулярное моделирование

1.2. Современное молекулярное моделирование —


лишь отражение мира по Лукрецию
или это чтото большее?
На самом деле это всего лишь вопрос правильного применения. Исполь-
зуемые методы могут быть как простыми, так и сильно усложненными,
но результаты скажут сами за себя. Простые методы не нужно объяв-
лять непригодными, однако для правильного их использования необхо-
димо критическое отношение к полученным результатам. Это означает,
что пользователь должен вполне сознавать ограничения используемых
методов и знать, как и о чем можно судить на основании получаемых ре-
зультатов. Критическое рассмотрение результатов приводит к уточне-
нию знаний о связи между структурой и свойствами даже в случае ис-
пользования наиболее упрощенных подходов.
Очень часто критическое отношение такого рода отсутствует, что
может быть связано с особенностями современных коммерческих сис-
тем моделирования, где программы всегда выдают результат, метод вы-
числения остается на совести пользователя. Программа проведет вычис-
ления даже для самого абсурдного случая. Их результат может не толь-
ко выражаться числом, но и представляться в виде красивого
изображения на экране, и это — еще один соблазнительный момент для
некритичного использования вычислительных методов. Тем не менее,
прогресс молекулярной графики неоспорим в силу значительности ее
вклада в развитие других аналитических методов, например ядерного
магнитного резонанса и рентгеноструктурного анализа белков. Обрат-
ной стороной медали является стремление к наилучшему представле-
нию данных. Рассмотрим пример такой проблемы.
Одним из наиболее важных методов сравнения свойств молекул яв-
ляется визуализация изоэлектрического потенциала. Часто для описа-
ния структур используется положительный или отрицательный потен-
циал для определенного вида энергии. Представление потенциалов
основано на расчете зарядов и может быть использовано для поиска под-
ходящего выравнивания обучающей выборки биологически активных
молекул. Эта процедура может выполняться различными методами.
Например, существуют алгоритмы, которые хорошо использовать при
расчете свойств простых углеводов, но они бесполезны при обработке
ароматических структур.
К сожалению, не всегда известно заранее, что алгоритмы невозможно
применять для обработки ароматической системы. Однако результаты
получены, рассчитана эквипотенциальная поверхность, построен гра-
фик. Исходя из этого исследователи пытаются вывести соотношения,
связывающие структуру и активность. И тут кроется другая проблема.
Построение обучающей выборки представляет собой, несомненно,
резкое сужение пространства параметров. Можно надеяться на получе-
ние как можно более представительной выборки свойств путем тщатель-
ного отбора, однако в этом нельзя быть полностью уверенным. Таким об-
разом, корреляции возникают благодаря взаимоуничтожению двух по-
Глава 1. Введение 13

следовательных ошибок, причина которых — некритический выбор


методов и массивов данных.

1.3. Для чего используют модели?


В науке применяются различные модели; их можно классифицировать
в соответствии с используемым уровнем абстракции.
Одни модели служат для упрощения анализа сложных явлений.
Модели второго типа служат дидактическими иллюстрациями об-
стоятельств, которые невозможно доступно представить иными спосо-
бами. Важно помнить, что такие модели могут быть весьма далеки от ре-
альности1.
К третьему типу моделей относятся эмпирические модели, или ме-
ханические аналогии. К классу механических аналогий принадлежат
силовые поля. Они удобны потому, что законы классической механики,
например закон Гука, точно известны. Моделирование подобного рода
играет решающую роль в построении единых теорий, особым свойством
которых является то, что предполагается не отражение моделью реаль-
ности, а формальное подобие двух различных явлений. Примером такой
модели является предположение, что связи в молекуле напоминают сво-
им поведением пружину, описываемую законом Гука.
Механистические аналогии успешно применялись в различных тео-
риях. Во многих случаях с помощью аналогий значимость теории мо-
жет быть оценена экспериментально. И здесь наиболее важен тот факт,
что с помощью механистических моделей могут быть предсказаны но-
вые явления. Преимущество эмпирических моделей в том, что их пара-
метры оптимизируются для достижения соответствия с эксперимен-
тальными данными. «Механизация» не дает информации о немехани-
ческих вкладах, однако эмпирические коррекции позволяют свести
к нулю погрешности, вносимые этими вкладами. Именно поэтому эмпи-
рические модели часто очень хорошо описывают реальные явления.
Наконец, четвертая область применения моделей лежит в сфере ма-
тематического моделирования. Такие модели используют при имита-
ции различных процессов, к примеру в моделировании кинетики фер-
ментативной химической реакции. При выборе подходящих парамет-
ров появляется возможность моделировать реальные процессы.

1.4. В молекулярном моделировании используются


все четыре типа моделей
Дидактические модели используются для совместного представления
структур и свойств молекул. Например, графическое представление ре-
зультатов квантово-механического расчета для малых молекул или под-
вижности гибких пептидных лигандов.
1
Примером такой модели может служить концепция резонансных структур в органичес-
кой химии.
14 Молекулярное моделирование

В случае белков само по себе представление структуры уже является


сложной задачей. Взаимодействие лигандов и белков также можно изу-
чать с использованием дидактических моделей. Очевидно, что функции
различных моделей могут перекрываться. Механические аналогии и до-
пущения, имеющие своей целью упрощение основных составляющих
частей исследуемых объектов, широко применяются в молекулярном
моделировании.

1.5. Завершающий этап: конструирование


Конструирование, вероятно, самый важный этап моделирования.
В ходе молекулярного моделирования исследователь создает виртуаль-
ный мир, связанный с реальным посредством модели одного из четырех
типов. В этом виртуальном мире можно проводить вычисления, резуль-
таты которых предопределены в отличие от результатов экспериментов
в реальном мире. На основе аналитического описания системы стано-
вится возможным конструирование ингибиторов до их химического
синтеза и исследование их предполагаемой активности.
На этапе конструирования, или дизайна, замыкается цикл научно-
го исследования. Оно не останавливается, как это часто случается, на
аналитическом описании системы, но возвращается в начало при ее раз-
ложении на составляющие. Молекулярный дизайн позволяет нам по-
нять, что система сложнее, чем просто сумма составляющих. Особенно
это важно для биологических систем, с которыми преимущественно
сталкиваются разработчики лекарственных средств.
Сам процесс конструирования даже в виртуальном мире не так прост,
как хотелось бы его видеть. Ситуация здесь сходна с той, которую на-
блюдал Гулливер во время своего визита в академию Лагадо.
Там Гулливер узнал, что существует машина, которая, системати-
чески комбинируя слова и буквы, когда-нибудь напишет все важнейшие
научные труды мира. Прекрасная научная фантастика Джонатана
Свифта демонстрирует нам все переплетение проблем: человеческая
жизнь недостаточно продолжительна для того, чтобы перепробовать все
варианты, поэтому необходим надежный алгоритм нахождения пра-
вильного решения или человек, который введет дополнительный крите-
рий качества. Все должно быть основано на знаниях, опыте и способнос-
ти отвергать комбинации слов и фраз: эффективно работать может лишь
связка «человек — машина». В произведении Свифта фигурирует про-
фессор, который наставляет своих учеников, обслуживающих машину,
и размышляет после каждого эксперимента над его результатом — нуж-
но ли включать эту комбинацию слов в книгу.
К несчастью, Свифт не определил качества самого экспериментато-
ра; в этом проявляется ирония рассказов о путешествиях Гулливера.
Однако результат зависит не только от безошибочного функционирова-
ния машины, но и от качеств пользователя (рис. 1.1)!
Такая же проблема возникает перед нами при моделировании в вир-
туальном мире. Систематическое исследование свойств возможно лишь
Глава 1. Введение 15

Рис. 1.1. «Машина, пишущая книги», виденная Гулливером во время визита в


Лагадо. Из иллюстрации Гранвиля к «Путешествиям Гулливера»

для небольших систем, иначе после нескольких шагов система может


оказаться в состоянии комбинаторного взрыва. Изучение гибкости пеп-
тидов дает нам такой пример: переход от четырех торсионных углов к
пяти и шести увеличивает число возможных конформаций от несколь-
ких тысяч до нескольких миллиардов.
В случае дизайна лигандов ситуация усугубляется. Требуется чрез-
вычайно продуманная система ограничений, основанная на экспери-
ментах, интуиции или знаниях. Даже здесь решающую роль играет ка-
чество связки «человек — машина». Полностью автоматические систе-
мы конструирования выглядят примерно так же, как машина из
свифтовской академии Лагадо.
16 Молекулярное моделирование

1.6. Цель этой книги


Основная цель данной книги — обеспечить информацией начинающих
исследователей. Понимание основных положений и их ограничений
очень важно, но еще важнее полное представление обо всех доступных
алгоритмах, программах и банках данных. Сейчас наблюдается экспо-
ненциальное развитие технологических возможностей молекулярного
моделирования, равно как и других областей, связанных с компьютер-
ными технологиями. Почти ежедневно появляются новые алгоритмы
сравнения аминокислотных последовательностей белков, поиска новых
источников данных и т. д., но единственным способом получения качес-
твенного результата остается правильное применение программ с уче-
том их ограничений.
Таким образом, исследователь должен понимать, что для анализа
взаимодействий лиганда и белка минимизация энергии in vacuo не име-
ет большого смысла. Надо знать также, что белковая молекул сворачи-
вается из линейной полипептидной цепи не совсем просто. Более того,
существует альтернативное (множественное) связывание: даже в ряду
близких аналогов связывающиеся с ферментом ингибиторы внутри ак-
тивного центра могут характеризоваться различной геометрией. Малые
изменения структуры могут изменить ориентацию лиганда в активном
центре. Необязательно верно и то, что структурно-ориентированное на-
ложение окажется лучше, чем предложенное интуитивно или основан-
ное на свойствах стерических или электростатических поверхностей.
Современное молекулярное моделирование пошло значительно даль-
ше представлений Лукреция. Оно не останавливается на уровне анали-
тического описания свойств или взаимосвязей, не только создает «цвет-
ные картинки», но и «воспитывает» в начинающем исследователе сис-
темное мышление. Именно системный подход необходим для того, что-
бы, правильно учитывая ограничения используемых методов, все же
избегать слишком простых объяснений.
Именно к этому мы стремимся побудить читателя. Описывая соб-
ственный опыт работы в области молекулярного дизайна на двух приме-
рах (один — для малых молекул — лигандов, другой — для больших —
белков), мы стараемся ориентировать начинающих исследователей на
критическую оценку результатов.
Малые молекулы
2

2.1. Генерация трехмерных координат


Молекулярное моделирование начинается с формирования компьютер-
ной модели молекулы путем задания пространственного расположения
ее атомов в виде их декартовых координат. Разумный выбор начальной
геометрии молекулы в значительной степени определяет качество по-
следующего исследования. Информация о начальной геометрии может
быть получена различными путями. Для получения пространственных
(трехмерных, 3D) координат молекулярных структур в основном
используются следующие источники:
1. базы рентгеноструктурных данных;
2. поиск стандартных геометрий в библиотеках фрагментов;
3. построение трехмерных структур из двумерных с помощью различ-
ного программного обеспечения.

2.1.1. Рентгеноструктурные данные


Для начала остановимся на использовании рентгеноструктурных дан-
ных при построении моделей молекул. Важнейшей базой кристаллогра-
фических данных для малых молекул является Кембриджская кристал-
лографическая база структурных данных (Cambridge Crystallographic
Structural Database, CCSD; http://www.ccdc.cam.ac.uk/products/csd/)
[1]. Она содержит экспериментально определенные атомные координа-
ты для органических1 и неорганических2 соединений размером до
500 атомов и постоянно обновляется. Кембриджский центр кристалло-
1
Существует ряд специализированных банков структурной информации для полимер-
ных биомолекул. Структуры полипептидов и полисахаридов, состоящих более чем из
24 остатков, хранятся в Банке данных белковых молекул (Protein Data Bank, PDB;
http://pdb.org/; подробнее см. гл. 4) . Структуры олигонуклеотидов и нуклеиновых кис-
лот содержатся в Банке данных нуклеиновых кислот (Nucleic Acids Data Bank, NDB;
http://ndbserver.rutgers.edu/).
2
В настоящее время главным источником данных о строении неорганических соедине-
ний является База структурных данных неорганических кристаллов (Inorganic Crystal
Structure Database, ICSD; http://www.fiz-karlsruhe.de/icsd.html). Структуры металлов
и сплавов хранятся в базе данных CRYSTMET (http://www.tothcanada.com/).
18 Молекулярное моделирование

графических данных (Cambridge Crystallographic Data Centre, CCDC),


поддерживающий эту базу, предоставляет платные услуги поиска и ана-
лиза этих данных, а также соответствующее программное обеспечение.
Итогом поиска по базам данных является файл, содержащий информа-
цию о пространственном строении интересующей молекулы. Этот файл
легко считывается большинством коммерческих программных пакетов
для молекулярного моделирования (см., например, [2–4]).
При считывании файла программой для молекулярного моделиро-
вания атомные координаты, записанные в базе данных, автоматически
преобразуются в декартовы координаты. Затем структура может быть
визуализирована с использованием молекулярной графики и изучена в
трехмерном виде.
Структуры молекул, полученные методом рентгеноструктурного
анализа (РСА), обычно характеризуются достаточно хорошим разреше-
нием, но при этом отсутствует гарантия точности исходных данных.
Определение положения атомов водорода в кристалле является в рам-
ках рентгеноструктурного анализа довольно сложной задачей. РСА
основан на закономерностях дифракции рентгеновского излучения на
электронном «облаке», окружающем ядра атомов. Электронное облако
атома водорода содержит единственный электрон, поэтому такие атомы
слабо влияют на картину рассеяния в целом и обычно в явном виде не
принимаются во внимание при установлении структуры. Конечно, мес-
тонахождение атомов водорода может быть определено из данных о ве-
личинах стандартных длин связей и валентных углов, однако в этом
случае обычно утрачиваются индивидуальные особенности геометрии.
По этой причине перед использованием данных из базы РСА рекоменду-
ется проверить атомные координаты, длины связей и валентные углы на
внутреннюю согласованность. В частности, перед началом любой рабо-
ты с рентгеноструктурными данными молекулы необходимо прояснить
следующее:

1. правильно ли определены виды атомов;


2. правдоподобны ли величины длин связей и валентных углов;
3. являются ли выбранный порядок связей правильным;
4. в случае, если молекула хиральна, соответствуют ли данные нужно-
му энантиомеру.

После проверки этих деталей молекула может быть сохранена в фай-


ле молекулярных данных. Организация файла, его тип, формат и инфор-
мация, содержащаяся в файле, зависят от используемой программы.
Следует иметь в виду, что геометрия молекулы в кристаллическом
состоянии подвержена влиянию сил, действующих в кристаллической
упаковке, поэтому длины связей и валентные углы могут отличаться от
теоретических или стандартных значений. Более того, твердофазная гео-
метрия молекулы обычно соответствует единственной из множества воз-
можных, многих низкоэнергетических конформаций, доступных для
Глава 2. Малые молекулы 19

конформационно подвижной молекулы, и всегда испытывает влияние


соседних молекул в кристаллической ячейке, а иногда подвергается воз-
действию и со стороны молекул растворителя, включенных в кристал-
лическую структуру. Другие разрешенные по энергии конформации
должны быть исследованы методом конформационного анализа для
окончательного отбора биологически значимых конформеров. Следует
отметить, что информация о наиболее стабильной конформации, соотве-
тствующей глобальному энергетическому минимуму, важна для оценки
вероятности существования конформеров, имеющих более высокую
энергию. Используемые для этой цели методы изложены в разд. 2.2.

2.1.2. Библиотеки фрагментов


Второй распространенный метод построения молекулярной геометрии
основан на использовании фрагментов, предварительно собранных в
библиотеки. Этот метод выбирают, когда нет доступа к кристаллографи-
ческой базе данных или рентгеноструктурные данные об искомых
структурах отсутствуют. В настоящее время большинство коммерчес-
ких программ для молекулярного моделирования предоставляет воз-
можность построения молекул с применением библиотек фрагментов.
Библиотеки фрагментов — это удобный набор моделей для построе-
ния трехмерных структур. Так как все элементы в группе фрагментов
обладают предварительно оптимизированной стандартной геометрией,
итоговые трехмерные структуры также имеют приемлемую геометрию.
В уточнении, как правило, нуждаются только значения торсионных
углов во избежание наложения атомов или чрезвычайно близких ван-
дер-ваальсовых контактов. Могут возникнуть трудности с сопряженны-
ми системами циклов из-за неоднозначности способа сочленения цик-
лов друг с другом. Для решения этой проблемы рекомендуется, по воз-
можности, обратиться к рентгеноструктурным или иным эксперимен-
тальным данным для сходных циклических систем с тем, чтобы
выбрать правильный способ сочленения циклов.
В любой структуре каждый атом обладает некоторым набором ха-
рактеристических свойств. При молекулярном моделировании следует
учитывать гибридизацию атомных орбиталей, атомный объем и другие
характеристики. Соответствующие им параметры и определяют тип
атомов, а общая совокупность всех этих параметров представляет собой
атомную составляющую силового поля. В структурных фрагментах,
взятых из библиотек, типы атомов уже определены и обычно определе-
ны верно. Во многих случаях, однако, не так просто определить, какой
тип атома подходит для данного случая. Обсудим эту задачу на примере
N-ацетилпиперидина.
Когда для построения N-ацетилпиперидина из библиотеки фраг-
ментов берут кольцо пиперидина и ацетильную группу, тип атома азота
пиперидина определяется как sp3-гибридизованный с тетраэдрической
геометрией. Но когда атом азота связан с ацетильным остатком, он мо-
жет рассматриваться также как амидный, для которого характерна пла-
20 Молекулярное моделирование

нарная тригональная геометрия sp2-типа. В этом случае правильное ре-


шение может быть принято только путем сравнения с геометрией, уста-
новленной по рентгеноструктурным данным либо с использованием
квантово-механических вычислений, позволяющих надежно рассчи-
тать геометрию интересующего нас структурного фрагмента. На рис.
2.1.1 представлены результаты полуэмпирических расчетов и вычисле-
ний ab initio в сравнении со структурами, полученными методом силово-
го поля, а также кристаллическая структура N-ацетилпиперидин-2-
карбоновой кислоты [5].
В то время как sp3-гибридизованный атом азота в структуре, полу-
ченной методом силового поля, имеет тетраэдрическую геометрию,
кристаллическая структура и геометрия, вычисленная квантово-меха-
ническим методом, указывают на почти плоскую конфигурацию атома
азота. Чтобы избежать дальнейших ошибок, атому азота должен быть
приписан тип с планарной геометрией.
Другой проблемой, возникающей при построении систем, содержа-
щих замещенные насыщенные циклы, является определение правиль-
ной конфигурации цикла в силу влияния на нее различных замести-
телей. Циклогексан — одна из наиболее изученных циклических моле-
кул в органической химии. Много работ посвящено исследованию
относительных энергий различных конформаций циклогексана и энер-
гетических барьеров между ними [6, 7]. Без сомнения, конформация
«кресло» является самой стабильной как для циклогексана, так и для
монозамещенных циклогексанов, причем для любого заместителя пред-
почтительным оказывается экваториальное положение. Разница энер-

Рис. 2.1.1. Геометрия амидной группы в N-ацетилпиперидине зависит как от


применяемого метода, так и от типа атома, используемого для оптимизации. Для
сравнения показана кристаллическая структура N-ацетилпиперидин-2-карбо-
новой кислоты (а). Здесь и далее используется следующее цветовое обозначение:
атом углерода — белый, кислорода — красный, азота — синий, водорода — голубой
Глава 2. Малые молекулы 21

гий экваториального и аксиального положений незначительна в случае


небольших заместителей, но возрастает в присутствии групп больших
размеров [8]. Из-за этого необходимо всегда сверять структуру, постро-
енную из библиотечных фрагментов, с экспериментальными данными.

2.1.3. Преобразование двумерных структур в трехмерные


Еще один путь генерации пространственных структур молекул — на-
чать с одно- или двумерных представлений и преобразовать их в
трехмерную модель. Существуют многочисленные программы для раз-
личных манипуляций с информацией о структуре молекул, позволяю-
щие сохранять данные о ней в виде файла. Многие поставщики програм-
много обеспечения разработали свои собственные форматы таких фай-
лов, вследствие чего возникла потребность в стандартном формате. Два
формата получили наибольшее распространение. Формат Molfile и свя-
занный с ним формат SD (Structure-Data) [9], разработанные в 1980-х гг.
компанией Molecular Design Limited (MDL), а также линейная нотация
SMILES (Simplified Molecular Input Line Entry System), разработанная
Дэвидом Вэйнингером в 1986 г. [10, 11], стали стандартами для файлов
с целью хранения молекулярных структур. Помимо файлов типа Mol
компании MDL и линейной нотации SMILES, в системах молекулярного
моделирования часто используются и другие форматы файлов. Так,
Mol2-формат компании Tripos [2] является стандартом представления
трехмерных структур малых молекул (см. гл. 3), в то время как формат
PDB (Protein Data Bank) [12, 13] в основном используется для хранения
информации о пространственной структуре белков и других макромо-
лекул (см. разд. 4.1).
В линейной нотации SMILES информация о химической структуре
сильно сжата и упрощена (см. рис. 7.4). Химическая структура описы-
вается в виде простых одномерных массивов данных [10]. Нотация
SMILES основана на систематической химической номенклатуре и не
зависит от конкретной программы. В данной нотации используется ряд
правил преобразования пространственных структур в строку симво-
лов.Детальная информация о SMILES может быть найдена в работах
[10, 11] и на сайте http://www.daylight.com/daylight/smiles. Компакт-
ный текстовый код, используемый в SMILES, позволяет хранить боль-
шое количество структурной информации и осуществлять быстрый об-
мен между разными программами или компьютерами.
Расширением формата Mol компании MDL является формат SD или
SDF (см. рис. 7.4). Он содержит структуру и данные (свойства) для одной
или нескольких молекул, что делает его особенно удобным для хране-
ния информации о большом числе молекул. Многие компании и постав-
щики химических соединений хранят свои данные о структурах в этом
двумерном (2D) формате. Для того чтобы создать 3D-структуры в форма-
те, отличном от SD-файла или нотации SMILES, используются такие ге-
нераторы 3D-структур, как CONCORD [14, 15], CORINA [16] или Omega
[17]. Эти программы позволяют автоматически генерировать 3D-струк-
22 Молекулярное моделирование

туры. Они используют систему правил и баз данных для автоматической


генерации декартовых координат атомов молекулы, исходя из таблицы
связности (как в SD-файле) или линейного кода (SMILES), достаточно
мощную и надежную для преобразования огромных баз данных, содер-
жащих сотни тысяч или даже миллионы соединений.
Алгоритм CONCORD использует для формирования структур чрез-
вычайно подробную таблицу длин связей. При определении длин связей
учитываются не только такие характеристики, как атомный номер, гиб-
ридизация и тип атома, но и химическое окружение атомов, образую-
щих связь. Точный выбор величин длин связей особенно важен при со-
здании систем, содержащих циклы, поскольку их неверное задание
может оказывать значительное влияние на геометрию цикла.
В начале преобразования из двумерного представления в трехмер-
ное определяется так называемое наименьшее множество наименьших
циклов (Smallest Set of Smallest Rings, SSSR). Затем этот логический
анализ проводится для каждой циклической системы. На основе полу-
ченной таким образом информации о связности циклов и ограничени-
ях, наложенных на циклы, определяется, какие циклы и как будут по-
строены. Кроме того, проводится грубая оценка конформации каждого
цикла системы с учетом планарности или стереохимических напряже-
ний.
Если общие атомы нескольких колец не определены, то CONCORD
создает изомер, обладающий самым низким значением энергии. После
построения циклов и связывания их в циклическую систему программа
изменяет базовые конформации так, чтобы убрать внутреннее напряже-
ние, распределив его симметрично на все атомы цикла. Этот прием при-
водит к достаточно ненапряженным структурам.
Следующим шагом в построении структур является добавление
ациклических подструктур. Углы и длины связей также берутся из
таблиц. Во избежание слишком близких ван-дер-ваальсовых контак-
тов торсионные углы в формирующейся структуре изменяют таким об-
разом, чтобы получить энергетически приемлемые конформации. По-
мимо высокой скорости вычислений, важным достоинством метода
CONCORD является отслеживание топологии растущей модели моле-
кулы на каждом шаге. В результате CONCORD строит 3D-структуры
хорошего качества за приемлемое время. Это важный критерий в слу-
чае, когда большие двумерные базы данных необходимо преобразовать
в трехмерные.
Программа CORINA работает схожим образом. Начало построения
циклических систем аналогично программе CONCORD, но на следую-
щем этапе CORINA использует другой метод соединения кольцевых сис-
тем. Кольца смыкаются, и энергии возможных конформаций вычисля-
ются с использованием грубого силового поля. Если обнаруживается,
что выбор этого соединения циклов энергетически неблагоприятен, де-
лается новая попытка с использованием других энергетически возмож-
ных конформаций. После генерации циклических структур следует
оптимизация геометрии.
Глава 2. Малые молекулы 23

Так же, как и в программе CONCORD, ациклические структуры вво-


дятся в конструкцию после того, как определена структура циклов.
Цепи, добавляемые к циклам, обычно находятся в полностью раскры-
тых конформациях, что, конечно же, приводит к геометрии, нуждаю-
щейся в дальнейшем уточнении. Торсионные углы варьируются до дос-
тижения первой конформации, устраняющей близкие контакты. В ре-
зультате достаточно грубого конформационного поиска программа
все-таки выдает приемлемые структуры.
Важно отметить, что полученные конформации только случайно
могут соответствовать конформациям в кристаллическом окружении
или некой низкоэнергетической конформации. Окончательно полу-
ченная структура должна быть подвергнута конформационному ана-
лизу с целью обнаружения всех возможных низкоэнергетических кон-
формаций.
Все рассматриваемые здесь программы являются эффективными
альтернативами для построения структур. Они быстры и надежны: обес-
печивают хорошую (99,5%) степень преобразования при испытании на
выборке примерно в четверть миллиона соединений из открытой базы
данных Национального института рака США (National Cancer Institute
Open Database) [18]. Эта база находится в свободном, бесплатном доступе
и содержит огромное число структу органических соединений и лека-
рственных веществ, проверенных на противораковую активность в
Национальном институте рака.
Так как все больше и больше предприятий и организаций предлага-
ют базы данных соединений, в которых химические структуры сохране-
ны в виде SD-файлов или строк SMILES, мощные программы генерации
3D-структур становятся все более необходимыми для обработки боль-
ших баз данных за приемлемое время. В настоящее время еще одним пу-
тем получения трехмерных структур является загрузка из Интернета
уже преобразованных структур, например из некоммерческой базы про-
екта ZINC (http://zinc.docking.org) [19]. Научная группа руководителя
этого проекта Брайана Шойхета тщательно конвертировала из доступ-
ных источников в 3D-структуры 4,6 миллиона молекул1.
Дополнительная информации о представлении химических струк-
тур, структурных генераторах и протоколах обмена между различными
программами может быть найдена в [20, 21].

Цитированная литература
1. Olga Kennard, F. R. S. Cambridge Structural Database, Cambridge Crystallo-
graphic Data Centre, http://www.ccdc.cam.ac.uk.
2. SYBYL, Tripos Associates, St. Louis, http://www.tripos.com.
3. INSIGHT/DISCOVER, Accelrys Inc., San Diego, http://www.accelrys.com.

1
По состоянию на ноябрь 2011 г. в базе ZINC содержится более 13 миллионов структур.
24 Молекулярное моделирование

4. MOE, Chemical Computing Group, Montreal, http://www.chemcomp.com.


5. Rae, I. D., Raston, C. L., and White, A. H. (1980) Crystal and molecular struc-
ture of (+)-(e)-n-acetylpiperidine-2-carboxylic and. Australian Journal of Chem-
istry, 33, 215.
6. Bucourt, R. (1974). The torsion angle concept in conformational analysis, in Top-
ics in Stereochemistry (eds E. L. Eliel and N. L. Allinger) John Wiley & Sons,
New York, Vol. 8, pp. 159–224.
7. Shopee, C. W. (1946) Steroids and the Walden inversion. Part II. Derivatives of
D5-cholestene and D5-androstene. Journal of the Chemical Society, 1147–51.
8. Hirsch, J. A. (1967) Tables of conformational energies, in Topics in
Stereochemistry, (eds. E. L., Eliel and N. L. Allinger), John Wiley & Sons, New
York, Vol. 1, pp. 199–222.
9. MDL Informations Systems, http://www.mdli.com.
10. Weininger, D. (1988) SMILES, a chemical language and information-system. 1.
introduction to methodology and encoding rules. Journal of Chemical informa-
tion and Computer Sciences, 28, 31–36.
11. Weininger, D. (1990) SMILES. 3. DEPICT — graphical depiction of chemical
structures. Journal of Chemical Information and Computer Sciences, 30,
237–43.
12. Bernstein, F. C., Koetzle, T. F., Williams, G. J. B. et al. (1977) Protein data
bank — computer-based archival file for macromolecular structures. Journal of
Molecular Biology, 112, 535–42.
13. PDB Format Description, http://www.rcsb.org/pdb.
14. Pearlman, R. S. (1987) Rapid generation of high quality approximate 3D molec-
ular structures. Chemical Design Automation News, 2, 1–7.
15. Pearlman, R. S. (1993) 3D molecular structures: generation and use in 3D
searching, in 3D QSAR in Drug Design (ed. H. Kubinyi), Escom Science Publish-
ers, Leiden, pp. 41–79.
16. Gasteiger, J., Rudolph, C., and Sadowski, J. (1990) Automatic generation of
3D-atomic coordinates for organic molecules. Tetrahedron Computer Methodo-
logy, 3, 537–47.
17. Omega, Version 2.0, OpenEye Scientific Software, Santa Fe, http://www.
eyesopen.com.
18. National Cancer Institute, National Institute of Health (Development Therapeu-
tics Program), http://dtp.nci.nih.gov/docs/3d.data.
19. Irwin, J. J. and Shoichet, B. K. (2005) ZINC — A free database of commercially
available compounds for virtual screening. Journal of Chemical Information
and Modeling, 45, 177–82.
20. Engel, T. (2003) Representation of chemical compounds, in Chemoinformatics
(eds J. Gasteiger and T. Engel), Wiley-VCH, Weinheim, pp. 15–168.
21. Engel, T. (2006) Basic overview of chemoinformatics. Journal of Chemical In-
formation and Modeling, 46, 2267–77.
Глава 2. Малые молекулы 25

2.2. Вычислительные методы оптимизации геометрии


2.2.1. Силовые поля
Структуры молекул, полученные с использованием процедур, описан-
ных в разд. 2.1, должны быть оптимизированы для того, чтобы найти со-
стояния с минимальной энергией, индивидуальные для каждой молеку-
лы. Обычно это делается методами молекулярной механики, которая
представляет собой общепринятый вычислительный метод расчета гео-
метрии и энергии молекул.
В отличие от квантово-механических подходов, в молекулярной ме-
ханике электроны и ядра явно при расчетах не учитываются. Молеку-
лярная механика рассматривает атомы в составе молекулы как набор
материальных точек, взаимодействующих друг с другом как в модели
гармонического осциллятора. В результате этого упрощения молеку-
лярная механика является относительно быстрым вычислительным ме-
тодом, пригодным как для малых, так и для больших молекул и даже
олигомолекулярных систем.
В молекулярной механике атомы в молекуле рассматриваются как
упругие шарики различных размеров (атомных типов), соединенные
вместе пружинками различной длины (связями). Для вычисления по-
тенциальной энергии такого атомного ансамбля используется закон
Гука. Полная энергия системы Etot (1) минимизируется относительно
атомных координат.
Etot = Estr + Ebend + Etors + Evdw + Eelec + ..., (1)
где Estr — энергия деформации связей; Ebend — энергия деформации ва-
лентных углов; Etors — энергия деформации торсионных углов; Evdw —
энергия ван-дер-ваальсовых взаимодействий; Eelec — энергия электро-
статического взаимодействия.
Компоненты полной энергии молекулы (пространственной молеку-
лярной модели) чаще всего выражаются в терминах отклонений длин
связей, валентных и торсионных углов, а также параметров несвязных
взаимодействий от некоторых стандартных, «ненапряженных» значе-
ний. Набор этих ненапряженных значений вместе с теми величинами,
которые можно называть силовыми константами (которые на самом
деле являются эмпирическими подгоночными параметрами) и называ-
ется силовым полем. Первое слагаемое в уравнении (1) описывает изме-
нение энергии, когда связь растягивается или сокращается относитель-
но своей стандартной длины. Подразумевается, что межатомные силы
являются гармоническими, так что энергетический вклад растяжения
связей может быть описан простой квадратичной функцией вида (2).

Estr = 12 kb (b - b0 )2 , (2)

где kb — силовая константа растяжения связей; b0 — стандартная длина


связи; b — текущая длина связи.
26 Молекулярное моделирование

Для большей точности в выражение (2) для энергии растяжения


связей могут включаться члены третьего [1] или четвертого [2–4] поряд-
ков по (b–b0). С этой же целью иногда используется функция Морзе [5].
Деформации валентных углов также в основном описываются про-
стым гармоническим представлением. Вклад, относящийся к таким
искажениям, задается уравнением (3):
Ebend = 12 kq (q - q0 )2 , (3)

где kq — силовая константа деформации валентных углов; q0 — равновес-


ное значение валентного угла; q — текущее значение валентного угла.
Вклад внутреннего вращения вокруг химических связей выражает-
ся через значения межплоскостных (двугранных, торсионных) углов с
помощью тригонометрических функций вида (4):
Etors = 12 kj [1 + cos(nj - j0 )], (4)

где kj — торсионный барьер (барьер вращения); j — текущее значение


торсионного угла; n — период (число минимумов энергии на один по-
лный цикл); j0 — стандартное значение торсионного угла (обычно при-
нимается 0° для косинуса, тогда максимум энергии приходится на 0°,
или 180° для синуса с минимумом энергии при 0°).
Ван-дер-ваальсовы взаимодействия между не связанными непосред-
ственно атомами обычно выражаются потенциалом Леннард-Джонса1 [6]:
Aij Bij
Evdw = å - . (5)
rij12 rij6

где Aij — коэффициент вклада отталкивания; Bij — коэффициент вкла-


да притяжения; rij — расстояние между атомами i и j.
Это одна из форм потенциала Леннард-Джонса, существуют и дру-
гие его модификации, которые используются в различных силовых по-
лях. Пи описании электростатических взаимодействий соответствую-
щая компонента энергии чаще всего вычисляется в соответствии с зако-
ном Кулона для точечных (атомных) зарядов:
1 QQ
Eelec = × 1 2 , (6)
e r
где e — диэлектрическая проницаемость; Q1, Q2 — заряды на взаимодей-
ствующих атомах; r — межатомное расстояние.
Заряды могут быть рассчитаны с использованием методов, описан-
ных в разд. 2.4.1.1, а в отдельные силовые поля [2–4] они входят как эм-
пирически подобранные параметры.
1
Джон Эдвард Леннард-Джонс (1894–1954) — английский математик и физик, внесший
огромный вклад в теорию молекулярных структур и межмолекулярных взаимодей-
ствий. Считается основателем современной вычислительной химии. За научные заслуги
удостоен рыцарского звания.
Глава 2. Малые молекулы 27

Некоторые силовые поля включают перекрестные члены, внеплос-


костные вклады, вклады водородных связей и т. д., а также используют
другие функции потенциальной энергии для описания системы. Так
как существует довольно много силовых полей, различающихся по сво-
ей функциональной форме, нет возможности рассмотреть их все подроб-
но в настоящей книге, но для этой цели имеются замечательные обзоры
[7, 8].
Основная идея молекулярной механики основана на существовании
неких «естественных» длин связей и валентных углов. Равновесные
значения этих длин связей и валентных углов, а также соответствую-
щие силовые константы, используемые в функциях потенциальной
энергии, задаются в силовом поле и в дальнейшем будут называться па-
раметрами силового поля. Любое отклонение от этих стандартных зна-
чений приведет к увеличению полной энергии молекулы. Поэтому пол-
ная энергия молекулы служит мерой внутримолекулярного напряже-
ния относительно некой гипотетической молекулы с идеальной
геометрией. Сама по себе эта энергия не имеет физического смысла.
Универсальное силовое поле должно описывать как можно больше
различных классов молекул с приемлемой точностью. Надежность мо-
лекулярно-механического расчета зависит от функций потенциальной
энергии и от качества параметров, входящих в эти функции. Поэтому
легко понять, что точный расчет не может быть выполнен, если отсут-
ствуют параметры для этих важных геометрических характеристик. Во
избежание этой ситуации необходимо для каждой конкретной задачи
подбирать подходящее силовое поле.
Некоторые силовые поля были разработаны применительно к ши-
рокому набору органических соединений и малых молекул [1–4, 9, 10],
тогда как другие пригодны в основном для белков и других биомолекул
[11–13]. Отсутствие подходящих экспериментальных данных может
значительно затруднить разработку усовершенствованных функций
энергии для более точных вычислений. Это послужило причиной раз-
работки так называемых силовых полей класса II, таких как согласо-
ванное силовое поле (Consistent Force Field, CFF) [11] и молекулярное
силовое поле компании Merck (Merck Molecular Force Field, MMFF)
[10]; обе группы силовых полей основаны преимущественно на квантово-
механических расчетах поверхности потенциальной энергии. Целью
MMFF является учет всех функциональных групп, интересных для ко-
нструирования лекарств, включая малые молекулы и макромолеку-
лярные структуры. Текущая версия, MMFF94, реализована в различ-
ных программах и коммерческих пакетах, таких как SYBYL, MOE или
Cerius2.
Для всех силовых полей необходимо отметить следующее: они мо-
гут быть применены для решения конкретной задачи только в том слу-
чае, если полностью содержат все необходимые параметры. Если пара-
метры для определенных типов атомов, типов и длин связей, валентных
или торсионных углов отсутствуют, то неизбежно приходится добав-
лять недостающие данные в силовое поле [14, 15].
28 Молекулярное моделирование

2.2.2. Оптимизация геометрии


Уже отмечалось, что полученная описанными выше методами простра-
нственная модель молекулы почти наверняка не идеальна, что приводит
к необходимости проведения соответствующей оптимизации ее геомет-
рии путем релаксации структуры. Из примера, представленного на
рис. 2.2.1 и в табл. 2.2.1, видно, что внутренние напряжения в структу-
рах, полученных из кристаллографических данных, в основном об-
условлены малыми отклонениями от «идеальных» длин связей. Таким
образом, все вышеупомянутые энергетические вклады (энергия растя-
жения связей и изменения валентных углов) изменяются в процессе
оптимизации методом силового поля. Торсионные же углы изменяются
мало, несмотря на заметные изменения энергии. Это четко указывает на
хорошо известное наблюдение, что в кристаллах почти без исключения
обнаруживаются только низкоэнергетические конформации. Ни в коем
случае не следует считать, что кристаллические структуры характери-
зуются «плохой» геометрией. Из рис. 2.2.1 легко видеть, что отличие ге-
ометрии кристаллической структуры от геометрии структуры, оптими-
зированной по методу силового поля, довольно незначительно. Этот
факт можно интерпретировать и в том смысле, что не следует ожидать
значительных вариаций в геометрическом строении, если используют-
ся различные хорошо параметризованные силовые поля. В рассмотрен-
ном здесь частном случае реальная кристаллическая структура рамип-
рилата сравнивается со структурой, полученной при помощи хорошо
известного многоцелевого силового поля фирмы Tripos [9].
Перед началом оптимизации геометрии следует устранить неприем-
лемые ван-дер-ваальсовы контакты, потому что в конце оптимизации
энергия минимума зависит от начальной геометрии [7].
Такие преимущества, как скорость вычисления, достаточная точ-
ность, а также возможность широкого применения как к малым моле-
кулам, так и к большим системам, сделали молекулярную механику на-
иболее важным стандартным методом оптимизации геометрии. По при-

Рис. 2.2.1. Наложение кристаллической (красной) и молекулярно-механичес-


кой, оптимизированной с помощью силового поля Tripos (зеленой), структур ра-
миприлата, ингибитора ангиотензин-превращающего фермента
Глава 2. Малые молекулы 29

Таблица 2.2.1. Вклады в молекулярно-механическую энергию молекулы


рамиприлата до и после оптимизации геометрии
(силовое поле Tripos)

Энергия, ккал/моль
Энергетические вклады Кристаллическая Оптимизированная
структура структура
Энергия растяжения связей 179,514 0,982
Энергия деформации валентных 15,693 10,372
углов
Энергия деформации торсионных 17,230 14,335
углов
Энергия внеплоскостных откло- 0,043 0,011
нений
Энергия 1–4 ван-дер-ваальсовых 18,538 4,791
взаимодействий
Энергия ван-дер-ваальсовых взаи- –3,839 –7,822
модействий
Полная энергия 227,179 22.669

чине сложности и значительных требований к вычислительным


ресурсам методы квантовой механики следует применять только в осо-
бых случаях, которые будут рассмотрены позже.
Далее мы остановимся на некоторых общепринятых процедурах ми-
нимизации энергии, которые используются в молекулярной механике.
При этом важно отметить, что алгоритмы минимизации позволяют най-
ти только локальные минимумы на поверхности потенциальной энер-
гии, но не глобальный минимум.

2.2.3. Методы минимизации энергии


Методы минимизации энергии можно разделить на два класса: методы,
основанные на градиентной технике, такие как метод скорейшего спус-
ка или метод сопряженных градиентов, и методы с использованием вто-
рой производной, такие как метод Ньютона—Рафсона и родственные
ему методы.

2.2.3.1. Метод скорейшего спуска


Для приближения к энергетическому минимуму в методе скорейшего
спуска используются рассчетные значения первых производных функ-
ции энергии. Энергия вычисляется сначала для исходной геометрии, а
затем при сдвиге одного из атомов на малое расстояние вдоль одной из
координатных осей. Этот процесс повторяется для всех атомов, которые
30 Молекулярное моделирование

все в конечном счете перемещаются в новые положения, находящиеся


ниже на поверхности потенциальной энергии [7]. Процесс останавлива-
ется, когда оказывается выполнено некоторое заданное наперед условие
достижения минимума (критерий сходимости). Такая процедура в
окрестностях минимума протекает медленно, поэтому метод наискорей-
шего спуска обычно применяют для оптимизации структур, располо-
женных вдали от минимума. Этот метод следует использовать для по-
строения низкоэнергетических структур на основании кристаллографи-
ческих данных с недостаточным разрешением, либо для быстрой
минимизации молекул, созданных с помощью графических пакетов.
В большинстве случаев оптимизация методом наискорейшего спуска яв-
ляется первоначальным, грубым приближением; за этой процедурой
обычно следует более точная оптимизация, основанная на более совер-
шенном алгоритме, например, методе сопряженных градиентов.

2.2.3.2. Метод сопряженных градиентов


В методе сопряженных градиентов происходит накопление информа-
ции о минимизируемой функции в ходе пошаговой процедуры, от итера-
ции к итерации. Таким образом удается избежать осцилляций из-за об-
ращения результата, достигнутого в итоге предыдущих итераций. На
каждой стадии минимизации вычисляется градиент, который далее в
качестве дополнительной информации для расчета нового вектора на-
правления минимизации, и так каждая последующая стадия уточняет
направление к минимуму. Метод сопряженных градиентов рекоменду-
ют применять к большим системам, хотя для него затраты на вычисле-
ния и требования к памяти выше, чем для метода наискорейшего спуска,
поскольку при этом сложность вычислений и большее время, затрачи-
ваемое на одну итерацию, с лихвой компенсируются более эффективной
сходимостью метода в целом.
Метод Пауэлла очень похож на метод сопряженных градиентов.
При его применении сходимость достигается еще быстрее, и он подхо-
дит для разнообразных задач, однако применять его следует с опре-
деленной осторожностью, поскольку в ходе оптимизации иногда могут
слишком сильно изменяться торсионные углы. Поэтому метод Пауэлла
неприменим для минимизации энергии после конформационного поис-
ка, поскольку обнаруженные низкоэнергетические конформации могут
быть изменены нежелательным образом. В такой ситуации рекоменду-
ется выполнять минимизацию энергии при помощи метода сопряжен-
ных градиентов.

2.2.3.3. Метод Ньютона—Рафсона


В методе Ньютона—Рафсона, основанном на использовании вторых
производных, при определении направления поиска в дополнение к гра-
диенту учитывается кривизна функции. Вторая производная также ис-
пользуется для того, чтобы предсказать, где функция проходит через
минимум. Эффективность метода Ньютона—Рафсона увеличивается по
мере приближения к минимуму. Недостатками являются затраты на
Глава 2. Малые молекулы 31

вычисления и требования к памяти, когда метод применяется для рас-


чета больших систем. Для высоконапряженных структур процесс мини-
мизации может стать нестабильным, поэтому этот алгоритм в основном
применяется к задачам, в которых требуется быстрая сходимость, начи-
ная с предварительно оптимизированной геометрии к очень точному
значению минимума. Более подробная информация о методах оптими-
зации приводится в работах [16, 17].
Можно заключить, что выбор метода минимизации зависит от двух
факторов — размера системы и текущей степени оптимизации. Для
структур, находящихся вдали от минимума, метод скорейшего спуска
является, как правило, наилучшим для проведения первых 10–100 ите-
раций. Затем минимизация может быть завершена при помощи метода
сопряженных градиентов или метода Ньютона—Рафсона. Для расчета
систем, которые слишком велики для вычисления и хранения матрицы
вторых производных, единственным применимым методом является
метод сопряженных градиентов. Процедура минимизации продолжает-
ся до достижения сходимости.
Критерии сходимости при минимизации молекул могут быть опре-
делены несколькими способами. В неградиентных методах, таких как
метод скорейшего спуска, только изменения энергии и/или координат
могут служить мерой оптимальности текущей геометрии молекулярной
системы. В градиентных же методах для этой цели используются сред-
неквадратичные градиенты сил на каждом атоме молекулы. К тому же
всегда рекомендуется проверять максимальное значение производной
для того, чтобы определить неблагоприятные геометрические области.
Минимизированная геометрия является вполне удовлетворительной,
если все производные меньше некоего заданного значения. Выбор тако-
го значения, например максимального значения производной, зависит
от цели оптимизации. Если желательна только простая релаксация на-
пряженной молекулы, то применим довольно грубый критерий сходи-
мости, например, достаточно, чтобы максимальное абсолютное значе-
ние первой производной было меньше или равно 0,1 ккал/(моль·C), тогда
как в других случаях для нахождения минимума требуется сходимость
к точке с модулем максимальной компоненты градиента не более
0,001 ккал/(моль·C).
Выбор критериев сходимости должен определяться, с одной сторо-
ны, достаточной точностью минимизируемой структуры, с другой — от-
сутствием лишних расчетов, которые не приводят к дальнейшему улуч-
шению результатов [17].

2.2.4. Влияние зарядов и растворителя


В молекулярной механике вычисления часто проводят в «условиях ва-
куума» (in vacuo, e = 1). В случае неполярных углеводородов явное
включение растворителя в расчет приводит к пренебрежимо малым от-
личиям от результатов для расчета газообразного состояния. Однако ис-
следование заряженных и поляризованных молекул требует учета влия-
32 Молекулярное моделирование

ния растворителя [7]; в противном случае стабильность конформаций,


наиболее подверженных влиянию сильных электростатических взаимо-
действий, будет неоправданно высокой. Под действием силового поля
максимально усиливается электростатическое притяжение; это приво-
дит к появлению очень энергетически выгодных конформаций молеку-
лы с нереально низкими значениями энергии. Это можно нивелировать,
введя в расчеты диэлектрическую проницаемость соответствующего
растворителя [18], например для воды e = 80. В отличие от макромоле-
кул электростатическое поле малых молекул считается однородным,
благодаря чему можно перейти к использованию единой диэлектричес-
кой проницаемости. Экспериментальные значения e опубликованы в
литературе и могут использоваться для более точного описания куло-
новских взаимодействий молекул в растворе.
Отказ от включения в расчет взаимодействия атомных зарядов и ди-
полей, индуцированных растворителем, сильно упрощает расчет в про-
цессе оптимизации молекулярной структуры. Такие результаты очень
часто оказываются вполне приемлемыми по качеству; это приближение
особенно рекомендуется для минимизации результатов конформацион-
ного анализа, поскольку электростатическое взаимодействие зарядов
может существенно искажать конформацию. Однако всегда необходимо
учитывать заряды при расчетах, когда требуется описание водородных
связей.
Энергия электростатического взаимодействия уменьшается обратно
пропорционально расстоянию. Поэтому в некоторых силовых полях ди-
электрическая проницаемость принимается зависимой от расстояния,
чтобы учесть при моделировании эффект вытеснения молекул раствори-
теля при сближении молекулы лиганда с поверхностью макромолеку-
лы. Это особенно важно, если конформационный анализ является час-
тью задачи поиска фармакофора.
Всегда, когда это возможно, результаты вычислений необходимо
проверять с использованием имеющихся экспериментальных данных.
Крайне важными в этом отношении являются данные спектроскопии
ядерного магнитного резонанса (ЯМР). Поскольку данные ЯМР в боль-
шинстве случаев получены для растворов в хлороформе или другом
органическом растворителе, включение в явном виде соответствующей
диэлектрической постоянной в электростатическое слагаемое силового
поля делает возможным более точное согласование результатов расчета
и эксперимента.
Учет диэлектрической проницаемости — только один из возмож-
ных вариантов моделирования влияния растворителя. Другой способ —
создание вокруг исследуемой молекулы «оболочки» из отдельных моле-
кул растворителя. Существенными недостатками такого подхода явля-
ются большое количество дополнительных вычислений, а также огра-
ничение на возможное число молекул в этой оболочке, накладываемое в
подавляющем большинстве силовых полей.
Глава 2. Малые молекулы 33

2.2.4.1. Растворитель как статистический континуум


Для определения наиболее вероятной конформации лиганда в водной
среде весьма важен учет влияния растворителя на поведение всей систе-
мы. На этот вопрос можно ответить с помощью моделирования молекул
растворителя как части системы, однако для больших молекул, напри-
мер, лиганд-белковых комплексов, это оказывается сопряжено с очень
большим объемом вычислений. В связи с этим были разработаны мето-
ды, в которых растворитель рассматривается как непрерывная протя-
женная среда вокруг молекулы растворенного вещества, что позволило
оценить влияние сольватации с меньшими затратами на вычисления.
Соответствующие расчеты в числе прочего обычно включают в себя раз-
личные математические выражения для описания электростатического
взаимодействия в среде растворителя, а также поверхностных явлений:
гидрофобных и ван-дер-ваальсовых взаимодействий. При конструиро-
вании молекул лекарственных веществ чаще всего применяются две
континуальные модели. В одной для описания электростатической со-
ставляющей (с учетом поверхностных взаимодействий) используется
уравнение Пуассона—Больцмана — модель обозначается PB–SA
[19, 20]; вторая описывает зарядовые взаимодействия с помощью обоб-
щенного приближения Борна (GB–SA) [21–23]. В модели PB–SA пара-
метры электростатических полей в исследуемой системе вычисляются
путем решения уравнения Пуассона—Больцмана, однако для раство-
ренных веществ со сложной, нерегулярной формой поверхности (бел-
ков, нуклеиновых кислот) аналитического решения для данного урав-
нения может не существовать. Оказываются необходимыми численные
методы решения, реализация которых даже на больших вычислитель-
ных системах требует значительных расчетных ресурсов. В модели
GB–SA при оценке сольватации используется ряд упрощений; при зна-
чительно меньшей сложности вычислений точность этой модели срав-
нима с точностью PB–SA. Одна из первых реализаций приближения
GB–SA, предложенная Стиллом с соавт. [21], хорошо соотносится с
PB–SA в оценке свободной энергии сольватации малых молекул.

2.2.5. Квантовомеханические методы


Необходимо хотя бы кратко рассмотреть методы квантовой механики,
так как они имеют большое значение в вычислительной химии. Такие
параметры, как геометрия молекулы и ее конформационная энергия,
могут быть рассчитаны с приемлемой точностью для значительного чис-
ла структур при использовании хорошо параметризованного и доста-
точно общего силового поля. Если же параметры силового поля для ка-
кой-либо структуры неизвестны, то для оптимизации геометрии можно
использовать методы квантовой химии. Квантово-механические мето-
ды также применяются для расчета переходных состояний и путей ре-
акций, кроме того, они позволяют определить геометрию молекул с
учетом поляризации или в случае необычного распределения электро-
нной плотности. Недостатком является сложность вычислений, ограни-
34 Молекулярное моделирование

чивающая область применимости этих методов относительно малыми


молекулами. Таким образом, их следует применять лишь для решения
отдельных задач. Не ставя перед собой цель вдаваться в теорию кванто-
во-механических расчетов, мы постараемся вместо этого дать ряд прак-
тических советов по применению программ полуэмпирических и неэм-
пирических (ab initio) расчетов. Читателю, желающему вникнуть в де-
тали теории, необходимо ознакомиться с обзорными статьями и
книгами [29–32].

2.2.5.1. Неэмпирические (ab initio) методы


В отличие от молекулярной механики и полуэмпирических методов мо-
лекулярных орбиталей в неэмпирической квантовой химии возможно
воспроизводить экспериментальные данные без использования эмпири-
ческих параметров. Таким образом, применение расчетов ab initio осо-
бенно удобно в тех случаях, когда экспериментальная информация не-
достаточна или отсутствует.
Качество неэмпирических расчетов зависит от используемого базис-
ного набора функций (базиса) [33, 34]. Выбор базиса определяется
целью расчета, а также природой исследуемых молекул. Следует по-
мнить, что даже очень большой базис не гарантирует точного соответ-
ствия расчетных и экспериментальных данных [35]. Неправильный ба-
зис может лишить всякой значимости результаты квантово-химичес-
ких вычислений, зачастую весьма продолжительных по времени.
Мы рассмотрим лишь наиболее часто применяемые в расчетах бази-
сы. STO-3G — минимальный базис — ранее использовался весьма широ-
ко. Его название представляет собой аббревиатуру «слэйтеровские орби-
тали» (Slater-Type Orbitals); каждая из слэйтеровских функций, в свою
очередь, аппроксимируется тремя функциями Гаусса (Gaussian functi-
ons). Минимальный базис содержит число атомных орбиталей, мини-
мально необходимое для описания всех электронов атома в основном со-
стоянии, что предполагает сферическую симметрию каждого атома.
Позднее весьма популярными стали так называемые «валентно-рас-
щепленные» базисы. В них орбитали валентной оболочки атома пред-
ставлены с помощью двух наборов — внешнего и внутреннего. Таким об-
разом увеличиваются возможности для описания докализации электро-
нов [36]. Валентно-расщепленные базисы дают лучшее описание
молекулы по сравнению с минимальным базисом; базисы 3-21G, 4-31G и
особенно 6-31G широко используются в расчетах1. Они различаются по
числу гауссовых функций, используемых для разложения выражений
для внутренней оболочки (остова) и внутренней сжатой валентной обо-
лочки [35]. К примеру, в базисе 4-31G орбитали остова состоят из четы-
рех функций, внутренняя валентная оболочка — из трех, а внешняя —
из одной.

1
В настоящее время наиболее широкое распространение при проведении квантово-хими-
ческих расчетов получили корреляционно согласованные базисы Даннинга
[Peterson K. A., Dunning Jr. T. H. J. Chem. Phys. 2002. V. 23. P. 10548–10560].
Глава 2. Малые молекулы 35

Следующим этапом является введение наборов поляризационных


функций. Для тяжелых атомов добавляются d-орбитали, что позволяет
орбиталям p-оболочки «сдвигаться» относительно ядра, что вызывает
деформацию (поляризацию) орбиталей. Такая поправка особенно важна
в случае соединений, содержащих малые циклы [36]. Поляризованные
базисы обозначаются символом «*»; например, базис 6-31G* использует
шесть гауссовых примитивов для орбиталей остова, расщепление 3:1
для s- и p-орбиталей валентной оболочки, а также один набор из шести
d-функций.
Более подробное описание базисов можно найти в книгах и обзорах,
например [32, 35].
К сожалению, не существует общего простого правила для подбора
адекватного базиса. Уровень приближения зависит от желаемой точнос-
ти и от исследуемого свойства. Оптимизация геометрии простой молеку-
лы среднего размера может быть проведена с приемлемой точностью в
базисе 3-21G, однако для иных задач такого уровня приближения мо-
жет оказаться недостаточной. Если на геометрию молекулы сильно вли-
яет поляризация, делокализация электронов или эффекты сверхсопря-
жения (гиперконъюгация), необходимо использовать базис 6-31G*
(включающий d-функции; см. выше) или еще более расширенный набор
(рис. 2.2.2).
Несмотря на развитие вычислительной техники, неэмпирические
расчеты до сих пор могут быть проведены далеко не во всех случаях.
Обычным способом уменьшить временные затраты на расчеты можно
при использовании базиса 3-21G для оптимизации структуры с последу-
ющим расчетом волновой функции в приближении 6-31G*. Такая про-
цедура обычно обозначается 6-31G*//3-21G.
Расширение базиса не приводит к автоматическому увеличению точ-
ности расчета молекулярных свойств. Чтобы найти наиболее подходящее
приближение, необходимо «калибровать» метод по экспериментальным
результатам или же опытным путем подобрать базис, при использовании
которого получаются результаты, приемлемые по точности.

Рис. 2.2.2. Показана окончательная геометрия 2,6-диазаспиро[3.3]гептил- 2-форм-


амида после оптимизации геометрии с использованием различных базисов атомных
орбиталей. Этот пример ясно указывает на зависимость полученной геометрии от
используемого базиса. Использование минимального базиса STO-3G и базиса 3-21G
приводит к различной геометрии. Включение в расчет d-орбиталей (базис 6-31G*)
приводит к структуре, в которой поляризационные эффекты и напряжения цикла
отражены более точно, поэтому окончательная геометрия амидного атома азота ле-
жит между тетраэдрическим и тригональным состояниями гибридизации
36 Молекулярное моделирование

2.2.5.2. Полуэмпирические методы молекулярных орбиталей


Полуэмпирические методы молекулярных орбиталей сочетают в себе
элементы молекулярной механики и неэмпирических расчетов. Явля-
ясь по своей природе квантово-механическими, они отличаются от мето-
дов ab initio прежде всего использованием эмпирических величин для
уменьшения временных издержек, необходимых для оценки всех ин-
тегралов. В частности, одноцентровые интегралы межэлектронного от-
талкивания и резонансные интегралы замещаются параметрами, кото-
рые подгоняются под известные экспериментальные данные с наиболь-
шей возможной точностью.
Вторая основная идея полуэмпирического подхода состоит в том,
что большинство представляющих интерес свойств молекулы определя-
ется в наибольшей степени именно валентными электронами соотве-
тствующих атомов. Исходя из этого в расчеты вовлекаются только ва-
лентные электроны, что ведет к дальнейшему сокращению расчетного
времени.
Все полуэмпирические методы основаны на одних и тех же теорети-
ческих положениях, различаясь лишь по форме приближений, реализу-
ющих эти положения [37]. Такие методы, как AM1 (Austin Model 1 [38])
или PM3 (Parametric Method 3 [39–41]), являются удачным компромис-
сом между точностью результатов и сложностью вычислений. Результа-
ты проведенных с их помощью расчетов соответствуют эксперименту
практически с той же точностью, что и результаты неэмпирического
расчета в малом базисе. Преимущества полуэмпирических методов не
исчерпываются лишь тем, что они на несколько порядков быстрее, —
моделировать системы размером более 200 атомов в настоящий момент
возможно лишь с помощью полуэмпирических методов. Однако к полу-
ченным результатам необходимо очень осторожное отношение. Подобно
выбору неверного базиса для неэмпирических вычислений в полуэмпи-
рических расчетах результаты вычислений при отсутствии точных пара-
метров могут оказаться бессмысленными. Качество полуэмпирических
расчетов для многих молекул с различными свойствами рассматривается
в ряде обзоров [28–31]. Следует также отметить, что полуэмпирические
методы склонны давать ошибочные результаты при расчете соедине-
ний, включающих элементы третьего периода1.

2.2.5.3. Комбинированные методы квантовой и молекулярной механики


Теоретические ограничения молекулярной механики, с одной стороны,
и сложность неэмпирических расчетов, с другой, способствовали в даль-
нейшем разработке гибридной схемы, в которой сочетались бы преиму-
щества обоих подходов. Впервые подобную комбинацию продемонстри-
ровали Уоршел и Левитт в 1976 г. [42].

1
К настоящему времени предложена новая модификация метода MNDO (аналогично
AM1 и PM3) — PM6, в которой значительно расширен набор параметризованных эле-
ментов и устранен ряд существенных недостатков [Stewart J. J. P. J. Mol. Model. 2007.
V. 13. P. 1173–1213].
Глава 2. Малые молекулы 37

Несмотря на грандиозный прогресс вычислительной техники и тео-


ретической методологии, что позволило давать системам гораздо боль-
ших размеров квантово-механическое описание, большие биологичес-
кие системы (белки, ДНК, липидные мембраны), состоящие из тысяч
атомов, до сих пор невозможно исследовать методами квантовой химии.
К сожалению, эти методы незаменимы при описании химических реак-
ций, протекающих с разрывом и образованием ковалентных связей, и
при точной оценке энергии взаимодействия лекарств с биологическими
мишенями. При этом чаще всего квантово-механическое описание рас-
творителя или макромолекулы в целом не требуется. Процессы, для ко-
торых необходимо такое описание, чаще всего происходят в довольно
локальных областях, например, в активном центре фермента. В гибрид-
ных схемах эти области моделируются методами квантовой механики
(область КМ), тогда как остальная часть макромолекулы и растворитель
описываются молекулярной механикой (область ММ). Схема на рис.
2.2.3 также поясняет, почему методы КМ–ММ называют также
вложенными: область КМ погружена (вложена) внутрь области ММ.
В различных методах и программах КM–MM, опубликованных к на-
стоящему времени, все модификации, производимые для того, чтобы
иметь возможность сочетать расчеты с помощью силовых полей и мето-
дов квантовой механики, аналогичны. Основная идея состоит в том, что
атомы различных областей (КM и MM) могут взаимодействовать; атомы
области КM «видят» атомы области MM и наоборот. Полная энергия сис-
темы в методе КM–MM определяется уравнением (7). При вычислении
КМ-составляющей атомы области MM представляют собой точечные за-
ряды и таким образом оказывают влияние на атомы области КM. Ван-
дер-ваальсовы взаимодействия атомов областей КM и MM не зависят от
состояния электронов и поэтому рассчитываются по формулам класси-
ческой молекулярной механики, как и в области MM.

Рис. 2.2.3. Организация системы при расчетах методом КМ–ММ


38 Молекулярное моделирование

Etot = EQMelec + EQMvdW + EMM . (7)


Здесь: Etot — полная энергия; EQMelec — электростатическая энергия
атомов области КM; EQMvdW — энергия ван-дер-ваальсова взаимоде-
йствия атомов области КM; EMM — энергия атомов области MM.
В общем случае возможно сочетание любого силового поля и любого
квантово-механического метода. Некоторые хорошо известные и широ-
ко распространенные программы содержат модуль КM–MM (CHARMM,
QSite, QuanteMM [43–45]).
В последние годы методы КM–MM все чаще применяют для исследо-
вания ферментативных реакций. Описание реакции на уровне отдель-
ных атомов наглядно обеспечивает лучшее понимание сути процесса и
механизма реакции. Первым ферментом, исследованным в таком при-
ближении, стал лизоцим [42]; в дальнейшем были детально изучены
триозофосфатизомераза [46], цитратсинтаза [47] и фармацевтически
важные b-лактамазы [48].

Цитированная литература
1. Allinger, N.L. (1977) Conformational analysis. 130. MM2. А hydrocarbon force
field utilizing V1 and V2 torsional terms. Journal of the American Chemical Soci-
ety, 99, 8127–34.
2. Allinger, N.L., Yuh, Y.H., and Lii, J. H. (1989) Molecular mechanics. The MM3
force-field for hydrocarbons. 1. Journal of the American Chemical Society, 111,
8551–66.
3. Lii, J. H, and Allinger, N. L. (1989) Molecular mechanics. The MM3 force-field
for hydrocarbons. 2. Vibrational frequencies and thermodynamics. Journal of
the American Chemical Society, 111, 8566–76.
4. Lii, J. H. and Allinger, N. L. (1989) Molecular mechanics. The MM3 force-field
for hydrocarbons. 3. The van der Waals potentials and crystal data for aliphatic
and aromatic hydrocarbons. Journal of the American Chemical Society, 111,
8576–82.
5. Morse, P. M. (1929) Diatomic molecules according to the wave mechanics. II. Vi-
brational levels. Physical Review, 34, 57–64.
6. Jones, J. E. (1924) On the determination of molecular fields. II. From the equa-
tion of state of a gas. Proceedings of the Royal Society, 106A, 463–77.
7. Burkert, U. and Allinger, N.L. (1982) Molecular Mechanics, ACS Monograph,
Vol. 177, American Chemical Society, Washington, DC.
8. Dinur, U. and Hagler, A. T. (1991) New approaches to empirical force fields, in
Reviews in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH,
New York, Vol. 2, pp. 99–164.
9. Clark, M., Cramer III, R. D., and Van Opdenbosch, N. (1989) Validation of the
general purpose Tripos 5.2 force field. Journal of Computational Chemistry, 10,
982–1012.
10. Halgren, N. A. and Nachbar, R. B. (1996) Merck molecular force field. 4.
Conformational energies and geometries for MMFF94. Journal of Computa-
tional Chemistry, 17, 587–615.
Глава 2. Малые молекулы 39

11. Maple, J. R., Hwang, M. J., Jalkanen, K. J. et al. (1998) Derivation of class II
force fields: V. Quantum force field for amides, peptides, and related com-
pounds. Journal of Computational Chemistry, 19, 430–58.
12. Brooks, B. R., Bruccoleri, R. E., Olafson, B. D. et al. (1983) CHARMM: a pro-
gram for macromolecular energy, minimization, and dynamics calculations.
Journal of Computational Chemistry, 4, 187–217.
13. van Gunsteren, W. F. and Berendsen, H. J. C. (1985) Molecular dynamics simula-
tions: techniques and applications to proteins, in Molecular Dynamics and Pro-
tein Structure (ed. J. Hermans), Polycrystal Books Service, Western Springs,
pp. 5–14.
14. Maple, J. R., Dinur, U., and Hagler, A. T. (1988) Derivation of force fields for
molecular mechanics and dynamics from ab initio energy surfaces. Proceedings
of the National Academy of Sciences of the United States of America, 85,
5350–54.
15. Bowen, J. P. and Allinger, N. L. (1991) Molecular mechanics: the art and science
of parameterization, in Reviews in Computational Chemistry (eds
K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 2, pp. 81-97.
16. Press, W.H., Flannery, B.P., Teukolsky, S.A., and Vetterling, W.T. (1988) Nu-
merical Recipes in C: The Art of Scientific Computing. Cambridge University
Press, Cambridge, p. 301.
17. Schlick, T. (1992) Optimization methods in computational chemistry, in Reviews
in Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New
York, Vol. 3, pp. 1–71.
18. Eliel, E. L., Allinger, N. L., Angyal, S. J., and Morrison, G. A. (1965)
Conformational Analysis, Wiley-Interscience, New York.
19. Ooi, T., Oobatake, M., Nemethy, G., and Scheraga, H. A. (1987) Accessible sur-
face areas as a measure of the thermodynamics parameters of hydration of pep-
tides. Proceedings of the National Academy of Sciences of the United States of
America, 84, 3086–90.
20. Gilson, M. K., Sharp, K. A. and Honig, B. (1988) Calculating the electrostatic po-
tential of molecules in solution — method and error assessment. Journal of Com-
putational Chemistry, 9, 327–35.
21. Still, W. C., Tempczyk, A., Hawley, R. C. and Hendrickson, T. (1990)
Semianalytical treatment of solvation for molecular mechanics and dynamics.
Journal of the American Chemical Society, 112, 6127–29.
22. Wojciechowski, M. and Lesyng, B. (2004) Generalized Born model: analysis, re-
finement, and applications to proteins. Journal of Physical Chemistry B, 108,
18368–76.
23. Guvench, O., Weiser, J., Shenkin, P. et al. (2002) Application of the frozen atom
approximation to the GB/SA continuum model for solvation free energy. Jour-
nal of Computational Chemistry, 23, 214–21.
24. Apostolakis, J., Pluckthun, A., and Caflisch, A. (1998) Docking small ligands in
flexible binding sites. Journal of Computational Chemistry, 19, 21–37.
25. Kang, X., Shafer, R. H., and Kuntz, I. D. (2004) Calculation of ligand-nucleic
acid binding free energies with the Generalized Born model in DOCK.
Biopolymers, 73, 192–204.
40 Молекулярное моделирование

26. MOE, Chemical Computing Group, Montreal. http://www.chemcomp.com.


27. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) Macromodel — an in-
tegrated software system for modeling organic and bioorganic molecules using
molecular mechanics. Journal of Computational Chemistry, 11, 440–67.
28. Cornell, W. D., Cieplak, P., Bayly, C. I. et al. (1995) A 2nd generation force-field
for the simulation of proteins, nucleic acids, and organic molecules. Journal of
the American Chemical Society, 117, 5179–88.
29. Pople, J. A. (1970) Molecular orbital methods in organic chemistry. Accounts of
Chemical Research, 3, 217–23.
30. Hehre, W. J., Radom, L., Schleyer, P. v. R., and Pople, J. A. (1986) Ab Initio Mo-
lecular Orbital Theory, Wiley-Interscience, New York.
31. Szabo, A. and Osthund, N. S. (1985) Modern Quantum Chemistry: Introduction
to Advanced Electronic Structure Theory, Revised 1st edn, McGraw-Hill, New
York.
32. Clark, T. (1985) A Handbook of Computational Chemistry: A Practical Guide to
Chemical Structure and Energy Calculations, Wiley-Interscience, New York.
33. De Frees, D. J., Levi, B. A., Pollack, S. K. et al. (1979) Effect of electron correla-
tion on theoretical equilibrium geometries. Journal of the American Chemical
Society, 101, 4085–89.
34. Davidson, E. R. and Feller, D. (1986) Basis set selection for molecular calcula-
tions. Chemical Reviews, 86, 681–96.
35. Feller, D. and Davidson, E. R. (1990) Basis sets for ab initio molecular orbital cal-
culations and intermolecular interactions, in Reviews in Computational Chemis-
try (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1, pp. 1–43.
36. Boyd, D. B. (1990) Aspects of molecular modeling, in Reviews in Computational
Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1,
pp. 321–54.
37. Kunz, R. W. (1991) Molecular Modelling fur Anwender, Teubner Studien-
bucher, Stuttgart.
38. Dewar, M. J. S., Zoebisch, E. G., Healy, E. F., and Stewart, J. J. P. (1985) The de-
velopment and use of quantum mechanical molecular models. 76. AM1: a new
general purpose quantum mechanical molecular model. Journal of the American
Chemical Society, 107, 3902–9.
39. Stewart, J. J. P. (1990) Semiempirical molecular orbital methods, in Reviews in
Computational Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York,
Vol. 1, pp. 45–81.
40. Stewart, J. J. P. (1989) Optimization of parameters for semiempirical methods.
1. Method. Journal of Computational Chemistry, 10, 209–20.
41. Stewart, J. J. P. (1989) Optimization of parameters for semiempirical methods.
2. Applications. Journal of Computational Chemistry, 10, 221–64.
42. Warshel, A., and Levitt, M. (1976) Theoretical studies of enzymic reactions —
dielectric, electrostatic and steric stabilization of carbonium-ion in reaction of
lysozyme. Journal of Molecular Biology, 103, 227–49.
43. CHARMM, Harvard University, Cambridge, http://www.charmm.org.
Глава 2. Малые молекулы 41

44. QSite, Schrodinger Inc., Portland, http://www.schrodinger.com.


45. QuantaMM, Accelrys, http://www.accelrys.com.
46. Bash, P. A., Field, M. J., Davenport, R. C. et al. (1991) Computer simulation and
analysis of the reaction pathway of triosephosphate isomerase. Biochemistry,
30, 5826–32.
47. Mulholland, A. J. and Richards, W. G. (1997) Acetyl-CoA enolization in citrate
synthase: a quantum mechanical (QM/MM) study. Proteins, 27, 9–25.
48. Hermann, J. C., Hensen, C., Ridder, L. et al. (2005) Mechanisms of antibiotic
resistence: QM/MM modeling of the acylation reaction of a class A b-lactamase
with benzylpenizillin. Journal of the American Chemical Society, 127, 4454–65.

2.3. Конформационный анализ


Молекулы не являются абсолютно жесткими структурами: при ком-
натной температуре их кинетическая энергия достаточно велика для
того, чтобы все атомы в молекуле находились в постоянном движении.
Это означает, что, во-первых, абсолютные положения атомов в молеку-
ле, равно как и всей молекулы в целом, не могут быть зафиксированы,
и, во-вторых, относительное положение заместителей при ординарной
химической связи со временем может изменяться. Таким образом, сое-
динение, содержащее одну или несколько ординарных связей, в каж-
дый момент времени существует в виде смеси (ансамбля) так называе-
мых ротамеров, или конформеров. Количественный и качественный
состав этой смеси постоянно меняется, причем с большой вероятнос-
тью могут быть обнаружены лишь наиболее низкоэнергетические кон-
формеры.
Переход из одной конформации в другую связан прежде всего с из-
менением торсионных углов при ординарных химических связях; в
этом случае изменение длин связей и валентных углов намного менее
значительно. Изменению молекулярной конформации соответствует
перемещение на многомерной поверхности, описывающей зависимость
потенциальной энергии молекулы от некоторых ее геометрических па-
раметров. Каждая точка этой потенциальной поверхности представляет
собой энергию единственной конформации; в частности, стабильные кон-
формации соответствуют локальным минимумам поверхности потенци-
альной энергии. Относительная заселенность конформации зависит от ее
статистического веса, который определяется не только потенциальной
энергией, но и энтропией. Как следствие, глобальный минимум повер-
хности потенциальной энергии (конформация, обладающая наимень-
шей потенциальной энергией) не обязательно соответствует структуре с
максимальным статистическим весом (более подробно см. в [1]).
Хорошо известны такие примеры молекулярных конформаций, как
заторможенная и заслоненная формы этана, анти-транс- и гош-формы
н-бутана, конформации циклогексана «кресло» и «ванна». Изменение
потенциальной энергии в молекуле этана при вращении вокруг связи
42 Молекулярное моделирование

C 3 - C 3 описывается периодической функцией, близкой к синусоиде


sp sp
(рис. 2.3.1). Минимумы энергии, расположенные при 60, 180 и 300°, со-
ответствуют заторможенной конформации этана, а максимумы при 120,
240 и 360° — заслоненной. Структуры, отвечающие максимуму потен-
циальной энергии, неустойчивы, поэтому все данные, касающиеся хи-
мических свойств этана, относятся лишь к его устойчивой, заторможен-
ной форме. Ситуация значительно усложняется в случае больших и бо-
лее гибких молекул, которые при комнатной температуре существуют в
виде нескольких возможных конформеров. Например, приблизительно
70% молекул н-бутана при комнатной температуре находится в
анти-транс-форме, тогда как остальные 30% — в гош-форме [2]. Следо-
вательно, при изучении свойств этой алифатической молекулы с линей-
ной углеродной цепью в рассмотрение должны приниматься и анти-
транс-, и гош-форма. Примером может служить циклогексан, для кото-
рого должны рассматриваться две формы — и «кресло», и «ванна».1
Предполагается, что биологическая активность лекарственного ве-
щества определяется одной, так называемой «биоактивной» конформа-
цией его молекул, которую необходимо обнаружить среди множества
всех низкоэнергетических конформаций [3]. Поиск молекул с такой
конформацией для многих химических соединений составляет одну из
главных задач медицинской химии. Основываясь на сведениях об ак-
тивной конформации, можно сконструировать новые активные лиган-
ды для конкретной рецепторной системы. Считается, что биоактивная
конформация может не совпадать с глобальным минимумом. Тем не ме-
нее, она не может быть настолько выше его по энергии, чтобы ее содер-
жание в растворе оказалось исчезающе мало (обсуждение см. в [4]). Та-

Рис. 2.3.1. Зависимость потенциальной энергии молекулы этана от угла пово-


рота вокруг связи C–C (торсионного угла H–C–C–H)
1
Конформация «ванны» циклогексана соответствует переходному состоянию в процессе
псевдопревращения (взаимопревращения двух конформеров с конформацией «твист»
шестичленного цикла). Поэтому для циклогексана в качестве парной к основной конфор-
мации «кресло» следует рассматривать именно конформацию «твист»; см. разд. 2.3.3.
Глава 2. Малые молекулы 43

ким образом, установление низкоэнергетических конформаций имеет


важное значение для понимания корреляции между структурой и
биологической активностью молекул.
Экспериментальные методы, такие как ЯМР, предоставляют ин-
формацию лишь об одной или о нескольких конформациях. Полная
картина конформационного пространства молекулы может быть полу-
чена исключительно теоретическими методами, многочисленные при-
ложения которых нашли отражение в литературе [5–12]. Наиболее об-
щими являются методы, позволяющие обнаружить все минимумы на
поверхности потенциальной энергии. Поскольку их число быстро уве-
личивается с увеличением числа связей со свободным вращением, ис-
черпывающее определение всех минимумов превращается в трудную и
требующую длительных расчетов задачу.
Конечно, затраты времени на конформационный анализ прямо за-
висят от выбора метода расчета энергии. Конформационная энергия мо-
жет рассчитываться с привлечением квантово-механических методов
или методов молекулярной механики. Поскольку квантово-механичес-
кие расчеты требуют значительного времени, их крайне трудно приме-
нять для больших или подвижных молекулярных систем. По этой при-
чине в подавляющем большинстве программ конформационного поиска
для оценки энергий используются методы молекулярной механики.
В данной главе, кроме процедур систематического поиска, мы рассмат-
риваем также применение методов Монте-Карло и молекулярной дина-
мики для конформационного анализа молекул.

2.3.1. Конформационный анализ методом


систематического поиска
Систематический поиск [6, 7, 13] дает наилучшие результаты при кон-
формационном анализе. Он производится путем систематического изме-
нения каждого из торсионных углов молекулы с целью получения всех
возможных конформаций. Если шаг изменения угла достаточно мал, то
такая процедура дает полную картину конформационного пространства
любой молекулы.
Шаг, который используется при систематическом поиске, чаще все-
го равен 30°. Это означает, что за полный поворот на 360° генерируется
12 конформаций. В непосредственной близости от оптимального значе-
ния может потребоваться уменьшение шага до 5° для точного определе-
ния положения минимума. Число порождаемых конформаций зависит
не только от шага, но и от числа свободно вращающихся связей в моле-
куле. Если n — число свободно вращающихся связей, то число конфор-
маций быстро растет с увеличением n:
n
æ 360° ö
число конформаций = ç ÷
è шаг ø
Например, для молекулы с шестью свободно вращающимися связя-
ми при шаге поиска в 30° число конформаций составляет
44 Молекулярное моделирование

126 = 2 985 984. Такой объем данных невозможно обрабатывать вруч-


ную, следовательно, необходимо его уменьшить.
Первый шаг — отбор по критерию ван-дер-ваальсовых объемов, или
проверка пересечения. Он также проводится перед точным вычислением
потенциальной энергии конформации. Процедура отбора исключает все
конформации, в которых обнаруживается пересечение ван-дер-ваальсо-
вых объемов атомов, не связанных непосредственно. Математическим
критерием определения пригодности конформации, таким образом, ока-
зывается сумма ван-дер-ваальсовых радиусов для двух несвязанных ато-
мов. Жесткость ван-дер-ваальсовых сфер может регулироваться введени-
ем так называемого ван-дер-ваальсова множителя, влияющего на взаимо-
проникновение атомов; его уменьшение «смягчает» межатомные контак-
ты, в результате чего увеличивается число отобранных конформаций.
Для конформеров, отобранных в ходе проверки пересечения, вычис-
ляется потенциальная энергия методом молекулярной механики. В об-
щем случае конформационная энергия вычисляется без оценки элек-
тростатических взаимодействий — заряды на атомах не принимаются
во внимание, конформационный анализ проводится in vacuo. Положе-
ния, лежащие в основе подобного подхода, обсуждаются в разд. 2.2.
В случае, когда необходимо включение в конформационный анализ
электростатических взаимодействий, вся процедура значительно услож-
няется. Атомные заряды зависят не только от связности, но чувстви-
тельны и к пространственному окружению атомов. Поэтому величины
атомных зарядов, рассчитанные для начальной конформации, нужно
обновлять после каждого изменения торсионного угла. В дополнение к
этому может оказаться необходимым имитировать влияние растворите-
ля, который ослабляет электростатические взаимодействия, установив-
шиеся между атомами in vacuo. Очевидно, что подобная процедура по-
требовала бы значительного увеличения расчетного времени даже для
малых молекул. При этом важно отметить, что такое усложнение систе-
мы не прибавляет глубины постижения конформационного поведения
молекулы в растворе за исключением того, что ослабляются внутримо-
лекулярные взаимодействия. Аналогичный результат мы получаем при
анализе in vacuo, полностью пренебрегая зарядами на атомах. Кроме
того, в активном центре рецептора или фермента уменьшается значи-
мость внутримолекулярных контактов лиганда.
После расчета конформационной энергии для всех конформеров,
сохранившихся после проверки пересечения, число исследуемых кон-
формаций можно снизить с помощью метода «энергетического окна».
Лежащая в основе его применения идея заключается в том, что кон-
формации с более высокой энергией по сравнению с формами, соответ-
ствующими энергетическим минимумам, встречаются в наборе всех
конформаций лишь в пренебрежимо малых количествах; это означает,
что их влияние на биологическую активность данной молекулы край-
не невелико. Величина «энергетического окна» зависит от размера ис-
следуемой молекулы и применяемого силового поля; обычно она со-
ставляет от 5 до 15 ккал/моль [11–15].
Глава 2. Малые молекулы 45

Структуры, прошедшие отбор — все они представлены энергетичес-


ки достижимыми конформациями данной молекулы. Однако во многих
случаях их число все еще слишком велико, что не позволяет эффектив-
но применять надежные методы исследования. Многие из этих конфор-
маций схожи друг с другом, различаясь, например, лишь одним шагом
угла вращения вокруг единственной связи. Очевидно, что конформации
с выраженным сходством могут быть объединены в одно семейство. Опи-
сание конформационных свойств молекулы не потеряет общности, если
в дальнейшем исследовании из каждого семейства конформаций будет
участвовать лишь конформер с минимальной энергией. Предложено не-
сколько способов для разбиения совокупности конформаций на семей-
ства [15–17], основанных на значениях торсионных углов. Известные
методы классификации конформаций различаются процедурой отнесе-
ния конформации к семейству. В другом способе обработки больших
массивов данных, накопленных в процессе систематического поиска,
используются методы математической статистики, в частности, кластер-
ный или факторный анализ. Более подробное рассмотрение см. в [18].
Проведение систематического конформационного анализа продемон-
стрировано на примере проведенного нашей группой исследования двух
антигистаминных препаратов, действующих на рецепторы H2, тиотиди-
на и ICI127032 (рис. 2.3.2) [19]. Для этого использовался модуль
SEARCH пакета молекулярного моделирования SYBYL [16].

Рис. 2.3.2. Строение молекул антагонистов гистаминовых рецепторов H2 тио-


тидина и ICI127032. Атомы серы обозначены желтым цветом
46 Молекулярное моделирование

Шаг приращения углов выбран в 15°; метильный заместитель в циа-


ногуанидиновой группе из-за симметрии вращали с шагом в 30° в интер-
вале от 0 до 120°. Теоретическое число конформаций 3,98 · 107 было
уменьшено в ходе отбора по ван-дер-ваальсовым радиусам до 4,6 · 106,
то есть по результатам отбора пригодные к исследованию конформации
составили приблизительно 10%. «Энергетическое окно» в 15 ккал/моль
дало дополнительное уменьшение числа конформаций на 90%; в итоге
было отобрано 453 393 конформации, однако и это число конформаций
с трудом поддается анализу. Поэтому оставшиеся структуры были раз-
биты на семейства с помощью разработанной в нашей группе программы
IXGROS [17]. Было получено 227 семейств, каждое из которых было
представлено единственной структурой с минимальной энергией.
Уменьшение числа конформаций с 4,6 · 106 до 227 впечатляет, однако
нельзя не признать, что и это (последнее) число еще слишком велико.
Невозможно определить, какой из 227 конформеров является биологи-
чески активным — а ведь нас интересует только это. Решение не может
быть найдено, если нет жесткой или хотя бы полужесткой сходной
структуры, обладающей подобной биологической активностью. Должно
быть доказано также, что эта структура взаимодействует с тем же са-

Рис. 2.3.3. Результаты конформационного поиска для тиотидина и ICI127032


(изображены наложенные друг на друга конформеры с минимальной энергией).
Локальные минимумы для конформационных семейств обозначены крестика-
ми, соответствующими центрам концевой цианогуанидиновой группировки тио-
тидина и ICI127032 (зеленого и красного цвета соответственно). Расчет прово-
дился с помощью программ SYBYL 6.1 [16] и IXGROS [17]
Глава 2. Малые молекулы 47

мым центром связывания рецептора по аналогичному механизму. Как


правило, для нахождения биоактивной конформации подвижной моле-
кулы требуются похожие по активности, но более жесткие родственные
структуры. В случае антагонистов H2 таким сходным соединением ока-
залось ICI127032. После отбора немногочисленных низкоэнергетичес-
ких конформаций этой жесткой матрицы и дальнейшего использования
IXGROS были отобраны всего восемь конформационных семейств. Они
были успешно использованы для выявления биологически активной
конформации тиотидина (рис. 2.3.3).
Очень полезно использовать конформационно жесткие молекулы
при конформационном поиске для родственных, но более подвижных
структур: структурно жесткие биологически активные соединения
служатматрицей для более гибких. Маршалл [7] расширил этот подход,
включив в исследования также жесткие неактивные структуры. При
этом конформационное пространство можно сузить еще сильнее, и та-
ким образом на один или несколько порядков сократить время, которое
требуется для полного поиска. Этот подход получил название метода
активного аналога.

2.3.2. Конформационный анализ методом МонтеКарло


Совершенно другой подход к исследованию конформационного простра-
нства реализуется в методе Монте-Карло, также именуемого «методом
случайного поиска». Этот метод имеет стохастическую природу [20]: на
каждом шаге поиска рассматриваемая конформация изменяется слу-
чайным образом, превращаясь в другую.
Случайный поиск начинается с оптимизированной структуры. На
каждом шаге итерационной процедуры молекуле случайным образом
присваиваются новые значения торсионных углов [11] или декартовых
координат [8, 9]. Получившаяся конформация минимизируется, и ите-
рация повторяется вновь. Минимизированная конформация сравнива-
ется с предыдущими и отбирается лишь в том случае, если она уникаль-
на. Теоретически случайный процесс покрывает все конформационное
пространство, но в действительности это происходит после весьма дли-
тельных вычислений, поскольку вероятность обнаружить новую кон-
формацию резко падает с ростом числа обнаруженных конформеров.
Кроме того, даже при очень длительном расчете невозможно гарантиро-
вать полноту исследования конформационного пространства, поэтому
очень важно иметь способ проверки полноты анализа. Эффективным
может оказаться запуск в параллельном режиме нескольких расчетных
задач с различными начальными конформациями. Если результаты
одинаковы или очень близки, тогда можно предположить, что поиск
был исчерпывающим. Другая мера оценки полноты исследования осно-
вана на частоте возвращения к любой из низкоэнергетических конфор-
маций, поскольку случайный процесс такого рода обязан многократно
воспроизводить это возвращение.
Главным преимуществом метода случайного поиска является прин-
ципиальная возможность исследовать молекулы любого размера. На
48 Молекулярное моделирование

практике в исследованиях высокоподвижных молекул часто отсутству-


ет сходимость результатов из-за очень большого объема соответствую-
щего конформационного пространства. Метод Монте-Карло успешно
применяется для исследования молекул, содержащих циклы, посколь-
ку циклические системы в общем случае трудно исследовать с помощью
систематического поиска.
Эффективность методов случайного поиска была показана на следу-
ющем примере. Молекулу циклогептадекана изучали с использованием
нескольких методов, включая и методы случайного поиска [12]. Сопос-
тавление результатов позволило выявить 262 различные конформации
с минимальной энергией. Ни один из использованных методов не позво-
лил выявить все конформеры, однако один из вариантов случайного по-
иска оказался способен обнаружить 260 из них. Таким образом, можно с
уверенностью сказать, что методы случайного поиска могут быть край-
не полезными для анализа конформационного поведения, хотя могут
при этом потребовать значительного расчетного времени для обеспече-
ния полноты покрытия конформационного пространства.
Другой метод нахождения выборки конформаций, широко приме-
няющийся в сложных задачах конформационного поиска, называется
методом полюсов [21]. Изменения конформации организуются посре-
дством добавления к стандартному молекулярно-механическому сило-
вому полю так называемой «функции полюсов», которая изменяет по-
верхность потенциальной энергии так, чтобы «штрафовать» участки
конформационного пространства вблизи конформеров («полюсов»), об-
наруженных на предыдущих этапах. Как следствие, такой метод увели-
чивает разнообразие конформаций и избавляет от избыточных в преде-
лах, которые определяются самой функцией. Метод полюсов реализо-
ван в программе CATALYST [22], он может быть использован для
поиска в больших молекулярных базах данных.

2.3.3. Конформационный анализ


методами молекулярной динамики
Систематический конформационный поиск является важным методом
обнаружения большого количества минимумов на поверхности потен-
циальной энергии гибкой молекулы. В принципе можно провести по-
строение всех разрешенных конформаций и с высокой вероятностью
достигнуть полноты конформационного поиска, однако область приме-
нимости такого метода имеет очевидные ограничения. Задача для мно-
жества минимумов может быть решена только в случае достаточно не-
больших молекул с ограниченным числом свободно вращающихся
связей.
Как упоминалось в разд. 2.3.1, систематический конформационный
поиск для молекулы с шестью вращающимися связями сопряжен с
большими трудностями в обработке данных из-за слишком большого
числа конформеров. В связи с этим изучение подвижных молекул, на-
пример арахидоновой кислоты (рис. 2.3.4), которая содержит 15 враща-
Глава 2. Малые молекулы 49

Рис. 2.3.4. Одна из разрешенных по энергии конформаций арахидоновой


кислоты

ющихся связей, становится практически невозможным. Даже после


применения нескольких методов уменьшения массива конформацион-
ных данных систематический поиск дает для нее почти 500 000 различ-
ных конформеров. Программа автоматически останавливается из-за пе-
реполнения массива данных, не успев закончить перебор полного кон-
формационного пространства.
Метод случайного поиска для данной молекулы также оказывается
неэффективным, поскольку требует слишком много времени для выпол-
нения расчета.
Кроме того, немалые сложности возникают при систематическом
конформационном поиске для насыщенных или частично ненасыщен-
ных циклических систем. Для нахождения некоторых конформаций
требуется разрывать отдельные химические связи. Эффективность и
надежность подобной процедуры рассмотрена в обзорах [13, 14].
Обычным путем преодоления вышеупомянутых трудностей являет-
ся использование методов молекулярной динамики для исследования
конформационного пространства. Цель молекулярной динамики — вос-
произвести движение молекулы во времени. В основе молекулярной ди-
намики лежит молекулярная механика. Предполагается, что атомы в
молекуле взаимодействуют между собой в соответствии с типом исполь-
зуемого в данном случае силового поля, как описано в разд. 2.2.1. В про-
цессе моделирования через равные промежутки времени t находят ре-
шение классического уравнения движения (второй закон Ньютона):
Fi (t) = mi × ai (t), (1)
гдe Fi(t) — сила, действующая на i-ый атом в момент времени t; mi —
масса i-го атома; ai(t) — ускорение i-го атома в момент времени t.
Для расчета силы, действующей на атом, используется градиент по-
тенциальной энергии, а начальные скорости присваиваются атомам
случайным образом. Исходя из начальных координат атомов в системе
рассчитываются новые положения атомов и их скорости для момента
времени t, а затем атомы перемещаются в новые положения. В результа-
те этих перемещений образуется новая конформация. Далее этот цикл
повторяется во времени для некоторого предварительно заданного чис-
50 Молекулярное моделирование

ла шагов. Совокупность энергетически доступных конформаций, появ-


ляющихся в результате данного расчетного процесса, называется ан-
самблем.
Уравнения движения Ньютона (1) применяются во всех методах мо-
лекулярной динамики; методы различаются используемыми алгорит-
мами интегрирования. Наиболее распространенными методами интег-
рирования уравнений движения являются алгоритм Верле [23], а также
его относительно простые модификации: алгоритмы Бимана [24] и схе-
ма «прыжок лягушки» (leapfrog) [25]. В данной книге углубленное об-
суждение теории молекулярной динамики вряд ли возможно, однако
заинтересованному читателю можно предложить более подробные
обзоры [26–29].
Перед тем как использовать молекулярную динамику в целях кон-
формационного поиска, необходимо обратить внимание на некоторые
особенности данного подхода. В отличие от консервативных процедур
оптимизации геометрии, молекулярная динамика позволяет преодоле-
вать энергетические барьеры, разделяющие различные конформации.
Таким образом можно найти на потенциальной поверхности не только
ближайшие локальные минимумы. Однако, если энергетический барь-
ер высок или число степеней свободы молекулы очень велико, то весьма
возможно, что для исследуемой системы не будут найдены некоторые
конформеры из числа существующих. Учитывая большую размерность
конформационного пространства, оказывается трудным обеспечить по-
лноту конформационного поиска за фиксированный отрезок времени.
Для наращивания числа конформаций, отобранных в процессе мо-
делирования молекулярной динамики, обычно применяется повыше-
ние температуры модельного вещества [29]. При высокой температуре
возрастают шансы достичь полноты поиска, поскольку молекулы стано-
вятся способными преодолевать даже высокие энергетические барьеры,
разделяющие некоторые конформации. Можно самостоятельно убе-
диться в том, что оптимальный выбор температуры и времени моделиро-
вания сильно завиcит от исследуемой молекулы.
Для иллюстрации мы изложим подробное исследование зависимос-
ти конформационной подвижности молекулы от температуры модели-
рования. Данные были предоставлены Ф. С. Йоргенсеном (Датская ко-
ролевская школа фармакологии, Копенгаген, Дания). Моделирование
молекулярной динамики проводилось для хорошо изученной экспери-
ментально молекулы циклогексана при использовании различных на-
чальных температур и стартовых конформаций1 (рис. 2.3.5).
Конформация «твист» циклогексана (T1 = 0°), использованная в ка-
честве начального приближения, переходит при 400 К лишь в ближай-

1
Программа SYBYL (версия 6.0.3) от Tripos Associates Inc., St. Louis, USA. Минимизация
энергии: силовое поле Tripos, частичные атомные заряды PM3, диэлектрическая прони-
цаемость 20 D, порог сходимости 0,005 ккал/(моль·C). Молекулярная динамика: 1000
пс при различных температурах с сохранением полной энергии. Запись одной конфор-
мации за пикосекунду.
Глава 2. Малые молекулы 51

Рис. 2.3.5. Изменение торсион-


ного угла T1 (T1 = C1 – C2 – C3 – C4)
в циклогексане. При температу-
ре 400 К происходит переход
между двумя конформациями
«твист», что выражается в зна-
чительной флуктуации значе-
ния торсионного угла. Повыше-
ние температуры до 600 К
приводит к образованию одной
из более стабильных конформа-
ций «кресло». Моделирование
динамики при 1000 К показыва-
ет наличие «кресла» при одно-
временном наличии и конфор-
мации «твист», и конформации
«ванны»

шие «твист»-формы, тогда как при 600 К молекуле хватает кинетичес-


кой энергии для превращения в одну из конформаций «кресло»
(T1 = 300°). Дальнейшее увеличение температуры до 1000 К приводит к
образованию «кресла» из «твиста» (T1 = 300° ® 60°), при этом также на-
блюдаются конформационные переходы типа «кресло»—«кресло». Че-
рез 800 пс существует только одна из форм «кресла» (T1 = 60°).
Второе исследование посвящено динамике трех ди- и тетраметилза-
мещенных циклогексанов (1,1-диметил-, 1,1,3,3- и 1,1,4,4-тетраметил-
52 Молекулярное моделирование

циклогексанов) при различных температурах. Наблюдаемые при опре-


деленной температуре превращения типа «кресло»—«кресло» сравни-
вали с экспериментально определяемой энергией барьера инверсии цик-
логексанового кольца [30] (табл. 2.3.1). В итоге сравнения можно
заключить, что моделирование средствами молекулярной динамики по-
зволяет качественно оценить относительные величины барьеров инвер-
сии кольца, определяемых экспериментально. Этот пример высокотем-
пературной молекулярной динамики ясно показывает важность провер-
ки, достаточна ли текущая температура моделирования для того, чтобы
предотвратить «запирание» системы в отдельно взятой области конфор-
мационного пространства.
В методе молекулярной динамики при поиске конформаций их об-
ычно отбирают через фиксированный интервал времени и минимизиру-
ют по алгоритму локальной оптимизации. Такая процедура использова-
лась в ряде конформационных исследований для небольших молекул,
содержащих полициклическую систему [14, 31]. Ярким примером в
данном случае может служить конформационный анализ полигидрок-
сильного аналога сесквитерпеноидного лактона тарпсигаргина (рис.
2.3.6), также выполненный в лаборатории Ф. С. Йоргенсена.
C целью исследования конформационного поведения циклической
системы данной молекулы было проведено моделирование молекуляр-
ной динамики при температуре 1200 К1. Семичленный цикл в процессе
моделирования принимал несколько различных конформаций, кроме
того, происходили разнообразные изменения формы цикла, что ясно по-
казало значительное покрытие конформационного пространства.

Таблица 2.3.1. Существование двух возможных конформаций «кресло»


для трех метилзамещенных циклогексанов при разных
температурах моделирования в сравнении с экспериментально
полученными величинами барьеров инверсии цикла

600 К 800 К 1000 К 1200 К DG


(ккал/моль)
кресло кресло+ кресло+ кресло+ 9,6
кресло¢ кресло¢ кресло¢
кресло кресло кресло+ кресло+ 10,6
кресло¢ кресло¢
кресло кресло кресло кресло+ 11,7
кресло¢

1
Программа SYBYL (версия 6.5) от Tripos Associates Inc., St. Louis, USA. Минимизация энер-
гии: силовое поле Tripos, частичные атомные заряды PM3, диэлектрическая проницаемость
20 D, порог сходимости 0,005 ккал/(моль·C). Молекулярная динамика: 1000 пс при 1200 К с
сохранением полной энергии. Запись одной конформации за пикосекунду. — Прим. автора.
Глава 2. Малые молекулы 53

Рис. 2.3.6. Структурная формула


полигидроксильного аналога тарп-
сигаргина

Каждая полученная конформация была затем оптимизирована пу-


тем минимизации энергии. Конформеры сравнивались только по кон-
формации семичленного цикла, конформации со среднеквадратичным
отклонением менее 0,1 C рассматривались как тождественные. В итоге
были получены пять различных конформеров. Спектр ЯМР тарпсигар-
гина [32] соответствовал одной из теоретически найденных конформа-
ций трициклической системы, которая показана на рис. 2.3.7.
В некоторых случаях для нахождения конформации с минималь-
ной энергией недостаточно просто минимизировать все структуры вы-
борки. Задача высокотемпературного моделирования молекулярной ди-
намики — снабдить молекулу достаточным количеством кинетической
энергии для преодоления барьеров между конформациями. Однако в
процессе моделирования молекулярная структура может быть искаже-
на настолько, что для ее релаксации будет недостаточно простой проце-
дуры минимизации.

Рис. 2.3.7. Одна из найденных теоретически конформаций полигидроксильно-


го аналога тарпсигаргина. Конформация цикла согласуется с данными ЯМР
54 Молекулярное моделирование

В подобном случае рекомендуется проводить молекулярно-динами-


ческое моделирование методом отжига (annealing) [33]. Согласно тако-
му подходу, все конформации выборки после высокотемпературного мо-
лекулярно-динамического эксперимента сначала оптимизируются, за-
тем для них проводят моделирование динамики при более низкой
температуре, например 300 К, чтобы снять внутренние напряжения в
молекуле. В конце низкотемпературного этапа проводится оптимиза-
ция, результаты которой — конформации, имеющие более низкую энер-
гию по сравнению с высокотемпературными конформациями; в даль-
нейшем ансамбль конформаций окончательно оптимизируется до дос-
тижения локального минимума.
Метод моделирования отжига представляет собой модификацию ме-
тода отжига (simulated annealing). В этом варианте система ступенчато
охлаждается через постоянные интервалы времени путем постепенного
понижения температуры моделирования. Когда температура прибли-
жается к абсолютному нулю, молекула оказывается «запертой» вблизи
одной из конформаций с минимальной энергией. Эта структура записы-
вается по окончании цикла отжига и в дальнейшем служит исходной
для нового этапа высокотемпературного моделирования. Для получе-
ния ряда конформаций с минимальной энергией этот цикл необходимо
неоднократно повторить. Поскольку конечная структура уже близка к
потенциальному минимуму, нет необходимости в ее дальнейшей мини-
мизации. Метод и его приложения были рассмотрены в работах [35, 36];
там же можно почерпнуть дополнительную информацию по данному
вопросу.

2.3.4. Какой метод выбрать?


При таком разнообразии доступных методов исследования конформа-
ционного пространства порой бывает трудно принять правильное реше-
ние. Каждый метод имеет свои сильные и слабые стороны. Системати-
ческий поиск подвержен «комбинаторному взрыву» числа конформа-
ций и не может применяться к исследованию циклических молекул.
Методы случайного поиска требуют долгого времени для подтвержде-
ния полноты покрытия конформационного пространства. В дополнение
к этому, из результатов необходимо удалять повторы конформаций.
Проверка адекватности методов конформационного поиска чаще
всего проводится путем сравнения со стандартными тестовыми набора-
ми. В одном подходе сравниваются и число конформеров, и их энергии.
Альтернативой является сравнение сгенерированных конформаций с
экспериментально определенными структурами из Кембриджской базы
кристаллографических данных (CCDB). В работе [38] сообщается, что
программа CORINA, написанная для преобразования структурных фор-
мул в пространственные структуры, для массива данных из 639 молекул
правильно воспроизвела конформацию более чем в половине случаев.
В настоящее время, когда в Банке данных белковых молекул (PDB)
[39] быстро возрастает число структур высокого разрешения для ком-
плексов белков и лигандов, появляется новый подход к тестированию
Глава 2. Малые молекулы 55

процедур конформационного поиска. Стало возможным проверить, со-


держится ли биологически активная конформация в конформационных
ансамблях, построенных разными методами. Не так давно програм-
мы-генераторы конформеров были исследованы с целью показать, на-
сколько точно генерированные ими конформации соответствуют мини-
мальной энергии. Однако некоторые исследователи подвергают сомне-
нию предположение, что биологически активная конформация должна
быть вблизи глобального минимума энергии [40–47]. Энергетический
уровень связанных с белком конформеров часто бывает значительно
выше глобального минимума. В структурах лиганд-белковых комплек-
сов, получаемых путем рентгеноструктурного анализа монокристалла,
обе молекулы испытывают некоторые конформационные затруднения;
в итоге структура связанного лиганда отличается от той, что наблюдает-
ся для него в кристаллах чистого вещества.
Бострем и др. провели сравнение различных методов построения
конформационных выборок на тестовом множестве лиганд-белковых
комплексов из PDB [41, 42]. Авторы исследовали, до какой степени ре-
зультаты, полученные с помощью некоторых программ конформацион-
ного поиска, близки к экспериментальным. Методы систематического и
случайного конформационного поиска были применены к 32 структу-
рам лигандов, для которых известны структуры комплексов с белками.
Согласно этому исследованию, заметно лучше других проявил себя низ-
комодовый конформационный поиск (low-mode conformational search),
реализованный в программе MacroModel [48]. И при введении модели
растворителя, и при пренебрежении атомными зарядами уменьшение
роли электростатических взаимодействий способствует успешному по-
иску биоактивной конформации. Во всех методах возникли затрудне-
ния при обработке структур, содержащих восемь и более связей, вокруг
которых возможно внутримолекулярное вращение. Результаты свиде-
тельствуют о том, что ряд молекул лигандов в минимальной по энергии
конформации не в состоянии взаимодействовать с белком.
Недавно было опубликовано еще более общее исследование [49], в
ходе которого сравнивали способность различных конформационных
генераторов воспроизводить биоактивные конформации. Алгоритм
конформационного разделения, реализованный в программе Catalyst
[22], сравнивался с конформационным генератором Omega 2.0 компа-
нии OpenEye. Исследование основывалось на обширной (778 структур)
библиотеке молекул лекарств и фармакологически значимых веществ,
извлеченной из PDB. Были опробованы два протокола для двух вариан-
тов генерации конформеров: 1) высокопроизводительный (для обработ-
ки больших баз данных) и 2) высококачественный (для исследования
центров связывания и улучшения описания ведущей структуры).
Исследование показало, что качество конформационных моделей всегда
диктуется компромиссом между плотностью покрытия конформацион-
ного пространства и сложностью вычислений по используемому алго-
ритму. С увеличением размера и подвижности исследуемой молекулы
необходимо увеличить размер ансамбля для эквивалентного качества
56 Молекулярное моделирование

представления молекулы. В программе CATALYST более чем для 80%


исследованных случаев совмещение конформера с минимальной энер-
гией и биоактивного конформера давало среднеквадратичное отклоне-
ние менее 1,50 C, а в 93% — менее 2,0 C. В итоге Omega и CATALYST
дали очень хорошие результаты при построении конформационных мо-
делей. Программа Omega показала себя лучше в качестве генератора
высококачественных моделей, а CATALYST — для высокопроизводи-
тельной генерации.
В заключение можно сказать, что существует много методов иссле-
дования конформационного пространства и поиска конформаций.
Пользователю следует тщательно подбирать подходящие методы и усло-
вия моделирования, чтобы гарантировать полноту охвата конформаци-
онного пространства и адекватность результатов. Не следует забывать,
что каждый из подходов имеет сильные и слабые стороны, так что всег-
да, когда это возможно, следует сверять результаты с имеющимися экс-
периментальными данными.

Цитированная литература
1. Scheraga, H. A. (1971) Theoretical and experimental studies of conformations of
polypeptides. Chemical Reviews, 71, 195–217.
2. Rademacher, P. (1987) In Strukturen Organischer Molekule (ed. M. Klessinger),
VCH Publishers, Weinheim, New York, p. 139.
3. Ghose, A. K., Crippen, G. M., Revankar, G. R. et al. (1989) Analysis of the in vi-
tro antiviral activity of certain ribonucleosides against para-influenza virus us-
ing a novel computer-aided receptor modeling procedure. Journal of Medicinal
Chemistry, 32, 746–56.
4. Jorgensen, W. L. (1991) Rusting of the lock and key model for protein-ligand
binding. Science, 254, 954–55.
5. Howard, A. E. and Kollman, P. A. (1988) An analysis of current methodologies
for conformational searching of complex molecules. Journal of Medicinal Chem-
istry, 31, 1669–75.
6. Smellie, A., Kahn, S. D., and Teig, S. L. (1995) Analysis of conformational cover-
age. 1. Validation and estimation of coverage. Journal of Chemical Information
and Computer Sciences, 35, 285-94.
7. Dammkoehler, R. A., Karasek, S. F., Shands, E. F. B., and Marshall, G. R. (1989)
Constrained search of conformational hyperspace. Journal of Computer-Aided
Molecular Design, 3, 3–21.
8. Saunders, M. (1987) Stochastic exploration of molecular mechanics energy sur-
faces — hunting for the global minimum. Journal of the American Chemical So-
ciety, 109, 3150–52.
9. Saunders, M. (1989) Stochastic search for the conformations of bicyclic hydro-
carbons. Journal of Computational Chemistry, 10, 203–8.
10. Ferguson, D. M. and Raber, D. J. (1989) A new approach to probing conformati-
onal space with molecular mechanics — random incremental pulse search. Jour-
nal of the American Chemical Society, 111, 4371–78.
Глава 2. Малые молекулы 57

11. Chang, G., Guida, W. C., and Still, W. C. (1989) An internal coordinate Monte-
Carlo method for searching conformational space. Journal of the American
Chemical Society, 111, 4379–86.
12. Saunders, M., Houk, K. N., Wu, Y.-D. et al. (1990) Conformations of cyclohepta-
decane — a comparison of methods for conformational searching. Journal of the
American Chemical Society, 112, 1419–27.
13. Ghose, A. K., Jaeger, E. P., Kowalczyk, P. J. et al. (1993) Conformational sear-
ching methods for small molecules. 1. Study of the Sibyl search method. Journal
of Computational Chemistry, 14, 1050–65.
14. Bohm, H.-J., Klebe, G., Lorenz, T. et al. (1990) Different approaches to confor-
mational analysis — a comparison of completeness, efficiency, and reliability
based on the study of a 9-membered lactam. Journal of Computational Chemis-
try, 11, 1021–28.
15. Taylor, R., Mullier, G. W., and Sexton, G. J. (1992) Automation of conformati-
onal analysis and other molecular modeling calculations. Journal of Molecular
Graphics, 10, 152–60.
16. SYBYL Theory Manual, Tripos Associates, St. Louis, http://www.tripos.com.
17. Sippl, W. (1997) Theoretische Untersuchungen zum Bindungsverhalten von His-
tamine H2- and H3-Rezeptor Liganden, Ph. D. Thesis, Heinrich-Heine-Univer-
sity, Duesseldorf, Germany.
18. Shenkin, P. S. and McDonald, D. Q. (1994) Cluster analysis of molecular confor-
mations. Journal of Computational Chemistry, 15, 899–916.
19. Holtje, H.-D. and Batzenschlager, A. (1990) Conformational analyses on hista-
mine H2 receptor antagonists. Journal of Computer-Aided Molecular Design, 4,
391–402.
20. Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N. et al. (1953) Equation of
state calculations by fast computing machines. Journal of Chemical Physics, 21,
1087–92.
21. Smellie, A., Kahn, S. D., and Teig, S. L. (1995) Analysis of conformational cover-
age. 2. Applications of conformational models. Journal of Chemical Informa-
tion and Computer Sciences, 35, 295–304.
22. Catalyst, Accelrys Inc., San Diego, http://www.accelrys.com.
23. Verlet, L. (1967) Computer experiments on classical fluids. 1. Thermodynamical
properties of Lennard-Jones molecules. Physical Review, 159, 98–103.
24. Beeman, D. (1976) Some multistep methods for use in molecular dynamics calcu-
lations. Journal of Computational Physics, 20, 130–39.
25. Hochney, R. W. and Eastwood, J. W. (1981) Computer Simulation Using
Particels, McGraw-Hill, New York.
26. van Gunsteren, W. F. and Berendsen, H. J. C. (1990) Molekhldynamik-Compu-
tersimulationen: Methodik, Anwendungen und Perspectiven in der Chemie.
Angewandte Chemie, 102, 1020–55.
27. Lybrand, T. P. (1990) Computer simulation of biomolecular systems using molec-
ular dynamics and free energy perturbation methods, in Reviews in Computa-
tional Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New
York, Vol. 1, pp. 295–320.
58 Молекулярное моделирование

28. Karplus, M. and Kuriyan, J. (2005) Molecular dynamics and protein function.
Proceedings of the National Academy of Sciences of the United States of Ameri-
ca, 102, 6679–85.
29. Leach, R. A. (1991) A survey of methods for searching the conformational space
of small and medium-sized molecules, in Reviews in Computational Chemistry
(eds K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New York, Vol. 2, pp.
1–47.
30. Friedolin, H., Schmid,H. G., Kabu8 S., and Fai8t, W. (1969) Konformative
Beweglichkeit Flexibler Ringsysteme-XI Untersuchungen mit Hilfe der Proto-
nenresonanzspektroskopie Ringinversion bei Methyl- und Alkoxylcyclo-
hexanen. Organic Magnetic Resonance, 1, 147–62.
31. Kawai, T., Tomioka, N., Ichinose, T. et al. (1994) High-temperature simulation
of dynamics of cyclohexane. Chеmical & Pharmaceutical Bulletin, 42, 1315–21.
32. Christensen, S. B. and Schaumburg, K. (1983) Stereochemistry and C-13 nuclear
magnetic resonance spectroscopy of the histamine-liberating sesquiterpene
lactone thapsigargin — a modification of Horeau method. The Journal of Or-
ganic Chemistry, 48, 396–99.
33. Auffinger, P. and Wipff, G. (1990) High-temperature annealed molecular dy-
namics simulations as a tool for conformational sampling — application to the
bicyclic-222 cryptand. Journal of Computational Chemistry, 11, 19–31.
34. Kirkpatrick, S., Gelatt, C. D., and Vecchi, M. P. (1983) Optimization by simu-
lated annealing. Science, 220, 671–80.
35. Salvino, J. M., Seoane, P. R., and Dulle, R. E. (1993) Conformational analysis of
bradykinin by annealed molecular dynamics and comparison to MMR-derived
conformations. Journal of Computational Chemistry, 14, 438–44.
36. Laughton, C. A. (1994) A study of simulated annealing protocols for use with mo-
lecular dynamics in protein structure prediction. Protein Engineering, 7,
235–41.
37. Olga Kennard, F. R. S., Cambridge Structural Database, Cambridge Crystallo-
graphic Data Centre, http://www.ccdc.cam.ac.uk.
38. Sadowski, J., Gasteiger, J., and Klebe, G. (1994) Comparison of automatic three-
dimensiional model builders using 639 X-ray structures. Journal of Chemical
Informatiion and Computer Sciences, 34, 1000–8.
39. Bernstein, F. C., Koetzle, T. F., Williams, G. J. B., et al. (1977) Protein data
bank — computer-based archival file for macromolecular structures. Journal of
Molecular Biology, 112, 535–42.
40. Bostrom, J. (2001) Reproducing the conformations of protein-bound ligands: a
critical evaluation of several popular conformational searching tools. Journal of
Computer-Aided Molecular Design, 15, 1137–52.
41. Bostrom, J., Greenwood, J. R., and Gottfries, J. (2003) Assessing the perfor-
mance of OMEGA with respect to retrieving bioactive conformations. Journal of
Molecular Graphics & Modelling, 21, 449–62.
42. Vieth, M., Hirst, J. D., and Brooks, C. L. (1998) Do active site conformations of
small ligands correspond to low free-energy solution structures? Journal of Com-
puter-Aided Molecular Design, 12, 563–72.
Глава 2. Малые молекулы 59

43. Bostrom, J., Norrby, P.-O., and Liljefors, T. (1998) Conformational energy pen-
alties of protein-bound ligands. Journal of Computer-Aided Molecular Design,
12, 383–96.
44. Kirchmair, J., Laggner, C., Wolber, G., and Langer, T. (2005) Comparative anal-
ysis of protein-bound ligand conformations with respect to catalyst's conforma-
tional space subsampling algorithms. Journal of Chemical Information and
Modeling, 45, 422–30.
45. Nicklaus, M. C., Wang, S. M., Driscoll, J. S., and Milne, G. W. A. (1995) Confor-
mational changes of small molecules binding to proteins. Bioorganic & Medici-
nal Chemistry, 3, 411–28.
46. Perola, E. and Charifson, P. S. (2004) Conformational analysis of drug-like mole-
cules bound to proteins: an extensive study of ligand reorganization upon bind-
ing. Journal of Medicinal Chemistry, 47, 2499–510.
47. Sadowski, J. and Bostrom, J. (2006) MIMUMBA revisited: torsion angle rules
for conformer generation derived from X-ray structures. Journal of Chemical
Information and Modeling, 46, 2305–9.
48. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) MacroModel — an
integrated software system for modeling organic and bioorganic molecules using
molecular mechanics. Journal of Computational Chemistry, 11, 440–67.
49. Kirchmair, J., Wolber, G., Laggner, C., and Langer, T. (2006) Comparative per-
formance assessment of the conformational model generators Omega and Cata-
lyst: a large-scale survey on the retrieval of protein-bound ligand conformations.
Journal of Chemical Information and Modeling, 46, 1848–61.
50. Omega, Version 2.0, OpenEye Scientific Software, Santa Fe,
http://www.eyesopen.com.

2.4. Потенциалы молекулярных взаимодействий


Начальным этапом образования любого комплекса, например, ком-
плекса между лекарственным веществом и рецептором, является акт
распознавания. Рецептор должен распознать, обладает ли приближаю-
щаяся молекула свойствами, необходимыми для специфического и
сильного связывания. Этот процесс происходит на довольно значитель-
ном расстоянии и предшествует образованию комплекса. Трехмерное
электростатическое поле, окружающее каждую молекулу, играет реша-
ющую роль в распознавании. Другие молекулярные характеристики,
такие как поляризуемость и гидрофобность, становятся значимыми,
когда расстояние между взаимодействующими поверхностями умень-
шается. Понятно, что молекулярные поля, определяемые путем систе-
матических вычислений и сравнений энергий взаимодействия между
изучаемыми молекулами и различными химическими зондами (проб-
ными частицами), имеют большое значение для понимания межмолеку-
лярных взаимодействий в интересующем нас молекулярном ансамбле
любой сложности.
В последующих разделах дается описание и оценка методов расчета
и анализа этих молекулярных свойств.
60 Молекулярное моделирование

2.4.1. Молекулярный электростатический потенциал


Информация о молекулярном электростатическом потенциале (МЭП)
оказывается критически важной для изучения взаимодействий моле-
кул и химических реакций. При сближении молекул сначала контакт
между ними достигается благодаря дальнодействующим электростати-
ческим силам. Эти силы можно разделить на три типа: собственно
электростатические, индуктивные и дисперсионные. Первый тип взаи-
модействия возникает между полярными молекулами, обладающими
зарядом или постоянным дипольным моментом. Второй тип обнаружи-
вается при взаимодействии полярной и неполярной молекул. В этом
случае диполь полярной молекулы порождает электрическое поле, ко-
торое изменяет распределение электронной плотности в неполярной мо-
лекуле, индуцируя таким образом дипольный момент. Наконец, в
третьем случае, если обе молекулы неполярны и гидрофобны, то непре-
рывные флуктуации электронного распределения в одной молекуле мо-
гут индуцировать мгновенный дипольный момент в соседней молекуле.
Этот тип взаимодействия называется дисперсионным. Дисперсионные
силы слабы и резко уменьшаются с увеличением расстояния между вза-
имодействующими молекулами (см. разд. 2.2.1). Тем не менее именно
они определяют взаимодействие между нейтральными неполярными
молекулами. Дисперсионные силы также называют лондоновскими или
ван-дер-ваальсовыми силами.
Электростатическое взаимодействие может приводить как к притя-
жению, так и к отталкиванию, так что электроположительная часть
приближающейся молекулы будет стремиться сблизиться с электроот-
рицательной областью другой, в то время как одинаково заряженные
части будут отталкивать друг друга. Очевидно, что нековалентное взаи-
модействие особенно велико между заряженными фрагментами моле-
кул. Присутствие в молекуле зарядов и постоянных дипольных момен-
тов порождает в окружающей среде трехмерное электростатическое
поле. Поэтому на небольших расстояниях от полярных или даже ней-
тральных молекул всегда существует значительный МЭП. Этот электро-
статический потенциал (ЭСП) может быть определен как энергия взаи-
модействия между электронным облаком в молекуле и положительным
точечным зарядом, который располагается в узлах трехмерной решет-
ки, окружающей молекулу. Для расчета МЭП необходимо знание точ-
ных электронных характеристик молекулы. Поэтому в следующих раз-
делах нам придется иметь дело с методами расчета плотности заряда в
молекулах.
2.4.1.1. Методы расчета частичных атомных зарядов
Электронные свойства молекулы определяются распределением элек-
тронной плотности вокруг положительно заряженных ядер. Подробная
информация о молекулярной электронной плотности может быть полу-
чена как экспериментально, например, методом дифракции рентгенов-
ских лучей, так и путем расчета с использованием различных кванто-
во-механических методов. Однако результатом расчета может являться
Глава 2. Малые молекулы 61

лишь пространственная плотность вероятности нахождения электрона.


Для вычисления энергии взаимодействия чаще всего требуется знать ве-
личины точечных зарядов, расположенных в центре атома. Безусловно,
это является крайним упрощением картины распределения электро-
нной плотности в молекуле. Подобное преобразование достигается
путем преобразования пространственной функции распределения элек-
тронной плотности в совокупность дискретных величин — частичных
или точечных зарядов. Это может быть сделано путем «конденсации»
всей распределенной в пространстве электронной плотности атома в
одну точку — в место расположения атомного ядра, и именно благодаря
этому появилось представление молекулы как системы точечных ато-
мов, несущих определенные заряды. Введение таких эмпирических
атомных зарядов несколько произвольно, поскольку распределение
электронов в молекуле приписывается отдельным атомным центрам,
иначе говоря, молекулярная характеристика описывается как совокуп-
ность атомных свойств. Частичные заряды нельзя определить экспери-
ментально, поэтому метод приписывания таких зарядов уместен и на-
учно обоснован только в тех случаях, когда он используется для корре-
ляций или предсказания физико-химических свойств молекул. Как
указывалось ранее, электростатическая составляющая полной энергии
межмолекулярного взаимодействия очень велика, поэтому больши-
нство широко используемых программ молекулярной механики вклю-
чают соответствующий энергетический вклад, зависящий от частичных
атомных зарядов. Применение эмпирических методов делает возмож-
ным быстрый расчет электростатической энергии даже для макромоле-
кул, состоящих из сотен атомов. Для этих целей разработаны различ-
ные методики расчета частичных атомных зарядов, обзор которых дан в
работе [1].
Следует различать два методологически различных подхода:
1. к первому относятся топологические методы [2–6]1, такие как метод
Гастайгера—Хюккеля [2];
2. ко второму — способы вычисления атомных зарядов квантово-хими-
ческих волновых функций, такие как анализ заселенностей [7] или
извлечение зарядов из рассчитанного электростатического потенци-
ала [8–11].

Топологические методы
Топологические методы основаны на понятии электроотрицатель-
ности. Распределение атомных зарядов по непосредственно связанным
атомам осуществляется по определенным правилам с использованием
электроотрицательностей атомов и экспериментальных структурных
данных о связях, соединяющих эти атомы. В топологических методах

1
Значительный прогресс в разработке топологических методов для молекулярного моде-
лирования достигнут российскими учеными под руководством академика РАН Н. С. Зе-
фирова. См. дополнительную литературу (с. 80).
62 Молекулярное моделирование

такого рода не нужно знание геометрии или конформационного состоя-


ния молекулы: расчет ведется исходя из матрицы связности атомов. Ме-
тод Дель Ре [3], первоначально разработанный для насыщенных моле-
кул, был в дальнейшем усилиями Пюльман и др. распространен на со-
пряженные системы [4]. Оба эти метода до сих пор используются в
некоторых программах для моделирования. Предложенный позднее ме-
тод, дающий результаты, более близкие к экспериментальным, — это
метод Гастайгера—Хюккеля. Он является комбинацией метода Гастай-
гера— Марсили [2] для расчета s-компоненты атомного заряда и хорошо
известной теории Хюккеля для сопряженных систем [12]. Теория Хюк-
келя позволяет быстро и эффективно вычислять p-компоненту атомного
заряда; полный заряд получается как сумма s- и p-компонент. Формаль-
ные заряды на атомах, входящих в p-систему, считаются делокализо-
ванными по всей p-системе. Поэтому сначала рассчитываются заряды по
Хюккелю, а затем — по Гастайгеру. Основным преимуществом тополо-
гических методов является быстрота расчета и хорошее соответствие с
экспериментально наблюдаемыми свойствами во многих случаях. Одна-
ко этим результатам можно доверять, только если метод протестирован
для изучаемой группы молекул. Часто такими процедурами валидации
пренебрегают, что полностью обесценивает подобное исследование.
Топологические методы часто включаются в коммерческие про-
граммные пакеты как стандартные инструменты расчета зарядов.

Квантовохимические методы
В зависимости от требуемой точности и доступных вычислительных
ресурсов волновая функция может быть получена либо полуэмпиричес-
кими методами, либо «из первых принципов» (first-principles calcula-
tions). Зарядовые плотности могут быть выведены из волновых функ-
ций с использованием различных процедур. Наиболее часто используе-
мым подходом является анализ заселенностей по Малликену1 [7],
который включен как стандартный метод в различные квантово-меха-
нические программы [13–15]. Анализ заселенностей распределяет элек-
тронную плотность, получаемую из волновой функции, по отдельным
атомам на основе величин занятости соответствующих атомных орбита-
лей. Несмотря на широкую применимость, в литературе уже давно при-
знано, что успех метода Малликена сильно зависит от используемого ба-
зиса. В работах [16, 17] отмечается, что метод часто дает результаты, не
соответствующие экспериментальным данным (также см. табл. 2.4.1).
Улучшенным методом, в котором отсутствует большинство проблем,
возникающих в методе Малликена, является анализ натуральных засе-
ленностей [18], но он эффективен только при использовании неэмпири-
ческих волновых функций.

1
Роберт Малликен (1896–1986) — выдающийся американский физикохимик, один из соз-
дателей метода молекулярных орбиталей, лауреат Нобелевской премии по химии 1966 г.
В 1983 г. награжден медалью Пристли — высшей наградой Американского химическо-
го общества.
Таблица 2.4.1. Сравнение экспериментальных и теоретических значений дипольных моментов. Расчет проводился несколькими
методами: топологическим (методом Гастайгера—Хюккеля) и квантово-механическим (вычисление дипольного
момента непосредственно из волновой функции (SCF), по Малликену, а также из молекулярного
электростатического потенциала (ESP))

Вещество Экспери- Гастай- AM1 PM3 STO-3G 3-21G* 6-31G**


мент (газ) гер—
Хюккель
SCF Мал- ESP SCF Мал- ESP SCF Мал- ESP SCF Мал- ESP SCF Мал- ESP
ликен ликен ликен ликен ликен

Имидазол 3,8±0,4 3,118 3,508 2,129 3,575 3,861 2,412 3,869 3,535 2,213 3,494 4,025 2,855 3,962 3,855 2,822 3,810

Тиазол 1,61±0,03 1,466 2,012 2,680 2,041 1,249 1,463 1,259 1,986 2,554 1,989 1,683 3,556 1,709 1,435 2,594 1,507

Фуран 0,66 0,599 0,493 0,354 0,484 0,216 0,066 0,234 0,532 0,675 0,498 1,101 2,222 3,936 0,772 1,813 0,738

Метилсилан 0,735 — 0,374 0,276 0,331 0,432 0,175 0,402 — — — 0,702 1,572 0,238 0,672 0,027 0,658

Аммиак 1,470 0,593 1,848 0,644 1,793 1,550 0,011 1,499 1,876 0,902 1,869 1,752 1,189 1,869 1,839 1,384 1,867

Диметиловый 1,31 1,764 1,429 1,052 1,473 1,254 0,854 1,3194 1,333 1,181 1,384 1,847 3,109 1,901 1,475 2,512 1,531
эфир
64 Молекулярное моделирование

Другой, разработанный недавно метод, основанный на волновых


функциях, вычисляет точечные заряды путем подгонки значений моле-
кулярного электростатического потенциала (МЭП; англ. ESP fit).
В рамках квантовой механики молекул электронная плотность, в отли-
чие от системы частичных атомных зарядов, представляет собой непро-
тиворечиво определяемую функцию [19], содержащую подробную и
важную информацию о молекуле в целом, поскольку все электроны вно-
сят свой вклад в это распределение. В эксперименте электронная плот-
ность находится из результатов измерения дифракции рентгеновских
лучей [20], однако данный метод требует значительных временных и вы-
числительных ресурсов, так что не может выступать в роли стандартной
процедуры. Набор атомных зарядов, способных воспроизводить трех-
мерную электронную плотность, является хорошим способом отображе-
ния электронных свойств любой молекулы. Математический аппарат,
на котором основан метод подгонки ЭСП, включает в себя подгонку
атомных зарядов по методу наименьших квадратов так, чтобы они наи-
лучшим образом воспроизводили плотность заряда, которая вычисляет-
ся квантовомеханически в узлах трехмерной решетки, окружающей мо-
лекулу. Это позволяет получить лучшие результаты [9, 11] по сравне-
нию с анализом заселенностей по Малликену.
Надежность распределения зарядов в молекуле позволяет иметь
представление о реальных электронных характеристиках соответству-
ющих атомов путем сравнения с экспериментальными данными.
Одним из легко определяемых экспериментально свойств молекулы
является дипольный момент. С другой стороны, дипольный момент
можно легко и быстро вычислить из частичных атомных зарядов и
сравнить с имеющимися экспериментальными значениями, которые
приведены в справочной литературе для многих соединений (см., на-
пример, [21]). Так как дипольный момент сильно зависит от конформа-
ции молекулы, для сравнения могут быть использованы только ди-
польные моменты для жестких молекул. Для того чтобы определить
применимость какого-либо метода расчета зарядов к серии молекул,
часто проводится исследование не всей конформационно подвижной
молекулы, а лишь ее небольших и жестких фрагментов. В табл. 2.4.1
приведены расчетные и экспериментальные значения дипольных мо-
ментов для представительной выборки небольших жестких структур.
Их значения были получены с использованием различных методов и
базисов, а также рассмотренных выше процедур. Дипольный момент
можно определить квантово-механическим расчетом с использовани-
ем волновых функций (которые в табл. 2.4.1 обозначены как самосог-
ласованные, SCF). Наиболее хорошо согласуются с экспериментальны-
ми значениями результаты, полученные для базисов, подобных
6-31G**.
Выбор метода для исследования отдельной молекулярной системы
зависит от нескольких факторов. С одной стороны, важное значение
имеет размер молекул, с другой — при выборе метода роль сдерживаю-
щего фактора играет доступность вычислительных ресурсов.
Глава 2. Малые молекулы 65

Топологические методы превосходят квантово-химические по быс-


троте; кроме того, с их помощью получается приемлемая оценка физи-
ческих свойств, связанных с зарядом. Дипольные моменты, получен-
ные с помощью этих методов, обычно соответствуют эксперименталь-
ным данным отчасти вследствие того, что методы параметризованы по
экспериментальным данным. Главным их недостатком следует при-
знать независимость от геометрии и конформации молекул. Кроме того,
топологические методы неспособны дать результат в случае, если моле-
кула содержит те атомы, которые не поддерживаются параметризацией
(см., например, данные для метилсилана в табл. 2.4.1 — параметры для
кремния не включены в метод Гастайгера—Хюккеля).
Вычисление атомных зарядов из электронной плотности — лучший
метод в том случае, если результаты в дальнейшем используются для
вычисления энергии взаимодействия с помощью эмпирического потен-
циала. Из табл. 2.4.1 видно, что при этом совсем не обязательно исполь-
зовать неэмпирические расчеты с большим базисом. На относительно
небольших базисах даже с помощью полуэмпирического метода AM1
получаются значения дипольных моментов, хорошо согласующиеся с
экспериментальными данными. Однако качество такого расчета очень
сильно зависит от способа определения частичных атомных зарядов. Ре-
зультаты, основанные на распределении электронной плотности в моле-
куле, более реалистичны, чем те, которые получаются из анализа засе-
ленностей по Малликену; последние для ряда приближений очень гру-
бы и неточны (см. табл. 2.4.1).
Если исследуемая структура состоит более чем из 100 атомов, точ-
ное вычисление волновой функции для молекулы в целом представляет
значительную трудность. Это препятствие можно преодолеть, разделяя
молекулу на перекрывающиеся фрагменты, результаты для которых
можно впоследствии перенести на всю структуру при условии, что свой-
ства фрагментов правильно отражают свойства исходной структуры.
Даже если точечные заряды для целого ряда молекул рассчитаны
при помощи высокоточных методов, их значения не позволяют досто-
верно судить о степени подобия молекул. Намного большее значение
для адекватного установления подобия молекул имеет пространствен-
ное распределение заряда. Самым удачным подходом к оценке этой важ-
ной величины является использование МЭП.

2.4.1.2. Методы расчета МЭП


МЭП представляет собой энергию взаимодействия единичного точечно-
го положительного заряда (протона) с плотностью заряда, создаваемой
совокупностью ядер и электронов молекулы в любой точке пространства
вблизи молекулы. На практике используют пороговое значение потен-
циала для ограничения числа рассчитываемых точек этой функции.
В молекулярном моделировании МЭП оказывается очень полезным: он
описывает электростатические особенности молекулы, так что его мож-
но использовать для анализа и предсказания межмолекулярных взаи-
модействий. Для его расчета используются два различных метода.
66 Молекулярное моделирование

Очень привлекательной выглядит возможность вычислять МЭП непос-


редственно из волновых функций в рамках квантовой механики. Этот
подход является более точным и поэтому требует большего расчетного
времени. Более простым является вычисление МЭП из частичных атом-
ных зарядов, которыми задано распределение электронной плотности
молекулы. Таким образом, МЭП можно рассчитать при применении за-
кона Кулона. Несомненно, первый метод предпочтителен, и именно им
следует пользоваться, если для данной молекулы можно получить дос-
таточно точную волновую функцию.
Существует множество работ по зависимости квантового МЭП от ба-
зисного набора [22–25]; показано также, что электростатический потен-
циал, вычисляемый методом AM1, хорошо соответствует неэмпиричес-
кому потенциалу [22]. Таким образом, в тех случаях, когда проведение
неэмпирических расчетов затруднено из-за значительного размера сис-
темы, возможно использование полуэмпирического метода AM1.
Для отображения МЭП используются разнообразные процедуры.
Главным препятствием для быстрого и легкого использования МЭП при
сравнении различных молекул является большой объем данных, связан-
ных с этим свойством. Широко используется визуализация МЭП в виде
двумерной контурной карты изолиний на плоскости, заданной на основе
геометрии молекулы. Такая карта впоследствии может быть отображена
на цветном графическом мониторе, с ней можно работать в режиме реаль-
ного времени. Каждая контурная линия соответствует значениям с оди-
наковой энергией. Области с высоким вкладом электростатического вли-
яния ядер характеризуются положительными значениями поля, соотве-
тствующими отталкиванию точечного положительного заряда, области
со значительным влиянием электронной плотности обладают отрица-
тельным значением поля, соответствующим притяжению такого заряда.
Следующим уровнем сложности является переход в отображении от
плоскости (2D) к пространству (3D). Принципиальных отличий при
этом не возникает: молекула полностью покрывается множеством экви-
потенциальных оболочек. В каждой точке такой оболочки ЭСП имеет
один и тот же знак, одну и ту же абсолютную величину. С помощью это-
го метода можно очень ясно представить общее расположение положи-
тельно и отрицательно заряженных областей вокруг молекулы. Двумер-
ные карты, конечно, далеко не всегда дают полное представление МЭП,
тогда как трехмерное изображение эквипотенциальных поверхностей
можно качественно интерпретировать и сравнивать с его помощью раз-
личные соединения.
Третий метод отображения МЭП связан с расчетом и изображением
молекулярных поверхностей. Рассмотрим различные способы определе-
ния молекулярных поверхностей. В формальном представлении поло-
жения атомов представляются точками, а электронам соответствуют
«электронные облака» сферической формы с центром в этих точках.
Если у таких атомно-центрированных сфер радиусы равны ван-дер-
ваальсовым для данного элемента, то их совокупность называется
ван-дер-ваальсовой поверхностью или поверхностью ван дер Ваальса
Глава 2. Малые молекулы 67

для данной структуры. Такая поверхность обычно представляется как


граница той области пространства, которую занимает данная молекула.
Другим типом поверхностей, часто используемым в молекулярном мо-
делировании, является поверхность, доступная для молекул растворите-

Рис. 2.4.1. Визуализация МЭП нифедипина разными методами. (а) Двумерные


изолинии потенциала в плоскости дигидропиридинового кольца. МЭП рассчитан
из неэмпирической волновой функции в базисе 6-31G**; контуры проведены от
–50 ккал/моль (красный) до 90 ккал/моль (синий). (б) МЭП в виде эквипотенци-
альной поверхности. Потенциал вычислен в приближении точечных зарядов (за-
ряды подогнаны под неэмпирический ЭСП, рассчитанный в базисе 6-31G**). По-
казаны области –5 ккал/моль (синим) и 5 ккал/моль (красным). Расчет был
проведен в программе SPARTAN 3.0 [14]. (в) и (г) демонстрируют электростатичес-
кий потенциал нифедипина на поверхности Коннолли. Потенциал рассчитан из
подогнанных под ЭСП зарядов аналогично случаю (б) и показан в виде триангули-
рованной (в) и простой непрозрачной (г) поверхностей. Синий цвет отвечает учас-
ткам с отрицательными, красный — с положительными значениями потенциала.
Расчет проведен с помощью программы MOLCAD [27]
68 Молекулярное моделирование

ля, часто называемая также поверхностью Коннолли [26]. Она определя-


ется как поверхность, описываемая центром пробной молекулы раство-
рителя, представленной в виде шарика, в то время как эта пробная
молекула перемещается по ван-дер-ваальсовой поверхности молекулы.
ЭСП на поверхности Коннолли или Ван дер Ваальса может отобра-
жаться с помощью цветового кода: различный цвет в точках поверхности
соответствует различным значениям потенциала. Это позволяет одно-
временно отобразить форму молекулы и ее электростатические свой-
ства. Однако при исследовании больших молекул подобное изображе-
ние может быть очень сложным. Удачным решением иногда оказывает-
ся комбинирование различных методов отображения: области, скрытые
при использовании одного метода, оказываются явными в другом ис-
полнении (см. рис. 2.4.1).
МЭП в качестве электростатического индикатора реакционной спо-
собности намного более надежен, чем точечные заряды. Доказана
эффективность анализа МЭП и его пространственных отображений при
изучении и предсказании взаимодействия лигандов с их рецепторами.
МЭП различных молекул, связывающихся с одним и тем же рецепто-
ром одним и тем же образом, должны иметь одни и те же особенности. По-
казано, что во многих случаях совмещение молекул, основанное на МЭП,
дает приемлемое наложение, в то время как совмещение «атом-на-атом»
не приводит к удовлетворительному результату (см. разд. 2.5.3).
Приведем в качестве примера исследование ЭСП гистаминэргичес-
ких антагонистов рецептора H2 [28]: показано, что фрагменты имидазо-
ла в составе молекулы циметидина и гуанидинтиазола в тиотидине мо-
гут быть совмещены на основе их электростатического потенциала, что
хорошо видно на рис. 2.4.2.

Рис. 2.4.2. Электростатический потенциал имидазола (а) и гуанидинтиазола (б).


Неэмпирический электростатический потенциал (базис 6-31G**), контуры от –50
ккал/моль (красный) до 90 ккал/моль (синий). Программа SPARTAN 3.0 [14]
Глава 2. Малые молекулы 69

2.4.2. Поля молекулярного взаимодействия


Многие биологические процессы определяются невалентными взаимо-
действиями между структурами молекул: лиганд-рецепторное взаимо-
действие, реакция фермента и субстрата, сворачивание белковой струк-
туры. В кристаллических структурах силы невалентного взаимодей-
ствия в значительной степени определяют геометрию и симметрию
расположения и окружения молекул. Общей закономерностью являет-
ся возникновение связывания лишь в том случае, когда выделившаяся
при этом энергия компенсирует силы ван-дер-ваальсова отталкивания.
Еще одним методом исследования энергетики сближения молекул явля-
ется построение полей молекулярного взаимодействия. Эти поля пред-
ставляют собой распределение энергии взаимодействия между целевой
молекулой и химическим зондом (пробным атомом), расположенным в
узлах окружающей ее пространственной решетки. Зонды моделируют
химические характеристики связывающейся молекулы-партнера или
ее фрагментов. Компьютерная графика позволяет отобразить поля мо-
лекулярного взаимодействия в виде контурных изоэнергетических ли-
ний в пространстве. Контуры, соответствующие положительным значе-
ниям энергии, обозначают области, откуда зонд будет выталкиваться, а
контуры отрицательных значений поля соответствуют областям, в кото-
рых связывание энергетически благоприятно.
Вычисление полей молекулярного взаимодействия может быть про-
ведено с помощью ряда программ: GRID [29], MOE [30], HINT [31],
ISOSTAR/SUPERSTAR [32–34].
Программа GRID является одной из наиболее широко применяемых
для исследования полей молекулярного взаимодействия как для малых
молекул, так и для больших белковых молекул, например ферментов.
На входе она требует только декартовы координаты атомов и предлагает
возможность исследования с помощью большого числа различных зон-
дов. Энергия взаимодействия рассчитывается на регулярной решетке
вокруг молекулы. Решетку, если требуется, можно ограничить отдель-
ным фрагментом молекулы. Результаты расчета энергии помещаются в
файл и могут быть проанализированы или визуализированы с помощью
большинства программ молекулярного моделирования [35–38]. Изопо-
верхности могут быть построены для любого выбранного значения и ото-
бражаться вместе с целевой молекулой в системе машинной графики.
Построение изолиний и изоповерхностей — быстрая процедура, кото-
рая позволяет пользователю интерактивно управлять процессом графи-
ческого вывода.
В данном разделе мы сосредоточимся на вычислении полей взаимо-
действия для малых молекул. Исследование соответствующих полей
для макромолекул будет рассмотрено ниже (см. разд. 4.6).
2.4.2.1. Вычисление полей с помощью программы GRID
Зонды, используемые для расчета молекулярных полей, представляют
собой малые молекулы, фрагменты молекул или отдельные атомы, на-
пример молекула воды, гидроксильная группа или ион кальция. Такие
70 Молекулярное моделирование

зонды моделируют химические свойства взаимодействующих молекул-


партнеров: центр связывания белка-рецептора или соседнюю молекулу
в кристалле. В ходе вычислений с помощью GRID зонд систематически
перемещается по точкам регулярной пространственной решетки, задан-
ной вокруг целевой молекулы. В каждой точке вычисляется полная
энергия взаимодействия зонда и молекулы Etot в виде суммы трех
компонент:
Etot = Evdw + Eel + Ehb , (1)
где Evdw — энергия ван-дер-ваальсова взаимодействия; Eel — электро-
статическая энергия; Ehb — энергия образования водородных связей.
Энергия ван-дер-ваальсова взаимодействия рассматривается как
комбинация сил отталкивания и притяжения между несвязанными ато-
мами. Атомы зонда не могут приблизиться к атомам целевой молекулы
из-за межатомного отталкивания и перекрывания электронных оболо-
чек. Силы отталкивания могут оцениваться в виде эмпирической энер-
гетической функции, которая становится положительной и быстро воз-
растает, когда расстояние между атомами при сближении становится
меньше суммы их ван-дер-ваальсовых радиусов. Силы притяжения в
рамках дисперсионного взаимодействия возникают благодаря электро-
нной корреляции — согласованному движению электронов в поле ядер,
что приводит к возникновению и взаимодействию так называемых «ин-
дуцированных диполей». Для неполярных молекул баланс между дис-
персионным притяжением и отталкиванием на малых расстояниях опи-
сывается с помощью потенциала Леннард-Джонса [38] (см. уравнение
(5) в разд. 2.2); именно он используется в программе GRID.
Электростатические взаимодействия в значительной степени опре-
деляют притяжение молекул лиганда и рецептора, так как являются
дальнодействующими. В молекулярной механике для вычисления
электростатической составляющей чаще всего используется закон Ку-
лона (уравнение (6) в разд. 2.2). Его недостатком, очевидно, является от-
сутствие точного учета гетерогенности системы, состоящей из молекул с
различными диэлектрическими свойствами. Разрывность свойств сис-
темы при переходе от растворителя к молекуле растворенного вещества
учитывается в расширенной и обобщенной форме закона Кулона [29],
которая используется в программе GRID.
Свойство направленности водородных связей в подавляющем боль-
шинстве случаев определяет специфический характер межмолекуляр-
ных взаимодействий. Таким образом, для правильной оценки энергии
взаимодействия крайне важно корректное описание этой составляющей
сил межмолекулярного притяжения. Водородная связь может быть
представлена как взаимодействие на средних расстояниях положитель-
но заряженного атома водорода и электроотрицательного атома — ак-
цептора водородной связи [39]. Итоговое расстояние между акцептором
и донором водородной связи оказывается меньше суммы их ван-дер-ва-
альсовых радиусов. В отличие от других нековалентных взаимодей-
ствий — дисперсионного и электростатического — взаимодействие пу-
Глава 2. Малые молекулы 71

тем образования водородной связи обладает свойством направленности,


т. е. зависит от ориентации неподеленных электронных пар атома-ак-
цептора и их способности образовывать эту связь.
Для соответствия этим требованиям программа GRID включает в
себя выражение энергии водородных связей в явном виде [40]. Функци-
ональная форма этого потенциала подбиралась для соответствия экспе-
риментальным значениям: ее параметры основываются на классифика-
ции соответствующих кристаллографических данных (таких, как на-
правленность, тип и энергия связи).
Для зондов программы GRID определено большое число парамет-
ров, например возможность образования водородной связи, радиус ван
дер Ваальса, атомный заряд. Такое подробное описание делает их доста-
точно специфичными для повышения реалистичности модели той или
иной функциональной группы, важной для формирования активного
центра в макромолекулах. Свойства и параметры трех зондов приведе-
ны в табл. 2.4.2.
GRID также включает в себя таблицы параметров, описывающих
каждый тип атомов, встречающийся в целевой молекуле. Они определя-
ют для атома данного типа силу ван-дер-ваальсова и электростатическо-
го взаимодействия, возможность образования и прочность водородной
связи. Тщательная параметризация и большое количество зондов сдела-

Таблица 2.4.2. Примеры параметров, необходимых для определения


групп-зондов в методе GRID

Зонд
Параметр
Метил Гидроксил Карбоксил
Радиус ван дер Ваальса, C 1,950 1,650 1,600

Эффективное число элек- 8 7 6


тронов

Поляризуемость, C3 2,170 1,200 2,140

Электрический заряд 0 –0,100 –0,450


Энергия оптимальной 0 –3,500 –3,500
водородной связи,
ккал/моль
Радиус образования водо- — 1,400 1,400
родной связи
Число доноров водородной 0 1 0
связи
Число акцепторов водо- 0 2 2
родной связи
Тип водородной связи 0 4 8
72 Молекулярное моделирование

ли GRID весьма распространенным и достаточно точным методом иссле-


дования полей взаимодействия как для малых молекул, так и для мак-
ромолекулярных структур.
Вычисление полей молекулярного взаимодействия выполнено в
ходе ряда исследований по молекулярному моделированию [41–46].
Стратегия их использования зависит от доступной информации о ли-
гандах и мишенях. Если известна пространственная структура макро-
молекулы, поля взаимодействия позволяют точно локализовать облас-
ти предпочтительного связывания лигандов. В дальнейшем эти области
используются в качестве отправной точки при конструировании новых
лигандов для данного рецептора. Ряд успешных приложений програм-
мы GRID можно найти в работе [47].
Чаще встречается ситуация, когда отсутствует информация о струк-
туре рецептора, а имеются лишь данные о свойствах лигандов. В этом
случае поля молекулярного взаимодействия могут помочь в создании
более или менее подробного представления о строении центра связыва-
ния в рецепторе. Предварительным условием в данном случае является
требование, чтобы все лиганды связывались в одном и том же месте по
одному и тому же механизму: только в этом случае можно ожидать одну
и ту же схему связывания. Значение энергии сравниваемых контуров
сильно зависит от выбранного зонда. На рис. 2.4.3 в качестве примера
приведены два разных поля взаимодействия молекулы нифедипина —
блокатора кальциевых каналов.

Рис. 2.4.3. Визуализация полей молекулярного взаимодействия нифедипина.


(а) Области предпочтительного образования водородных связей (метод GRID с
гидроксильным зондом), контурная линия –3,5 ккал/моль. (б) Области предпоч-
тительного гидрофобного взаимодействия, найденные с помощью метильного
зонда, контурная линия –1,4 ккал/моль
Глава 2. Малые молекулы 73

Поля взаимодействия отмечают участки области связывания, обла-


дающие особыми физическими и химическими свойствами. Эти особен-
ности можно перенести в модель области связывания полимерной ми-
шени. Если мишень — белок, модель должна состоять из отдельных
аминокислот, остатки которых расположены в областях, соответствую-
щих типу взаимодействия. Например, поле гидрофобного взаимодей-
ствия отражает расположение гидрофобных аминокислот: фенилалани-
на, триптофана, валина, лейцина, изолейцина. Для установления точ-
ного типа аминокислот в каждом случае, конечно, требуются
дополнительные исследования [48]. Сведения о полях взаимодействия
для совокупности наложенных друг на друга молекул различных лиган-
дов можно использовать для уточнения так называемых «моделей псев-
дорецептора» (разд. 2.6.3) или моделей белков, построенных по гомоло-
гии (разд. 4.3).
При изучении большой выборки соединений порой трудно распоз-
нать все возможные схемы взаимодействия. Одно из возможных реше-
ний состоит в расчете общих для различных молекул областей взаимо-
действия для каждого типа зонда. Общие области находятся математи-
чески путем поточечного сравнения полей. Для поиска общих областей
взаимодействия используется файл, содержащий структуры только сое-
динений-хитов [49].
Применение методов хемометрики [50–53] позволяет достичь более
значимых результатов количественного анализа полей молекулярного
взаимодействия. Подробно этот аспект освещается в разд. 2.6.

2.4.2.2. Гидрофобные взаимодействия


Уже упоминалось, что межмолекулярное притяжение — отталкивание
обусловлено различными типами взаимодействия. До сих пор мы не рас-
сматривали так называемые «гидрофобные взаимодействия» между мо-
лекулами, которые представлены сложными процессами и управ-
ляются в наибольшей степени энтропийными факторами, изменяющи-
ми не только ориентацию молекул растворителя в сольватной оболочке
вокруг молекул растворенного вещества, но и свойства растворителя в
целом. Для проявления гидрофобных взаимодействий необходим тес-
ный контакт между взаимодействующими гидрофобными поверхностя-
ми [54, 55].
Суть гидрофобного связывания состоит в следующем. Неполярная
часть глубокой полости связывания в белке непосредственно не сольва-
тирована. Расположенные поблизости молекулы воды экранируют по-
лость и формируют структуру, подобную структуре льда, стабилизиро-
ванную межмолекулярными водородными связями. Взаимодействие
гидрофобных поверхностей полости связывания и входящей в нее моле-
кулы субстрата приводит к разрушению упорядоченной льдоподобной
структуры. Это разрушение увеличивает энтропию системы, что и при-
водит в итоге к уменьшению свободной энергии системы [55]. При этом
необходимо учитывать также то, что десольватация субстрата приводит
к появлению дополнительных свободных молекул растворителя. На се-
74 Молекулярное моделирование

годняшний день энтропийными эффектами в большинстве случаев пре-


небрегают из-за отсутствия простого метода их оценки. В то же время
общепринято мнение о значительности вклада этих эффектов при взаи-
модействии лекарственных веществ с рецептором [57], а также при сво-
рачивании белка [58]. Поэтому включение гидрофобных взаимодей-
ствий в энергетический баланс подобных процессов вполне законо-
мерна.
Гидрофобность может рассматриваться как эмпирическое свойство
вещества, в котором скрыта термодинамическая информация о взаи-
модействии молекулы вещества с ее окружением. На основе экспери-
ментальных данных известен целый ряд оценок влияния гидрофобных
эффектов. Самой важной экспериментальной мерой гидрофобности со-
единения является коэффициент распределения P в системе
вода—неполярный органический растворитель; обычно используется
логарифмический параметр — logP. Поскольку коэффициент распреде-
ления Р можно определить экспериментально, он является весьма удоб-
ной характеристикой и, в частности, может быть использован для улуч-
шения эмпирических методов [27, 58]. Оценка logP проводится путем
обработки экспериментальных данных для рядов веществ в систему так
называемых «гидрофобных вкладов фрагментов». Эти константы ха-
рактеризуют относительную липофильность каждого отдельного струк-
турного фрагмента молекул, входящих в обучающую выборку; общая
липофильность данной молекулы в виде logP получается суммировани-
ем вкладов для входящих в ее состав фрагментов. На сегодняшний день
известны значения липофильных вкладов большого числа фрагментов,
входящих в молекулы разнообразных биологически важных органичес-
ких соединений.
Следует отметить, что logP представляет собой простейшее «одно-
мерное» представление гидрофобности, отражая это свойство в целом,
чего явно недостаточно для более подробного, детального рассмотрения
взаимодействий между лигандом и макромолекулой.
По этой причине предпринимались попытки использовать коэффи-
циент распределения Р для построения пространственного представле-
ния гидрофобности молекулы. Один из подходов состоит в построении
поля гидрофобности по аналогии с электростатическим полем. Он при-
меняется в программе HINT [31], а также при использовании зонда DRY
в программе GRID [29].
Модель гидрофобных взаимодействий в программе HINT основана
на том, что данные о растворимости являются всего лишь еще одним фи-
зическим свойством, отражающим взаимодействие между молекулами
растворителя и частицами растворенного вещества. В рамках этой тео-
рии константы гидрофобности фрагментов молекулы преобразуются к
атомным вкладам в гидрофобность молекулы [59]. Эти вклады, припи-
сываемые отдельным атомам исследуемой молекулы, являются харак-
теристическими параметрами в теории гидрофобного взаимодействия.
Поскольку эти параметры выводятся из экспериментальных величин,
то включают в себя не только собственно гидрофобные взаимодействия,
Глава 2. Малые молекулы 75

но и другие типы взаимодействия, такие как электростатические и


ван-дер-ваальсовы. Получающееся поле, называемое гидропатичес-
ким, содержит как гидрофобные, так и гидрофильные параметры взаи-
модействия. Вычисления проводятся с помощью эмпирического выра-
жения, функциональная форма которого представлена в работе [59].
В вычислениях используются константы гидрофобности атомов, доля
доступной растворителю поверхности отдельных атомов, а также рас-
стояние, которое необходимо для точного учета зависимых гидрофоб-
ных взаимодействий в окружении биомолекулы. HINT генерирует ото-
бражения для решеток из точек в пространстве аналогично тому, как
это было рассмотрено выше для подобных программ.
Результатом моделирования в программе HINT является контурная
карта полей гидрофобности/гидрофильности вокруг молекулы: поло-
жительные значения поля соответствуют гидрофобной области, отрица-
тельные — гидрофильной (полярной). Из-за эмпирической природы
полей трудно заранее сделать рекомендации для построения контуров и
изоповерхностей. Выбранный уровень энергии определяет размер визу-
ализируемой части поля. Для формирования изображения, сбалансиро-
ванного по размеру гидрофильных и гидрофобных областей, изоповер-
хность гидрофильного участка рекомендуется строить для значений, в
2–5 раз больших по абсолютной величине, чем соответствующий уро-
вень гидрофобности [60].
Гидрофильные и гидрофобные участки поля молекулы уже упоми-
навшегося блокатора кальциевых каналов нифедипина изображены на
рис. 2.4.4, а.

Рис. 2.4.4. а — Карта гидропатического поля нифедипина. Зеленым обозначе-


ны гидрофобные области (контур для значения 4), красным — гидрофильные
(контур для значения –8). Программа HINT, версия 2.02. б — Молекулярный ли-
пофильный потенциал нифедипина, отображенный на поверхность Коннолли.
Коричневым обозначены липофильные участки, голубым — гидрофильные.
Программа MOLCAD [33]
76 Молекулярное моделирование

Результаты анализа гидропатического поля можно использовать


по-разному. Качественная картина распределения гидрофобных и по-
лярных областей для окрестностей ряда молекул может использоваться
для создания пространственной карты активного центра рецептора с не-
известным пространственным строением. Если исследуемый ряд ве-
ществ велик, а результаты сложно интерпретировать, следует провести
более точный и тщательный анализ с помощью метода CoMFA [60].
Если структура рецептора известна, то значения гидропатического
поля могут использоваться для оптимизации структуры лигандов для
поиска веществ с большей биологической активностью. Более подроб-
ный обзор приложений можно найти в [61].

2.4.3. Отображение свойств на молекулярную поверхность


Отображение распределения гидрофобных и гидрофильных свойств
можно провести с использованием молекулярных поверхностей. Прог-
рамма MOLCAD [62] использует поверхность Коннолли [26] для отобра-
жения на нее в виде цветового кода локальных свойств молекулы, таких
как липофильность. Для корректного учета влияния отдельных атомов
или фрагментов на локальную липофильность необходимо ввести функ-
циональную зависимость от расстояния. Реализация такого подхода
была выполнена в виде определения потенциала молекулярной липо-
фильности [63], который может рассматриваться в качестве дополнения
к МЭП. Как и в случае с МЭП, отображение данного локального свойства
на некоторую поверхность в пространстве улучшает восприятие и облег-
чает интерпретацию распределения свойства. Главным преимуществом
отображения гидрофобности на поверхность оказывается легкость ана-
лиза (по сравнению с вычислением гидропатических полей) даже для
больших белковых молекул. В основе обоих методов лежит одно и то же
теоретическее обоснование, поэтому их результаты должны находиться
в качественном соответствии. Для обоих методов надежность расчета
проверяется путем корреляции результа расчетов для веществ с извест-
ным значением logP. Однако коэффициент распределения, подобно рас-
пределению заряда, зависит от конформации молекулы; более того, си-
туация усложняется возможным изменением конформации при перехо-
де из водной фазы в органическую и обратно. Это обстоятельство
ограничивает совокупность молекул, пригодных для валидации мето-
дов, до небольшого количества жестких или по крайней мере полужест-
ких молекул. Пример изображения поверхности гидрофобности, полу-
ченный в программе MOLCAD, приведен на рис. 2.4.4, б.

Цитированная литература
1. Williams, D. E. (1991) Net atomic charge and multipole models for the ab initio
molecular electric potential, in Reviews in Compitational Chemistry (eds
K. B. Lipkowitz and D. B. Boyd), VCH Publishers, New York, Vol. 4, pp. 219–71.
2. Gasteiger, J. and Marsili, M. (1980) Iterative partial equalization of orbital
electronegativity — a rapid access to atomic changes. Tetrahedron, 36, 3219–28.
Глава 2. Малые молекулы 77

3. Del Re, G. (1958) A simple MO-LCAO method for the calculation of charge distri-
butions in saturated organic molecules. Journal of the Chemical Society,
4031–40.
4. Berthod, H. and Pullman, A. (1965) Sur le calcul des caracteristiques du squelette
sigma des molecules conjuguees. Journal de chemie physique, 62, 942–46.
5. Abraham, R. J. and Hudson, B. (1985) Charge calculations in molecular mechan-
ics. 3. Aminoacids and peptides. Journal of Computational Chemistry, 6, 173–81.
6. Mullay, J. (1986) A simple method for calculating atomic charge in molecules.
Journal of the American Chemical Society, 108, 1770–75.
7. Mulliken, R. S. (1955) Electronic population analysis on CAO—MO all caps mo-
lecular wave function. 1. Journal of Chemical Physics, 23, 1833–40.
8. Momany, F. A. (1978) Determination of partial atomic charges from ab initio mo-
lecular electrostatic potentials — application to formamide, methanol, and for-
mic acid. Journal of Physical Chemistry, 82, 592–601.
9. Cox, S. R. and Williams, D. E. (1981) Representation of the molecular electro-
static potential by a net atomic charge model. Journal of Computational Chemis-
try, 2, 304–23.
10. Singh, U. C. and Kollman, P. A. (1984) An approach to computing electrostatic
charges for molecules. Journal of Computational Chemistry, 5, 129–45.
11. Chirlian, L. E. and Francl, M. M. (1987) Atomic charges derived from electro-
static potentials — a detailed study. Journal of Computational Chemistry, 8,
894–905.
12. Purcell, W. P. and Singer, J. A. (1967) A brief review and table of semiempirical
parameters used in the Hueckel molecular orbital method. Journal of Chemical
and Engineering Data, 12, 235–46.
13. Frisch, M., Binkley, J. S., Schlegel, H. B. et al. GAUSSIAN, Department of Chem-
istry, Carnegie Mellon University, Pittsburgh, http://www.gaussian.com.
14. JAGUAR, Schrodinger Inc., http://www.schrodinger.com.
15. Schmidt, M. W., Boatz, J. A., Baldrige, K. K. et al. GAMESS, Program No. 115,
Quantum Chemistry Program Exchange, Indiana University, Bloomington,
http://www.qcpe.chem.indiana.edu.
16. Williams, D. E. and Yan, J. M. (1987) Point charge models for molecules derived
from least squares fitting of the electric potential. Advances in Atomic and Mo-
lecular Physics, 23, 87–130.
17. Wiberg, K. B. and Rablen, P. R. (1993) Comparison of atomic charges derived via
different procedures. Journal of Computational Chemistry, 14, 1504–18.
18. Reed, A. E., Weinstock, R. B., and Weinhold, F. (1985) Natural population anal-
ysis. Journal of Chemical Physics, 83, 735–46.
19. McWeeney, R. (1989) Methods of Molecular Quantum Mechanics, 2nd Edition,
Academic Press, San Diego.
20. Destro, R., Bianchi, R., and Morosi, G. (1989) Electrostatic properties of
L-alanine from X-ray diffraction at 23 K and abinitio calculations. Journal of
Physical Chemistry, 93, 4447–57; Destro, R., Bianchi, R., Gatti, C., and
Merati, F. (1991) Total electronic charge density of L-alanine from X-ray diffra-
tion at 23 K. Chemical Physics Letters, 186, 47–52.
78 Молекулярное моделирование

21. McClellan, A. L. (1974) Tables of Experimental Dipole Moments, Rahara Enter-


prise, Vol. 2, El Cerrito.
22. Ferenczy, G. G., Reynolds, C. A., and Richards, W. G. (1990) Semiempirical AM1
electrostatic potentials and AM1 electrostatic potential derived charges — a com-
parison with abinitio values. Journal of Computational Chemistry, 11, 159–69.
23. Rodriguez, J., Manaut, F., and Sanz, F. (1993) Quantitative comparison of mo-
lecular electrostatic potential distributions from several semiempirical and ab
initio wave functions. Journal of Computational Chemistry, 14, 922–27.
24. Ford, G. P. and Wang, B. Z. (1993) New approach to the rapid semiempirical cal-
culation of molecular electrostatic potentials based on the AM1 wave function —
comparison with ab initio HF/6-31G* asterisk results. Journal of Computational
Chemistry, 14, 1101–11.
25. Price, S. L., Harrison, R. J., and Guest, M. F. (1989) An ab initio distributed
multipole study of the electrostatic potential around an undecapeptide
cyclosporine derivative and a comparison with point charge electrostatic models.
Journal of Computational Chemistry, 10, 552–67.
26. Connolly, M. L. (1983) Solvent accessible surfaces of proteins and nucleic acids.
Science, 221, 709–13.
27. Rekker, R. F. and Mannhold, R. (1992) Calculation of Drug Lipophilicity, VCH
Publishers, Weinheim.
28. Holtje, H.-D. and Batzenschlager, A. (1990) Conformational analysis on hista-
mine H2 receptor antagonists. Journal of Computer-Aided Molecular Design, 4,
391–402.
29. Goodford, P. J. (1985) A computational procedure for determining energetically
favorable binding sites on biologically important macromolecules. Journal of
Medicinal Chemistry, 28, 849–57.
30. MOE, Chemical Computing Group, Montreal, http://www.chemcomp.com.
31. Kellogg, G. E., Semus, S. F., and Abraham, D. J. (1991) HINT — a new method of
empirical hydrophobic field calculation for CoMFA. Journal of Computer-Aided
Molecular Design, 5, 545–52.
32. Bruno I. J., Cole, J. C., Lommerse, J. P. et al. (1997) IsoStar: a library of infor-
mation about nonbonded interactions. Journal of Computer-Aided Molecular
Design, 11, 525–37.
33. Verdonk, M. L., Cole, J. C., and Taylor, R. (1999) SuperStar: a knowledge based
approach for identifying interaction sites in proteins. Journal of Molecular Biol-
ogy, 289, 1093–108.
34. Boer, D. R., Kroon, J., Cole, J. C. et al. (2001) SuperStar: comparison of CSD and
PDB-based interaction fields as a basis for the prediction of protein-ligand inter-
actions. Journal of Molecular Biology, 312, 275–87.
35. INSIGHT/DISCOVER, Accelrys Inc., San Diego, http://www.accelrys.com.
36. SYBYL, Tripos Associates, St. Louis, http://www.tripos.com.
37. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) MACROMODEL —
an integrated software system for modeling organic and bioorganic molecules us-
ing molecular mechanics. Journal of Computational Chemistry, 11, 440–67.
38. Jones, J. E. (1924) On the determination of molecular fields. II. From the equa-
tion of state of a gas. Proceedings of the Royal Society of London, 106A, 463–77.
Глава 2. Малые молекулы 79

39. Dean, P. M. (1986) Molecular Foundations by Drug-Receptor Interaction, Cam-


bridge University Press, Cambridge.
40. Wade, R. C. (1993) Molecular interaction fields, in 3D QSAR in Drug Design —
Theory Methods and Application (ed. H. Kubinyi), ESCOM Science Publish-
ers B. V., Leiden, pp. 486–505.
41. Wade, R. C., Clark, K. J., and Goodford, P. J. (1993) Further development of hy-
drogen bond functions for use in determining energetically favorable binding
sites on molecules of known structure. 1. Ligand probe groups with the ability to
form 2 hydrogen bonds. Journal of Medicinal Chemistry, 36, 140–47.
42. Sippl, W., Contreras, J. M., Parrot, I. et al. (2001) Structure based 3D QSAR and
design of novel acetylcholinesterase inhibitors. Journal of Computer-Aided Mo-
lecular Design, 15, 395–410.
43. Meng, E. C., Shoichet, B. K., and Kuntz, I. D. (1992) Automated docking with
grid based energy evaluation. Journal of Computational Chemistry, 13, 505–24.
44. Jendretzki, U. K., Elz, S., and Holtje, H.-D. (1994) Computer aided molecular
analysis of 5-HT2A agonists. Pharmaceutical and Pharmacological Letters, 3,
260–63.
45. Wade, R. C. (1988) The use of molecular graphics in the design of anti-influenza
agents. British Journal of Pharmacology, 95, (Suppl.), 588.
46. Cruciani, G. and Watson, K. A. (1994) Comparative molecular field analysis us-
ing GRID force field and GOLPE variable selection methods in a study of inhibi-
tors of glycogen-phosphorylase-B. Journal of Medicinal Chemistry, 37,
2589–601.
47. Cruciani, G. (2005) Molecular Interaction Fields, in Methods and Principles in
Medicinal Chemistry (Series eds H. Kubinyi, G. Folkers and R. Mannhold), VCH
Publishers, New York.
48. H`ltje, H.-D. and Jendretzki, U. K. (1995) Construction of a detailed serotonin-
ergic 5-HT2A receptor model. Archiv der Pharmazie, 328, 577–84.
49. H`ltje, H.-D., and Anzali, S. (1992) Molecular modeling studies on the digitalis
binding site of the Na+/K+ATPase. Die Pharmazie, 47, 691–97.
50. Baroni, M., Costantino, G., Cruciani, G. et al. (1993) Generating optimal linear
PLS estimations (GOLPE) — an advanced chemometric tool for handling
3D-QSAR problems. Quantitative Structure-Activity Relationships, 12, 9–20.
51. Wold, S., Johansson, E., and Cocchi, M. (1993) PLS — partial least squares pro-
jections to latent structures, in 3D QSAR in Drug Design — Theory Methods and
Applications, (ed. H. Kubinyi), ESCOM Science Publishers B.V., Leiden, pp.
523–50.
52. Klebe, G. and Abraharm, U. (1993) On the prediction of binding properties of
drug molecules by comparative molecular field analysis. Journal of Medicinal
Chemistry, 36, 70–80.
53. Folkers, G., Merz, A., and Rognan, D. (1993) CoMFA: scope and limitations, in
3D-QSAR in Drug Design — Theory, Methods and Application (ed. H. Kubinyi),
ESCOM Science Publishers B. V., Leiden, pp. 583–618.
54. Tanford, C. (1978) Hydrophobic effect and the organization of living matter. Sci-
ence, 200, 1012–18.
80 Молекулярное моделирование

55. Tanford, C. (1980) The Hydrophobic Effect., 2nd Edition, John Wiley & Sons,
New York.
56. Suzuki, T. and Kudo, Y. (1990) Automatic log P-estimation based on combined
additive modeling methods. Journal of Computer-Aided Molecular Design, 4,
155–98.
57. Nicholls, A., Sharp, K. A., and Honig, B. (1991) Protein folding and associa-
tion — insights from the interfacial and thermodynamic properties of hydrocar-
bons. Proteins, 11, 281–96.
58. Hansch, C. and Fujita, T. (1964) p-s-p analysis. Method for correlation of biologi-
cal activity and chemical structure. Journal of the American Chemical Society,
86, 1616–26.
59. Kellogg, G. E., Joshi, G. S., and Abraham, D. J. (1992) New tools for modeling
and understanding hydrophobicity and hydrophobic interactions. Medicinal
Chemistry Research, 1, 444–53.
60. Kellogg, G. E. and Abraham, D. J. (1992) Key, lock, and locksmith — comple-
mentary hydropathic map predictions of drug structure from a known receptor
structure from known drugs. Journal of Molecular Graphics, 10, 212–17.
61. Abraham, D. J., and Kellogg, G. E. (1993) Hydrophobic fields, in 3D QSAR in
Drug Design — Theory Methods and Applications (ed. H., Kubinyi), ESCOM Sci-
ence Publishers B. V., Leiden, pp. 506–22.
62. Heiden, W., Moeckel, G., and Brickmann, J. (1993) A new approach to analysis
and display of local lipophilicity hydrophilicity mapped on molecular surfaces.
Journal of Computer-Aided Molecular Design, 7, 503–14.
63. Furetm, P., Sele, A., and Cohen, N. C. (1988) 3D molecular lipophilicity poten-
tial profiles — a new tool in molecular modeling. Journal of Molecular Graphics,
6, 182–89.

Дополнительная литература
Ghose, A. K. and Crippen, G. M. (1986) Atomic physicochemical parameters for
3-dimensional structure directed quantitative structure-activity relationships.
1. Partition coefficients as a measure of hydrophobicity. Journal of Computa-
tional Chemistry, 7, 565–77.

Дополнительная литература по топологическим методам


Кирпиченок М. А., Зефиров Н. С., ДАН СССР, 1989, 304, 887.
Oliferenko, A. A.; Palyulin, V. A.; Pisarev, S. A.; Neiman, A. V.; Zefirov, N. S.
J. Phys. Org. Chem. 2001, 14, 355–369.
Oliferenko, A. A.; Krylenko, P. V.; Palyulin, V. A.; Zefirov N. S. SAR QSAR En-
viron. Res. 2002, 13, 297–305.
Oliferenko, A. A.; Pisarev, S. A.; Palyulin, V. A.; Zefirov, N. S. Adv. Quantum
Chem. 2006, 51, 139–146.
Yakovenko A, Oliferenko A. A, Bdzhola V., Palyulin V. A., Zefirov N. S. J. Com-
put. Chem., 2008, 29, 1332–1343.
Shulga D. A., Oliferenko, A. A.; Palyulin, V. A.; Pisarev, S. A.; Zefirov, N. S.
SAR QSAR Environ. Res. 2008, 19, 153–165.
Глава 2. Малые молекулы 81

2.5. Фармакофорный поиск


2.5.1. Совмещение молекул
В предыдущих разделах данной главы мы описали, каким образом мож-
но рассчитать и визуализировать физико-химические характеристики
молекул. Теперь мы перейдем к тому, как это можно применять для по-
нимания или предсказания фармакологических свойств соединения.
В основе фармакобиологического действия, как правило, лежит взаимо-
действие вещества с белком, обладающим физиологическим эффектом,
скажем, с ферментом или рецептором. В обоих случаях существует вы-
сокоспецифичная полость — место связывания молекулы лекарства.
Вещества, проявляющие сходную активность по отношению к одному и
тому же рецептору или ферменту, должны обладать и сходными свой-
ствами связывания, т. е., в связывании с белком должны участвовать
структурные элементы этих молекул со сходной химической функцио-
нальностью в положениях, стерически согласованных со строением по-
лости. Иными словами, в одну и ту же фармакологическую группу вхо-
дят соединения, содержащие один и тот же фармакофор, поэтому одной
из главных задач молекулярного моделирования становится определе-
ние структуры фармакофора для рядов близкородственных молекул ле-
карственных веществ. Пространственное строение многих рецепторов
до сих пор неизвестно, так что достоверная информация о соответствую-
щем рецептору фармакофоре крайне важна для понимания взаимодей-
ствия лекарственного вещества и рецептора на молекулярном уровне.
После тщательного изучения физико-химических характеристик
остается еще вопрос, каким образом необходимо совмещать молекулы
данного ряда, чтобы выявить фармакофор? Чтобы ответить на этот воп-
рос, вначале необходимо найти фармакофорные элементы, то есть ре-
шить, какие именно атомы и функциональные группы требуется со-
вместить. Конечно, с помощью автоматических процедур нельзя отве-
тить на этот вопрос, поскольку предварительно необходимо решить
вопрос о парном соответствии атомов между молекулами. На данном
этапе можно получить огромный объем совершенно бесполезной инфор-
мации, если пренебрегать ранее полученными данными о связи структу-
ры и активности; такие знания существенно ускоряют процедуру совме-
щения, сильно ограничивая число возможных решений. Нужно отме-
тить, что при этом структурное сходство между различными лигандами
может не быть полным, поскольку далеко не все лиганды при взаимодей-
ствии с соответствующим центром мишени оказываются целиком внут-
ри полости связывания.
Если рассматривать способность к образованию водородных связей
как существенное свойство фармакофора, то в шаблон модели исследуе-
мого ряда молекул необходимо ввести описание числа и расположения
неподеленных электронных пар. Одним из вариантов реализации тако-
го описания является добавление к модели соответствующим образом
расположенных фиктивных атомов. Эти последние затем помечаются
82 Молекулярное моделирование

как места расположения акцепторов либо доноров водородной связи


(в качестве последних могут выступать только атомы водорода, связан-
ные с гетероатомами). Эта разметка затем может быть использована в
качестве предварительного шаблона для проверки на совмещение, на-
пример, в программе AUTOFIT [1]. Более того, планарные структурные
фрагменты, в частности ароматические циклические системы, также
могут рассматриваться как отдельные структурные единицы. В послед-
нем случае совмещение проводится для центров колец вместо подгонки
по всей системе; аналогичным образом можно подходить и к совмеще-
нию других планарных подструктур.
Если исходная выборка состоит лишь из очень подвижных струк-
тур, поиск общего фармакофорного фрагмента оказывается не просто
трудным, долгим и утомительным — он может закончиться безрезуль-
татно или дать произвольное, а значит, совершенно бесполезное совме-
щение. Процесс поиска значительно ускоряется, а его результат оказы-
вается гораздо более значимым, если в распоряжении имеется лиганд с
жесткой или хотя бы полужесткой структурой; несомненно, он должен
обладать высокой активностью, так как в противном случае его структу-
ру нельзя использовать в качестве матрицы для более гибких лигандов.
К тому же включение в исследование высокоактивных молекул с малой
конформационной подвижностью снимает необходимость в дополни-
тельных затратах на доказательство того, что мы будем совмещать
именно биоактивные конформации молекул лигандов.
Выбор совмещаемых молекул очень важен для получения значи-
мых результатов. Наиболее простой случай, который, однако, не особо
результативен — это совмещение структурно схожих молекул, но при
этом мы не получаем из итогового совмещения никакой новой информа-
ции. Намного более эффективным может оказаться наложение молекул
с различными скелетами. Естественным образом это приводит к более
интересной ситуации, когда невозможно совместить между собой моле-
кулы путем простого наложения «атом-на-атом»; вместо этого необхо-
димо провести наложение одинаковых функциональных групп или мо-
лекулярных полей.
Следует рассмотреть и другой случай: необходимо ли учитывать не-
активные молекулы или молекулы, которые обладают низкой актив-
ностью? Кажется разумным рассмотреть сначала суперпозицию одних
лишь высокоактивных молекул. Менее активные и неактивные молеку-
лы могут быть в дальнейшем включены в проверку на соответствие най-
денному фармакофору, и сам фармакофор может быть при необходимос-
ти изменен. Аналогичная ситуация имеет место и при исследовании аго-
нистов и антагонистов одного и того же типа рецепторов: наложение
необходимо проводить отдельно в каждой группе, однако впоследствии
две модели могут быть соотнесены, поскольку конкурентные антагонис-
ты зачастую взаимодействуют и с центром связывания агонистов. Важ-
но отметить, что общие элементы в строении центров связывания аго-
нистов и антагонистов, часто проявляющиеся в ходе исследования, не
обязательно являются таковыми.
Глава 2. Малые молекулы 83

Следует также помнить, что непрямые подходы обладают серьезны-


ми ограничениями. Во-первых, лиганды должны связываться с одной и
той же областью белковой мишени одинаковым образом. Если это усло-
вие не выполняется, то результаты совмещения могут оказаться не-
однозначными (см., например [2, 3]). Далее, модели фармакофоров
обычно строят на основе низкоэнергетических конформаций. Число та-
ких конформаций резко возрастает с увеличением пороговой энергии,
так что при формировании фармакофора невозможно учитывать все воз-
можные конформации. Таким образом, при моделировании фармакофо-
ров из рассмотрения исключаются напряженные конформации, возни-
кающие, в частности, как переходные состояния при химических реак-
циях. Недавно опубликовано подробное сравнение энергий для
конформаций лигандов, связанных с мишенью; такие лиганды генери-
рованы in silico1 и найдены экспериментально [4, 5].
Известно несколько методов совмещения молекул. Они основаны на
«ручной» или автоматизированной подгонке с помощью операций вра-
щения жесткой модели молекулы, а также гибкой подгонке, в ходе ко-
торой одновременно минимизируются среднеквадратичное отклонение
длин связей с участием парных (одинаковых) атомов и конформацион-
ная энергия молекул. Другой важный класс методов совмещения позво-
ляет выравнивать молекулы, совмещая эквивалентные области, кото-
рые могут быть выделены на молекулярных поверхностях или в молеку-
лярных полях.

2.5.2. Совмещение «атомнаатом»


При наложения молекул наиболее часто применяется метод наимень-
ших квадратов. Две молекулы совмещают путем минимизации среднек-
вадратичного отклонения расстояний между парами соответствующих
атомов в этих молекулах, значение которого является мерой качества
совмещения. Сильной стороной метода является возможность обнару-
жения различия между молекулами, которые на первый взгляд кажут-
ся похожими. Слабое место метода — в том, что пары совмещаемых ато-
мов должны быть определены заранее; очевидно, что для различных на-
боров атомов, используемых для совмещения, будут получены
различные результаты. Такой метод неприменим для тех молекуляр-
ных систем, где невозможно предварительно указать соответствие ато-
мов. С другой стороны, для взаимодействия различных молекул с одним
и тем же рецептором не требуется очень строгого соответствия молеку-
лярных структур. Таким образом, для большого числа случаев, когда
данные фармакологии и исследования связи структура — активность
свидетельствуют о едином механизме действия для совокупности не-
сходных между собой молекул, обычный метод наименьших квадратов
для совмещения молекул оказывается неадекватным.
1
Термин in silico (искаж. лат. «в кремнии») предполагает компьютерное моделирование
биологического процесса в отличие от лабораторных экспериментов на целом организме
(in vivo) или вне его (in vitro).
84 Молекулярное моделирование

В случае небольших выборок молекул этой ситуации можно избе-


жать путем проведения «ручного» (интерактивного) совмещения.
В принципе любое число молекул можно исследовать и совместить пря-
мо на графическом дисплее при визуальной оценке качества подгонки.
Это, несомненно, очень творческий процесс, который может привести к
появлению новых идей о механизме, лежащем в основе связи экспери-
ментально наблюдаемой активности со структурой. С другой стороны,
такая процедура очень необъективна и часто не может быть воспроизве-
дена, поскольку не подчиняется строгим критериям оптимальности.
Метод активного аналога [6, 7] — быстрая и эффективная процедура
поиска, которая может успешно использоваться для построения моде-
лей фармакофора. В методе используется алгоритм систематического
поиска для генерации представительной совокупности стерически и
энергетически разрешенных конформаций ряда родственных молекул.
Для каждой конформации вычисляется множество расстояний между
фармакофорными группами, взаимодействия которых с рецептором
считаются важными для распознавания. Если с целью поиска соответст-
вий сравнивать каждое такое множество расстояний для одной молеку-
лы со всеми другими аналогичными множествами, вычисленными для
других молекул, это позволит решить данную задачу только для неболь-
ших молекул. Однако в рамках задачи поиска фармакофора мы сосредо-
тачиваемся не на общем для всех молекул конформационном простра-
нстве, а лишь на его областях, одновременно доступных для всех лиган-
дов. Выше мы уже обсуждали, какую пользу приносит введение в
выборку конформационно жесткого или полужесткого аналога при кон-
формационном анализе гибких лигандов. По этой причине конформа-
ционный поиск начинают с наиболее жесткой молекулы. После опреде-
ления для данного соединения карты соответствующих расстояний их
значения используются как ограничения для последующего конформа-
ционного поиска в более гибких молекулах. Именно таким образом на
основе результатов конформационного поиска для активной и конфор-
мационно жесткой молекулы проводятся исследования конформацион-
ного пространства для всех ее более гибких аналогов из исследуемой со-
вокупности. Поскольку все активные молекулы должны соответство-
вать модели взаимодействия с рецептором, поиск конформаций можно
ограничить только теми областями конформационного пространства,
которые соответствуют модели взаимодействия, сформированной на
предыдущем этапе. Например, если условие состоит в том, что расстоя-
ние между двумя конкретными атомами согласно некоторой модели
должно лежать в определенном интервале, из множества конформаций,
получаемых вращением вокруг всех связей, расчеты проводятся только
для таких вращений, которые удовлетворяют данному условию. При-
мер, демонстрирующий успешное применение метода активного анало-
га, включал 28 ингибиторов ангиотензин-превращающего фермента
(angiotensin-converting enzyme, ACE) с целью предсказать строение его
центра связывания [8]. При применении этого метода время поиска
уменьшилось на три порядка по сравнению с обычным методом система-
Глава 2. Малые молекулы 85

тического поиска, который использовал ранее для этих же целей и с эти-


ми же соединениями.
Другой способ отображения, в котором не используется совмещение
«атом-на-атом» явным образом, реализуется программой SEAL [9]. Эта
программа позволяет быстро попарно сравнивать непохожие молекулы.
Индекс сходства (индикатор качества подгонки) суммируется по всем
возможным парам атомов в молекулах. Каждой паре атомов соответ-
ствует статистический вес, связанный с относительным расстоянием
между этими атомами. Таким образом, функция выравнивания в про-
цессе сравнения учитывает все возможные пары атомов в молекулах,
а не только одну, как при совмещении «атом-на-атом». В результате при
этом итоговом совмещении до определенной степени учитываются свой-
ства, связанные с общей формой молекулы. Программа также предлага-
ет возможность учитывать в процессе выравнивания физико-химичес-
кие свойства. Таким образом, слагаемые, возникающие при попарном
суммировании, могут сочетаться с физико-химическими величинами,
которые считаются важными для проявления биологической активнос-
ти. В исходной версии для оптимизации выравнивания были использо-
ваны ван-дер-ваальсовы радиусы — учет стерических факторов, а также
точечные атомные заряды — учет электростатических составляющих.
Расширенная версия программы SEAL была разработана Клебе
и др. [10]. В ней предлагаются различные методы структурного вырав-
нивания, в том числе методы совмещения жестких тел на основе опти-
мизации эффективного перекрывания. Различные молекулярные поля
описываются наборами гауссовых функций. В программе также имеет-
ся возможность оценки внутримолекулярной энергии конформацион-
ного напряжения, а также процедура «гибкой» подгонки [11].
Существуют методы отображения, которые включают автоматичес-
кое (следовательно, воспроизводимое) распознавание атомов лиганда
или фрагментов центра связывания как точек соответствия для их даль-
нейшего совмещения на ранних стадиях вычислительной процедуры.
Фрагменты центра связывания могут соответствовать точкам молеку-
лярной поверхности, представляющей такие свойства, как способность
выступать донором или акцептором водородной связи. Такие же воз-
можности предоставляются некоторыми коммерческими программны-
ми пакетами (например, Catalyst [12]). Другие пакеты — DISCO [13],
RECEPS [14], AUTOFIT [1] — были рассмотрены в недавно вышедшем
обзоре программ выравнивания [15]. Как описано выше, совмещение в
них проводится путем сближения пар атомов, считающихся соответ-
ствующими, а также фрагментов центра связывания во всех возможных
сочетаниях.
Подавляющее большинство современных программ выравнивания
совмещают молекулы как гибкие при условии, что существует одна жес-
ткая опорная молекула. Известная программа FlexS [16] использует та-
кое «гибкое» совмещение на основе комбинаторной процедуры совме-
щения конформаций. Выравнивание проводится для пары молекул,
одна из которых рассматривается как жесткая, а вторая «гибко» подго-
86 Молекулярное моделирование

няется по структуре к первой. Этот метод создан на основе программы


молекулярного докинга FlexX [17]. Перед началом поиска фармакофор-
ных структур FlexS пытается разложить структуру на ряд относительно
жестких фрагментов; в ходе итеративной процедуры наращивания фор-
мируется молекула в целом. Степень сходства между совмещенными
молекулами определяется с помощью оценочных параметров, сходных
по форме с парными компонентами энергии межмолекулярного взаимо-
действия, и оценок перекрывания с использованием гауссовых функ-
ций. Проверка данного подхода проводилась на экспериментальных
рентгеноструктурных данных. Этот метод является весьма быстрым и
благодаря своей эффективности позволяет сканировать значительные
массивы данных.
2.5.3. Совмещение молекулярных полей
Решение задач молекулярного подобия должно проходить с учетом мо-
лекулярных полей, поскольку молекулы распознают друг друга по ха-
рактеристическим свойствам не на уровне атомного скелета, а на
ван-дер-ваальсовой поверхности или снаружи ее. Следовательно, мето-
ды совмещения молекул должны быть основаны на отображении и срав-
нении именно этих свойств. С целью приведения молекул в соответствие
друг другу их структуры располагают внутри равномерной простран-
ственной решетки, состоящей из точек, на которых определено данное
поле. Каждая точка несет информацию о величине некоторого характе-
ристического свойства, например плотности заряда, гидрофобного по-
тенциала или просто стерического объема. Для приведения процедуры к
однозначному и осмысленному результату могут быть заданы порого-
вые значения меры молекулярного подобия. Отдельным точкам либо
группам (кластерам) соседствующих точек могут быть приписаны зна-
чения весов, чтобы отразить связь структура — активность. Одна моле-
кула, предпочтительно конформационно жесткая, выбирается в качест-
ве шаблона; величины, которые в этом случае отображаются на решет-
ку, характеризуют различные свойства. Решетки для других молекул
подгоняются с помощью перемещений и вращений до совпадения этих
величин с шаблонными. Такой процесс подгонки требует огромных вы-
числительных ресурсов. Описано большое количество процедур, отли-
чающихся по сложности, в которых для повышения эффективности ис-
пользуются свойства самих полей. Опубликован эффективный метод
максимизации меры подобия молекулярных поверхностей с использо-
ванием МЭП [19]. Другие авторы — Кларк [20], Дин [21] — вычисляли
молекулярные поля физико-химических свойств с использованием по-
тенциала Леннард-Джонса, либо в процессе определения МЭП заменяли
вычисления с помощью регулярных решеток интегрированием гауссо-
вых функций. В качестве оценки качества подгонки можно вычислить,
например, отношение числа точек, «занятых» всеми молекулами, к
общему числу точек решетки.
Подведем итог. Существуют методы совмещения молекулярных по-
верхностей. Они могут быть успешно применены к задаче совмещения
Глава 2. Малые молекулы 87

структурно несходных молекул, поскольку не требуют построения пар-


ных соответствий атомов между различными молекулами. Однако эти
методы могут стать общепринятыми только тогда, когда можно будет
достаточно быстро проводить сложные вычисления с целью совмещения
значительного числа конформаций каждой из исследуемых молекул.
Подробное сравнение методов совмещения молекул «атом-на-атом» и
суперпозиции молекулярных полей изложено в соответствующей лите-
ратуре [15, 22, 23]. В работе [24] рассмотрено большое количество статей
и обзоров, посвященных фармакофорам.

Цитированная литература
1. Kato, Y., Inoue A., Yamada, M. et al. (1992) Automatic superposition of drug
molecules based on their common receptor site. Journal of Computer-Aided Mo-
lecular Design, 6, 475–86.
2. Klebe, G. and Abraham, U. (1993) On the prediction of binding properties of drug
molecules by comparative molecular field analysis. Journal of Medicinal Chem-
istry, 36, 70–80.
3. B`hm, H. J., Klebe, G., and Kubibyi, H. (1996) Wirkstoffdesign, Spektrum
Akademischer Verlag.
4. Bostr`m, J. (2001) Reproducing the conformations of protein-bound ligands: a
critical evaluation of several popular conformational searching tools. Journal of
Computer-Aided Molecular Design, 15, 1137–52.
5. Bostrom, J., Norrby, P.-O., and Liljefors, T. (1998) Conformational energy pen-
alties of protein-bound ligands. Journal of Computer-Aided Molecular Design,
12, 383–96.
6. Marshall, G. R., Barry, C. D., Bosshard, H. E. et al. (1979) The conformational pa-
rameter in drug design: the active analog approach, in Computer-Assisted Drug
Design, ACS Monograph, Vol. 112 (eds E. C. Olsen and R. E. Christoffersen),
American Chemical Society, Washington, DC, pp. 205–26.
7. Dammkoehler, R. A., Karasek, S. F., Shands, E. F. B., and Marshall, G. R (1989)
Constrained search of conformational hyperspace. Journal of Computer-Aided
Molecular Design, 3, 3–21.
8. Mayer, D., Naylor, C. B., Motoc, I., and Marshall, G. R. (1987) A unique geome-
try of the active site of angiotensin converting enzyme consistent with struc-
ture-activity studies. Journal of Computer-Aided Molecular Design, 1, 3–16.
9. Kearsley, S. K., and Smith, G. M. (1990) An alternative method for the align-
ment of molecular structures: maximizing electrostatic and steric overlap. Tet-
rahedron Computer Methodology, 3, 615–33.
10. Klebe, F., Mietzner, T., and Weber, F. (1994) Different approaches toward an au-
tomatic structural alignment of drug molecules — applications to sterol mimics,
thrombin and thermolysin inhibitors. Journal of Computer-Aided Molecular De-
sign, 8, 751–78.
11. Klebe, G., Mietzner, T., and Weber, F. (1999) Methodological developments and
strategies for a fast flexible superposition of drug-size molecules. Journal of
Computer-Aided Molecular Design, 13, 35–49.
12. Catalyst Accelrys Inc., San Diego, http://www.accelrys.com.
88 Молекулярное моделирование

13. Martin, Y. C., Bures, M. G., Danaher, E. A. et al. (1993) A fast new approach to
pharmacophore mapping and its application to dopaminergic and benzodiazepine
agonists. Journal of Computer-Aided Molecular Design, 7, 83–102.
14. Kato, Y., Itai, A., and Iitaka, Y. (1987) A novel method for superimposing mole-
cules and receptor mapping. Tetrahedron, 43, 5229–36.
15. Lemmen, C. and Lengauer, T. (2000) Computational methods for the structural
alignment of molecules. Journal of Computer-Aided Molecular Design, 14, 215–32.
16. Lemmen, C. and Lengauer, T. (1997) Time efficient flexible superposition of me-
dium-sized molecules. Journal of Computer-Aided Molecular Design, 11, 357–68.
17. Rarey, M., Kramer, B, Lengauer, T., and Klebe, G. (1996) A fast flexible docking
method using an incremental construction algorithm. Journal of Molecular Biol-
ogy, 261, 470–89.
18. Lemmen, C., Lengauer, T., and Klebe, G. (1998) FLEXS: a method for fast flexi-
ble ligand superposition. Journal of Medicinal Chemistry, 41, 4502–20.
19. Manaut, M., Sanz, F., Jose, J., and Milesi, M. (1991) Automatic search for maxi-
mum similarity between molecular electrostatic potential distributions. Journal
of Computer-Aided Molecular Design, 5, 371–80.
20. Clark, M., Cramer, R. D. III, Jones, D. M. et al. (1990) Comparative molecular
field analysis (CoMFA). 2. Toward its use with 3D-structural databases. Tetrahe-
dron Computer Methodology, 3, 47–59.
21. Dean, P. M. (1990) Molecular recognition the measurement and search for molec-
ular similarity in ligand-receptor interaction, in Concepts and Applications of
Molecular Similarity (eds M. A. Johnson and G. M. Maggiora), John Wiley &
Sons, New York, pp. 211–38.
22. Mason, J. S., Good, A. C., and Martin, E. J. (2001) 3-D Pharmacophores in drug
discovery. Current Pharmaceutical Design, 7, 567–97.
23. Good, A. C. and Mason, J. S. (1995) Three-dimensional structure database
search, in Reviews in Computational Chemistry (eds K. B. Lipkowitz and
D. B. Boyd), VCH Publishers, New York, Vol. 7, pp. 73–95.
24. Langer, R. and Hoffmann, R. (2006) In Pharmacophores and Pharmacophore
Concepts, Methods and Principles in Medicinal Chemistry, Series (eds
H. Kubinyi, G. Folkers and R. Mannhold), VCH Publishers, New York.

2.6. Методы 3DQSAR


Методы исследования количественных соотношений «пространственная
структура — активность» (three-dimensional quantitative structure —
activity relationship, 3D-QSAR) получили наибольшее распространение
при проведении вычислений на основе химической информации в ходе
исследований по разработке лекарств, действующих на мишени, струк-
тура которых неизвестна. Основная цель этих методов заключается в
установлении соответствия между биологической активностью ряда
структурно и биологически охарактеризованных соединений и простра-
нственными особенностями различных молекулярных полей, таких
как стерические, липофильные и электростатические. Обычное иссле-
дование 3D-QSAR позволяет выявить расположение фармакофорных
Глава 2. Малые молекулы 89

фрагментов молекулы в пространстве и сформулировать указания для


конструирования следующего поколения соединений с улучшенными
биологическими свойствами.
Число исследований методами 3D-QSAR в последнее десятилетие
увеличивалось экспоненциально, поскольку множество различных ме-
тодов реализовано в коммерчески доступном, легко осваиваемом про-
граммном обеспечении [1–3]. Помимо доступности основной причиной
неизменного интереса к 3D-QSAR служит доказанная возможность пра-
вильно прогнозировать биологическую активность новых соединений
[4]. Однако простота программы 3D-QSAR может вдохновить начинаю-
щего исследователя на использование всех доступных наборов данных
при моделировании этими методами. Цель данной главы состоит не
только в ознакомлении читателя с возможностями различных методов
3D-QSAR, но и в анализе их ограничений.

2.6.1. Метод CoMFA


Метод сравнительного анализа молекулярных полей (Comparative
Molecular Field Analysis, CoMFA) [1] был разработан для проведения
количественных исследований (3D-QSAR). В различных реализациях
3D-QSAR используются статистические (хемометрические) методы
нахождения связи биологической активности и химических свойств с
информацией о трехмерной структуре соединений. Анализ CoMFA на-
чинается с традиционного моделирования фармакофора, в результате
которого определяются биоактивные конформации молекул и способы
их наложения. Это не тривиальная задача. Идея CoMFA заключается
в том, что различия в исследуемом свойстве, например биологической
активности, зачастую соотносятся с эквивалентными изменениями
формы и энергии полей нековалентных взаимодействий, окружающих
молекулы. Иными словами, стерические и электростатические поля со-
держат всю информацию, необходимую для понимания биологических
свойств набора соединений. Как и в методе GRID, молекулы помещают
в кубическую решетку и для каждой точки решетки рассчитывают энер-
гию взаимодействия между молекулой и определенным пробным ато-
мом. Обычно в методе CoMFA используют лишь два потенциала, а имен-
но стерический потенциал в виде функции Леннард-Джонса и электро-
статический потенциал в виде кулоновской функции. Очевидно, что ни
описание молекулярного подобия, ни описание процесса взаимодейст-
вия лигандов с соответствующими биологическими мишенями вовсе не
тривиальная задача. Потенциалы, используемые в стандартном вариан-
те метода CoMFA, описывают только энтальпийный вклад в свободную
энергию связывания [5], хотя многие эффекты, сопровождающие свя-
зывание, обусловлены гидрофобным и энтропийным вкладами. Поэто-
му необходимо вдумчиво характеризовать ожидаемые вклады различ-
ной природы и анализировать, может ли в данных условиях использова-
ние метода CoMFA привести к реалистичным результатам.
90 Молекулярное моделирование

2.6.1.1. Биологические данные, используемые в 3DQSAR


При использовании любого метода QSAR весьма важно знать, все ли
данные по биологической активности исследуемых соединений имеют
сравнимое качество. Наиболее предпочтителен вариант, когда данные
получены в одной лаборатории в одних и тех же условиях. Все иссле-
дуемые соединения должны иметь один и тот же механизм действия
(способ связывания), для неактивных соединений должно быть показа-
но, что они действительно неактивны. Следует рассматривать только ре-
зультаты испытаний in vitro, поскольку только в этом случае проводит-
ся истинно равновесный эксперимент; все остальные системы подверже-
ны изменениям во времени, поскольку в них протекает множество
параллельных биохимических процессов, а механизм транспорта и гра-
диенты диффузии лежат в основе почти всех этих процессов. Следует по-
мнить, что метод CoMFA разрабатывался лишь для описания процесса
взаимодействия, а не всего цикла существования лиганда. Во всех слу-
чаях, когда возникают нелинейные явления, связанные с транспортом и
распределением лекарств, любой метод 3D-QSAR следует применять с
осторожностью.
В идеальном случае диапазон параметров биологической активнос-
ти, используемых для исследования с применением метода CoMFA, дол-
жен охватывать не менее трех порядков. Для всех исследуемых молекул
необходимо знание трехмерной структуры. Если отсутствует точная ин-
формация о стереохимии соединений (данные приведены для смесей
энантиомеров или диастереомеров), то такие соединения не следует
включать в исследование CoMFA.

2.6.1.2. Построение модели CoMFA


После проверки биологической активности и наложения предполагае-
мых биоактивных конформаций молекул в ходе анализа CoMFA вычис-
ляются поля межмолекулярных взаимодействий, окружающие каж-
дую молекулу. Это осуществляется с помощью создания решетки,
окружающей все молекулы, в узлах которой вычисляются энергии
электростатического и ван-дер-ваальсова взаимодействия с помощью
выбранного пробного атома. В большинстве случаев выбор решетки,
простирающейся по умолчанию на 4 C в каждом направлении от всех
молекул выборки, достаточен для большинства моделей CoMFA [4]. Рас-
стояние между узлами решетки обычно выбирают равным 2 C, хотя в
литературе идет полемика относительно такого выбора расстояния [6],
поскольку зачастую при шаге решетки 2 C получаются результаты луч-
шие, чем при более точно описывающем пространство шаге решетки
1 C. Кроме того, программа CoMFA предоставляет пользователю воз-
можность настройки ряда других параметров, например пробных ато-
мов, зарядов, масштаба и граничного значения энергии и др. Эта гиб-
кость настройки параметров позволяет пользователю подогнать метод к
задаче насколько возможно близко, что, впрочем, увеличивает шанс
случайных корреляций. Интересно отметить, что почти все исследова-
Глава 2. Малые молекулы 91

ния, с успехом проведенные методом CoMFA, были выполнены с ис-


пользованием стандартных параметров. Обсуждение всех результатов
изменения параметров CoMFA выходит за рамки данной главы; заинте-
ресованный читатель может обратиться к двум статьям, посвященным
широкому анализу параметров и их влиянию на модели CoMFA [6, 7].

2.6.1.3. Статистическое качество моделей CoMFA


Количественные соотношения между биологической активностью и по-
строенными полями взаимодействий вычисляют с помощью особого
многомерного статистического метода регрессии частичных наимень-
ших квадратов (Partial Least Squares, PLS)1. Детальное описание мате-
матических основ метода можно найти в литературе [8, 9]. Метод PLS
позволяет построить статистическую модель даже в тех случаях, когда
число значений энергии в узлах решетки превышает число соединений,
поскольку многие значения энергии коррелируют друг с другом или не
имеют отношения к биологической активности. Эти особенности дают
возможность извлекать слабый сигнал, распределенный по многим пе-
ременным. Для построения реалистичной модели необходимо обычно не
более пяти-шести линейных комбинаций значений энергии. Поскольку
PLS обрабатывает огромное число переменных (значений энергии взаи-
модействия), всегда существует опасность переучивания модели, поэто-
му за качеством модели следят с помощью перекрестного контроля ме-
тодом исключения по одному ('leave-one-out', LOO). При использовании
этого метода строится столько моделей, сколько соединений в выборке,
причем для каждой модели соединения поочередно исключаются из по-
строения модели и их активность прогнозируется с помощью получен-
ной модели. После того как активность каждого соединения предсказа-
на по одному разу, с использованием экспериментальных и спрогнози-
рованных значений активности каждого соединения рассчитываются
значения Q2 (квадрата коэффициента корреляции перекрестного кон-
троля) и стандартной ошибки прогноза (Standard Deviation of Error
Prediction; SDEP):

å (yobs - y pred ) ,
2
2
Q = 1- (1)
å (yobs - ymean )
2

(yobs - y pred )
2

SDEP = å N
, (2)

где yobs — экспериментальное значение; ypred — предсказанное значе-


ние; ymean — среднее значение; N — число объектов.

1
В последнее время встречается также другое название метода — проекция на латентные
структуры (Projection to Latent Structures), которое, как считается, лучше отражает
суть метода. В русскоязычной хемометрической терминологии чаще употребляется пре-
жнее наименование.
92 Молекулярное моделирование

Значение SDEP обычно уменьшается для нескольких первых латен-


тных переменных, затем достигает минимума и начинает увеличивать-
ся, что свидетельствует о переучивании модели. Следует весьма взве-
шенно подходить к выбору числа латентных переменных для использо-
вания в модели. Если добавление одной переменной уменьшает SDEP
менее чем на 5%, следует предпочесть более простую модель, потому что
она содержит большую часть информации при меньшем числе перемен-
ных. Использование большего числа переменных создает в модели ин-
формационный шум. Значения Q2 > 0,3 обычно считаются статистичес-
ки значимыми и приемлемыми для метода CoMFA [6], хотя некоторые
исследования показали, что в статистической достоверности моделей
CoMFA следует надежно удостовериться. Для исследования риска слу-
чайной корреляции обычно выполняют проверку методом перемешива-
ния: молекулам обучающей выборки случайным образом присваивают
значения биологической активности (также из обучающей выборки), по-
сле чего строят модели методом CoMFA и вычисляют для них Q2. Если
слишком многие перемешанные модели сравнимы по качеству с исход-
ной моделью, то это является весьма надежным доказательством случай-
ной корреляции как исходного, так и перемешанного набора данных.
Кристек и др. использовали проверку методом перемешивания для
определения риска случайной корреляции в их CoMFA-модели 36 ли-
гандов эндотелинового рецептора подтипа А (ETA) [10]. Для модели на
одной латентной переменной с использованием перемешанных значе-
ний биологической активности Q2 = 0,43, в то время как для модели с
правильно отнесенными активностями Q2 = 0,70. Значения R2 для пра-
вильной и перемешанной моделей были вполне сравнимы, что указыва-
ет на недопустимость использования значения коэффициента корреля-
ции для валидации модели CoMFA. Полученные результаты свидет-
ельствуют также о том, что при случайной корреляции невозможно
предложить точное граничное значение Q2. Исходя из нашего опыта,
для надежных предсказательных моделей значение Q2 должно состав-
лять как минимум 0,5 [7, 11–13].
Предложены и некоторые другие стратегии решения проблемы слу-
чайной корреляции [6]. Например, можно применять более надежные
способы перекрестного контроля, выбирая случайным образом 10, 20
или 50% соединений, строя модель на оставшихся 90, 80 или 50% и
предсказывая по ней активность остальных соединений. Для получения
статистически достоверных результатов эту процедуру повторяют не-
сколько раз [12–14].
2.6.1.4. Интерпретация результатов
Одно из важнейших преимуществ 3D-QSAR перед традиционными ме-
тодами QSAR состоит в возможности графической интерпретации ре-
зультатов. Коэффициенты уравнений можно визуализировать в облас-
тях, окружающих лиганды, и при визуальном анализе легко обнару-
жить области пространства, вносящие наибольший вклад в активность.
Графическая интерпретация результатов позволяет с легкостью удосто-
Глава 2. Малые молекулы 93

вериться в надежности модели или предложить новые модификации со-


единений, приводящие к повышению активности или селективности.
Такие методы 3D-QSAR, как CoMFA или GRID—GOLPE (Graphic
Retrieval and Information Display — General Optimal Linear PLS
Estimation), оказались очень удобными для этой цели.
Обычно изображают контурные трехмерные представления полей,
вносящих наибольший вклад в модель. Стерические и электростатичес-
кие вклады изображают разными цветами отдельно друг от друга.
Интерпретация стерических контуров достаточно проста: положитель-
ные контуры ограничивают область пространства, заполнение которой
приводит к увеличению активности, а отрицательные контуры — об-
ласть, заполнение которой приводит к уменьшению активности. Интер-
претация электростатических карт более сложна из-за требования элек-
тронейтральности и того, что к увеличению активности могут приво-
дить как положительные, так и отрицательные заряды. Если в анализе
CoMFA обнаруживаются значительные электростатические эффекты,
следует внимательно изучить лежащие в их основе электронные эффек-
ты соответствующих функциональных групп и установить, является ли
это истинным эффектом или искусственной корреляцией.
Обычно контурные карты CoMFA не рассматриваются как эквива-
ленты соответствующих свойств белка-мишени, и такое сравнение сле-
дует проводить с крайней осторожностью. Однако если выравнивание
лигандов основано на конформациях лигандов в области связывания,
контурные стерические и электростатические карты CoMFA могут до
некоторой степени соответствовать стерическому и электростатическо-
му окружению места связывания. Например, Опреа и др. [15] использо-
вали рентгеноструктурные данные для комплексов ферментов с ингиби-
торами не только для выравнивания молекул, но и для оценки результа-
тов CoMFA путем сравнения контурных карт со структурой центра
связывания. Было обнаружено, что различные важные для связывания
лиганда аминокислотные остатки соответствуют определенным стери-
ческим и электростатическим полям, однако обнаружились и некото-
рые ограничения модели, поскольку не все ключевые остатки соответ-
ствуют полям CoMFA. Похожие наблюдения были сделаны и в наших
исследованиях этим методом [11–13].

2.6.2. Другие методы, подобные CoMFA


2.6.2.1. CoMSIA
Из-за сложностей, связанных с формой потенциала Леннард-Джонса,
используемого в большинстве методов CoMFA [16], Клебе и др. [2] разра-
ботали метод, родственный CoMFA, но основанный на индексах подо-
бия, назвав его сравнительным анализом индексов молекулярного подо-
бия (Comparative Molecular Similarity Indices Analysis, CoMSIA). В этом
методе вместо традиционных потенциалов CoMFA используются гауссо-
вы функции. В их исследовании классической тестовой выборки стерои-
дов, используемой фирмой Tripos, были использованы три различных
94 Молекулярное моделирование

типа индексов, относящихся к стерическому, электростатическому и


гидрофобному потенциалу. С помощью метода CoMSIA были построены
модели сравнимого статистического качества как по внутреннему пере-
крестному контролю обучающей выборки, так и по предсказательной
способности для контрольной выборки. Преимущество метода заключа-
ется в функциях, используемых для описания молекул, и в получаю-
щихся контурных картах, которые легче интерпретировать, чем карты
CoMFA. Кроме того, в методе CoMSIA отсутствуют граничные значения,
используемые в методе CoMFA для ограничения функций потенциалов
сверху. Детальное описание метода и его приложений читатель может
найти в литературе [17, 18]. Недавно авторы CoMSIA разработали но-
вый дескриптор водородной связи, с помощью которого можно преодо-
леть проблему недооценки водородных связей в CoMFA [19].

2.6.2.2. GRID и GOLPE


Программа GRID [20, 21] использовалась многими авторами [22, 23] для
расчета полей взаимодействий в качестве альтернативы методу CoMFA.
Важным преимуществом метода GRID, помимо большого числа различ-
ных пробных атомов, является использование для вычисления в точках
решетки потенциалов функции типа 6–4, которая меняется не так рез-
ко, как функция леннард-джонсовского типа 6–12. Хорошие статисти-
ческие результаты были получены, например, Кручиани и др. [24]при
анализе ингибиторов гликогенфосфорилазы b. Они использовали сило-
вое поле GRID в сочетании с программой GOLPE [25] для выполнения
хемометрического анализа. Данная выборка представляет особый инте-
рес потому, что для всех лиганд-рецепторных комплексов имеются рен-
тгеноструктурные данные. Это позволило авторам исследовать выборку
с помощью некоторых новых методов, в том числе методов 3D-QSAR.
Дальнейшее улучшение оригинальной методологии CoMFA было
достигнуто при использовании концепции отбора и уменьшения числа
переменных. Как говорилось в разд. 2.6.1.3, большое число переменных
(энергий взаимодействия) в матрице дескрипторов представляет собой
статистическую проблему метода CoMFA. С ростом числа переменных
при использовании методов многомерных проекций, таких как PLS,
становится все труднее отделить полезную информацию, содержащую-
ся в дескрипторной матрице, от менее полезной или шума, поэтому не-
обходимы способы поиска значимых переменных среди большого коли-
чества незначимых. Статистическая процедура под названием GOLPE
была разработана Барони и др. [3] для улучшения предсказательной
способности моделей QSAR. В эту программу включены различные ме-
тоды отбора переменных, такие как метод D-оптимального предвари-
тельного отбора и план факторного эксперимента с дробными реплика-
ми (Fractional Factorial Design, FFD). Предсказательная способность
каждой переменной определяется путем построения большого числа
3D-QSAR-моделей, для каждой из которых рассчитывается SDEP. Пос-
ле завершения расчета методом FFD каждая переменная оценивается и
помещается в одну из трех категорий: улучшающих предсказательную
Глава 2. Малые молекулы 95

способность, ухудшающих предсказательную способность или неодноз-


начных. Окончательный анализ методом PLS проводится только для пе-
ременных из первой категории. При использовании отбора переменных
обычно получаются модели с лучшими значениями Q2, чем соответству-
ющие модели, построенные традиционными методами CoMFA [11–13,
24, 26]. Детальное описание метода см. в [3, 24, 26].
Несмотря на широкое применение методов, подобных CoMFA, сле-
дует сделать ряд предостережений. В процессе использования метода на
практике возникает множество проблем. Результаты сильно зависят от
выбранной конформации лиганда, достоверности выравнивания, хими-
ческих параметров описания полей взаимодействия и от выбранного ме-
тода статистической оценки [14]. Читателю следует помнить, что про-
грамма представляет собой мощный инструмент в руках опытного поль-
зователя, однако новичок может испытать с ней определенные
трудности.

2.6.2.3. Методы, не зависящие от выравнивания


Наиболее важным и сложным этапом CoMFA-подобного анализа явля-
ется построение реалистичного выравнивания изучаемых молекул. Не-
давно несколькими группами был описан вариант метода CoMFA, по-
зволяющий избавиться от этой проблемы [27–29]. Сильверман и Платт
[27] использовали в своем методе сравнительного анализа молекуляр-
ных моментов (Comparative Molecular Moment Analysis, CoMMA) дес-
крипторы, которые характеризуют форму с помощью главных момен-
тов инерции, а распределение зарядов — на основе параметров, получен-
ных из дипольных и квадрупольных моментов. Авторы исследовали
большое число различных выборок и получили модели с хорошей внут-
ренней согласованностью и предсказательной способностью. Подобный
подход, эксплуатирующий для построения главных моментов силовое
поле GRID, был разработан Кручиани и др. [28] и интегрирован в ком-
мерчески доступные программы VOLSURF и ALMOND [30, 31]. Деталь-
ное описание этих относительно новых методов можно найти в
литературе [28, 29].

2.6.3. Другие методы 3DQSAR


За последние несколько лет были разработаны и другие методы
3D-QSAR. Некоторые из них не основаны на расчете свойств в узлах ре-
шетки, характерном для всех CoMFA-подобных подходов. Методы
GERM [32], Compass [33], поверхности рецептора [34] и QUASAR [35]
основаны на расчете свойств в дискретных точках пространства, распо-
ложенных на общей поверхности активных лигандов или рядом с ней.
Построенная таким образом «поверхность рецептора» должна модели-
ровать свойства активного центра макромолекулы. Этот подход доста-
точно надежен в случае, когда все молекулы выборки не слишком силь-
но искажают расположение аминокислотных остатков в области связы-
вания. Надежность подхода подтверждается наличием достоверных
96 Молекулярное моделирование

моделей, построенных с его помощью. Тем не менее существуют два не-


достатка атомно-молекулярных моделей и моделей поверхности рецеп-
тора, основанных на обобщенных представлениях об изменении формы
области связывания из-за индуцированного соответствия и образования
водородных связей. Если энергия лиганд-рецепторного взаимодействия
определяется для усредненной модели рецептора, небольшие измене-
ния, связанные с адаптацией рецептора к определенным молекулам
лиганда, остаются неучтенными. Кроме того, аминокислотные остат-
ки биологического рецептора, содержащего конформационно подвиж-
ный донор или акцептор водородной связи, могут образовывать разно-
направленные водородные связи с различными лигандами. Этот эффект
также невозможно смоделировать с помощью усредненной структуры
рецептора.
Другой путь построения моделей QSAR заключается в создании так
называемых моделей псевдорецепторов — моделей центра связывания.
Суть данного подхода заключается в построении трехмерной модели об-
ласти связывания белка-мишени с неизвестной структурой на основе
наложения структур известных лигандов в биоактивной конформации с
учетом экспериментально определенных значений аффинности. В осно-
ве концепции псевдорецептора лежит идея об участии связанной формы
лиганда в таком специфическом нековалентном связывании, которое
бы имитировало существенные лиганд-белковые взаимодействия в ис-
тинном биологическом рецепторе (см., например, [36–39]). На первом
этапе построения псевдорецептора идентифицируются потенциальные
точки связывания (якорные точки) для каждой молекулы. Затем выбира-
ются подходящие партнеры взаимодействия (например, аминокислоты,
ионы металлов, молекулы воды) и располагаются соответствующим обра-
зом в пространстве. Ансамбль партнеров, полученный после оптимиза-
ции, представляет собой псевдорецептор для лигандов, использованных
при его построении. В общем случае тип и расположение элементов псев-
дорецептора, окружающих модель фармакофора, не будет структурно по-
добно реальной биомишени. Псевдорецептор следует рассматривать как
чисто гипотетическую модель связывающей полости, в которой располо-
жены структурно родственные лиганды, а не как воспроизведение слож-
ной структуры взаимодействующего с лигандом белка. Оценка аффин-
ности лиганда складывается из энергии взаимодействия лиганда с псев-
дорецептором, энергии десольватации лиганда и изменения внутренней
энергии и энтропии лиганда в процессе связывания. Концепция псевдо-
рецептора, реализованная в программе PrGen [40], была проверена при
конструировании псевдорецепторов карбоангидразы человека, дофами-
нэргических и b2-адренэргических рецепторов. Значения свободной энер-
гии связывания лиганда, предсказанные с помощью модели и определен-
ные экспериментально, согласуются в пределах 1,2 ккал/моль [41]. Пре-
имущества концепции псевдорецептора заключаются в использовании
направленного силового поля, которое может корректно описывать во-
дородные связи и взаимодействия между белками, лигандами и ионами
металлов, играющими зачастую важнейшую роль в связывании моле-
Глава 2. Малые молекулы 97

кул лекарств, а также в возможности учета сольватации и энтропии,


чего лишены многие другие методы 3D-QSAR [42].

2.6.4. 3DQSAR, основанный на рецепторе


Такие методы, основанные на структуре мишени, как докинг, позволя-
ют определить положение и ориентацию потенциального лиганда в цен-
тре связывания белка с достаточной точностью. Существуют различные
методы и программы докинга (см. гл. 5), успешно используемые для кон-
струирования лекарств (см., например, [43–47]). Методы докинга дают
важную информацию о пространственной ориентации лигандов в облас-
ти связывания и о других лигандах, взаимодействующих с той же ми-
шенью. Основным недостатком современных методов докинга является
отсутствие возможности точного вычисления свободной энергии связы-
вания для оценки биологической активности. Проблема предсказания
аффинности пробудила интерес к созданию методов достоверного вы-
числения аффинности лигандов для обширных серий разнообразных
молекул, взаимодействующих с одной и той же биомишенью, структура
которой известна [48–52]. Большинство способов вычисления свобод-
ной энергии связывания основано на молекулярно-механических сило-
вых полях, в которых ван-дер-ваальсовы и кулоновские взаимодей-
ствия представлены в виде эмпирических потенциалов. В других мето-
дах используются более простые оценочные функции, не связанные с
вычислением аффинности с помощью молекулярной механики (подроб-
ный обзор см. в [52]), а базирующиеся на экспериментальных данных
при выводе параметров относительно простых функций, позволяющих
быстро оценивать энергию связывания. Оценочные значения энергии
связывания широко используются для различения активных и неактив-
ных лигандов, например, при виртуальном скрининге баз данных, но в
большинстве своем они недостаточно надежны для точного предсказа-
ния биологической активности. Основная сложность при предсказании
биологических свойств заключается в том, что лежащие в их основе мо-
лекулярные взаимодействия сложны и для оценки свободной энергии
взаимодействия следует учитывать различные факторы. Правильное
предсказание аффинности возможно лишь с использованием точных ме-
тодов, таких как метод возмущения свободной энергии (Free Energy
Perturbation, FEP) или метод термодинамического интегрирования
(Thermodynamic Integration, TI), требующих значительных вычисли-
тельных ресурсов (более подробную информацию об этих методах мож-
но найти в [53] и [54]).
Программы докинга, использующие информацию о белке и методы
3D-QSAR при построении предсказательных моделей для родственных
молекул, сочетают сильные стороны обоих подходов в автоматизирован-
ной помехоустойчивой («несмещенной») процедуре, получившей назва-
ние «3D-QSAR, основанный на рецепторе» [11–13, 55–67]. В данном
контексте трехмерная структура белка-мишени и протокол докинга
используются при построении выравнивания для дальнейшего иссле-
дования методом CoMFA [11]. С помощью этого метода были получены
98 Молекулярное моделирование

достоверные предсказательные модели. Помимо хорошей предсказа-


тельной способности модели могут указать на точки взаимодействия в
области связывания, которые могут отвечать за изменение биологичес-
кой активности. В работе [68] приведены примеры успешного примене-
ния 3D-QSAR, основанного на модели рецептора.
Другой интересный метод, позволяющий преодолеть проблему пре-
небрежения информацией о белке в методах 3D-QSAR, был недавно
предложен Гольке и Клебе [69]. Суть метода адаптации полей для срав-
нения молекул (Adaptation of Fields for Molecular Comparison, AFMoC)
заключается в построении потенциальных полей в области связывания
белка-мишени с помощью оценочной функции DrugScore. Данная про-
грамма методологически близка к CoMFA и CoMSIA, но имеет перед
ними преимущество — учет белкового окружения в анализе 3D-QSAR.
Вместо кулоновского или леннард-джонсовского потенциала расчет
AFMoC начинает с предварительно приписанных по точкам решетки
значений потенциала DrugScore. На основе лигандов, для которых из-
вестен способ связывания и биологическая активность, отдельным зна-
чениям потенциалов приписывается определенный вес. Получающиеся
поля взаимодействий обрабатываются с помощью PLS. Было показано,
что для моделей AFMoC наблюдается значительно лучшая корреляция
между расчетными и экспериментальными значениями активности,
чем для функции DrugScore [70].

2.6.5. Надежность моделей 3DQSAR


Качество и надежность моделей 3D-QSAR сильно зависят от вниматель-
ной проверки каждого этапа анализа. Как и для любого другого метода,
для QSAR принципиально важно, все ли значения биологической ак-
тивности соединений одинакового качества (см. также разд. 2.6.1.1).
Поиск биологически активной конформации и построение выравни-
вания молекул является важнейшей задачей при любом исследовании
3D-QSAR, поскольку это один из основных источников ложных заклю-
чений и ошибок. Риск использования неверной геометрии можно
уменьшить, рассматривая жесткие аналоги. Но даже в этом случае мо-
гут возникнуть затруднения, поскольку имеются примеры различных
способов связывания, казалось бы, для близкородственных соединений.
Впрочем, если способы связывания похожи, но использованы непра-
вильные конформации лигандов, результаты анализа 3D-QSAR могут
оказаться вполне надежными. Проблемы построения конформаций и их
корректного выравнивания можно избежать, если использовать кон-
формации из трехмерных структур лиганд-белковых комплексов, полу-
ченных с помощью РСА, ЯМР или моделирования по гомологии, как
описывалось в разд. 2.6.4.
Последней стадией анализа 3D-QSAR является статистическая ва-
лидация, в ходе которой определяется предсказательная способность
модели — способность предсказывать биологическую активность новых
соединений. В большинстве исследований для этой цели использовали
перекрестный контроль методом исключения по одному (LOO). С по-
Глава 2. Малые молекулы 99

мощью этого метода рассчитываются Q2 и SDEP, которые обычно рас-


сматриваются как основные критерии надежности и предсказательной
способности модели. LOO — это простейший метод перекрестного кон-
троля, заключающийся в извлечении одного объекта и предсказании
его активности; более надежным методом перекрестного контроля счи-
тается метод исключения группы. Например, при перекрестном контро-
ле методом исключения 20%-я выборка разделяется на 5 групп прибли-
зительно равного размера; таким образом, 80% выборки используются
для построения модели, с помощью которой предсказывается актив-
ность оставшихся соединений. Эту операцию следует повторить не-
сколько раз для получения надежных статистических результатов. Ме-
тоды исключения по 20 и 50% (более требовательные к ресурсам) явля-
ются значительно более надежными индикаторами качества модели,
чем обычно используемый метод LOO [7, 12, 46], который зачастую
слишком оптимистично оценивает модели, не обладающие предсказа-
тельной способностью для молекул истинной контрольной выборки.
Несмотря на известные ограничения метода LOO, до сих пор далеко
не всегда исследователи проверяют возможность модели 3D-QSAR пра-
вильно предсказывать биологическую активность молекул внешней
контрольной выборки. Многие авторы заявляют, что их модели, имею-
щие высокое значение Q2 для метода LOO, обладают высокой предсказа-
тельной способностью, но не проводят валидацию с помощью внешней
контрольной выборки (детальное обсуждение этой проблемы см. в [14,
71–76]). Эти ожидания совершенно не оправданы, поскольку в несколь-
ких исследованиях было показано, что корреляция между значением Q2
и значением коэффициента корреляции R2 для наблюдаемых и предска-
занных значений активности контрольной выборки отсутствует
[72, 75]. Поэтому мы настойчиво рекомендуем использовать надежные
методы перекрестного контроля и внешние контрольные выборки для
валидации моделей 3D-QSAR.

Цитированная литература
1. Cramer, R. D., Patterson, D. E., and Bunce, J. D. (1988) Comparative molecular
field analysis (CoMFA). 1. Effect of shape on binding of steroids to carrier pro-
teins. Journal of the American Chemical Society, 110, 5959–67.
2. Klebe, G., Abraham, U., and Mietzner, T. (1994) Molecular similarity indexes in
a comparative analysis (CoMSIA) of drug molecules to correlate and predict their
biological activity. Journal of Medicinal Chemistry, 37, 4130–46.
3. Baroni, M., Constantino, G., Cruciani, G. et al. (1993) Generating optimal linear
РLS estimations (GOLPE) — an advanced chemometric tool for handling
3D-QSAR problems. Quantitative Structure-Activity Relationships, 12, 9–20.
4. Martin, Y. C. (1998) 3D- QSAR current state, scope, and limitations. Perspec-
tives in Drug Discovery and Design, 12, 3–23.
5. Klebe, G. and Abraham, U. (1993) On the prediction of binding properties of
drug molecules by comparative molecular field analysis. Journal of Medicinal
Chemistry, 36, 70–80.
100 Молекулярное моделирование

6. Kim, K. H., Greco, G., and Novellino, E., (1998) A critical review of recent
CoMFA applications. Perspectives of Drug Discovery and Design, 12, 257–315.
7. Folkers, G., Merz, A., and Rognan, D. (1993) CoMFA: scope and limitations, in
3D QSAR in Drug Design: Theory, Methods and Applications (ed. H. Kibinyi),
ESCOM, Leiden, pp. 583–618.
8. Wold, S. (1991) Validation of QSARs. Quantitative Structure Activity Relation-
ship, 10, 191–93.
9. Wold, S., Johansson, E., and Cocchi, M. (1993) PLS — partial least squares pro-
jections to latent structures, in 3D-QSAR in Drug Design: Theory, Methods and
Applications (ed. H. Kubinyi), ESCOM, Leiden, pp. 523–50.
10. Krystek, S. R., Hunt, J. T., Stein, P. D., and Stouch, T. R. (1995) 3-dimensional
quantitative structure-activity relationships of sulfonamide endothelin inhibi-
tors. Journal of Medicinal Chemistry, 38, 659–68.
11. Sippl, W. (2000) Receptor-based 3D QSAR analysis of estrogen receptor
ligands — merging the accuracy of receptor-based alignments with the computa-
tional efficiency of ligand-based methods. Journal of Computer-Aided Molecu-
lar Design, 14, 559–72.
12. Sippl, W., Contreras, J.M., Parrot, I. et al. (2001) Structure-based 3D QSAR and
design of novel acetylcholinesterase inhibitors. Journal of Computer-Aided Mo-
lecular Design, 15, 395–410.
13. Sippl, W. (2002) Binding affinity prediction of novel estrogen receptor ligands
using receptor-based 3D-QSAR methods. Bioorganic & Medicinal Chemistry,
10, 3741–55.
14. Oprea, T. I. and Garcia, A. E. (1996) Three-dimensional quantitative structure-
activity relationships of steroid aromatase inhibitors. Journal of Computer-
Aided Molecular Design, 10, 186–200.
15. Oprea, T. I., Waller, C. L., and Marshall, G. R. (1994) 3-dimensional quantitative
structure-activity relationship of human-immunodeficiency-virus-(i) protease
inhibitors. 2. Predictive power using limited exploration of alternate binding
modes. Journal of Medicinal Chemistry, 37, 2206–15.
16. Norinder, U. (1998) Recent progress in CoMFA methodology and related tech-
niques. Perspectives in Drug Discovery and Design, 12, 25–39.
17. Klebe, G. and Abraham, U. (1999) Comparative molecular similarity index anal-
ysis (CoMSIA) to study hydrogen-bonding properties and to score combinatorial
libraries. Journal of Computer-Aided Molecular Design, 13, 1–10.
18. Bohm, M., Sturzebecher, J., and Klebe, G. (1999) Three-dimensional quantita-
tive structure-activity relationship analyses using comparative molecular field
analysis and comparative molecular similarity indices analysis to elucidate selec-
tivity differences of inhibitors binding to trypsin, thrombin, and factor Xa.
Journal of Medicinal Chemistry, 42, 458–77.
19. Bohm, M. and Klebe, G. (2002) Development of new hydrogen bond descriptors
and their application to comparative molecular field analyses. Journal of Medici-
nal Chemistry, 45, 1585–97.
20. Goodford, P. J. (1985) A computational procedure for determining energetically
favorable binding sites on biologically important macromolecules. Journal of
Medicinal Chemistry, 28, 849–57.
Глава 2. Малые молекулы 101

21. Wade, R. C., Clark, K. J., and Goodford, P. J. (1993) Further development of hy-
drogen-bond functions for use in determining energetically favorable binding
sites on molecules of known structure. 1. Ligand probe groups with the ability to
form 2 hydrogen bonds. Journal of Medicinal Chemistry, 36, 140–47.
22. Davis, A. M., Gensmantel, N. P., Johansson, E., and Marriott, D. P. (1994) The
use of the GRID program in the 3D-QSAR analysis of a series of calcium channel
agonists. Journal of Medicinal Chemistry, 37, 963–72.
23. Kim, K. H., Greco, G., Novellino, E. et al. (1993) Use of the hydrogen-bond po-
tential function in a comparative molecular field analysis (CoMFA) on a set of
benzodiazepines. Journal of Computer-Aided Molecular Design, 7, 263–80.
24. Cruciani, G. and Watson, K. A. (1994) Comparative molecular field analysis us-
ing GRID force field and GOLPE variable selection methods in a study of inhibi-
tors of glycogen-phosphorylase-B. Journal of Medicinal Chemistry, 37,
2589–601.
25. GOLPE, Multivariate Infometric Analysis, Perugia. http://www.miasrl.com.
26. Cruciani, G., Clementi, S., and Partor, M. (1998) GOLPE-guided region selec-
tion. Perspectives in Drug Discovery and Design, 12, 71–86.
27. Silverman, B. D. and Platt, D. E. (1996) Comparative molecular moment analysis
(CoMMA): 3D-QSAR without molecular superposition. Journal of Medicinal
Chemistry, 39, 2129–40.
28. Cruciani, C., Crivori, P., Carupt, P. A., and Testa, B. (2000) Molecular fields in
quantitative structure-permeation relationships: the VolSurf approach.
Theochem, 503, 17–30.
29. Pastor, M., Cruciani, G., McLay, I. et al. (2000) Grid-Independent descriptors
(GRIND): a novel class of alignment-independent three-dimensional molecular
descriptors. Journal of Medicinal Chemistry, 43, 3233–43.
30. VOLSURF, Molecular Discover Ltd., Oxford, http://www.moldiscovery.com.
31. ALMOND, Multivariate Infometric Analysis, Perugia. http://www.miasrl.com.
32. Walters, D. E. (1998) Genetically evolved receptor models (GERM) as a
3D-QSAR tool. Perspectives in Drug Discovery and Design, 12, 159–66.
33. Jain, A. N., Koile, K. and Chapman, D. (1994) Compass: predicting biological-
activities from molecular surface properties — performance comparisons on a
steroid benchmark. Journal of Medicinal Chemistry, 37, 2315–27.
34. Hahn, M. and Rogers, D. (1998) Receptor surface models. Perspectives in Drug
Discovery and Design, 12, 117–33.
35. Vedani, A. and Zbinden, P. (1998) Quasi-atomistic receptor modeling: a bridge be-
tween 3D-QSAR and receptor fitting. Pharmaceutica Acta Helvetiae, 73, 11–18.
36. Sippl, W., Stark, H., and Holtje, H.-D. (1998) Development of a binding site
model for histamine H-3-receptor agonists. Pharmazie, 53, 433–37.
37. Holtje, H.-D. and Jendretzki, U. K. (1993) Construction of a detailed serotonin-
ergic 5-HT2A receptor model. Archiv der Pharmazie, 328, 577–84.
38. Greenidge, P. A., Merz, A., and Folkers, G. (1995) A pseudoreceptor modeling
study of the varicella-zoster virus and human thymidine kinase binding sites.
Journal of Computer-Aided Molecular Design, 9, 473–78.
102 Молекулярное моделирование

39. Schmetzer, S., Greenidge, P. A., Kovar, K. A. et al. (1997) Structure-activity re-
lationships of cannabinoids: a joint CoMFA and pseudoreceptor modeling study.
Journal of Computer-Aided Molecular Design, 11, 278–92.
40. PrGen, Biographics Laboratory, Basel. http://www.biograf.ch.
41. Vedani, A., Zbinden, P., Snyder, J. P., and Greenidge, P. A. (1995) Pseudorecep-
tor modeling — the construction of 3-dimensional receptor surrogates. Journal
of the American Chemical Society, 117, 4987–94.
42. Schleifer, K. J. (2006) in Concepts and Applications of Pseudoreceptors, Series:
Methods and Principles in Medicinal Chemistry — Pharmacophores and
Pharmacophore Concepts (eds T. Langer, R. Hoffmann, H. Kubinyi et al.), VCH
Publishers, New York, pp. 117–30.
43. Kramer, B., Rarey, M., and Lengauer, T. (1997) CASP2 experiences with dock-
ing flexible ligands using FLEXX. Proteins, 28, (Suppl. 1), 221–25.
44. Bohm, H. J. (1994) The development of a simple empirical scoring function to es-
timate the binding constant for a protein-ligand complex of known three-dimen-
sional structure. Journal of Computer-Aided Molecular Design, 8, 243–56.
45. Verdonk, M. L., Cole, J. C., Hartshorn, M. J. et al. (2003) Improved protein-
ligand docking using GOLD. Proteins, 52, 609–23.
46. Meng, E. C., Shoichet, B. K., and Kintz, I. D. (1992) Automated docking with
grid-based energy evaluation. Journal of Computational Chemistry, 13, 505–24.
47. Kontoyianni, M., McClellan, I. M., and Sokol, G. S. (2004) Evaluation of docking
performance: comparative data on docking algorithms. Journal of Medicinal
Chemistry, 47, 558–65.
48. Tame, J. R. H. (1999) Scoring functions: a view from the bench. Journal of Com-
puter-Aided Molecular Design, 13, 99–108.
49. Bohm, H. J. (1998) Prediction of binding constants of protein ligands: a fast
method for the prioritization of hits obtained from de novo design or 3D database
search programs. Journal of Computer-Aided Molecular Design, 12, 309–23.
50. Wang, R., Lu, Y., Fang, X., and Wang, S. (2004) An extensive test of 14 scoring
functions using the PDBbind refined set of 800 protein-ligand complexes. Jour-
nal of Chemical Information and Computer Sciences, 44, 2114–25.
51. Perola, E., Walters, W. P., and Charifson, P. S. (2004) A detailed comparison of
current docking and scoring methods of systems of pharmaceutical relevance.
Proteins, 56, 235–49.
52. Gohlke, H. and Klebe, G. (2002) Approaches to the description and prediction of
the binding affinity of small molecule ligands to macromolecular receptors.
Angewandte Chemie International Edition, 41, 2644–76.
53. Masukawa, K. M., Kollman, P. A., and Kuntz, I. D. (2003) Investigation of neu-
raminidase-substrate recognition using molecular dynamics and free energy cal-
culations. Journal of Medicinal Chemistry, 46, 5628–37.
54. Huang, D. and Caflisch, A. (2004) Efficient evaluation of binding free energy using
continuum electrostatics salvation. Journal of Medicinal Chemistry, 47, 5791–97.
55. Sippl, W., Contreras, J. M., Rival, Y., and Wermuth, C. G. (2000) In molecular
Modelling and Predicting of Bioactivity (eds K. Gundertofte and F. S. Jorgen-
sen). Plenum Press, New York, pp. 53–58.
Глава 2. Малые молекулы 103

56. Sippl, W. (2002) Development of biologically active compounds by combining


3D-QSAR and structure-based design methods. Journal of Computer-Aided
Molecular Design, 16, 825–30.
57. Cinone, N., Holtje, H.-D., and Carotti, A. (2000) Development of a unique 3D in-
teraction model of endogenous and synthetic peripheral benzodiazepine receptor
ligands. Journal of Computer-Aided Molecular Design, 14, 753–68.
58. Hammer, S., Spika, I., Sippl. W. et al. (2003) Glucocorticoid receptor interac-
tions with glucocorticoids: evaluation by molecular modeling and functional
analysis of glucocorticoid receptor mutants. Steroids, 68, 329–39.
59. Pastor, M., Cruciani, G., and Watson, K. A. (1997) A strategy for the incorpora-
tion of water molecules present in a ligand binding site into a three-dimensional
quantitative structure-activity relationship analysis. Journal of Medicinal
Chemistry, 40, 4089–102.
60. Tervo, A. J., Nyronen, T. H., Ronkko, T., and Poso, A. (2003) A structure-
activity relationship study of catechol-O-methyltransferase inhibitors com-
bining molecular docking and 3D-QSAR methods. Journal of Computer-Aided
Molecular Design, 17, 797–810.
61. Pandey, G. and Saxena, K. A. (2006) 3D QSAR studies on protein phosphatase 1B
inhibitors: Comparison of the quality and predictivity among 3D-QSAR models
obtained from different conformer-based alignments. Journal of Chemical
Information and Modeling, 46, 2579–90.
62. Waller, C. L., Oprea, T. I., Giolitti, A., and Marshall, G. R. (1993) 3-dimensional
QSAR of human-immunodeficiency-virus-(1) protease inhibitors. 1. A CoMFA
study employing experimentally determined alignment rules. Journal of
Medicinal Chemistry, 36, 4152–60.
63. De Priest, S. A., Mayer, D., Naylor, C. B., and Marshall, G. R. (1993) 3D-QSAR
of angiotensin-converting enzyme and thermolysin inhibitors — a comparison of
CoMFA models based on deduced and experimentally determined active-site
geometries. Journal of the American Chemical Society, 115, 5372–84.
64. Cho, S. J., Garsia, M. L. S., Bier, J., and Tropsha, A. (1996) Structure-based
alignment and comparative molecular field analysis of acetylcholinesterase
inhibitors. Journal of Medicinal Chemistry, 39, 5064–71.
65. Vaz, R. J., McLean, L. R., and Pelton, J. T. (1998) Evaluation of proposed modes
of binding of (2S)-2-4-(3S)-1-acetimidoyl-3-pyrrolidinyloxyphernyl-3-(7-amidino-
2-naphthyl)propanoic acid hydrochloride and some analogs to Factor Xa using a
comparative molecular field analysis. Journal of Computer-Aided Molecular
Design, 12, 99–110.
66. Ortiz, A. R., Pisabarro, M. T., Gago, F., and Wade, R. C. (1995) Prediction of
drug-binding affinities by comparative binding energy analysis. Journal of
Medicinal Chemistry, 38, 2681–91.
67. Lozano, J. J., Pastor, M., Cruciani, G. et al. (2000) 3D-QSAR methods on the ba-
sis of ligand-receptor complexes. Application of COMBINE and GRID/GOLPE
methodologies to a series of CYP1A2 ligands. Journal of Computer-Aided
Molecular Design, 14, 341–53.
68. Sippl, W. (2006) In Application of Structure-based Alignment Methods for
3D-QSAR, Series: Methods and Principles in Medicinal Chemistry —
104 Молекулярное моделирование

Pharmacophores and Pharmacophore Concepts (eds T. Langer, R. Hoffmann,


H. Kubinyi et al.), VCH Publishers, New York, pp. 223–49.
69. Gohlke, H. and Klebe, G. (2002) DrugScore meets CoMFA: adaptation of fields
for molecular comparison (AFMoC) or how to tailor knowledge-based pair-poten-
tials to a particular protein. Journal of Medicinal Chemistry, 45, 4153–70.
70. Silber, K., Kurz, T., Heidler, P., and Klebe, G. (2005) AFMoC enhances
predictivity of 3D QSAR: a case study with DOXP-reductoisomerase. Journal of
Medicinal Chemistry, 48, 3547–63.
71. Golbraikh, A., and Tropsha, A. (2002) Beware of q(2)! Journal of Molecular
Graphics & Modelling, 20, 269–76.
72. Kubinyi, H., Hamprecht, F. A., and Mietzner, T. (1998) Three-dimensional
quantitative similarity-activity relationships (3D QSiAR) from SEAL similarity
matrices. Journal of Medicinal Chemistry, 41, 2553–64.
73. Golbraikh, A., Shen, M., Xiao, Z. Y. et al. (2003) Rational selection of training
and test sets for the development of validated QSAR models. Journal of Com-
puter-Aided Molecular-Design, 17, 243–53.
74. Norinder, U. (1996) Single and domain mode variable selection in 3D QSAR
applications. Journal of Chemometrics, 10, 95–105.
75. Doweyko, A. M. (2004) 3D-QSAR illusions. Journal of Computer-Aided Molecular
Design, 18, 587–96.

Дополнительная литература
Vedani, A., Zbinden, P., and Snyder, J. P. (1993) Pseudo-receptor modeling —
a new concept for the 3-dimensional construction of receptor-binding sites.
Journal of Receptor Research, 13, 163–77.
Пример
3
моделирования малых молекул:
антагонисты дофаминового
рецептора подтипа D3

В этой главе мы опишем построение модели фармакофора и последую-


щий анализ 3D-QSAR (разд. 2.6.2.2) для антагонистов дофаминового ре-
цептора подтипа D3. При построении модели фармакофора мы использо-
вали стерические и электростатические параметры, полученные на
основании данных для структур частично жестких высокоаффинных
лигандов. После выявления особенностей фармакофора модель была
проверена путем более тщательного исследования молекулярных по-
лей, создаваемых лигандами, наложенными друг на друга в фармако-
форных конформациях. На последнем этапе поля молекулярных взаимо-
действий, построенные программой GRID, были использованы для уста-
новления соотношений 3D-QSAR путем их корреляции с энергией свя-
зывания по методу частичных наименьших квадратов (PLS). Эта модель
была проверена различными методами перекрестного контроля, а ее
предсказательная способность продемонстрирована с помощью внешней
контрольной выборки лигандов.
Для построения модели фармакофора были использованы конфор-
мационно ограниченные антагонисты рецептора D3, исследованные
нами [1], и антагонисты, известные из литературы [2–4]. Для последую-
щего анализа методом GRID—GOLPE были использованы только 40 ли-
гандов (табл. 3.1—3.3), полученных от нашего коллеги (профессора
Х. Штарка (Университет Франкфурта-на-Майне, Германия), чтобы обе-
спечить согласованность данных об их связывании.

3.1. Модель фармакофора антагонистов


D 3 рецептора
Пять антагонистов D3-рецептора были детально исследованы для выяв-
ления их биоактивной конформации (табл. 3.4). Их молекулярную
структуру можно рассматривать как композицию трех фрагментов:
основно-ароматического элемента, амидно-ароматического элемента и
ароматического или алифатического спейсера. На рис. 3.1 они пока-
заны для вещества BP897 [2]. Варианты этой структуры, а также их
константы связывания приведены в табл. 3.1.
Таблица 3.1. Антагонисты D3-рецептора с различной длиной спейсера и различными заместителями

Соединение R1 R2 n D3 pKi Соединение R1 R2 n D3 pKi


ST-63 H 4 7,59 ST-64 H 4 7,37

ST-65 H 4 8,00 ST-66 OCH3 3 6,67

ST-67 OCH3 3 6,52 ST-68 OCH3 3 6,40

ST-69 OCH3 4 8,11 ST-70 OCH3 4 8,04

ST-71 OCH3 4 8,41 ST-82 OCH3 4 8,55


ST-84 OCH3 4 7,42 ST-85 OCH3 4 7,63

ST-86 OCH3 4 7,54 ST-88 OCH3 3 6,25

ST-92 OCH3 4 7,49 ST-93 OCH3 3 6,97

ST-95 OCH3 4 8,60 ST-96 OCH3 4 9,00

ST-98 OCH3 4 8,18 ST-99 OCH3 4 8,83

(Окончание таблицы на следующей странице)


Таблица 3.1. (Окончание)
Соединение R1 R2 n D3 pKi Соединение R1 R2 n D3 pKi
ST-100 OCH3 4 8,02 ST-101 OCH3 4 8,53

ST-144 OCH3 4 8,74 ST-150 OCH3 4 7,38

ST-152 OCH3 4 8,20 ST-167 OCH3 4 9,30

ST-168 OCH3 4 9,21 ST-188 OCH3 4 9,16

ST-189 OCH3 4 8,67 ST-317 OCH3 4 7,99


Глава 3. Пример моделирования малых молекул 109

Таблица 3.2. Антагонисты D3-рецептора с различными спейсерами

Соединение R D3 pKi Соединение R D3 pKi


ST-81 7,40 ST-176 7,00

ST-177 6,12 ST-205 7,43

Таблица 3.3. Антагонисты D3-рецептора с аминотетралинами в качестве


основно-ароматических элементов

Соединение X D3 pKi Соединение X D3 pKi


ST-124 6,63 ST-125 7,32

ST-126 7,55 ST-127 7,22

ST-185 7,42

Большинство антагонистов D3-рецептора подходит под эту схему.


Тем не менее у некоторых лигандов, подобных соединению 1 (табл. 3.4),
амидные фрагменты заменены на различные группы, которые способны
быть акцепторами водородных связей. Поэтому все лиганды могут быть
110 Молекулярное моделирование

Таблица 3.4. Антагонисты D3-рецептора, использованные для построения


модели фармакофора

Соединение Структурная формула D3 pKi


1 [3] 7,59

2 [4] 9,00

ST-205 7,43

ST-84 7,42

ST-85 7,63

приближенно описаны так, как показано на рис. 3.2. Поскольку все ис-
следованные лиганды содержат одни и те же фармакофорные элементы
(например, основный атом азота, ароматические группировки, акцепто-
ры водородных связей), мы предполагаем, что они связываются похо-

Рис. 3.1. Разделение структуры


BP897 на три фрагмента: a — основно-
ароматический фрагмент, б — спейсер,
в — амидно-ароматический фрагмент
Глава 3. Пример моделирования малых молекул 111

Рис. 3.2. Общая схема антагонистов D3-рецептора

жим образом с одной и той же областью D3-рецептора. Чтобы опреде-


лить биоактивную конформацию, в которой они находятся в месте свя-
зывания, мы сконцентрировались на анализе конформационного про-
странства лигандов с жесткими фрагментами структуры.
Поскольку ни один из исследованных лигандов не является абсо-
лютно жестким, но некоторые из них конформационно ограничены, на
первом этапе мы разбили каждую из этих молекул на три фрагмента и
изучали конформационно ограниченные фрагменты по отдельности.
Выбранные фрагменты частично перекрывались для того, чтобы опреде-
лить биоактивную конформацию связывающих их частей. После опреде-
ления предполагаемых биоактивных конформаций фрагментов была за-
ново выполнена сборка структур для определения конформаций, в кото-
рых молекулы могли бы участвовать в связывании.

3.1.1. Основноароматический фрагмент


Большинство соединений выборки (табл. 3.1—3.4) обладает довольно
подвижной N-4-(2-метоксифенил)пиперазин-1-иловой группировкой,
вследствие чего циклическая система может принимать различные
энергетически выгодные конформации. Напротив, конформация соеди-
нения 2 зафиксирована, поскольку структуры эта часть содержит цик-
лическую систему без подвижных связей.
На первом этапе было детально исследовано конформационное про-
странство октагидробензохинолинового фрагмента соединения 2 с по-
мощью метода моделирования отжига (см. разд. 2.3.3): 10 раз имитиро-
вали нагрев 4-метил-1,2,3,4,4a,5,6,10b-октагидробензо[f]хинолин-7-олового
фрагмента до 2000 К и охлаждение до 0 К. Низкотемпературные кон-
формации подвергали визуальному анализу. Были обнаружены два клас-
тера очень похожих низкоэнергетических конформаций циклической
системы (рис. 3.3).
1-(2-Метоксифенил)-4-метилпиперазиновая система была наложе-
на на обе структуры, показанные на рис. 3.4, с помощью программы
FlexS [5] (см. разд. 2.5.2), которая не только учитывает стерические и
электростатические требования фрагментов в процессе наложения, но и
предлагает виртуальные точки взаимодействия, которые могут пред-
ставлять собой противоионы или принимать участие в водородных свя-
зях. На рис. 3.4 изображены наложения фенилпиперазиновой системы
на обе конформации трициклической системы соединения 2. В обоих
случаях конформация фенилпиперазина одинакова. Легко видеть, что
112 Молекулярное моделирование

Рис. 3.3. Структура октагидро-


бензохинолинового фрагмента

Рис. 3.4. Наложение 1-(2-метоксифенил)-4-метилпиперазина (атомы углерода


белые) на оба низкоэнергетических конформера 4-метил-1,2,3,4,4a,5,6,10b-
октагидробензо[f]хинолин-7-ола (атомы углерода серые) с помощью программы
FlexS. Точки виртуального взаимодействия изображены в виде оранжевых ша-
риков

различные фрагменты могут взаимодействовать с одними и теми же


предполагаемыми донорами водородной связи или образовывать анало-
гичные солевые мостики.

3.1.2. Спейсер
Спейсерные фрагменты являются наиболее гибкими в имеющемся набо-
ре, поэтому достаточно сложно понять, в какой конформации они свя-
зываются с рецептором. К счастью, соответствующие спейсеры соедине-
ний 1 и ST-205 конформационно ограничены (рис. 3.5) и потому были
детально исследованы.
На первом этапе было исследовано конформационное пространство
спейсера ST-205. Для бициклической системы было проведено модели-

Рис. 3.5. Соединения 1 и ST-205.


Выделены фрагменты, детально
исследованные при изучении кон-
формации спейсера
Глава 3. Пример моделирования малых молекул 113

Рис. 3.6. Фрагмент ST-205. Для бициклической системы возможны три кон-
формации

Рис. 3.7. Расширенный спейсер ST-205. Отмечен-


ные связи поворачивали с шагом 10°

Рис. 3.8. Фрагменты соединений 1 и ST-205. Показана конформация с наивыс-


шей оценкой FlexS

рование отжига, результатом которого явились три различных конфор-


мации, изображенные на рис. 3.6.
Затем в рассмотрение были включены соседние фрагменты молеку-
лы. Подвижные связи этих фрагментов исследовали методом система-
тического поиска (рис. 3.7).
В результате моделирования отжига для бициклической системы в
комбинации с систематическим поиском получили 992 возможные кон-
формации расширенного спейсерного фрагмента ST-205. Аналогичный
фрагмент соединения 1 накладывали на каждую из этих 992 конформа-
ций, полученные наложения ранжировали по значению оценочной
функции FlexS. Наложение, получившее лучшую оценку, предположи-
тельно соответствует конформации, в которой эти фрагменты связыва-
ются с рецептором. Эта конформация показана на рис. 3.8.
114 Молекулярное моделирование

3.1.3. Амидноароматический фрагмент


В некоторых соединениях, связывающихся с рецептором D3 с высокой
аффинностью, так называемый «амидно-ароматический фрагмент»
представлен жесткой фталимидной группировкой, поэтому опреде-
лить фармакофорную конформацию этой части лиганда достаточно
легко. Для определения фармакофорной конформации амидно-арома-
тического фрагмента антагонистов.были использованы планарные фта-
лимидные системы соединений ST-84 и ST-85.

3.1.4. Конечная модель фармакофора


После определения предпочтительной конформации всех фрагментов
лиганды были собраны заново. Окончательный фармакофор изображен
на рис. 3.9; обозначены расстояния между элементами фармакофора.
На рис. 3.10 показано наложение четырех лигандов в их предполагае-
мых биоактивных конформациях. Лиганды принимают вытянутую
конформацию. Элементы фармакофора, которые могут вступать в на-

Рис. 3.9. Модель фармакофора антагонистов D3-рецептора

Рис. 3.10. Наложение четырех лигандов в фармакофорных конформациях:


ST-127 (синий), ST-205 (желтый), ST-84 (голубой) и ST-86 (красный)
Глава 3. Пример моделирования малых молекул 115

правленные взаимодействия с рецептором, — акцепторы водородной


связи и основные атомы азота — расположены примерно в 6,5 C друг от
друга. Ароматическая область амидно-ароматического фрагмента может
быть значительно удлинена.

3.1.5. Поля молекулярных взаимодействий


Как уже упоминалось в разд. 2.5.3, распознавание молекул происходит
по характеристическим свойствам, среди которых — их ван-дер-вааль-
сов объем. Поэтому при построении наложений фармакофоров следует
не только строить наложение атомных скелетов, но также анализиро-
вать создаваемые ими поля взаимодействий.
На рис. 3.11 изображено наложение 4 высокоаффинных лигандов в
фармакофорных конформациях. Поля молекулярных взаимодействий
каждого лиганда вычислены средствами программы GRID [6] с исполь-
зованием различных пробных атомов (зондов). Во время проведения
анализа оснoвные атомы азота были протонированы для точного соответ-
ствия физиологическим условиям. Как можно видеть на рис. 3.11, б–г,
протонированные атомы азота всех лигандов могут вступать во взаимо-
действие с зондами «ионизированная алифатическая карбоксильная
группа» (рис. 3.11, в) и «sp2-NH с неподеленной парой» (рис. 3.11, б),
а также вступать в липофильные взаимодействия с зондом «sp2-CH»
(рис. 3.11, г). Во всех случаях соответствующие поля находятся в анало-
гичных областях. Описанные взаимодействия критичны для связыва-

Рис. 3.11. Лиганды ST-205 (атомы углерода желтые), ST-84 (фиолетовые),


ST-127 (оранжевые) и ST-86 (зеленые) изображены вместе с контурами полей
GRID в соответствующих цветах. a — Контуры GRID, полученные с помощью
зонда «карбонильный кислород». Контур энергии –2,5 ккал/моль. б — Контуры
GRID, полученные с помощью зонда «sp2-NH с неподеленной парой». Контур
энергии –4 ккал/моль. в — Контуры GRID, полученные с помощью зонда «ионизи-
рованная алифатическая карбоксильная группа». Контур энергии –3,5 ккал/моль.
г — Контуры GRID, полученные с помощью зонда «ароматический sp2-CH». Кон-
тур энергии –1,2 ккал/моль
116 Молекулярное моделирование

ния с рецептором. Некоторые другие выгодные взаимодействия лиган-


дов и пробных атомов возникают лишь для отдельных членов ряда. Это
поведение показано на рис. 3.11, а, изображающем взаимодействие ли-
гандов с зондом «карбонильный кислород» — акцептором водородной
связи. Только амидные фрагменты лигандов ST-127 и ST-205 могут
быть донорами водородной связи, поэтому данное взаимодействие для
них выгодно. Тем не менее, поскольку все лиганды, изображенные на
рис. 3.11, связываются с рецептором с высокой аффинностью, это взаи-
модействие кажется менее важным. Информация, полученная из полей
GRID, может быть использована для предположений о строении центра
связывания в рецепторе. В нашем случае с антагонистами D3-рецептора
скорее всего взаимодействует аминокислота — донор водородной связи,
аминокислота, образующая солевой мостик, а также липофильные ами-
нокислоты. Относительное пространственное расположение этих ами-
нокислот может соответствовать расположению соответствующих по-
лей GRID.

3.2. Анализ 3DQSAR


Для сорока антагонистов рецептора D3 (табл. 3.1—3.3) было построено
наложение фармакофорных конформаций методом FlexS. Уточнение
наложения производилось утилитой Multifit из программного пакета
SYBYL (детальное описание методологии см. в [1]). Полученное наложе-
ние 40 лигандов изображено на рис. 3.12. Затем были вычислены поля
взаимодействий GRID с использованием различных пробных атомов,
расположенных в каждом узле решетки, в которую заключены все ли-
ганды. Размер решетки был выбран таким образом, чтобы она простира-
лась примерно на 4 C от структур лигандов. Поля рассчитывались с ис-
пользованием шага решетки 1 C, в результате чего для каждого
соединения были получены 14580 значений энергии взаимодействия
лиганда и пробных атомов.

Рис. 3.12. Наложение всех антагонистов D3-рецептора в фармакофорной кон-


формации
Глава 3. Пример моделирования малых молекул 117

3.2.1. Уменьшение числа переменных


и регрессия частичных наименьших квадратов
Прежде всего в программе GOLPE с помощью главных компонент мы
проанализировали, взаимодействие с каким пробным атомом GRID луч-
ше всего описывает выборку антагонистов D3-рецептора. Было обнаруже-
но, что таким атомом является гидроксильный (OH) зонд. В связи с этим
дальнейший анализ проводили для гидроксильной модели.
Как уже говорилось в разд. 2.6.2.2, большое число переменных (т. е.
энергий взаимодействия) в дескрипторной матрице проблематично для
статистического анализа в методах многомерных проекций. Лишь не-
многие полученные значения энергии взаимодействия несут полезную
информацию, в то время как другие лишь приводят к шуму в статисти-
ческом анализе. Поэтому был проведен отбор переменных и построена
модель методом PLS в программе GOLPE [7].
Предварительная обработка данных началась с удаления тех из
14580 переменных, которые принимали только два или три значения
или имели абсолютное значение < 10–7 ккал/моль. После проведения
такого отбора остались 13556 переменных. Они были разбиты на классы
с помощью анализа главных компонент, после чего была построена
предварительная модель PLS с перекрестного контролем методом LOO.
Процедуру уменьшения числа переменных повторили несколько раз ме-
тодом D-оптимального предварительного отбора, реализованным в про-
грамме GOLPE, после чего получили модель PLS на 1682 переменных,
которая не отличалась от первой модели по качеству, контролируемому
методом LOO. Для окончательного уменьшения числа переменных и по-
строения рабочей модели был выбран метод плана факторного экспери-
мента с дробными репликами (FFD) в комбинации с интеллектуальным
определением областей (Smart Region Definition, SRD) [8]. Как уже упо-
миналось в разд. 2.6.2.2, этот метод отбора переменных позволяет эф-
фективно отбирать те из них, которые способствуют увеличению пред-
сказательной способности моделей. Валидацию окончательной модели
проводили как методом LOO, так и исключением 20% соединений. Ме-
тоды исключения группы (например, исключение 20%) приводят к бо-
лее высокой надежности модели, чем обычная процедура LOO.

å (yobs - ycalc ) ,
2
R2 = 1- (1)
å (yobs - ymean )
2

(yobs - ycalc )2
SDEC = å N
, (2)

å (yobs - y pred )
2
2
Q = 1- (3)
å (yobs - ymean )
2
118 Молекулярное моделирование

Таблица 3.5. Модели PLS (три главные компоненты)


Число Метод Метод
R2 SDEC Q2 SDEP
переменных отбора валидации
13665 — 0,9545 0,1863 0,7041 0,4753 LOO
6728 D-опти- 0,9545 0,1863 0,7041 0,4753 LOO
мальный
3364 D-опти- 0,9545 0,1863 0,7041 0,4753 LOO
мальный
1682 D-опти- 0,9545 0,1683 0,7044 0,4751 LOO
мальный
799 SRD—FFD 0,9673 0,1580 0,8743 0,3098 LOO
799 SRD—FFD 0,9673 0,1580 0,8549 0,3328 «исключе-
ние 20%»

(yobs - y pred )
2

SDEP = å N
(4)

где: yobs — экспериментальное значение; ycalc — расчетное значение;


ypred — предсказанное значение; ymean — среднее значение; N — число
объектов.
Результаты анализа 3D-QSAR представлены в табл. 3.5. Методы LOO
и исключения 20% дают высокие значения Q2, что свидетельствует о
надежности и внутренней предсказательной способности модели. Для
построения моделей были использованы три главных компоненты.
Качество моделей описывается такими характеристиками, как число
переменных, значения коэффициента корреляции R2 (уравнение (1)),
стандартной ошибки коррекции SDEC (Standard Error of Correction)
(уравнение (2)), коэффициента корреляции перекрестного контроля Q2
(уравнение (3)) и стандартной ошибки прогноза SDEP (уравнение (4)).
На рис. 3.13 изображена корреляция между предсказанными и экспери-
ментально определенными значениями pKi для окончательной модели
после перекрестного контроля методом LOO.

3.2.2. Валидация модели


На следующем этапе была проверена правильность выбора метода
3D-QSAR. Как говорилось в разд. 2.6, обработка больших объемов дан-
ных статистическими методами может привести к случайной корреля-
ции. Для того чтобы убедиться в неслучайности корреляции, была про-
ведена проверка методом перемешивания: значения констант связыва-
ния были перемешаны и отнесены к лигандам случайным образом. Для
этой системы была построена модель PLS и проведена процедура умень-
Глава 3. Пример моделирования малых молекул 119

Рис. 3.13. Модель PLS после перекрестного контроля методом LOO

шения числа переменных способом, описанным выше. Итоговая модель


была подвергнута перекрестному контролю методом LOO. Процедуру
перемешивания и построения модели повторили 10 раз. Характерис-
тики полученных моделей приведены в табл. 3.6.

Таблица 3.6. Модели, построенные после перемешивания значений констант


связывания

Модель R2 SDEC Q2 SDEP


1 0,7449 0,4413 –0,4612 1,0562
2 0,7871 0,4032 0,1757 0,7923
3 0,7874 0,4028 0,2367 0,7634
4 0,8521 0,3360 0,3356 0,7122
5 0,8066 0,3843 0,2233 0,7700
6 0,8719 0,3129 0,3979 0,6780
7 0,7481 0,4385 –0,4564 1,0545
8 0,8176 0,3732 –0,2714 0,9852
9 0,9128 0,2581 –0,1091 0,9202
10 0,8010 0,3898 –0,0810 0,9085
120 Молекулярное моделирование

Интересно, что для каждой модели получены достаточно высокие


значения коэффициента корреляции, но ни одна из них не проходит пе-
рекрестный контроль: значения Q2 лежат в диапазоне от –0,4564 до
0,3979. Значения SDEC и SDEP также высоки по сравнению с исходной
моделью. Такие результаты означают, что этим методом можно строить
хорошие модели только для соединений с правильными значениями кон-
стант связывания.

3.2.3. Прогноз для внешней выборки лигандов


На последней стадии необходимо проверить предсказательную способ-
ность модели на лигандах, не использованных для ее построения
(табл. 3.7). Для 12 лигандов, синтезированных и испытанных в тех же
лабораториях, что и лиганды обучающей выборки [9–11], было проведе-
но предсказание значений констант связывания и сравнение их с реаль-
ными величинами. Поскольку эти соединения были синтезированы и
испытаны позже и не были использованы при построении модели, они

Таблица 3.7. Структуры лигандов внешней контрольной выборки


Предсказан- Наблюдае-
Соединение Структурная формула ное зна- мое зна-
чение pKi чение pKi
ST-73 7,33 6,62

ST-75 7,10 6,66

ST-76 7,32 6,71

ST-78 7,02 6,39


Предсказан- Наблюдае-
Соединение Структурная формула ное зна- мое зна-
чение pKi чение pKi
ST-87 7,91 7,62

ST-104 8,04 8,69

ST-106 7,57 7,12

ST-109 7,70 6,97

ST-111 7,32 6,75

ST-115 7,59 7,13

ST-128 7,50 7,66

ST-129 8,10 8,55


122 Молекулярное моделирование

представляют собой истинно внешнюю контрольную выборку. Хими-


ческие структуры этих соединений приведены в табл. 3.7.
Для прогноза на внешней выборке значение SDEP составляет 0,57.
Обычно pKi находится в пределах ±0,5 от экспериментальных значе-
ний, поэтому в данном случае мы получили разумный результат. Как
часто бывает при предсказании для внешней выборки с помощью моде-
лей 3D-QSAR, разница между истинными и предсказанными значения-
ми максимальна для наиболее и наименее активных соединений: для
наиболее активных антагонистов прогноз занижает активность, а для
наименее активных — завышает ее.

Цитированная литература
1. Hackling, A., Ghosh, R., Perachon, S. et al. (2003) N-(omega-(4-(2-methoxy-
phenyl)piperazin-1-yl)alkyl)carboxamides as dopamine D2 and D3 receptor li-
gands. Journal of Medicinal Chemistry, 46, 3883–99.
2. Pilla, M., Perachon, S., Sautel, F. et al. (1999) Selective inhibition of cocaine-
seeking behaviour by a partial dopamine D3 receptor agonist. Nature, 400,
371–75.
3. Moore, K. W., Bonner, K., Jones, E. A. et al. (1999) 4-N-linked-heterocyclic pi-
peridine derivatives with high affinity and selectivity for human dopamine D4
receptors. Bioorganic & Medicinal Chemistry Letters, 9, 1285–90.
4. Avenell, K. Y., Boyfield, I., Coldwell, M. C. et al. (1998) Fused aminotetralins:
novel antagonists with high selectivity for the dopamine D3 receptor. Bioorganic
& Medicinal Chemistry Letters, 8, 2859–64.
5. Lemmen, C., Lengauer, T., and Klebe, G. (1998) FLEXS: a method for fast flexi-
ble ligand superposition. Journal of Medicinal Chemistry, 41, 4502–20.
6. GRID, Molecular Discovery Ltd., London, http://www.moldiscovery.com.
7. GOLPE, Multivariate Infometric Analysis, Perugia,
http://www.miasrl.com/golpe.htm.
8. Cruciani, G., Clementi, S., and Pastor, M. (1998) GOLPE-guided region selec-
tion. Perspectives in Drug Discovery and Design, 12, 71–86.
9. Mach, U., Hackling, A. E., Perachon, S. et al. (2004) Development of novel
1,2,3,A-tetrahydroisoquiniline derivatives and closely related compounds as po-
tent and selective dopamine D3 receptor ligands. Chembiochem, 5, 508–18.
10. Hackling, A. E. and Stark, H. (2002) Dopamine D3 receptor ligands with antago-
nist properties. Chembiochem, 3, 946–61.
11. Ghosh, R. (2002) Molecular Modelling Untersuchungen am Dоpamin D3
Rezeptor and Seinen Liganden, Ph. D. Thesis, Heinrich-Heine-University
Dusseldorf, Germany.
Моделирование белков.
4
Введение

4.1. Где и как получить информацию о белках


Вплоть до этой главы мы рассматривали малые молекулы; далее книга
будет посвящена биополимерам. Поскольку большинство известных ре-
цепторов и молекулярных мишеней представляют собой полипептиды,
мы будем обсуждать преимущественно моделирование белковых
структур.
Достоверность каждой модели сильно зависит от качества экспери-
ментальных данных, на которых базируется процедура построения ги-
потетической модели. Поэтому первым этапом построения модели всег-
да должно быть внимательное изучение литературных данных и баз дан-
ных и четкое уяснение уровня знаний о структуре исследуемого
биополимера. Весьма ценной, например, может быть информация о пол-
ной трехмерной структуре рецептора или фермента, полученная методом
РСА или ЯМР. После соответствующей обработки такая структура
может быть непосредственно использована для определения различных
свойств белка или исследования лиганд-белковых взаимодействий.
Число исследованных трехмерных структур белков быстро увеличива-
ется, но скорость накопления данных об аминокислотных последова-
тельностях значительно выше, и именно поэтому для подавляющего
большинства последовательностей трехмерная структура неизвестна.
С начала 1990-х гг. многие лаборатории проводят полный анализ ге-
номов таких организмов, как бактерии, дрожжи, мыши и человек. Бла-
годаря этим усилиям в общедоступных базах данных хранится огромное
количество информации. Главной задачей этих баз данных является не
столько хранение и поиск информации, сколько предоставление иссле-
дователям возможности сравнения нуклеотидных или аминокислотных
последовательностей для выявления подобий и различий. Поскольку
количество опубликованных последовательноcтей и объем информации
о структурах быстро увеличиваются, эффективный поиск может быть
выполнен лишь с использованием специализированного программного
обеспечения. К настоящему времени разработаны и внедрены различ-
ные алгоритмы взаимодействия графических пользовательских интер-
124 Молекулярное моделирование

фейсов с имеющимися базами данных, благодаря которым сравнение


вновь обнаруженной последовательности с имеющимися в базе может
быть проведено за считанные минуты. Тем не менее всегда очень важно
внимательно анализировать результаты и в случае необходимости изме-
нять критерии поиска по базе. С помощью программ анализа последова-
тельностей можно быстро определять различия между белками разных
биологических видов, а также белками здорового и больного индивиду-
умов. Одна из широко известных программ такого рода GCG [1] разрабо-
тана Генетической компьютерной группой из Висконсина (Genetic
Computer Group) и включена в программный пакет фирмы Accelrys [2].
Эта программа позволяет работать с несколькими базами данных, кото-
рые могут быть использованы для поиска структуры индивидуального
белка или ДНК. Настройка критериев поиска производится с помощью
ключевых слов (например, имен авторов, названий журналов или
семейств белков).
Многие базы нуклеотидных и белковых последовательностей под-
держиваются научным сообществом и доступны через интернет. База
нуклеотидных последовательностей Европейской лаборатории молеку-
лярной биологии (European Molecular Biology Laboratory, EMBL) [3],
также известная как EMBL-банк, представляет собой основное европей-
ское хранилище нуклеотидных последовательностей, которое создается
в сотрудничестве с GenBank (США) и Базой данных ДНК Японии (DNA
Database of Japan, DDBJ). Каждая из этих трех групп собирает часть
публикуемых во всем мире данных о последовательностях; обмен данны-
ми производится ежедневно. Главными источниками знаний о последо-
вательностях нуклеиновых кислот являются данные отдельных исследо-
вателей, проектов по секвенированию генома и заявок на патенты.
Центральное хранилище данных о последовательностях и функци-
ях белков — база данных Универсального белкового ресурса (Universal
Protein Resource, UniProt, http://www.uniprot.org) [4]. В ней содержат-
ся точно аннотированные белковые последовательности; бесплатно дос-
тупен для научного сообщества широкий спектр перекрестных ссылок и
интерфейсов запроса. База Uniprot поддерживается консорциумом, со-
стоящим из Европейского института биоинформатики (European Bio-
informatics Institute, EBI), Швейцарского института биоинформатики
(Swiss Institute of Bioinformatics, SBI) и Ресурса белковой информации
(Protein Information Resource, PIR). Каждый член консорциума многие
годы занимается поддержкой и аннотацией белковых баз данных: EBI и
SBI совместно создали базу Swiss-Prot & TrEMBL (Swiss-Protein and
Translated European Molecular Biology Laboratory), а PIR создал базу
белковых последовательностей (Protein Sequence Database, PIR-PSD) [5, 6].
Ранее эти базы существовали параллельно, различаясь количеством
белковых последовательностей и приоритетами в аннотации. Swiss-Prot
считалась «золотым стандартом» аннотации, поскольку имела всеох-
ватную сеть перекрестных ссылок, содержала ссылки на литературу и
результаты компьютерного анализа, проведенного экспертами. По-
скольку скорость накопления экспериментальных данных превышала
Глава 4. Моделирование белков. Введение 125

возможности экспертов Swiss-Prot, была создана база TrEMBL на основе


банка EMBL, в которую автоматически помещались аннотации для бел-
ков, не вошедших в Swiss-Prot. В то же время PIR занимался поддер-
жкой PIR-PSD и сопряженных баз, таких как база особо важных белко-
вых семейств (curated families). Впоследствии членами консорциума
было принято решение об объединении данных и совместном использо-
вании ресурсов.
Наиболее важной базой данных о трехмерных структурах макромо-
лекул является Банк белковых данных (Protein Data Bank, PDB) [7], до-
ступный через интернет (http://www.rcsb.org). В нем содержатся атом-
ные координаты структур белков и нуклеиновых кислот. Поскольку чис-
ло экспериментально определенных структур постоянно увеличивается,
база данных непрерывно обновляется (примерно 41 000 структур в конце
2006 г.)1. В ней возможен поиск информации по ключевым словам, та-
ким как имя автора, название журнала или часть последовательности.
На основе PDB были созданы несколько меньших структурных баз
данных, например HSSP (Homology-Derived Secondary Structure of
Protein) [8] и SCOP (Structural Classification Of Proteins) [9]. В HSSP на-
ходится информация о вторичной структуре белков, полученная путем
исследования гомологии между структурами из PDB и последователь-
ностями из Swiss-Prot. В базе SCOP упорядочены все известные структу-
ры белков на основе их эволюционных и структурных взаимоотноше-
ний; белковые домены группируются по видам и иерархически разделя-
ются на семейства, суперсемейства, укладки (folds) и классы.
Формат и организация информации в различных файлах структур-
ных данных имеют общие черты. Поскольку весьма широко использует-
ся формат PDB, мы кратко опишем этот стандартный формат файла дан-
ных о белке. Заголовок файла содержит общую информацию о белке; по-
сле заголовка следует информация об атомных координатах. Атомы,
относящиеся к стандартным аминокислотам, помечены в начале строки
ключевым словом ATOM; для различения индивидуальных белковых
цепей между блоками ATOM вводят ключевое слово TER. При чтении
файла программой моделирования связи между атомами типа ATOM
обычно достраиваются автоматически. Атомы, не относящиеся к стан-
дартным аминокислотам, помечаются ключевым словом HETATM; они
могут относиться к нестандартным аминокислотам или в случае ком-
плексов к молекуле лиганда или кофактора. Для этих молекул нет внут-
ренних стандартов связности, поэтому в конец файла добавляется мат-
рица связности, помеченная ключевым словом CONECT.
При чтении PDB-файла стандартными программами моделирова-
ния определение типов атомов в блоке HETATM зачастую происходит
некорректно. Следует уделять особое внимание правильному построе-
нию этого блока. Многие программы предлагают возможность автома-
тического определения типов атомов, но пользователь должен осозна-
вать, что эта процедура часто приводит к ошибочным молекулярным
1
По состоянию на ноябрь 2011 г. — 77 000 структур.
126 Молекулярное моделирование

структурам. Поэтому необходимо внимательно проверять структуры во


избежание ошибок, приводящих к неверной геометрии лигандов (эта
проблема обсуждалась в разделе 2.1.2).
Обычно структуры из PDB не содержат атомов водорода. В некото-
рых исследованиях ими можно пренебречь, однако при изучении ли-
ганд-белковых взаимодействий добавлять атомы водорода необходимо.
Для молекул лиганда также необходимо проверять правильность опре-
деления состояния гибридизации (тип атома) и протонирования (фор-
мальный заряд), в особенности в случае кислых и основных молекул.
Координаты атомов водорода также по умолчанию неизвестны для
молекул воды, вследствие чего они представлены в виде одиночных ато-
мов кислорода. Молекулы воды могут представлять собой кристаллиза-
ционную воду, находящуюся рядом с поверхностью белка, либо нахо-
диться в активном центре. В последнем случае имеет смысл использо-
вать их координаты в дальнейших исследованиях, поскольку они могут
быть так же критичны для конфигурации активного центра, как и кати-
оны, встречающиеся в кристаллической структуре, которые могут иг-
рать важную роль в связывании лиганда или ферментативной активнос-
ти, если они находятся в активном центре.
Подавляющее большинство программ моделирования могут без ка-
ких-либо проблем читать файлы данных, полученные непосредственно
из PDB, и трансформировать структурную информацию в трехмерное
изображение белка. Тем не менее при использовании эксперименталь-
ной информации стоит уделить внимание некоторым вещам.
Разрешение кристаллической структуры должно быть не хуже
2,5 C, иначе структурная информация не слишком надежна. Процесс
очистки белка — сложная задача, требующая больших временных за-
трат, и может случиться так, что из-за протеолитической активности
часть информации потеряется до того, как закончится процесс кристал-
лизации. Как следствие, иногда аминокислотные остатки могут отсут-
ствовать в структурном файле, что приводит к неполноте содержащейся
в нем информации.
Некоторые белки выполняют свою биологическую функцию только
в димерной или мультимерной форме. Нет никакого смысла исследо-
вать функциональность активного центра димерного белка, если в PDB-
файле присутствует лишь структура мономера. Новая версия интернет-
сайта PDB содержит информацию о биологической единице (biological
unit) и кристаллической форме каждой записи, позволяющую восстано-
вить структуру мультимера по структуре мономера.
С недавних пор метод ядерного магнитного резонанса (ЯМР) широко
используется для получения структурной информации о белках. Этот
метод особенно плодотворен в тех случаях, когда потерпели неудачу все
попытки вырастить достаточно большие кристаллы белка; дополни-
тельное преимущество метода ЯМР заключается в том, что на конфор-
мацию белка не оказывают влияния молекулы кристаллического окру-
жения. Поскольку исследование структуры этим методом проводится в
растворе, результаты сильно зависят от растворителя. Эксперименты в
Глава 4. Моделирование белков. Введение 127

неполярных растворителях приводят к переоценке роли водородных


связей, поэтому исследование водных растворов белков дает более реа-
листичную картину структуры белка.
Объем информации о белках очень велик и постоянно увеличивает-
ся, но до сих пор большинство доступных баз данных содержат инфор-
мацию о первичных структурах. Для того чтобы построить трехмерную
модель белка с помощью этих данных, необходимо использовать методы
выравнивания и моделирования белков по гомологии. Их подробное
обсуждение будет дано в разд. 4.3.

Цитированная литература
1. Devereux, J., Haeberli, P. and Smithies, O. (1984) A comprehensive set of se-
quence analysis programs for the VAX. Nucleic Acids Research, 12, 387–95.
2. Genetics Computer Group (GCG), Accelrys Inc., San Diego.
http://www.accelrys.com.
3. Emmert, D. B., Stoehr, P. J., Stoesser, G. and Cameron, G. N. (2994) The Euro-
pean Bioinformatics Institute (EВI) databases. Nucleic Acids Research, 22,
3445–49.
4. Bairoch, A., Apweiler, R., Wu, C. H. et al. (2005) The universal protein resource
(UniProt). Nucleic Acids Research, 33, D154–59.
5. Bairoch, A. and Boeckmann, B. (1994) The SWISS-PROT protein sequence data
bank: current status. Nucleic Acids Research, 22, 3578–80.
6. George, D. G., Barker, W. C., Mewes, H.-W. et al. (1994) The PIR-international
protein sequence database. Nucleic Acids Research, 22, 3569–73.
7. Berman, H. M., Westbrook, J., Feng, Z. et al. (2000) The Protein Data Bank. Nu-
cleic Acids Research, 28, 235–42.
8. Sander, C, and Schneider, R. (1994) The HSSP database of protein structure-se-
quence alignments. Nucleic Acids Research, 22, 3597–99.
9. Lo Conte, L., Brenner, S. E., Hubbard, T. J. P. et al. (2002) SCOP database in 2002: re-
finements accommodate structural genomics. Nucleic Acids Research, 30, 264–67.

4.2. Принципы организации структуры белков.


Терминология
Выделяют четыре уровня организации трехмерной структуры белков:
первичную, вторичную, третичную и четвертичную структуру.
1. Первичная структура — это линейная последовательность амино-
кислотных остатков в белке.
2. Вторичная структура описывает локальную архитектуру линей-
ных сегментов полипептидной цепи (a-спиралей, b-листов) без учета
конформаций боковых цепей. Недавно был предложен новый тер-
мин «мотив» (супервторичная структура), описывающий другой
уровень организации: ассоциацию элементов вторичной структуры
благодаря взаимодействиям боковых цепей.
128 Молекулярное моделирование

3. Третичная структура — общая топология свернутой полипептид-


ной цепи.
4. Четвертичная структура — пространственная (трехмерная) упа-
ковка субъединиц или мономеров в функциональном белке.
Благодаря способности полипептидных цепей укладываться в функ-
циональные белки не только in vivo, но и in vitro, в настоящее время
считается, что большинство особенностей структуры и организации
конкретного белка напрямую зависит от свойств конкретной последова-
тельности аминокислот, составляющих полипептидную цепь, т. е. от
первичной структуры. Среди этих свойств — свойства боковых цепей
каждого аминокислотного остатка и влияние основной цепи на конфор-
мацию белковой молекулы в целом. Эта информация достаточна для по-
нимания трехмерной структуры белка. Детальное описание всех факто-
ров, влияющих на конформацию белка, выходит за рамки данного
раздела; основные характеристики изложены в следующих главах.
Подробное описание принципов строения белка читатель может найти в
литературе [1–4].

4.2.1. Конформационные свойства белков


В природных белках чаще всего встречаются всего лишь 20 аминокис-
лот. Они заметно различаются по таким свойствам своих боковых це-
пей, как размер, форма, гидрофобность, заряд, способность к образова-
нию водородных связей. Однако они не обладают ни высокой реакцион-
ной способностью, ни, за исключением пролина, значительными
ограничениями степеней свободы. При рассмотрении пространственной
структуры белков наиболее важным является вопрос о том, как боковые
цепи взаимодействуют друг с другом и с основной цепью, какую роль
они играют в различных типах вторичных и третичных структур белка.
Кроме линейной связности и стерического объема остатков, определяю-
щее влияние аминокислотной последовательности белка на его конфор-
мационные свойства проявляется за счет способности остатков образо-
вывать водородные связи, а также благодаря хиральности всех, за ис-
ключением глицина, аминокислотных остатков. Все 19 хиральных
аминокислот относятся к L-ряду; по системе Кана-Ингольда-Прелога
они обладают S-конфигурацией, за исключением L-цистеина, R-конфи-
гурация которого определяется изменением в приоритете заместителей.
Для понимания информации о конкретных белках необходимо
знать способы обозначения индивидуальных атомов и структурных эле-
ментов белка. Все атомы, углы между связями и торсионные углы обо-
значаются с помощью букв греческого алфавита. Первый атом углерода
от пептидной связи обозначается буквой a, а атомы боковой цепи — b, g,
d, e и z в алфавитном порядке, начиная с a-атома. Белковая цепь состав-
лена из повторяющихся последовательностей трех атомов, относящих-
ся к одному аминокислотному остатку — амидного азота N, атома Ca и
карбонильного углерода C¢; обычно эти атомы обозначают как Ni, Cia и
Глава 4. Моделирование белков. Введение 129

Рис. 4.2.1. Обозначение атомов и торсионных


углов белка

Ci¢ соответственно, где i — это номер остатка, начиная с N-конца белко-


вой цепи. На рис. 4.2.1 приведен фрагмент полипептидной цепи, иллюс-
трирующий основные соглашения об обозначениях.
Торсионные углы белковой цепи называются j («фи»), y («пси») и
w («омега»). Вращение вокруг связи N—Ca характеризуется торсион-
ным углом j, вращение вокруг связи Ca—C¢ — углом y, а вращение вок-
руг пептидной связи — углом w. Торсионные углы боковых цепей обо-
значаются cj («хи1», «хи2» и т. д.), где j — номер связи, отсчитываемый
от Ca-атома.
Пептидная связь обычно планарна, поскольку имеет частично при-
роду двойной связи и почти всегда транс-конфигурацию (w = 180°), ко-
торая энергетически более благоприятна, чем цис- (w = 0°). Цис-конфи-
гурация иногда (~10% случаев) встречается у остатков пролина. Неболь-
шие отклонения от планарности цис- или транс-формы (Dw < 20°)
считаются энергетически приемлемыми.
Вариации углов j и y геометрически ограничены из-за взаимодей-
ствий с соседними непосредственно не связанными атомами. Разрешен-
ные значения j и y были впервые определены и проанализированы Ра-
мачандраном с сотр. [5]. Они систематически исследовали торсионные
углы в компьютерных моделях небольших пептидов, пытаясь выявить
стабильные конформации. Для каждой конформации, характеризую-
щейся определенной комбинацией значений j и y, искали близкие меж-
атомные контакты. Была использована достаточно грубая модель, в ко-
торой атомы рассматривались как жесткие сферы, а геометрия связей
была фиксирована. Только те значения j и y, для которых в этой модели
не было обнаружено близких контактов, считаются разрешенными;
обычно их представляют в виде двумерной карты, называемой картой
Рамачандрана. Поскольку углы j и y позволяют практически исчерпы-
вающе описать конформацию основной цепи, карта Рамачандрана явля-
ется простым и надежным способом проверки достоверности трехмер-
ной структуры белка.
130 Молекулярное моделирование

Рис. 4.2.2. Карта Рамачан-


драна для полиаланина

На рис. 4.2.2 в качестве примера приведена карта Рамачандрана для


полиаланина. Бoльшая часть карты (белый цвет) относится к конфор-
мациям, где атомы полипептидной цепи расположены на расстояниях
меньших, чем сумма ван-дер-ваальсовых радиусов. Эти области стери-
чески запрещены для всех аминокислот, за исключением глицина. Для
глицина, у которого нет боковой цепи, доступна почти вся поверхность
карты. Затененные области относятся к конформациям, для которых
нет стерических препятствий, иными словами, это разрешенные области.
Область, расположенная непосредственно рядом с границами разрешен-
ной, включает конформации, приемлемые в случае, если допустимы не-
большие вариации углов между связями. Карты Рамачандрана для дру-
гих аминокислот имеют сходную форму областей.
Подобласти (j, y)-пространства обычно называют по элементам вто-
ричной структуры, которые возникают при повторении соответствую-
щих углов. Например, правозакрученной a-спирали отвечает область
внизу слева около (–60°, –40°); b-листам — обширная область слева
вверху вокруг (–120°, 140°); энергетически невыгодным левозакручен-
ным a-спиралям — область справа вверху (60°, 40°). Далее мы опишем
конформационные свойства и другие важные параметры элементов вто-
ричной структуры.

4.2.2. Элементы вторичной структуры белков


4.2.2.1. aСпираль
Правая a-спираль — наиболее известный и легко узнаваемый элемент
вторичной структуры белков [6, 7]. Примерно 35% аминокислотных
остатков известных глобулярных белков находятся в a-спиральной кон-
формации [8]. a-Спирали характеризуются повторяющейся вторичной
Глава 4. Моделирование белков. Введение 131

структурой, что означает, что все Ca-атомы аминокислот a-спиралей на-


ходятся в идентичных относительных позициях и поэтому пары торси-
онных углов (j, y) одинаковы для каждого остатка спирали. Структура
a-спирали повторяется каждые 5,4 C вдоль оси спирали, то есть шаг
a-спирали p = 5,4 C. На виток a-спирали приходится 3,6 аминокислот-
ных остатка, то есть 10 витков спирали состоят из 36 аминокислотных
остатков.
a-Спиральная структура стабилизируется повторяющимися водо-
родными связями между карбонильными функциями остатков с номе-
ром n и амидными NH остатков с номером (n + 4) (см. рис. 4.2.3), благо-
даря чему данное конформационное состояние энергетически выгодно и
отличается регулярностью структуры. В белках всегда наблюдаются
правозакрученные a-спирали, поскольку L-аминокислоты не могут
формировать обширные левозакрученные спирали, в которых Cb-атомы
контактировали бы со следующим витком спирали. Найдены лишь
отдельные остатки, которые обладают парами торсионных углов (j, y),
характерными для левых спиралей. Поэтому, говоря об a-спирали, мы
обычно имеем в виду правую a-спираль.
В природных белках геометрия a-спирали может немного отличаться
от идеала в зависимости от окружения. Идеальная a-спираль (j = –57°,
y = –47°) — лишь один из представителей семейства схожих структур
[6]. Более того, обычно в белках наблюдается несколько иная геометрия
a-спирали (j = –62°, y = –41°); эта конформация более выгодна, чем иде-
альная a-спираль, поскольку она позволяет карбонильному кислороду
остатка n образовывать водородные связи не только с NH-группой
(n + 4)-го остатка, но и с водой или другими донорами водородной связи.
Боковые цепи a-спирали направлены в окружающее пространство.
Существуют различные ограничения на их конформации, в особенности

Рис. 4.2.3. Общая архитектура a-спирали


132 Молекулярное моделирование

для разветвленных боковых цепей (Val, Ile, Thr). a-Спиральная конфор-


мация неприемлема для остатков пролина, поскольку амидный азот
входит в состав цикла, что не позволяет ему выступать в качестве донора
при образовании водородной связи. Если одиночный остаток пролина
входит в длинную a-спираль (например, в некоторые трансмембранные
спирали бактериородопсина), возникает локальное нарушение геомет-
рии спирали.
Варианты классической a-спирали, в которой основная цепь белка
свернута более плотно или менее плотно (с водородными связями от
остатка n к остаткам (n + 3) или (n + 5)), называются, соответственно,
310-спиралью и p-спиралью. В большинстве случаев эти типы спиралей
не играют определяющую роль в архитектуре белков. Последний виток
классических a-спиралей часто представляет собой 310-спираль.
4.2.2.2. bЛист
b-Лист — это второй часто встречающийся и легко распознаваемый пе-
риодический элемент вторичной структуры [9, 10]. b-Листы состоят из
b-цепей (b-strands), характеризующихся линейной (развернутой) кон-
формацией полипептидной цепи (j = –120°, y = 140°). Поскольку взаи-
модействия между аминокислотами одной и той же b-цепи, если эти
аминокислоты не соседи, невозможны, она устойчива только во вто-
ричной структуре b-листа. Как и в случае a-спиралей, все доноры и ак-
цепторы белковой цепи участвуют в образовании водородных связей;
тем не менее, поскольку эти водородные связи ближе к межмолекуляр-
ным, чем к внутримолекулярным, b-листы менее устойчивы по сравне-
нию с a-спиралями. В отличие от a-спиралей, составленных из амино-
кислотных цепей, b-листы оказывают значительно большее упорядо-
чивающее влияние на структуру белковой молекулы, поскольку
несколько b-цепей распределены вдоль полипептидной цепи.
Соседние b-цепи могут быть расположены параллельно или антипа-
раллельно друг другу. В параллельных листах цепи направлены в одну
и ту же сторону (рис. 4.2.4, а), а в антипараллельных — в противопо-
ложные (рис. 4.2.4, б).
В b-листах боковые цепи располагаются приблизительно перпенди-
кулярно плоскости водородных связей между отдельными цепями;
вдоль цепи их направление чередуется. В случае антипараллельных
b-листов обычно одна сторона листа направлена внутрь белка, а дру-
гая — в сторону растворителя, поскольку в первичной структуре череду-
ются гидрофобные и гидрофильные остатки. Обе стороны параллельных
b-листов обычно находятся внутри белка, поэтому центральные остатки
преимущественно гидрофобны, а гидрофильные расположены главным
образом на концах b-цепей. В обоих случаях крайние цепи могут быть
значительно более гидрофильны, чем центральные.
Структура b-листа широко распространена в глобулярных белках
(около 24%) [8]. Они могут состоять как исключительно из параллель-
Глава 4. Моделирование белков. Введение 133

Рис. 4.2.4. Архитектура параллельных (а) и антипараллельных (б) b-листов

ных или антипараллельных листов, так и из их смеси. Чисто параллель-


ные листы довольно редки, в то время как чисто антипараллельные
встречаются довольно часто; они могут состоять из двух или трех цепей,
в то время как параллельные листы состоят минимум из четырех. Число
цепей в листах смешанного типа — от 3 до 15.
В большинстве случаев периодические структурные элементы белка
(a-спирали и b-листы) довольно коротки. Длина a-спирали обычно со-
ставляет 10–15 остатков (12–22 C), а одиночная b-цепь обычно состоит
из 3–10 остатков (7–30 C). Большинство описанных выше идеальных
геометрий спиралей и листов редко встречаются в природе. Реальные
листы и спирали более или менее искривлены: очень часто при контакте
a-спирали с растворителем происходит искривление оси спирали; боль-
шинство b-листов в свернутых белках не планарны, а слегка скручены,
угол скручивания между отдельными цепями может быть от 0° до 30°.

4.2.2.3. Петли
Приблизительно треть аминокислотных остатков глобулярных белков
находится в петлях (turns). Структурная функция петель — изменять и
разворачивать направление полипептидной цепи. Зачастую они нахо-
134 Молекулярное моделирование

дятся на поверхности белка и поэтому преимущественно содержат иони-


зированные (заряженные) и полярные аминокислотные остатки.
Существуют различные типы упорядоченных и неупорядоченных бел-
ковых петель. Их характерные особенности зависят, например, от типа
вторичных структур, которые они соединяют. Детальное описание раз-
личных типов петель читатель может найти в литературе [1–4, 11, 12].
Петли, соединяющие антипараллельные b-цепи, обычно называют
b-петлями или шпильками (hairpin bends) [12]. Около 70% шпилек ко-
роче семи остатков; чаще всего они состоят из двух остатков. Конформа-
ция бoльших петель отличается значительно меньшей определенностью
и часто подвергается влиянию со стороны остальной части белка. Во
всех петлях пептидные фрагменты не спарены регулярными водородны-
ми связями и доступны для растворителя, поскольку петли и шпильки
часто встречаются на поверхности белка.
В данном разделе описаны лишь самые общие правила организации
белковой архитектуры. Каждый природный белок уникален и приобре-
тает свой функциональный и структурный характер благодаря специ-
фичным нековалентным взаимодействиям. Поэтому необходимо срав-
нивать любую структуру, построенную с помощью компьютера, с реаль-
ными трехмерными структурами белков и использовать в процессе
моделирования как можно больше информации о реальных белковых
структурах.
Схемы мотивов вторичной структуры сложного белка весьма полез-
ны для понимания его общей структуры. Обычно при таком изображе-
нии белка опускают боковые цепи для того, чтобы получить более чет-
кую картину различных элементов вторичной структуры белка в целом.
Спирали часто изображают в виде цилиндров или свернутых лент, а
b-цепи — с помощью толстых стрелок, направленных от аминоконца
цепи к С-концу. Трехмерная структура триозофосфатизомеразы пред-
ставлена на рис. 4.2.5.

Рис. 4.2.5. Трехмерная струк-


тура триозофосфатизомеразы,
представленная в упрощенной
форме с использованием про-
граммы MOLSCRIPT [13]
Глава 4. Моделирование белков. Введение 135

4.2.3. Гомологичные белки


Давно известно, что мутационный механизм молекулярной эволюции
приводит к дивергенции и, как следствие, появлению семейств род-
ственных белков с похожими аминокислотными последовательностями
и трехмерными структурами. Белки, произошедшие от общего предка,
называют гомологичными. Две гомологичных последовательности мо-
гут обладать разной степенью подобия: от почти полной идентичности
до полной непохожести друг на друга вследствие большого количества
мутаций. Подобие последовательностей гомологичных белков в ходе
эволюции сохраняется хуже, чем структурное подобие. Другими слова-
ми, трехмерные структуры гомологичных белков консервативны, по-
скольку структурное подобие критично для сохранения функции белка.
Консервативность структуры белка была обнаружена во многих белко-
вых семействах. В качестве примера можно привести структуры a-хи-
мотрипсина и трипсина — оба относятся к семейству сериновых проте-
аз. Они очень похожи друг на друга, хотя лишь 44% аминокислотных
остатков в обеих последовательностях идентичны. Топологическое по-
добие этих белков легко видеть на рис. 4.2.6. Другие представители се-
мейства сериновых протеаз изменились в ходе эволюции более ради-
кально: например, бактериальные сериновые протеазы идентичны
протеазам млекопитающих (тромбину, трипсину, химотрипсину) лишь
на 20%. Тем не менее, если рассматривать подобие трехмерных струк-
тур, можно увидеть, что основные особенности структуры сохраняются
в ходе эволюции.
Вдумчивый исследователь может сразу задаться вопросом: как
столь большие различия первичных последовательностей могут быть со-
вместимы с наблюдаемым структурным подобием? Ответ на этот вопрос
был найден опытным путем и может быть кратко обобщен следующим
образом. Наиболее заметные различия обычно возникают в областях,
близких к поверхности белка, в районе петель. В этих областях часто
меняются даже физико-химические свойства боковых цепей. Остатки,

Рис. 4.2.6. Трехмерные структуры двух гомологичных белков (красным цве-


том изображены a-спирали, синим — b-цепи, желтым — основная цепь белка)
136 Молекулярное моделирование

расположенные внутри белка, варьируются реже и менее широко, вслед-


ствие чего остов белка и основные элементы вторичной структуры в се-
мействе гомологичных белков остаются высококонсервативными.
Элементы вторичной структуры гомологичных белков могут дви-
гаться друг относительно друга, меняться по длине или даже бесследно
исчезать. Впрочем, обычно a-спираль не заменяется на b-лист и наоборот.
Более того, у различных белков одного семейства ни порядок, ни ориен-
тация (параллельная или антипараллельная) b-цепей не меняется.
Подводя итог, можно сказать, что общие конформации гомологич-
ных белков сохраняются в ходе эволюции. На этом факте основан метод
моделирования белков по гомологии, который будет описан в следую-
щем разделе.

Цитированная литература
1. Creighton, T. E. (1992) Proteins: Structures and Molecular Properties, 2nd edn,
W H. Freeman and Company, New York.
2. Branden, C. and Tooze, J. (1991) Introduction to Protein Structure, Garland
Publishing, New York.
3. Schulz, G. E. and Schirmer, R. H. (1979) Principles of Protein Structure,
Springer-Verlag, New York.
4. Fasman, G. D. (1989) Prediction of Protein Structure and the Principles of Pro-
tein Conformation, Plenum Press, New York.
5. Ramachandran, G. N. and Sasisekharan, V. (1968) Conformation of polypeptides
and proteins. Advances in Protein Chemistry, 23, 283–437.
6. Pauling, L., Corey, R. B., and Branson, H. R. (1951) The structure of proteins; two
hydrogen-bonded helical configuration of the polypeptide chain. Proceeding of the
National Academy of Sciences of the United States of America, 37, 205–11.
7. Barlow, D. J. and Thornton, J. M. (1988) Helix geometry in proteins. Journal of
Molecular Biology, 201, 601–19.
8. Kabsch, W. and Sander, C. (1983) Dictionary of protein secondary structure:
pattern recognition of hydrogen bonded and geometrical features. Biopolymers,
22, 2577–637.
9. Chou, K. C., Pottle, M., Nemethy, G. et al. (1982) Structure of beta-sheets. Ori-
gin of the right-handed twist and of the increased stability of antiparallel over
parallel sheets. Journal of Molecular Biology, 162, 89–112.
10. Pauling, L. and Corey, R. B. (1951) Configurations of polypeptide chains with fa-
vored orientation around single bonds: two new pleated sheets. Proceedings of
the National Academy of Sciences of the United States of America, 37, 729–40.
11. Rose, G. D., Gierasch, L. M., and Smith, J. A. (1985) Turns in peptides and pro-
teins. Advances in Protein Chemistry, 37, 1–109.
12. Sibanda, B. L. and Thornton, J. M. (1985) Beta-hairpin families in globular pro-
teins. Nature, 316, 170–74.
13. Kraulis, P. J. (1991) MOLSCRIPT: a program to produce both detailed and sche-
matic plots of protein structures. Journal of Applied Crystallography, 24, 946–50.
Глава 4. Моделирование белков. Введение 137

4.3. Моделирование белков по гомологии


Как уже говорилось в разд. 4.1, большой объем информации о первичных
и вторичных структурах белков хранится в различных базах данных.
Определение последовательности белка — рутинная задача многих моле-
кулярно-биологических лабораторий. В последние годы в рамках проек-
та «Геном человека» частота и скорость публикаций первичных структур
значительно увеличились: в базе данных UniProt доступны последова-
тельности более чем 3 млн белков. Тем не менее переход от последователь-
ностей к установлению («решению») трехмерных структур с помощью
рентгеновской кристаллографии или ЯМР требует значительно больше
времени. В зависимости от типа белка полное решение его структуры мо-
жет занять больше года [1], вследствие чего число известных последова-
тельностей значительно превышает число известных структур: в базе дан-
ных PDB доступны структуры более чем 40 000 белков (на конец 2006 г.)1.
В связи с техническими проблемами, сопряженными с эксперименталь-
ным установлением трехмерных структур, ощущается потребность в раз-
работке теоретических методов предсказания трехмерной структуры на
основе аминокислотной последовательности. Поскольку на данный мо-
мент пока не предложены общие правила укладки белковых цепей, пред-
сказание структуры можно строить на конформациях доступных гомоло-
гичных белков [2–4] (принципы, лежащие в основе идеи, см. в разд. 4.2).
Если обнаружено, что исследуемый белок гомологичен другому бел-
ку с известной трехмерной структурой, то для предсказания структуры
исследуемого белка можно использовать метод моделирования по гомо-
логии2. Идея метода состоит в использовании накопленного объема зна-
ний об уже известных структурах белков. Построение модели начинает-
ся со сравнения последовательности нового белка с последовательностя-
ми всех белков с известной структурой, хранящимися в базе данных.
Белки, для которых обнаружена гомология с исследуемым белком, из-
влекаются из базы и используются в качестве шаблонов для предсказа-
ния структуры неизвестного белка. Этот метод был предложен несколь-
кими авторами [5–8] и описан более подробно в следующих разделах.
Успех моделирования по гомологии сильно зависит от того, на-
сколько близка структура моделируемого белка к структуре выбранного
шаблона [9]. Поскольку наше понимание механизмов укладки белка в
настоящее время весьма ограничено, единственным критерием, приме-
нимым для определения возможности предсказания структуры, остает-
ся мера идентичности последовательностей белков с известными струк-
турами. Многие исследования показали, что структурная гомология со-
храняется, даже если сходство последовательностей невозможно
обнаружить, но для целей моделирования, основанного на гомологии,
наличие сходства последовательностей имеет самое важное значение.

1
См. прим. на с. 125.
2
В русскоязычной литературе встречаются также синонимы: гомологическое моделиро-
вание и сравнительное моделирование.
138 Молекулярное моделирование

Предсказание структурного сходства между различными белками мо-


жет базироваться только на определении идентичностей в последова-
тельностях. Поэтому сравнение последовательностей с использованием
методов выравнивания является важнейшим шагом моделирования по
гомологии и будет описано в деталях в разд. 4.3.1.
Традиционное моделирование по гомологии включает следующие
шаги:
1. поиск белков, родственных изучаемому белку;
2. идентификация консервативных и вариабельных областей;
3. выравнивание последовательностей исследуемого белка и шаблон-
ного белка (белков) в консервативных областях;
4. конструирование консервативных областей белка-мишени с исполь-
зованием координат шаблонных структур;
5. конструирование структурно вариабельных областей;
6. моделирование боковых цепей;
7. оптимизация структуры с помощью методов минимизации энергии
и молекулярной динамики.

4.3.1. Методы выравнивания последовательностей


Первый этап сравнительного моделирования — отнесение белка с неиз-
вестной структурой к определенному семейству. Во многих случаях эта
информация уже имеется, поскольку обычно белок принадлежит к хо-
рошо известному семейству. Впрочем, это может быть и не так. В таком
случае необходимо сравнить новую последовательность с тысячами по-
следовательностей, хранящихся в базах данных, и выявить гомологич-
ные последовательности, если это возможно.
В прошлом идентификация новых белков с помощью поиска в базах
данных была сложным и длительным процессом. Компьютерные про-
граммы требовали многих часов работы либо значительных ограниче-
ний чувствительности или селективности поиска. В последние десяти-
летия были разработаны эвристические методы решения этой задачи
[10-13], которые не всегда гарантируют нахождение наиболее оптималь-
ного решения, но на практике редко упускают значительные совпаде-
ния. Важнейшими среди этих методов являются FASTA [12] и BLAST
[13], реализованные в большинстве коммерчески доступных програм-
мных пакетов (например, HOMOLOGY [14], MODELLER [15],
COMРOSER [16], WHATIF [17], GCG [18]). Кроме того, они интегрирова-
ны в качестве поисковых инструментов в биологические базы данных и
интернет-сайты (например, www.expasy.org).
Главный метод, используемый для сравнения аминокислотных по-
следовательностей, называется выравниванием последовательностей.
В процедуре моделирования по гомологии этот метод важен по несколь-
ким причинам. Во-первых, он используется для поиска родственных по-
следовательностей в базах данных и идентификации консервативных
областей найденных белков с помощью упоминавшихся выше программ
Глава 4. Моделирование белков. Введение 139

FASTA, BLAST и PSI-BLAST, что важно для предположения о располо-


жении консервативных областей исследуемого белка. Во-вторых, вы-
равнивание используется для нахождения соответствий между амино-
кислотами шаблонного и моделируемого белков, которые представляют
собой основу для переноса координат шаблона на модель. Для решения
этой задачи необходимы более чувствительные и избирательные, чем
FASTA и BLAST, методы выравнивания, описанные далее.
Наиболее естественной процедурой выравнивания последовательнос-
тей могла бы быть простая запись их в табличной форме для визуального
анализа. Конечно, такой способ не может быть не только систематичным,
но и быстрым, в особенности если надо сравнивать более двух последова-
тельностей. В связи с этим были разработаны программы, способные вы-
полнять выравнивание автоматически [18–21]. Поскольку выравнивание
является важнейшим шагом моделирования по гомологии, было опубли-
ковано множество различных методов и программ и до сих пор разраба-
тываются новые. Их детальное обсуждение выходит за рамки данной
книги, но читатель может обратиться к литературе [12, 13, 18, 19].
Одна из первых попыток выяснить, существует ли структурное схо-
дство между белками благодаря гомологии или благодаря случаю, была
предпринята Нидлманом и Вуншем [20]. Варианты разработанного ими
алгоритма были в дальнейшем развиты другими исследователями и ис-
пользованы в различных областях. Программы, основанные на этом ал-
горитме, более чувствительны к нахождению сходства, чем программы
поиска в базах данных, но они значительно медленнее находят опти-
мальное выравнивание. Как следствие, компьютерные программы,
основанные на этом методе (например, ALIGN, BESTFIT и GAP, входя-
щие в состав программного пакета GCG [18]), широко используются для
сравнения белковых и нуклеотидных последовательностей. В то время
как оригинальный алгоритм Нидлмана и Вунша способен выравнивать
только две последовательности, большинство современных программ
позволяют выравнивать и большее число последовательностей. Методы
так называемого множественного выравнивания значительно сложнее,
чем методы попарного выравнивания вследствие того, что число воз-
можных выравниваний растет экспоненциально в зависимости от числа
сравниваемых последовательностей. Было разработано несколько про-
грамм, предлагающих приближенные решения этой проблемы, напри-
мер ClustalW, ClustalX [18] и MAXHOM [21].
В отличие от описанных выше методов исследования глобального
сходства последовательностей методы оптимального локального вы-
равнивания предназначены для поиска локального сходства и базиру-
ются на модифицированном алгоритме Нидлмана и Вунша. Они пред-
ставляют собой важный инструмент сравнения последовательностей, в
особенности при необходимости локализации высококонсервативных
областей, разбросанных по длинным последовательностям [22–24].
Основная идея этих методов заключается в рассмотрении лишь относи-
тельно консервативных подпоследовательностей гомологичных белков;
при этом непохожие области не включаются в рассмотрение (рис. 4.3.1).
140

Рис. 4.3.1. Множественное выравнивание последовательностей цефалоспориназ Enterobacter cloacae (ENTCL) и Citrobacter
freundii (CITFR) с пенициллиназами Escherichia coli (MEN1), Bacillus licheniformis (BALI) и Staphylococcus aureus (STAU).
Красным цветом отмечены консервативные области
Молекулярное моделирование
Глава 4. Моделирование белков. Введение 141

В процессе сравнения двух последовательностей алгоритмы вырав-


нивания пытаются воспроизвести результаты эволюционного процесса
превращения одной последовательности в другую. Для выполнения
этой операции требуется схема оценки, которая приписывает вес вырав-
ниванию каждой конкретной пары аминокислот с помощью матриц, в
которые сведены наиболее вероятные замены аминокислот в зависимос-
ти от их физических, химических и статистических свойств. Высокие
численные значения элементов матриц означают, что замена вероятна,
а низкие — что она вряд ли произойдет. Из многих существующих
типов матриц [25–29] наиболее часто используются:
— Единичная матрица. Простейшая матрица, в которой вес 1 присвоен
парам идентичных остатков и 0 — всем остальным.
— Матрица замены кодонов. Для каждой пары аминокислот исследу-
ются все возможные триплеты азотистых оснований ДНК, их коди-
рующие и число точечных мутаций, необходимых для замены ами-
нокислоты. Идентичные аминокислоты получают вес 9, пара с одной
мутацией — 3, пара с двумя мутациями — 1.
— Матрица мутаций, также известная как матрица Дэйхоффа или мат-
рица PAM250 [25]. Она получается путем подсчета числа замен каж-
дой конкретной аминокислоты, наблюдаемых в родственных белках
у различных видов. Большие веса приписываются идентичным и
часто взаимозаменяемым аминокислотам, а низкие веса — редким и
ненаблюдаемым мутациям. Такой метод расчета приводит к тому,
что некоторые неидентичные пары имеют больший вес, чем некото-
рые идентичные. Матрица Дэйхоффа, изображенная на рис. 4.3.2,
используется чаще всего, в частности, при поиске начального вырав-
нивания двух неизвестных последовательностей. Модификацию
матрицы Дэйхоффа предложил Грибсков [26]; максимальный вес в
ней всегда приписывается идентичным парам аминокислот.
— Матрица физических свойств. Оценочные значения соответствую-
щих матриц основаны на индексах сходства для различных физичес-
ких свойств аминокислот, таких, как гидрофобность, поляризуе-
мость или тенденция к спиральности [28].
Различия в длине последовательностей и в расположении консерва-
тивных областей усложняют процедуру выравнивания. Если возникает
одна или обе эти проблемы, в последовательность вставляют разрывы
(gaps) так, чтобы достигнуть одновременного выравнивания всех кон-
сервативных областей. Большое число разрывов делает выравнивание
бесполезным, поэтому для ограничения числа разрывов в алгоритмы
выравнивания вводится дополнительный фактор — функция штрафа
за разрыв (gap penalty function). Оптимальное выравнивание характе-
ризуется балансом между числом выравненных аминокислот и мини-
мальным числом разрывов.
Для оптимального выравнивания двух или большего числа последо-
вательностей необходима и достаточна комбинация алгоритма вырав-
нивания, оценочной матрицы и штрафной функции. Качество конкрет-
ного выравнивания описывается специальной величиной — мерой ка-
142 Молекулярное моделирование

Рис. 4.3.2. Матрица эволюционных мутаций Дэйхоффа

чества выравнивания. Важно понимать, что оптимальное выравнивание


будет таковым только для данного набора параметров; изменение пара-
метров может привести к другому выравниванию и другой величине
меры качества. Автоматическое выравнивание последовательностей да-
леко от идеала, поэтому его следует проверять на допустимость, прини-
мая во внимание всю имеющуюся информацию обо всех уровнях орга-
низации белка (первичной, вторичной и третичной структурах). По-
строенное выравнивание может быть использовано для моделирования
белка только в том случае, если оно согласуется со всеми имеющимися
структурными данными.
Другая фундаментальная проблема аминокислотных выравнива-
ний состоит в том, что распознаваемое подобие последовательностей те-
ряется в ходе эволюции быстрее, чем структурное подобие. В связи с
этим трудно сформулировать простые правила для степени подобия, что
необходимо для надежной демонстрации гомологичности двух белко-
вых последовательностей. Возможность такой демонстрации зависит от
длины и аминокислотного состава последовательностей. За последнее
десятилетие было проведено несколько исследований по количествен-
ной оценке соотношений между подобием структур и последователь-
ностей [30–32].
Глава 4. Моделирование белков. Введение 143

Дулитл с сотр. сформулировали несколько эмпирических правил,


которые могут упростить решение проблемы гомологии [30]. Если по-
следовательности длиннее 100 остатков и идентичны не менее, чем на
25% (с соответствующими разрывами), то весьма вероятно, что эти по-
следовательности родственны. Если идентичность составляет 15–25%,
то последовательности могут быть родственны, а могут и не быть. Если
же идентичность последовательностей меньше 15%, то скорее всего
такие последовательности не родственны.
Для того чтобы принять решение в области идентичностей 15–25%,
необходимо доказать, что выравнивание статистически значимо. Один
из способов сделать это заключается в сравнении меры качества данного
выравнивания, отражающей количественное подобие между двумя по-
следовательностями, со средними мерами качества выравнивания по-
следовательностей, которые получают путем случайной перестановки
аминокислот в исследуемых последовательностях. Эта процедура сохра-
няет длину и аминокислотный состав последовательностей, а статисти-
ческая вариация случайного сравнения дает меру значимости наблюда-
емого подобия. Для каждой последовательности генерируется множес-
тво (скажем, n) случайных перестановок, а затем каждая перестановка
первой последовательности выравнивается с каждой перестановкой вто-
рой последовательности, в результате чего получается n2 выравнива-
ний. Для сравнения с изначальной мерой качества выводятся среднее
значение и стандартное отклонение меры качества этих выравниваний.
Можно приблизительно руководствоваться следующим правилом: если
мера качества выравнивания превосходит среднее значение меры качес-
тва для случайных выравниваний хотя бы в 6 раз, то большинство остат-
ков во вторичных структурах правильно выравнено [31].
В середине 1980-х гг. Чотиа и Леск исследовали набор остовов пол-
ностью глобулярных белков для оценки отношения между идентичнос-
тью последовательности и подобием трехмерной структуры [32]. Они об-
наружили, что ожидаемый успех в моделировании трехмерной структу-
ры белка по его последовательности с использованием в качестве
шаблона трехмерной структуры гомологичного белка зависит от иден-
тичности последовательностей, причем структура белка является хоро-
шей моделью структуры другого белка, если идентичность их последо-
вательностей превышает 50%. Если идентичность падает до 20%, могут
возникнуть большие структурные различия (см. рис. 4.5.4). Выясни-
лось также, что активные центры дальнородственных белков могут об-
ладать похожими геометриями, поэтому даже в случае низкой идентич-
ности последовательностей возможно правдоподобное моделирование
активных центров родственных белков.
Множественное выравнивание представляет собой весьма нетриви-
альную задачу как в биологическом, так и в вычислительном плане.
Точность такого выравнивания зависит от выбора последовательностей,
целевой функции и использованной эвристики, поэтому алгоритм уточ-
нения выравниваний может быть полезен для выявления возможных
проблем. Уточнение выравнивания как операция обработки автомати-
144 Молекулярное моделирование

ческих выравниваний имеет особое значение, поскольку для моделиро-


вания по гомологии огромную важность представляет высокое качество
выравниваний. Уточнение выравниваний чаще всего базируется на ите-
рационных подходах [33]; кроме того, производительность алгоритмов
выравнивания может быть увеличена с помощью включения итераци-
онных шагов в процесс построения выравнивания. Программа выравни-
вания RASCAL, разработанная Томпсоном с коллегами [34], использует
для улучшения выравниваний стратегию, основанную на знаниях: при
выравнивании выделяют достоверные и недостоверные области, и толь-
ко недостоверные области модифицируются. Интересующийся чита-
тель может найти больше информации по этой теме в литературе [35].

4.3.2. Идентификация и моделирование консервативных областей


Метод построения модели белка по гомологии предполагает, что сущес-
твуют области во всех белках одного и того же семейства, трехмерные
структуры которых почти идентичны. Эти области расположены в глу-
бине белковой молекулы, там, где различия топологии полипептидной
цепи должны сильно влиять на третичную структуру белка [36]. Наблю-
дения показывают, что элементы вторичной структуры близкородствен-
ных белков, прежде всего a-спирали и b-цепи, действительно имеют
одинаковые относительные ориентации во всем семействе. Вполне ло-
гично, что эти элементы подходят для использования в качестве началь-
ного каркаса для присваивания атомных координат при моделировании
других белков, входящих в то же семейство. Такие фрагменты называ-
ются структурно консервативными.
На точность отнесения консервативных фрагментов внутри семей-
ства гомологичных белков влияет ряд факторов. В частности, методы
отнесения зависят от количества доступных кристаллических структур
родственных белков. Если доступно больше одной структуры с атомным
разрешением — это большая удача. В этом случае можно проверить все
структуры, чтобы выяснить, где они консервативны. Для этого их необ-
ходимо наложить друг на друга с применением метода наименьших
квадратов (МНК). Главной проблемой в этом случае является выбор
атомных соответствий для подгонки, поскольку априори неизвестно,
какую часть белка необходимо накладывать для достижения наилучше-
го пространственного совмещения. В первом приближении структуры
могут быть наложены путем подгонки Ca-атомов [3]. Начальное наложе-
ние можно оптимизировать с использованием только тех точек соответ-
ствия, которые расположены в консервативных элементах вторичной
структуры. Разработано несколько подходов, ориентированных на авто-
матическое решение проблемы подгонки [37–43].
Россманн и др. [43] предложили метод оптимального наложения по
МНК. На первом шаге две структуры белка, которые необходимо нало-
жить, подгоняются друг под друга с использованием начального набора
эквивалентных остатков. Этот набор эквивалентностей обновляется ис-
ходя из расстояний между потенциально эквивалентными остатками и
Глава 4. Моделирование белков. Введение 145

локальных направлений основной цепи. Наложение и обновление по-


вторяются до тех пор, пока число эквивалентностей не перестает увели-
чиваться.
Обычно получается так, что некоторые части двух белков очень по-
хожи по структуре и потому могут считаться структурно консерватив-
ными, в то время как другие части белков заметно различаются. Следует
отметить, что применяемые алгоритмы учитывают не только вторич-
ную структуру. Поскольку, по определению, консервативная область
обязана заканчиваться в конце элемента вторичной структуры, так,
что, например, каждая цепь b-листа представляет собой отдельную кон-
сервативную область, то необходимо сделать отнесение элементов вто-
ричной структуры до того, как определять консервативные области.
Проще всего получить информацию об элементах вторичной структуры
белков из файлов кристаллических данных (например, файлов PDB), в
которых содержится информация об элементах вторичной структуры,
определенных кристаллографически. Впрочем, поскольку эти отнесе-
ния зачастую субъективны и иногда неполны, более общепринятым ме-
тодом является использование объективных расчетных методов выяв-
ления элементов вторичной структуры. Такие программы, как DSSP
[44] и STRIDE [45], позволяют определить элементы вторичной структу-
ры на основе геометрических параметров, таких как схема системы во-
дородных связей или торсионные углы основной цепи. С помощью этих
программ, доступных на интернет-сайте EMBL в Гейдельберге, можно
быстро определять элементы вторичной структуры белков, для которых
существуют атомные координаты.
Ситуация значительно усложняется, если известен лишь один гомо-
логичный белок, который может быть использован в качестве шаблона
для исследуемой последовательности. В этом случае нет возможности
сравнения структур и необходимо относить консервативные области
вручную, руководствуясь информацией о последовательности и струк-
туре белков. Как говорилось ранее, консервативные области зачастую
обнаруживаются в стабильных элементах вторичной структуры. Поэто-
му представляется разумным внимательно изучить как можно больше
таких элементов шаблонного белка с целью обнаружения потенциаль-
ных признаков существования структурно консервативных областей.
Аминокислоты гидрофобного остова обычно более консервативны, чем
последовательность из остатков на поверхности белка. Аминокислоты,
участвующие в солевых мостиках, водородных связях и дисульфидных
мостиках, а также в активном центре, обычно сохраняются в семействе.
Для более точной локализации консервативных фрагментов может
быть с успехом использована информация из множественного выравни-
вания последовательностей. Во многих исследованиях гомологичных
белков было показано, что консервативные области отличаются высо-
ким подобием последовательностей, в то время как для вариабельных
областей наблюдаются низкая идентичность последовательностей и на-
личие инсерций и делеций. По этой причине выявленные консерватив-
ные фрагменты должны иметь идентичные или близкородственные по-
146 Молекулярное моделирование

следовательности. Для достижения структурного подобия необходимо,


чтобы в консервативных областях не было разрывов.
В случаях, когда консервативные области шаблонных белков уже
известны, необходимо лишь локализовать соответствующие им области
моделируемого белка. Это делается с помощью выравнивания последо-
вательности мишени с последовательностями консервативных фрагмен-
тов в гомологичных структурах. Процедура выравнивания, которую
применяют для этой цели, несколько отличается от той, которая была
описана выше. Поскольку консервативные элементы, по определению,
не могут содержать инсерций и делеций, необходим алгоритм, который
не допускает внедрения разрывов внутри них. К сожалению, стандарт-
ный алгоритм Нидлмана—Вунша не может отдельно обрабатывать кон-
сервативные области: он вставляет разрыв в любом месте, если это улуч-
шает меру качества выравнивания. По этой причине были разработаны
методы, рассматривающие каждый консервативный фрагмент незави-
симо [3, 22, 46]. Соответствующие программы строят выравнивания без
разрывов в консервативных областях. Поскольку при моделировании
должно быть установлено соответствие между структурами шаблона и
мишени, можно приписать координаты консервативным областям на
основе координат шаблонных белков. В сегментах, где идентичные бо-
ковые цепи обнаружены и в шаблоне, и в мишени, все координаты ато-
мов просто переносятся. В тех местах, где встречается разнообразие бо-
ковых цепей, переносятся только координаты основной цепи. Соотве-
тствующие боковые цепи добавляются после полного построения
основной цепи (см. разд. 4.3.4).

4.3.3. Конструирование вариабельных областей


Конструирование вариабельных областей представляет собой более
сложную задачу, поскольку заметные различия структур белков наблю-
даются в первую очередь в петлях. Инсерции и делеции, возникающие
из-за различия в числе аминокислот, дополнительно усложняют проце-
дуру моделирования. Разработано множество методов моделирования
петель, подробно описанных в литературе [5–7, 47–49]. Отправной точ-
кой для моделирования отсутствующей области может быть структура
сегмента эквивалентной длины в гомологичном белке. Обширные иссле-
дования вариабельных областей гомологичных белков показали, что в
случаях, когда отдельные петли имеют одинаковую длину и состоят из
аналогичных аминокислот, их конформации будут одинаковы. Их ко-
ординаты могут быть непосредственно перенесены в модель белка, как
было описано для консервативных фрагментов. Если же в белковом се-
мействе нет похожих петель, для моделирования вариабельных облас-
тей можно использовать две других стратегии: либо извлекать коорди-
наты петель из пептидных сегментов других белков, которые подходят к
данному пространственному окружению [5–7], либо моделировать пет-
лю de novo [44–46]. Первый способ (метод поиска петель) подразумева-
ет поиск пептидных сегментов, которые удовлетворяют определенному
Глава 4. Моделирование белков. Введение 147

геометрическому критерию. Программы, реализующие этот метод,


обычно сканируют базу PDB в поиске необходимых сегментов. Геомет-
рические данные, необходимые для ввода в программу, включают в себя
расстояния между ключевыми фрагментами и координаты остатков, в
том числе из областей, окружающих петлю. На выходе выдается набор
петель, удовлетворяющих заданным геометрическим ограничениям,
10–20 вариантов используются для дальнейшего анализа. Петли ран-
жируются в зависимости от того, насколько они удовлетворяют желае-
мой структуре. При отдании предпочтения одной структуре петли по
сравнению с другой можно руководствоваться дополнительными крите-
риями, явно не использованными при поиске: соответствием остатков,
ограничивающих область петли, идентичности последовательностей
оригинальной петли и найденного фрагмента, а также энергетическими
критериями для сравнительной оценки стерических взаимодействий.
Преимущество метода поиска петель заключается в том, что все най-
денные петли гарантированно обладают достоверной геометрией и отра-
жают конформации реальных белков. Впрочем, выбранный фрагмент
необязательно хорошо подходит к имеющемуся каркасу модели, что мо-
жет приводить к значительным стерическим препятствиям. Если это
происходит, в качестве альтернативы стоит использовать метод постро-
ения петель de novo.
В этом случае основная цепь белка строится между двумя консерва-
тивными сегментами с использованием случайных значений для всех
торсионных углов боковой цепи. Разработаны различные алгоритмы
оптимизации стратегии поиска и уменьшения расчетного времени. Пос-
кольку этот метод весьма сложен, его использование оправдано только
для петель длиной меньше, чем 7 остатков.
Все петли, построенные путем поиска в базах данных или случайно-
го поиска (de novo), обычно обладают далеко не оптимальной геометри-
ей. Поэтому все области петель, включая окружающие остатки, следует
впоследствии оптимизировать методом минимизации энергии, чтобы
устранить стерические препятствия и релаксировать конформации пе-
тель (см. разд. 4.4.3).

4.3.4. Моделирование боковых цепей


Следующий шаг после конструирования основной цепи белка — добав-
ление боковых цепей. Предсказание многочисленных конформаций бо-
ковых цепей — значительно более сложная задача, чем предсказание
конформации основной цепи гомологичного белка. Многие боковые цепи
имеют хотя бы одну степень свободы и потому могут находиться в одной
из нескольких энергетически разрешенных конформаций.
Существуют различные стратегии решения проблемы множества
локальных минимумов [50–57]. Их общий посыл состоит в том, что
идентичные остатки в гомологичных белках находятся в похожих кон-
формациях. Кроме того, если боковые цепи относятся к паре аминокис-
лот со значительным сходством (например, Ile и Val или Gln и Glu), то
148 Молекулярное моделирование

предполагается, что ориентация боковых цепей в них будет аналогич-


ной [50]. Ситуация усложняется, если происходит замена аминокисло-
ты на неродственную. Если рассматриваемая боковая цепь длиннее, чем
в гомологичном белке, или структурно непохожа, ей следует придать
случайную конформацию так, чтобы избежать невыгодных контактов с
другими боковыми цепями [51]. Альтернативой такому подходу может
быть выбор конформации, отвечающей расчетному минимуму поверх-
ности потенциальной энергии соответствующего дипептида [52].
Более достоверный метод был разработан с помощью анализа отно-
шений между позициями боковых цепей в гомологичных структурах
глобулярных белков. Было обнаружено, что боковые цепи обычно при-
нимают лишь некоторые из многих возможных конформаций [53, 54].
Например, для боковых цепей с двумя углами c наблюдаются от четы-
рех до шести обычных конформаций. Все наблюдаемые ротамеры пред-
ставляют собой комбинации гош- и анти-форм. На основе этих статис-
тических исследований были созданы библиотеки ротамеров [53, 56].
Некоторые программы моделирования по гомологии используют библи-
отеку боковых цепей, созданную Пондером и Ричардсом [53], которая
содержит 67 ротамеров 17 аминокислот. Выбор наиболее вероятной кон-
формации из библиотеки может быть проблематичен, поскольку в этом
случае не учитывается информация об эквивалентной боковой цепи, со-
держащаяся в шаблонной структуре. Кроме того, правильная конфор-
мация боковой цепи зависит от локального окружения аминокислоты в
реальном белке, что было показано при исследовании белковых струк-
тур с хорошим разрешением [57, 58]. Во внутреннем пространстве белка
превалируют гидрофобные взаимодействия, приводящие к плотной
упаковке аминокислотных остатков. Такие факторы, как вторичная
структура и контакты с другими остатками, также могут влиять на кон-
формацию боковой цепи. Поэтому были разработаны методы определе-
ния позиций боковых цепей, учитывающие локальное окружение и дру-
гие ограничения. Бланделл с сотр., например, разработали правила вза-
имной замены для всех 20 природных боковых цепей в областях
a-спиралей, b-листов и петель — всего 20 · 20 · 3 = 1200 правил [57]. Что-
бы определить, позиции каких атомов сохраняются при замене амино-
кислоты в топологически эквивалентной позиции, было проведено ис-
следование нескольких наборов гомологичных белков. Все остатки, со-
ответствующие какой-либо конкретной топологически эквивалентной
позиции, были выравнены по атомам основной цепи, и было определе-
но, какие атомы соответствуют друг другу.
Подход Пондера и Ричардса был в дальнейшем доработан Данбрэ-
ком и др. [59]. Их программа SCWRL распознает зависимость конфор-
маций боковых цепей от конформации основной цепи. Тем не менее все
имеющиеся методы предсказания конформаций боковых цепей работа-
ют в неизменном предположении о фиксации основной цепи.
Как уже обсуждалось, существуют различные методы моделирова-
ния боковых цепей. Все они помогают исследователю в надежном уста-
новлении конформаций боковых цепей. Тем не менее во многих ситуа-
Глава 4. Моделирование белков. Введение 149

циях приходится прибегать к ручной подгонке конформаций. Модифи-


кации требуются, например, в случаях, когда аминокислоты участвуют в
специфических взаимодействиях — ионных парах, дисульфидных мос-
тиках, внутренних зарядовых взаимодействиях или водородных связях.
Варианты могут возникнуть также в случаях, когда остатки расположе-
ны на поверхности белка и полностью доступны. Такие исключения
должны обрабатываться в индивидуальном порядке.
После построения окончательной модели обычно требуется оптими-
зация структуры. Области соединения консервативных и вариабельных
фрагментов обычно страдают от стерических напряжений и должны
быть минимизированы. Некоторые боковые цепи могут находиться в
позициях, приводящих к плохим ван-дер-ваальсовым контактам. Счи-
тается, что лучший результат дает пошаговая оптимизация структуры.
Одновременная оптимизация всех боковых цепей может разрушить
важные внутренние водородные связи и привести к конформационным
изменениям внутри консервативных областей. Чтобы удалить стеричес-
кие наложения, проводится конформационный поиск для остатков, ко-
торые участвуют в «плохих» ван-дер-ваальсовых взаимодействиях. Ми-
нимизация энергии и/или молекулярная динамика модели являются
полезными способами исследования локального конформационного
пространства и могут привести к оптимизированной структуре. Детали
проведения минимизации энергии и молекулярной динамики для опти-
мизации структуры будут описаны в разд. 4.4.3.

4.3.5. Метод дистанционной геометрии


В традиционном процессе моделирования по гомологии для построения
одной модели часто используется несколько шаблонных структур, одна-
ко для конструирования консервативной области может быть использо-
ван только один набор координат (см. разд. 4.3.2). Метод дистанцион-
ной геометрии в моделировании по гомологии [38, 60, 61] дает возмож-
ность одновременного исследования структурных особенностей всех
шаблонных белков, которые могут быть использованы для построения
конформаций, учитывающих эти особенности. При этом определяются
консервативные области и строится выравнивание последовательности
белка-мишени с последовательностями известных белков. В случае мо-
делирования белковых молекул метод дистанционной геометрии вклю-
чает в себя правила, согласно которым из множественного выравнива-
ния могут быть выведены определенные ограничения на расстояния и
конфигурацию хиральных центров, которые затем используются в рас-
чете. Таким образом можно получить набор конформаций моделируе-
мой структуры, каждый элемент которого содержит области с аналогич-
ными конформациями, подверженные ограничениям в ходе расчета, и
области с различными конформациями, свободные от ограничений.
Структуры этого набора затем подвергаются минимизации энергии для
удаления артефактов, которые иногда возникают во время расчетов ме-
тодом дистанционной геометрии. Малое различие между полученными
150 Молекулярное моделирование

конформациями свидетельствует о надежности предсказания структуры.


Подробное описание метода дано в работе [62], где данный метод был
использован для предсказания структуры флаводоксина Escherichia coli.

4.3.6. Предсказание вторичной структуры


Наилучший метод моделирования пространственной структуры белка,
для которого она неизвестна, — это уже описанное моделирование на
основе белка с известной структурой, то есть основанное на знаниях.
Для случаев, когда гомологичной структуры не существует, были раз-
работаны другие методы, концентрирующиеся на предсказании вто-
ричной структуры. В их основе лежит идея, что 90% остатков в боль-
шинстве белков находятся в a-спиралях, b-листах и шпильках.
Поэтому, если элементы вторичной структуры предсказаны правиль-
но, можно комбинировать предсказанные сегменты и получить пол-
ную структуру белка. Конечно же, такой метод следует применять с
осторожностью. Тем не менее предсказание вторичной структуры по
аминокислотной последовательности широко практикуется (обзоры
см. в [63–69]).
Для этой задачи чаще всего применяются три метода: статистичес-
кий, стереохимический и метод, основанный на гомологии и нейронных
сетях. Все эти методы так или иначе используют информацию, получен-
ную из известных трехмерных структур, хранящихся в PDB. В связи с
этим необходимо правильное отнесение областей вторичной структуры
в кристалле (см. разд. 4.3.2) для проверки достоверности методов
предсказания.
Статистические методы были разработаны одними из первых. В их
основе лежит наблюдение, что многие аминокислотные остатки co ста-
тистически значимым предпочтением находятся в конкретных вторич-
ных структурах. Например, Ala, Arg, Gln, Glu, Met, Leu и Lys находят-
ся, как правило, в a-спирали, а Cys, Ile, Phe, Thr, Trp, Tyr и Val —
в b-листах. Простейший статистический метод предсказания вторичной
структуры предложен Чоу и Фасманом [64]: предсказание делается пу-
тем вычисления вероятности того, что данная аминокислота относится
к конкретному типу вторичной структуры, такому как a-спираль,
b-лист или шпилька, на основе частоты появления данной аминокисло-
ты в соответствующем структурном элементе в PDB. Другой часто ис-
пользуемый статистический метод GOR предложен Гарнье, Осгуторпом
и Робсоном [65]. Успешное предсказание на основе этих алгоритмов
весьма сложно, поскольку они лишь демонстрируют тенденцию к пред-
почтению определенного типа вторичной структуры вместо абсолютно-
го предсказания. В связи с этим возможны различные интерпретации
методов, приводящие к ситуации, когда у разных авторов получаются
разные результаты. Возможности и ограничения статистических мето-
дов были продемонстрированы Кабшем и Сандером [66] на примере трех
широко используемых подходов, которые обеспечили точность менее
56% при предсказании спиралей, листов и петель.
Глава 4. Моделирование белков. Введение 151

Другие методы предсказания вторичной структуры основаны на


правилах свертки белков путем интерпретации гидрофобных, гидро-
фильных и электростатических свойств боковых цепей [67–69]. В мето-
де Лима [67], например, взаимодействия между боковыми цепями, раз-
деленными не более чем тремя остатками в последовательности, учиты-
ваются как вероятность их упаковки в a-спиральной или b-листовой
конформации. Последовательность с чередующимися гидрофильными
и гидрофобными остатками, например, с высокой вероятностью упако-
вана в b-цепь, у которой гидрофильные остатки направлены наружу, а
гидрофобные — внутрь белка. Стереохимические методы были успешно
использованы для предсказания амфифильных спиралей [68] и мем-
бранных сегментов [69].
Рост и Сандер сообщили об алгоритме, который использует эволю-
ционную информацию из множественных выравниваний на входе ней-
ронных сетей [70, 71]. У нейронных сетей есть потенциальное методи-
ческое преимущество перед другими подходами, поскольку их можно
обучить. Это означает, что правила, определяющие поведение изучае-
мых систем, не должны быть сформулированы изначально, а задаются
самой сетью на основе известных фактов. Точность нейросетевого мето-
да PHD составляет более 70% при предсказании трех классов вторичной
структуры (спираль, лист, петля) на основе лишь одной известной гомо-
логичной структуры [71, 72]. Другие нейросетевые методы предсказа-
ния достигли 80%-ной точности [73, 74]. Нейросетевые методы PHD
[69] и PSIPRED [73] являются в данный момент рекомендуемыми и ин-
тегрированы в различные биоинформационные интернет-сайты. Оцен-
ку различных методов предсказания вторичной структуры можно най-
ти на веб-сервере EVA (http://cubic.bioc.columbia.edu/eva/).
Информация, полученная путем предсказания вторичной структу-
ры гомологичных белков, часто используется в дополнение к информа-
ции, полученной из выравнивания первичных последовательностей,
чтобы уточнить локализацию консервативных областей в семействе го-
мологичных белков. Даже если известна структура лишь одного гомоло-
гичного белка, которая может быть использована как шаблон для моде-
лирования по гомологии, а гомологичных последовательностей не-
сколько, — все равно полезно включить в рассмотрение предсказанные
элементы вторичной структуры для локализации консервативных
фрагментов. Для нахождения наиболее вероятного отнесения элементов
вторичной структуры следует использовать все доступные методы. Ко-
нечно же, различные методы не дадут абсолютно одинаковых результа-
тов. Это показано на рис. 4.3.3, где 5 различных методов (CHOU, GOR,
ALB, JAMSEK, PHD) использованы для предсказания известной вто-
ричной структуры цефалоспориназы из Enterobacter cloacae. Предска-
зание также сравнивается с результатом работы программы DSSP, кото-
рая приписывает вторичную структуру на основе атомных координат.
Большинство из описанных методов предсказания внедрены в ком-
мерчески доступные программы молекулярного моделирования или ин-
тегрированы в веб-сайты по молекулярной биологии. Более подробную
152 Молекулярное моделирование

Рис. 4.3.3. Сравнение предсказанной различными методами вторичной струк-


туры цефалоспориназы Enterobacter cloacae, для которой имеются кристалло-
графические данные
Глава 4. Моделирование белков. Введение 153

Рис. 4.3.3. (Продолжение)

информацию о методах предсказания вторичной структуры можно най-


ти на сервере Швейцарского института биоинформатики (http://www.
expasy.org) или EMBL (http://www.embl.org).
154 Молекулярное моделирование

4.3.7. Методы протягивания


Наилучшая ситуация для моделирования белков возникает, когда для
исследуемого белка можно найти другой белок, обладающий высокой го-
мологией с ним (подобие последовательности не менее 30%) и для которо-
го структура уже была определена экспериментально. В таких случаях
описанный выше подход моделирования по гомологии позволяет скон-
струировать модель белка с достаточной точностью. Другая типичная си-
туация возникает, когда с помощью методов обработки последователь-
ностей или протягивания может быть выявлена лишь малая степень по-
добия [75–79]. Вследствие этого подобие неизвестной трехмерной
структуры с данной последовательностью и структуры шаблона не может
быть оценено априори. Два белка могут обладать одинаковой топологией,
но различаться в вариабельных областях. Кроме того, определенные эле-
менты вторичной структуры могут быть разного размера и возможна раз-
личная упаковка этих элементов. Зачастую реальное структурное подо-
бие может быть ограничено лишь частью структуры, имеющей типичный
структурный мотив, в то время как остальная часть белка кардинально
отличается [79]. В этих случаях традиционные методы моделирования по
гомологии не работают, и приходится применять методы распознавания
укладки, или протягивания (threading) [75–81]. Самые ранние методы
протягивания были созданы для распознавания укладки при полном от-
сутствии подобия последовательностей, в связи с чем структура шаблон-
ного белка вообще не принималась во внимание. В наши дни методы мо-
делирования по гомологии и методы протягивания зачастую применяют-
ся совместно. Методы протягивания родственны методам предсказания
структуры белка ab initio [82], однако методы ab initio исследуют все
возможные конформации, а методы протягивания ограничиваются лишь
конформационным пространством известных структур. Как следствие,
методы протягивания бесполезны для моделирования любого белка,
обладающего совершенно новым типом упаковки.
Общий принцип методов протягивания состоит в сравнении изучае-
мой последовательности с каждым представителем библиотеки извес-
тных белковых структур. Для каждого шаблона необходимо найти
оптимальное выравнивание последовательности со структурой на осно-
ве оценочной функции или силового поля. Эти выравнивания ранжиру-
ются по расчетным значениям оценочных функций и наилучшие из них
используются в качестве надежных кандидатов [75, 83]. Часто
применяемые методы протягивания описаны в литературе [75–79].
Для методов протягивания было разработано множество оценочных
функций [75, 76, 83, 84], обладающих некоторыми общими свойствами.
Применяемые функции должны быть простыми, поскольку расчеты по
методу протягивания должны рассматривать большое количество вари-
антов. Многие оценочные функции в методах протягивания используют
потенциалы средней силы (Potentials of Mean Force, PMF), которые так-
же называются потенциалами, основанными на знаниях (knowledge-
based) [83, 85]. Они отличаются от обычных силовых полей, описанных
Глава 4. Моделирование белков. Введение 155

в разд. 2.2.1: основная идея PMF состоит в том, что молекулярные струк-
туры, определенные рентгеноструктурным методом или с помощью ЯМР,
неявно содержат огромное количество информации о стабилизирующих
силах внутри макромолекул. С использованием статистических методов
были выявлены внутренние правила, управляющие трехмерной струк-
турой белков. В основе всех этих правил лежит принцип Больцмана
о том, что наиболее часто наблюдаемые состояния являются состояния-
ми с наименьшей энергией. Поэтому потенциалы PMF составляются пу-
тем извлечения относительных частот взаимодействий определенных
пар атомов из базы белковых структур [85]. PMF-потенциалы обычно
состоят из взаимодействий между определенными парами атомов и
между растворителем и белком. Они включают все виды сил (электро-
статические, дисперсионные и др.), действующие между определенны-
ми атомами белка, а также влияние растворителя на взаимодействие, и
поэтому могут быть использованы для предсказания структуры макро-
молекулы по ее первичной последовательности. Потенциалы PMF были
использованы для предсказания укладки белков и для поиска ошибок в
моделях белков и в экспериментально определенных белковых структу-
рах [83–85].
Полезность модели белка, полученной методом моделирования по
гомологии или методом протягивания, зависит от ее предполагаемого
использования. Точность моделей, получаемых методами протягивания
или ab initio, недостаточна для задач, требующих структуры высокого
разрешения, например, традиционной разработки лекарств. Тем не ме-
нее модель с низким разрешением, полученная этими методами, может
отражать структурные и функциональные отношения между белками,
которые не очевидны из их аминокислотной последовательности, а так-
же создавать возможность для анализа пространственных взаимоотно-
шений между консервативными остатками или остатками, для которых
экспериментально доказана их важность. Для оценки различных мето-
дов предсказания белковых структур в 1994–95 гг. было организовано
соревнование по критической оценке методов предсказания структуры
белков CASP (Critical Assessment of techniques for protein Structure
Prediction) [86]. В этих соревнованиях представителей научного сооб-
щества приглашали предсказать трехмерные структуры новых белков
по их аминокислотной последовательности. Структуры были заранее
определены методом рентгеновской кристаллографии, но не были опуб-
ликованы. К настоящему времени были проведены четыре соревнова-
ния CASP; на CASP4 был сделан вывод, что моделирование белковых
структур к настоящему времени созрело до уровня практической техно-
логии. В принципе возможно создать полезные модели для более чем по-
ловины последовательностей в основных базах данных [82]. Соревнова-
ния CASP являют собой надежный базис для оценки достоверности мо-
делей белков и подходов, на основе которых они построены.
156 Молекулярное моделирование

Цитированная литература
1. Blundell, T. L. and Johnson, L. N. (1976) Protein Crystallography, Academic
Press, New York.
2. Bashford, D., Chothia, C., and Lesk, A. M. (1987) Determinants of a protein fold.
Unique features of the globin amino acid sequences. Journal of Molecular Biology,
196, 199–326.
3. Greer, J. (1981) Three-dimensional structure of abnormal human haemoglobins
Chesapeake and J Capetown. Journal of Molecular Biology, 153, 1027–42.
4. Chothia, C. and Lesk, A. M. ( 1982) Evolution of proteins formed by beta-sheets.
I. Plastocyanin and azurin. Journal of Molecular Biology, 160, 309–42.
5. Johnson, M. S., Srinivasan, N., Sowdhamini, R., and Blundell, T. L. (1994)
Knowledge-based protein modeling. Critical Reviews in Biochemistry and
Molecular Biology,29, 193–316.
6. Sali, A., Overington, J. P., Johnson, M. S., and Blundell, T. L. (1990) From com-
parisons of protein sequences and structures to protein modeling and design.
Trends in Biochemical Sciences, 15, 235–40.
7. Jones, T. A. and Thirup, S. (1986) Using known substructures in protein model
building and crystallography. EMBO Journal, 5, 819–22.
8. Dudek, M. J. and Scheraga, H. A. (1990) Protein structure prediction uses a com-
bination of sequence homology and global energy minimization. Journal of
Computational Chemistry, 11, 121–51.
9. Levin, R. (1987) When does homology mean something else? Science, 237, 1570.
10. Thornton, J. M. and Gardner, S. P. (1989) Protein motifs and database searching.
Trends in Biochemical Sciences, 14, 300–4.
11. Orengo, C. A., Brown, N. P., and Taylor, W. R. (1992) Fast structure alignment for
protein databank searching. Proteins Structure Function and Genetics, 14, 139-46.
12. Pearson, W. R. (1990) Rapid and sensitive sequence comparison with FASTP and
FASTA. Methods in Enzymology, 183, 63–98.
13. Altschul, S. F., Madden, T. L., Schaffer, A. A. et al. (1997) Gapped BLAST and
PSI-BLAST: a new generation of protein database search programs. Nucleic
Acids Research, 25, 3389–402.
14. HOMOLOGY and MODELLER, Accelrys, San Diego. http://www.accelrys.com.
15. Sah, A. and Blundell, T. L. (1993) Comparative protein modeling by satisfaction
of spatial restraints. Journal of Molecular Biology, 234, 779–815.
16. SYBYL BIOPOLYMER, Tripos Associates, St. Louis. http://www.tripos.com.
17. Vriend, G. (1990) What If: A molecular modeling and drug design program.
Journal of Molecular Graphics, 8, 52–56. http://www.swift.cmbi.ru.hl/whatif.
18. Thompson, J. D., Higgins, D. G., and Gibson, T. J. (1994) CLUSTAL-W - improving
the sensitivity of progressive multiple sequence alignment through sequence
weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids
Research, 22, 4673–80.
19. Barton, G. J. (1990) Protein multiple sequence alignment and flexible pattern
matching. Methods in Enzymology, 183, 403–28.
20. Needleman, S. B. and Wunsch, C. D. (1970) A general method applicable to the
search for similarities in the amino acid sequence of two proteins. Journal of
Molecular Biology, 48, 443–53.
Глава 4. Моделирование белков. Введение 157

21. Sander, C. and Schneider, R. (1996) The HSSP database of protein structure-se-
quence alignments. Nucleic Acids Research, 24, 201–5.
22. Schuler, G. D., Altschul, S. F., and Lipman, D. J. (1991) A workbench for mul-
tiple alignment construction and analysis. Proteins Structure Function and
Genetics, 9, 1980–90.
23. Vingron, M., Argos, P., and Vogt, G. (1991) Protein sequence comparison: meth-
ods and significance. Protein Engineering, 4, 375–83.
24. Boswell, D. R. and McLachlan, A. D. (1984) Sequence comparison by exponen-
tially-damped alignment. Nucleic Acid Research, 12, 457–65.
25. Dayhoff, M. O., Schwartz, R. M., and Orcutt, B. C. (1978) A Model of evolution-
ary change in proteins, in Atlas of Protein Sequence and Structure (ed.
M. O. Dayhoff), National Biomedical Research Foundation, Washington, DC,
Vol. 5, Suppl. 3, pp. 345–52.
26. Gribskov, M., McLachlan, A. D., and Eisenberg, D. (1987) Profile analysis de-
tection of distantly related proteins. Proceedings of the National Academy of
Sciences of the United States of America, 84, 4355–58.
27. Landes, C., Risler, J. L., and Henaut, A. (1992) A comparison of several similarity
indices used in the classification of protein sequences: a multivariate analysis.
Nucleic Acids Research, 20, 3631–37.
28. Engelman, D. M., Steitz, T. A., and Goldman, A. (1986) Identifying nonpolar
transbilayer helices in amino acid sequences of membrane proteins. Annual
Review of Biophysics and Biophysical Chemistry, 15, 321.
29. Gonnet, G. H., Cohen, M. A., and Benner, S. A. (1992) Exhaustive matching of
the entire protein sequence database. Science, 256, 1443–45.
30. Doolittle, R. (1990) Searching through sequence databases. Method in Enzy-
mology, 183, 736–72.
31. Barton, G. J. and Sternberg, M. J. E. (1990) Flexible protein sequence patterns.
A sensitive method to detect weak structural similarities. Journal of Molecular
Biology, 212, 389–402.
32. Chothia, C. and Lesk, A. M. (1986) The relation between the divergence of sequ-
ence and structure in proteins. EMBO Journal, 5, 823–26.
33. Wang, Y, and Li, K. B. (2004) An adaptive and iterative algorithm for refining
multiple sequence alignment. Computational Biology and Chemistry, 28, 141–48.
34. Thompson, J. D., Thierry, J. C., and Poch, O. (2003) RASCAL: rapid scanning
and correction of multiple sequence alignments. Bioinformatics, 19, 1155–61.
35. Wallace, I. M., O'Sullivan, O., and Higgins, D. G. (2005) Evaluation of iterative
alignment algorithms for multiple alignment. Bioinformatics, 21, 1408–14.
36. Perutz, M. F., Bolton, W., Diamond, R. et al. (1964) Structure of haemoglobin.
An X-ray examination of reduced horse haemoglobin. Nature, 203, 687–90.
37. Maggiora, G. M., Rohrer, D. C., and Mestres, J. (2001) Comparing protein struc-
tures: a Gaussian-based approach to the three-dimensional structural similarity
of proteins, Journal of Molecular Graphics & Modelling, 19, 168–78.
38. Reinhardt, A. and Eisenberg, D. (2004) DPANN: improved sequence to struc-
ture alignments following fold recognition. Proteins, 56, 528–38.
39. Eisenberg, D., Marcotte, E., McLachlan, A. D., and Pellegrini, M. (2006)
Bioinformatic challenges for the next decade(s). Philosophical Transactions of
the Royal Society of London. Series B: Biological Sciences, 361, 525–27.
158 Молекулярное моделирование

40. Ilyin, V. A., Abyzon, A., and Leslin, C. M. (2004) Structural alignment of prote-
ins by a novel TOPOFIT method, as a superimposition of common volumes at a
topomax point. Protein Science, 13, 1865–74.
41. Jung, J. and Lee, B. (2000) Protein structure alignment using environmental
profiles. Protein Engineering, 13, 535–43.
42. Vriend, G. and Sander, C. (1991) Detection of common three-dimensional sub-
structures in proteins. Proteins Structure Function and Genetics, 11, 52–58.
43. Matthews, B. W. and Rossmann, M. G. (1985) Comparison of protein structures.
Methods in Enzymology, 115, 397–420.
44. Kabsch, W. and Sander, C. (1983) Dictionary of protein secondary structure:
pattern recognition of hydrogen-bonded and geometrical features. Biopolymers,
22, 2577–637.
45. Frishman, D. and Argos, P. (1995) Knowledge-based protein secondary struc-
ture assignment. Proteins Structure Function and Genetics, 23, 566–79.
46. Sanchez, R., Pieper, U., Melo, F. et al. (2000) Protein structure modeling for
structural genomics. Nature Structural Biology Supplement, 7, 986–90.
47. Bruccoleri, R. E. and Karplus, M. (1990) Conformational sampling using high-
temperature molecular dynamics. Biopolymers, 29, 1847–62.
48. Novotny, J., Bruccoleri, R. E., Davis, M., and Sharp, K. A. (1997) Empirical free
energy calculations: а blind test and further improvements to the method.
Journal of Molecular Biology, 268, 401–11.
49. Pellequr, J. L. and Chen, S. W. (1997) Does conformational free energy distin-
guish loop conformations in proteins? Biophysical Journal, 73, 2359–75.
50. Aloy, P., Pichaud, M., and Russell, R. B. (2005) Protein complexes: structure
prediction challenges for the 21st century. Current Opinion in Structural Biology,
15, 15–22.
51. Blundell, T. L., Sibanda, B. L., and Pearl, L. (1983) Three-dimensional struc-
ture, specificity and catalytic mechanism of rennin. Nature, 304, 273–75.
52. Allen, S. C., Acharya, K. R., Palmer, K. A. et al. (1994) A comparison of the pre-
dicted and X-ray structures of angiogenin. Implications for further studies of model
building of homologous proteins. Journal of Protein Chemistry, 13, 649–58.
53. Ponder, J. and Richards, F. M. (1987) Tertiary templates for proteins. Use of
packing criteria in the enumeration of allowed sequences for different structural
classes. Journal of Molecular Biology, 193, 775–91.
54. Summers, N. L., Carlson, W. D., and Karplus, M. (1987) Analysis of side-chain
orientations in homologous proteins. Journal of Molecular Biology, 196, 175–98.
55. Islam, S. A. and Sternberg, M. J. (1989) A relational database of protein structures
designed for flexible enquiries about conformation. Protein Engineering, 2, 431–42.
56. Nayeem, A. and Scheraga, H. A. (1994) A statistical analysis of side-chain con-
formations in proteins comparison with ECEPP predictions. Journal of Protein
Chemistry, 13, 283–96.
57. Dean, C. M. and Blundell, T. L. (2001) CODA: a combined algorithm for predicting
the structurally variable regions of protein models. Protein Science, 10, 599–612.
58. Schrauber, H., Eisenhaber, F., and Argos, P. (1993) Rotamers: to be or not to be?
An analysis of amino acid side-chain conformations in globular proteins. Journal
of Molecular Biology, 230, 592–612.
Глава 4. Моделирование белков. Введение 159

59. Canutescu, A. A., Shelenkov, A. A., and Dunbrack, R. L. Jr. (2003) A graph theory
algorithm for rapid protein side-chain prediction. Protein Science, 12, 2001–14.
60. Havel, T. F. and Snow, M. (1991) A new method for building protein conforma-
tions from sequence alignments with homologues of known structure. Journal of
Molecular Biology, 217, 1–7.
61. Srinivasan, S., March, C. J., and Sudarsanam, S. (1993) An automated method
for modeling proteins on known templates using distance geometry. Protein
Science, 2, 277–89.
62. Jang, J. X. and Havel, T. F. (1993) SESAME: a least-squares approach to the
evaluation of protein structures computed from NMR data. Journal of
Biomolecular NMR, 3, 355–60.
63. Fasman, G. D. (1989) Protein conformational prediction. Trends in Biochemical
Sciences, 14, 295–99.
64. Chou, P. Y. and Fasman, G. D. (1974) Prediction of protein conformation. Bio-
chemistry, 13, 211–45.
65. Garnier, J., Osguthorpe, D. J., and Robson, B. (1978) Analysis of the accuracy
and implications of simple methods for predicting the secondary structure of
globular proteins. Journal of Molecular Biology, 120, 97–120.
66. Kabsch, W. and Sander, C. (1983) How good are predictions of protein secondary
structure. FEBS Letters, 155, 179–82.
67. Lim, V. I. (1974) Algorithms for prediction of alpha-helical and beta-structural
regions in globular proteins. Journal of Molecular Biology, 88, 873–94.
68. Rees, D. C. DeAntonio, L., and Eisenberg, D. (1989) Hydrophobic organization
of membrane proteins. Science, 245, 510–13.
69. Kyte, J. and Doolittle, R. F. (1982) A simple method for displaying the hydro-
pathic character of a protein. Journal of Molecular Biology, 157, 105–32.
70. Rost, B. and Sander, C. (1993) Prediction of protein secondary structure at
better than 70% accuracy. Journal of Molecular Biology, 232, 584–99.
71. Rost, B. and Sander, C. (1994) Combining evolutionary information and neural
networks to predict protein secondary structure. Proteins Structure Function
and Genetics, 19, 55–72.
72. Rost, B. and Eyrich, V. A. (2001) EVA: large-scale analysis of secondary structure
prediction. Proteins Structure Function and Genetics Supplement, 5, 192–99.
73. Bryson, K., McGuffin, L. J., Marsden, R. L. et al. (2005) Protein structure pre-
diction servers at University College London. Nucleic Acids Research, 33,
W36–W38.
74. Cuff, J. A., Clamp, M. E., Siddiqui, A. S. et al. (1998) JPred: a consensus second-
ary structure prediction server. Bioinformatics, 14, 892–93.
75. Geer, L. Y., Domrachev, M., Lipman, D. J., and Bryant, S. H. (2002) CDART:
protein homology by domain architecture. Genome Research, 12, 1619–23.
76. Jones, D. T. (1999) Protein secondary structure prediction based on position-spe-
cific scoring matrices. Journal of Molecular Biology, 287, 797–815.
77. Wilmanns, M. and Eisenberg, D. (1995) Inverse protein folding by the residue
pair preference profile method: estimating the correctness of alignments of
structurally compatible sequences. Protein Engineering, 8, 626–35.
160 Молекулярное моделирование

78. Skolnick, J. (2006) In quest of an empirical potential for protein structure pre-
diction. Current Opinion in Structural Biology, 16, 166–71.
79. Panchenko, A. R., Marchler-Bauer, A., and Bryant, S. H. (2000) Combination of
threading potentials and sequence profiles improves fold recognition. Journal of
Molecular Biology, 296, 1319–31.
80. Kilinski, A., Betancourt, M. R., Kihara, D. et al. (2001) Generalized comparative
modeling (GENECOMP): a combination of sequence comparison, threading, and
lattice modeling for protein structure prediction and refinement. Proteins
Structure Function and Genetics, 44, 133–49.
81. Xu, Y. and Xu, D. (2000) Protein threading using PROSPECT: design and evalu-
ation. Proteins Structure Function and Genetics, 40, 343–54.
82. Moult, J. (1999) Predicting protein three-dimensional structure. Current
Opinion in Biotechnology, 10, 583–88.
83. Sippl, M. J. (1990) Calculation of conformational ensembles from potentials of
mean force. An approach to the knowledge-based prediction of local structures in
globular proteins. Journal of Molecular Biology, 213, 859–83.
84. Jones, D. T. and Thornton, J. M. (1996) Potential energy functions for threa-
ding. Current Opinion in Structural Biology, 6, 210–16.
85. Sippl, M. J. (1993) Recognition of errors in three-dimensional structures of
proteins. Proteins Structure Function and Genetics, 17, 355–62.
86. Mosimann, S., Meleshko, S., and James, M. N. G. (1995) A critical assessment of
comparative molecular modeling of tertiary structures of proteins. Proteins
Structure Function and Genetics, 23, 301–17.
87. Ptitsyn, O. B. and Finkelstein, A. V. (1983) Theory of protein secondary struc-
ture and algorithm of its prediction. Biopolymers, 22, 15–25.
88. Mrazek, J. and Kypr, J. (1988) Computer program Jamsek combining statistical
and stereochemical rules for the prediction of protein secondary structure.
Computer Applications in the Biosciences, 4, 297–302.

4.4. Процедуры оптимизации. Уточнение модели.


Молекулярная динамика
4.4.1. Силовые поля при моделировании белков
Как модели белков, построенные по гомологии, так и их кристалличес-
кие структуры нуждаются в уточнении. При построении модели кон-
формации петель и боковых цепей обычно выбираются случайным обра-
зом, вследствие чего они могут не соответствовать энергетически выгод-
ным структурам. Кристаллические структуры также нуждаются в
релаксации для удаления внутренних напряжений, возникающих из-за
влияния упаковки кристалла, или близких контактов между атомами
водорода или аминокислотными остатками, которые добавляют уже
после экспериментального определения структуры.
Поскольку модели белков состоят из сотен и тысяч атомов, единст-
венным подходящим способом обработки систем такого размера явля-
Глава 4. Моделирование белков. Введение 161

ются расчеты методом молекулярной механики. Обычные силовые


поля, используемые в молекулярной механике, основываются на функ-
ции потенциальной энергии (разд. 2.2.1). Белковые силовые поля отли-
чаются некоторыми характеристиками от силовых полей для малых мо-
лекул. Помимо специальной параметризации для белков и ДНК часто
вводят упрощения: например, в некоторых силовых полях неполярные
атомы водорода не представляют явно, а включают в описание тяжелого
атома, с которым они связаны; при этом полярные атомы водорода, ко-
торые могут быть потенциальными участниками водородных связей,
обрабатываются в явном виде. Этот способ рассмотрения называется мо-
делью объединенных атомов. В силовом поле AMBER [1, 2] могут быть
использованы как модель объединенных атомов, так и модель всех ато-
мов, в то время как силовое поле GROMOS [3] оперирует только первой
моделью. Важным упрощением также является использование гранич-
ного радиуса [4] для уменьшения времени расчета несвязных взаимодей-
ствий между атомами, разделенными расстояниями, большими, чем
граничный радиус.
Метод обработки электростатических взаимодействий также изме-
няется. Поскольку явное рассмотрение растворителя все еще является
проблемой, во многих силовых полях пытаются моделировать эффекты
растворителя, вводя зависимость диэлектрической проницаемости от
расстояния [1, 2]. Электростатическое поле вокруг системы не может
рассматриваться как однородное, в особенности в случае макромолекул,
поэтому при вычислении определенных свойств необходима дифферен-
цирующая процедура для учета электростатических эффектов, завися-
щих от локальной ситуации в месте связывания лиганда или на поверх-
ности белка. Подробное обсуждение этой темы и описание методов ре-
шения данной проблемы будет дано в разд. 4.6.1.
Модификации белковых силовых полей весьма многочисленны и не
могут быть описаны здесь в деталях; исчерпывающее описание подо-
бных упрощений дано в [5]. Следует иметь в виду, что каждое упроще-
ние приводит к потере точности. Решение о выборе силового поля зави-
сит от исследуемой проблемы, и всегда следует выбирать наиболее точ-
ное силовое поле, подходящее для выполнения всего исследования.
Следует избегать применения различных силовых полей в одном иссле-
довании.
В программах моделирования используются несколько общеприня-
тых силовых полей; наиболее часто встречаются AMBER [1, 2], CVFF [6],
CHARMM [7] и GROMOS [3].
4.4.2. Оптимизация геометрии
При минимизации белков используются те же алгоритмы, что и для ма-
лых молекул (разд. 2.2.3). Алгоритмы минимизации, применяемые для
оптимизации геометрии, обычно находят лишь локальный минимум на
поверхности потенциальной энергии, ближайший к начальным коорди-
натам. В случае кристаллической структуры с хорошим разрешением
минимизация напрямую приводит к одной энергетически выгодной
162 Молекулярное моделирование

конформации. Обычно релаксация кристаллической структуры вполне


очевидна, но иногда даже в качественных структурах встречаются не-
выгодные взаимодействия атомов, которые создают начальные напря-
жения, приводящие в свою очередь к искусственным искажениям на-
чальной структуры в процессе минимизации. Общий метод решения
данной проблемы — постепенная релаксация структуры белка.
На первой стадии минимизации добавляют силовые ограничения
ко всем тяжелым атомам кристаллической структуры, фиксирующие
координаты атомов на предварительно заданных позициях. Величина
допуска может быть задана пользователем и влияет на среднеквадра-
тичное отклонение атомов от начальных координат. При ограничении
движения тяжелых атомов атомы водорода и молекулы растворителя
двигаются свободно до минимизации общей потенциальной энергии. На
этой стадии наиболее подходящим методом минимизации является ал-
горитм скорейшего спуска. Для начальной релаксации можно приме-
нять грубый критерий сходимости или ограничивать число шагов мини-
мизации.
На следующей стадии рекомендуется ограничить только движение
атомов основной цепи: при этом происходит оптимизация ориентации
боковых цепей. В этом случае также подходит метод скорейшего спуска.
На последнем шаге силовые ограничения удаляются; окончатель-
ный результат представляет собой полностью релаксированную конфор-
мацию. В данном случае рекомендуется применять более эффективный
метод сопряженных градиентов.
Применение силовых ограничений может быть необходимо при мо-
делировании неполных систем, возникающих при рентгеноструктур-
ном исследовании в случае, если части кристалла или молекулы раство-
рителя не могут быть хорошо разрешены. Модели активного центра
ферментов или полостей связывания белков, используемые для изуче-
ния потенциальных лиганд-белковых взаимодействий, также являют
собой примеры типичных неполных систем.
Из-за отсутствия соседних аминокислот и молекул растворителя ато-
мы на поверхности белка достаточно подвижны. Как следствие, после ми-
нимизации могут появляться большие отклонения от начальных пози-
ций и артефакты в окончательной геометрии. Поэтому атомы на концах
боковых цепей привязываются к своим начальным положениям для
того, чтобы избежать нереалистичных искажений атомных координат.
Чтобы проверить точность оптимизированной модели белка, следу-
ет изучить ее отклонение от экспериментальной структуры. Для этого
конечную и начальную структуры накладывают друг на друга с исполь-
зованием метода наименьших квадратов. В качестве реперных точек ис-
пользуются все атомы основной цепи или атомы основной цепи хорошо
разрешенных структурных элементов. Качество подгонки можно оце-
нить среднеквадратичным отклонением оптимизированной структуры
от начальной геометрии. Его значение сильно зависит от числа и лока-
лизации атомов, рассматриваемых при наложении. Из-за высокой под-
вижности боковых цепей подгонка всех тяжелых атомов должна приво-
Глава 4. Моделирование белков. Введение 163

дить к значительно бoльшим значениям среднеквадратичного отклоне-


ния, чем подгонка лишь атомов основной цепи.
Если построенная модель базируется только на гомологии, то кон-
формации петель и боковых цепей нуждаются в уточнении. Необходимо
внимательно исследовать их конформационное поведение и анализиро-
вать поверхность потенциальной энергии для поиска других возмож-
ных низкоэнергетических конформаций. Ценным инструментом дости-
жения этой цели является молекулярная динамика. Релаксированная
геометрия, полученная в результате минимизации, может быть исполь-
зована в качестве отправной точки для моделирования молекулярной
динамики.
4.4.3. Использование молекулярной динамики
для уточнения модели
Как говорилось выше, уточнение моделей, построенных по гомологии,
совершенно необходимо. Конформации петель и боковых цепей данной
модели находятся лишь в одной из возможных конформаций, а структу-
ра после минимизации находится лишь в локальном минимуме. Для по-
иска наиболее выгодной геометрии системы необходима модифицирован-
ная стратегия более исчерпывающего исследования конформационного
пространства.
Моделирование молекулярной динамики является эффективным
способом решения данной задачи, в особенности для молекул, содержа-
щих сотни водородных связей. Оно проводится с помощью интегрирова-
ния классических уравнений движения молекулярной системы на от-
резке времени. Получающаяся траектория молекулы может быть ис-
пользована для вычисления средних и зависящих от времени свойств
системы. Теория метода молекулярной динамики и его приложение к
конформационному поиску малых молекул обсуждались в разд. 2.3.3 и
проиллюстрированы наглядными примерами. В данном разделе мы
сосредоточимся на практике использования метода оптимизации трех-
мерных структур макромолекул.
Молекулярная динамика внесла значительный вклад в понимание
динамических процессов в белках на атомном уровне. Тем не менее су-
ществуют некоторые базовые ограничения метода и проблемы, связан-
ные с огромным числом степеней свободы больших молекулярных систем.
Хотя вычислительные ресурсы стали достаточными для обработки
довольно больших систем, все еще необходимо использовать некоторые
модификации методов для уменьшения расчетного времени [5]. Очень
полезным результатом таких упрощений является возможность моде-
лирования более продолжительных периодов времени. Это позволяет
более полно изучать динамическое поведение больших молекулярных
систем.
Перед детальным обсуждением различных упрощений следует сно-
ва упомянуть, что каждая модификация и уменьшение числа степеней
свободы вызывает уменьшение точности, и всегда следует внимательно
проверять, допустимо ли соответствующее упрощение.
164 Молекулярное моделирование

Одной из наиболее простых и часто применяемых упрощающих про-


цедур является использование функций потенциальной энергии с объе-
диненными атомами. Идея этого метода уже была описана выше. На
этом алгоритме базируется большинство белковых силовых полей, на-
пример AMBER [1, 2] и GROMOS [3]. Исключение из рассмотрения не-
полярных атомов водорода значительно уменьшает число частиц в боль-
шой биомолекуле.
Алгоритм SHAKE [8] предоставляет следующую возможность для
уменьшения компьютерного времени. При использовании метода SHAKE
вводятся дополнительные силовые ограничения с целью зафиксировать
длины связей на уровне их равновесных значений. Это очень полезно по
нескольким причинам. Прежде всего для «замороженных» связей можно
не вычислять энергетические члены, соответствующие изменению дли-
ны связей. Величина шага интегрирования зависит от наиболее быстрых
колебаний, наблюдаемых в молекуле. Обычно это высокочастотное ко-
лебание, соответствующее растяжению связи C—H; период этого коле-
бания составляет порядка 10–14 с, и поэтому шаг интегрирования дол-
жен составлять 10–15 с (1 фс). При применении алгоритма SHAKE к
этим связям возможно использование большего шага интегрирования с
меньшими вычислительными затратами, что открывает возможность
моделирования более длинных отрезков времени. Установление гранич-
ного радиуса, за пределами которого пренебрегают несвязными взаимо-
действиями, имеет тот же эффект.
Кроме того, уменьшить расчетное время можно при использовании
сбалансированного вычислительного протокола. С этой целью можно
зафиксировать некоторые части белка и моделировать молекулярную
динамику лишь для подвижных частей, таких как петли и боковые цепи,
не принимая в рассмотрение четко сформированные элементы вторич-
ной структуры, такие, как a-спирали или b-листы белкового остова.
Доступные данные ЯМР могут также послужить основанием для фикса-
ции атомов, боковых цепей или частей белка во избежание их отклоне-
ния от экспериментально определенных позиций. Следует понимать,
что ограничения, накладываемые на части гибких молекул, приводят к
уменьшению числа степеней свободы. Без всякого сомнения, исчерпы-
вающее исследование конформационного пространства и, следователь-
но, лучшие результаты получаются только тогда, когда силовые ограни-
чения не используются.
Все упомянутые методы увеличивают эффективность моделирова-
ния молекулярной динамики. Тем не менее для некоторых проблем дос-
тупный масштаб времени слишком мал. Если, например, изучается свя-
зывание лиганда с ферментом или рецептором и следующие за этим кон-
формационные изменения, то время, необходимое для этого процесса,
может меняться от пикосекунд до наносекунд [9]. Тот же масштаб вре-
мени необходим для моделирования укладки белков. Оба типа задач до
сих пор до конца неразрешимы.
Несколько модификаций моделирования высокотемпературной мо-
лекулярной динамики были успешно использованы в конформацион-
Глава 4. Моделирование белков. Введение 165

ном анализе пептидов и оптимизации моделей белков. Два важных ме-


тода из этой группы — молекулярно-динамическое моделирование вы-
сокотемпературного отжига [10] и моделирование отжига [11] — были
описаны в разд. 2.3.3. Это ценные и широко применяемые методы
исследования пептидов и белков [12–16].
Во всех протоколах молекулярной динамики весьма важен выбор
подходящей температуры моделирования. Обычно моделирование про-
водится в диапазоне от 300 до 400 К. С одной стороны, температура дол-
жна быть достаточно высокой, чтобы не дать системе застрять в одной
области конформационного пространства, с другой — она не должна
быть слишком высокой, поскольку это может привести к искаженным
конформациям даже после минимизации [16]. Часто при использова-
нии высокотемпературной молекулярной динамики возникает и другая
проблема — транс-цис-обращение пептидных связей. Этих артефактов
можно избежать, используя более низкие температуры или накладывая
ограничения на торсионные углы пептидных связей.

4.4.4. Обработка сольватированных систем


Окружающая среда сильно влияет на конформационную подвижность
белка, особенно на поверхности и в районе петель. Отсутствие соседних
атомов приводит к локальному вакууму на поверхности белка; пробле-
мы, с этим связанные, уже упоминались в связи с процессом миними-
зации. К сожалению, они до сих пор не решены. Разумеется, точность
моделирования молекулярной динамики повышается при использова-
нии явно заданных молекул растворителя. Одна из возможностей ими-
тации эффектов растворителя и учета граничных явлений заключа-
ется в использовании диэлектрической проницаемости, зависящей от
расстояния.
Если молекулу заключить в сферу из молекул растворителя, точ-
ность моделирования молекулярной динамики должна увеличиться,
поскольку таким образом имитируется по крайней мере часть эффектов
сольватации. Необходимо отметить, что существуют важные различия
между сольватной водой и структурной водой. Структурная вода важна
для функции белка и может влиять даже на конформацию его остова.
Поэтому в расчетах структурную воду следует всегда учитывать в явном
виде.
На следующем уровне приближения белок помещают в бокс, запол-
ненный тысячами молекул растворителя, моделируя естественное соль-
ватное окружение. Это не всегда возможно, поскольку требует значи-
тельных расчетных усилий. Тем не менее благодаря быстрому росту вы-
числительных мощностей в последние годы проводится все больше и
больше исследований систем с явно заданным растворителем [17–22].
Обширный обзор моделирования молекулярной динамики в различных
системах можно найти в работе [23].
Во многих случаях использование реалистичных моделей воды для
многих тысяч молекул приводит к большим затратам времени, поэтому
166 Молекулярное моделирование

были разработаны специальные методы, использующие упрощенное пред-


ставление молекул растворителя [18]. Например, молекулы растворите-
ля могут быть представлены как нейтральные сферические атомы; та-
кой способ обработки значительно уменьшает время расчета. Детальное
описание всех методов выходит за рамки данной книги. Тем не менее,
важно иметь в виду, что использование сольватной оболочки на любом
уровне сложности расчета является важным способом увеличения точ-
ности и достоверности моделирования молекулярной динамики, в осо-
бенности для больших биомолекулярных систем.
Как и все остальные научные исследования, связанные с расчета-
ми, молекулярная динамика становится все мощнее с ростом произво-
дительности компьютеров. Вычисления, которые вчера с трудом могли
быть сделаны на суперкомпьютерах, завтра можно будет проводить на
обычных (так называемых «офисных») рабочих станциях. Рост эффек-
тивности вычислений позволяет моделировать все бoльшие и бoльшие
системы с более реалистичными граничными условиями и адекватным
отбором конформаций благодаря более длительным временам накопле-
ния. Недавно стало возможно моделирование таких сложных систем,
как трансмембранные каналы и рецепторы [24]. Моделирование слож-
ных систем с «природными» липидными бислоями (например, дипаль-
митоилфосфатидилхолин (DPPC), пальмитоилолеоилфосфатидилхо-
лин (POPC), димиристоилфосфатидилхолин (DMPC)) все еще искусс-
тво, поскольку модель мембраны характеризуется набором параметров
силового поля, который специальным образом адаптируется для того,
чтобы наблюдать реалистичные физические свойства во время модели-
рования молекулярной динамики [24].

4.4.5. Комплексы лигандов и центров связывания


Модели белков часто используются для исследования лиганд-белковых
взаимодействий. Малые молекулы, представляющие обычно фармацев-
тический интерес как новые лекарства, можно поместить в активный
центр белка. За последнее десятилетие было разработано множество
программ докинга, которые могут быть использованы для этой цели. Их
детальное описание приводится в гл. 5.
Поскольку природный процесс связывания нестатичен, а большин-
ство программ докинга до сих пор не учитывают подвижность белка, мо-
делирование свойств лиганд-белкового комплекса можно провести ме-
тодом молекулярной динамики. Такая ценная информация, как схема
водородных связей, среднеквадратичные отклонения и флуктуации
положения, может быть получена с помощью молекулярной динамики
и помогает различить связывающиеся и несвязывающиеся лиганды.
Для того чтобы моделирование молекулярной динамики комплекса
имело смысл, должны быть удовлетворены некоторые предварительные
требования. Начальные координаты белка и лиганда должны представ-
лять собой конформации с достоверной энергией. Моделируемая
система должна включать в себя все интересующие области и быть доста-
точно большой, чтобы корректно описывать все силы, вносящие вклад в
Глава 4. Моделирование белков. Введение 167

энергию системы. Комплексы, представляющие только активный центр,


можно изучать только в том случае, если учтены все возможные ли-
ганд-белковые взаимодействия. Кроме того, все необходимые парамет-
ры для атомов белка и лиганда должны быть учтены в силовом поле.
Поскольку исторически большинство силовых полей разрабатывалось
либо для малых органических молекул, либо для белков, иногда подбор
необходимых параметров становится проблематичным. И наконец, вре-
мя моделирования должно быть достаточно большим для накопления
представительного ансамбля данных.
Несмотря на известные ограничения, моделирование молекулярной
динамики стало мощным инструментом изучения динамического пове-
дения таких объектов, как пептиды, белки, ферменты, рецепторы и мем-
браны. Совместное использование экспериментальных результатов, по-
лученных методами ЯМР, фотоаффинного маркирования или рентгенов-
ской кристаллографии, и теоретических методов может представлять
собой путь к получению детальной трехмерной атомной картины моле-
кулярной системы и изучению до сих пор экспериментально недоступ-
ных процессов в белках.

Цитированная литература
1. Weiner, S. J., Kollman, P. A., Case, D. A. et al. (1984) New force field for molecu-
lar mechanical simulation of nucleic acids and proteins. Journal of the American
Chemical Society, 106, 765–84.
2. Weiner, S. J., Kollman, P. A., Nguyen, D. T., and Case, D. A. (1986) An all-atom
force field for simulation of proteins and nucleic acids. Journal of Computa-
tional Chemistry, 7, 230–52.
3. van Gunsteren, W. F. and Berendsen, H. J. C. (1985) Molecular dynamics simula-
tions techniques and application to proteins, in: Molecular Dynamics and Pro-
tein Structure (ed. J. Hermans), Polycrystal Books Service, Western Springs,
pp. 5–14.
4. Brooks, C. L. III, Pettitt, B. M., and Karplus, M. (1985) The effects of terminat-
ing long-ranged forces in fluids. Journal of Chemical Physics, 83, 5897–908.
5. Van Gunsteren, W. F., Bakowies, D., Baron, R. et al. (2006) Biomolecular mode-
ling: goals, problems, perspective. Angewandte Chemie (International ed. In
English), 45, 4064–92.
6. Dauber-Osguthorpe, P., Roberts, V. A., Osguthorpe, D. J. et al. (1988) Structure
and energetics of ligand binding to proteins: E. coli dihydrofolate reductase-
trimethoprim, a drug-receptor system. Proteins Structure Function and Genetics,
4, 31–47.
7. Brooks, B. R., Bruccoleri, R. E., Olafson, B. D. et al. (1983) CHARMM: a pro-
gram for macromolecular energy minimization and dynamics calculations. Jour-
nal of Computational Chemistry, 4, 187–217.
8. Ryckaert, J. P., Ciccotti, G., and Berendsen, H. J. C. (1977) Numerical integra-
tion of the Cartesian equations of motion of a system with constraints: molecular
dynamics of n-alkanes. Journal of Computational Physics, 23, 327.
168 Молекулярное моделирование

9. Lybrand, T. P. (1990) Computer simulation of biomolecular systems using mole-


cular dynamics and free energy perturbation methods, in Reviews in Computa-
tional Chemistry (eds K. B. Lipkowitz and D. B. Boyd), VCH, New York, Vol. 1,
pp. 295–320.
10. Mohamadi, F., Richards, N. G. J., Guida, W. C. et al. (1990) MacroModel — an
integrated software system for modeling organic and bioorganic molecules using
molecular mechanics. Journal of Computational Chemistry, 11, 440–67.
11. Kirkpatrick, S., Gelatt, C. D.,and Vecchi, M. P. (1983) Optimization by simula-
ted annealing. Science, 220, 671–80.
12. Salvino, J. M., Seoane, P. R., and Dolle, R. E. (1993) Conformational analysis of
bradykinin by annealed molecular dynamics and comparison to NMR-derived
conformations. Journal of Computational Chemistry, 14, 438–44.
13. Wilson, S. R. and Cui, W. (1990) Application of simulated annealing to peptides.
Biopolymers, 29, 225–35.
14. Mackey, D. H. J., Cross, A. J., and Hagler, A. T. (1989) The role of energy
minimization in simulation strategies of biomolecular systems, in Prediction of
Protein Structure and the Principles of Protein Conformation (ed. G. Fasman),
Plenum Press, New York, pp. 317–58.
15. Kerr, I. D., Sankararamakrishnan, R., Smart, O. S., and Sansom, M. S. P. (1994)
Parallel helix bundles and ion channels: molecular modeling via simulated an-
nealing and restrained molecular dynamics. Biophysical Journal, 67, 1501–15.
16. Bruccoleri, R. E. and Karplus, M. (1990) Conformational sampling using
high-temperature molecular dynamics. Biopolymers, 29, 1847–62.
17. Vijayakumar, S., Ravishanker, G., Pratt, R. F., and Beveridge, D. L. (1995) Mo-
lecular dynamics simulation of a class A b-lactamase: structural and mechanistic
implications. Journal of the American Chemical Society, 117, 1722–30.
18. Antes, I., Thiel, W.,and van Gunsteren, W. F. (2002) Molecular dynamics simu-
lations of photoactive yellow protein (PYP) in three states of its photocycle: a
comparison with X-ray and NMR data and analysis of the effects of Glu-46
deprotonation and mutation. European Biophysics Journal, 31, 504–20.
19. Schlegel, B., Sippl, W., and Holtje, H.-D. (2005) Molecular dynamics simula-
tions of bovine rhodopsin: influence of protonation states and different mem-
brane-mimicking environments. Journal of Molecular Medicine, 12, 49–64.
20. Johren, K., and Holtje, H.-D. (2005) Different environments for a realistic simu-
lation of GPCRs-application to the M2 muscarinic receptor. Archiv der
Pharmazie, 338, 260–67.
21. Zhang, Y., Sham, Y. Y., Rajamani, R. et al. (2005) Homology modeling and mo-
lecular dynamics simulations of the mu opioid receptor in a membrane-aqueous
system. Chembiochem, 6, 853–59.
22. Haider, S., Grottesi, A., Hall. B. A. et al. (2005) Conformational dynamics of the
ligand-binding domain of inward rectifier K channels as revealed by molecular
dynamics simulations toward an understanding of Kir channel gating. Biophysi-
cal Journal, 88, 3310–20.
23. Karplus, M. and McCammon, J. A. (2002) Molecular dynamics simulations of
biomolecules. Nature Structural Biology, 9, 646–52.
24. Hansson, T., Oostenbrink, C., and van Gunsteren, W. (2002) Molecular dynam-
ics simulations. Current Opinion in Structural Biology, 12, 190–96.
Глава 4. Моделирование белков. Введение 169

4.5. Валидация моделей белков


После того как модель белка построена по гомологии и оптимизирована
с помощью молекулярной механики или молекулярной динамики, не-
обходимо убедиться в ее качестве и достоверности. Здесь уместен вопрос
о том, как можно проверить правильность и точность модели. Задача эта
очень сложная, поскольку качество модели белка, построенной по гомо-
логии, зависит от огромного числа параметров на различных уровнях
структурной организации. Они перечислены на рис. 4.5.1.

4.5.1. Стереохимическая корректность


Качество трехмерной структурной модели белка сильно зависит от точнос-
ти использованной шаблонной структуры, иными словами, от качества
кристаллической структуры [1]. Очевидно, что модель белка не может
быть точнее, чем кристаллическая структура, использованная в качестве
шаблона. Рентгеновские структуры белков могут содержать как экспери-
ментальные ошибки, так и ошибки интерпретации результатов [1–3].

Рис. 4.5.1. Алгоритм оценки качества белковых моделей


170 Молекулярное моделирование

Основные меры качества кристаллических структур — это разреше-


ние и R-фактор. Чем лучше разрешение белкового кристалла, чем боль-
ше объем дифракционных данных, полученных из экспериментальных
наблюдений, тем больше точность структуры белка [4]. Разрешение бел-
ковых структур, хранящихся в PDB, обычно находится в диапазоне
1–4 C. R-фактор — это мера согласия между полученной трехмерной
структурой кристалла (трехмерная структура, лучше всего соответству-
ющая карте электронной плотности) и «реальной» структурой кристал-
ла. R-фактор можно определить путем сравнения экспериментально на-
блюдаемых амплитуд рентгеновских отражений и амплитуд, вычислен-
ных по структуре белка, показывающей наилучшее соответствие карте
электронной плотности (детальное обсуждение точности в рентгенов-
ской кристаллографии интересующийся читатель может найти в лите-
ратуре [5]). Чем лучше согласие между наблюдаемыми и вычисленными
амплитудами (меньший R-фактор), тем лучше согласие между найден-
ной и реальной кристаллическими структурами. Существуют способы
искусственного уменьшения R-фактора, поэтому он может иногда ввес-
ти в заблуждение [2]. Общепринято рассматривать структуры с разре-
шением 2,0 C или лучше как достоверные. Если, помимо этого, R-фак-
тор составляет меньше 20%, можно уверенно предположить, что струк-
тура определена правильно.
Для проверки стереохимического качества построенной модели не-
обходимо доказать правильность таких параметров, как длины связей,
углы между связями, торсионные углы и хиральность аминокислот.
Наблюдения показывают, что в трехмерных структурах белков длины
связей и углы между ними группируются вокруг «идеальных значений».
Иными словами, средние значения для кристаллических структур рас-
сматриваются как хорошие индикаторы стереохимического качества, и
значения для моделей белков следует сравнивать с ними (см. табл. 4.5.1)
[6] для того, чтобы выявить стереохимические нарушения, которые об-
наруживаются у низкокачественных структур.
Поскольку ручная проверка всех стереохимических параметров
белка — весьма утомительное и длительное занятие, были разработаны
программы автоматической проверки всех стереохимических парамет-
ров. В качестве примера можно привести PROCHECK [7], WHATCHECK
[8] и VADAR [9], которые доступны через интернет (например,
http://www.embl.org, http://www.smb.ucl.ac.uk/).
Важным индикатором стереохимического качества является рас-
пределение торсионных углов j и y основной цепи, которое можно визу-
ализировать с помощью карты Рамачандрана. Как уже говорилось в
разд. 4.2.1, выгодные и невыгодные области классической карты Рама-
чандрана были определены при изучении конформационного поведения
изолированных дипептидов. Для сотен хорошо оптимизированных бел-
ковых структур торсионные углы обычно лежат в тех же областях.
Одно из замеченных свойств повторяющихся вторичных структур в бел-
ках состоит в том, что для них наблюдаемые значения j и y близки к
тем, которые рассчитаны Рамачандраном для оптимальных конформа-
Глава 4. Моделирование белков. Введение 171

Таблица 4.5.1. Стереохимические параметры, найденные Моррисом и др. при


исследовании кристаллических структур с высоким
разрешением [6]

Среднее Стандартное
Стереохимический параметр
значение отклонение
j–y в наиболее благоприятных областях карты > 90% —
Рамачандрана

Торсионный угол c1 в конформации гош– 64,1° 15,7°

c1 в конформации транс 183,6° 16,8°

c1 в конформации гош+ -66,7° 15,0°

Торсионный угол c2 177,4° 18,5°

Торсионный угол j для пролина -65,4° 11,2°

Торсионный угол j для a-спирали -65,3° 11,9°

Торсионный угол y для a-спирали -39,4° 11,3°


Длина дисульфидной связи (Disulfide bond 2,0 C 0,1 C
separation)

Торсионный угол w 180,0° 5,8°


Отклонение Ca от тетраэдричности: торсион- 33,9° 3,5°
ный угол z (виртуальный торсионный угол
Ca–N–C¢–Cb)

ций дипептидов. Углы j и y для неповторяющихся структур, таких, как


петли и шпильки, находятся в благоприятных областях карты Рамачан-
драна, но распределены по ним шире.
В качестве примера на рис. 4.5.2 изображена карта Рамачандрана
для кристаллической структуры цефалоспориназы Enterobacter cloacae.
На ней представлены торсионные углы для всех остатков, кроме проли-
на и терминальных аминокислот. Остатки глицина показаны отдельно в
виде треугольников, поскольку они не привязаны к какой-либо опреде-
ленной области карты. Окраска показывает различные главные области
карты: чем ближе цвет области к красному, тем более благоприятна дан-
ная комбинация j и y. Белые области запрещены для обычных амино-
кислот, и любой остаток, попавший в эту область, должен быть внима-
тельно исследован. Аминокислоты, попавшие не в очень благоприятные
области, специально помечаются номером и названием остатка (на рис.
4.5.2 выделены красным) для облегчения их поиска и проверки.
Неблагоприятная стереохимия, характеризующаяся запрещенны-
ми значениями торсионных углов, возникает в природных белках ис-
ключительно в тех случаях, когда особая геометрия необходима для
172 Молекулярное моделирование

Рис. 4.5.2. Карта Рамачандрана (PROCHECK)

функционирования или стабилизации — если, например, остатки бел-


кового остова участвуют в водородных связях или солевых мостиках.
Единственные остатки, для которых допустимо расположение вне
основных областей карты Рамачандрана, это пролин и глицин. Пос-
кольку они имеют другие благоприятные и неблагоприятные области
из-за своей особой стереохимии, зачастую их маркируют особым обра-
зом или исключают из общей карты Рамачандрана. Обычно строят от-
дельные карты для всех остатков глицина, всех пролинов и всех осталь-
ных аминокислот. Процент остатков, лежащих в разрешенных областях
карты Рамачандрана, является одним из основных способов проверки
стереохимического качества белковой модели. В идеальной ситуации
следует ожидать более 90% остатков в разрешенных областях [7].
Аналогичным образом можно проверить торсионные углы боковых
цепей ci. Торсионные углы c1, наблюдаемые в высококачественных
структурах белков [6], обычно близки к одной из трех возможных затор-
моженных конформаций, при этом наиболее выгодна конформация, в
которой самые объемистые группы находятся дальше всего друг от дру-
га (см. табл. 4.5.1: торсионные углы гош–, транс и гош+ для c1). Для
торсионных углов c2 было обнаружено предпочтение транс-конформа-
ции. Похожее распределение торсионных углов боковых цепей было об-
наружено Пондером и Ричардсом [10]. Распределение торсионных углов
боковых цепей всех типов аминокислот в белках можно детально иссле-
Глава 4. Моделирование белков. Введение 173

довать с помощью графиков, где по осям отложены углы c1 и c2. Приме-


ры таких графиков для цефалоспориназы E. cloacae изображены на рис.
4.5.3: на каждом из них приведено распределение углов c1 и c2 для
определенного типа аминокислот. Зеленые области карты отвечают
благоприятным сочетаниям углов, которые были определены по набору
высококачественных кристаллических структур [7]. Черные точки со-
ответствуют благоприятным значениям, найденным в структуре цефа-
лоспориназы, а красные точки отвечают неблагоприятным значениям.
Некоторые стереохимические параметры одинаковы для всех извест-
ных белков. Они являются очень чувствительной мерой качества моде-
лей и должны быть внимательно проверены на соответствие. Это следу-
ющие параметры:
— Планарность пептидной связи. Ее мерой обычно является среднее
значение и стандартное отклонение всех углов w в рассматриваемом
белке. Чем меньше стандартное отклонение углов, тем плотнее они
группируются вокруг нормального значения 180°, отвечающего
плоской транс-конфигурации (распределение углов w для кристал-
лических структур см. в табл. 4.5.1). Все цис-пептидные связи следу-
ет выписывать отдельно и внимательно проверять. Они встречаются
с частотой около 5% среди связей, предшествующих остаткам про-
лина, а среди всех остальных пептидных связей количество цис-свя-
зей не превышает 0,05% [11, 12].
— Хиральность Ca-атомов. Одним из ключевых принципов структуры
белка является предпочтение одной хиральной конформации другой
(например, предпочтение правой конформации для a-спирали).
Причиной такого поведения является наличие асимметрического
центра — Ca-атома, который обладает L-конфигурацией для всех
встречающихся в природе аминокислот. По этой причине модель
белка должна быть проверена на правильную хиральность. Для хи-
ральности мерой правильности является торсионный угол z (дзета).
Это виртуальный торсионный угол, не связанный ни с одной реаль-
ной связью в белке, а определяемый для группы атомов Ca–N–C¢–Cb
каждого остатка. Значения угла z должны находиться в интервале от
23° до 45°; отрицательное значение угла свидетельствует о появле-
нии D-аминокислоты [7].
— Длины связей и углы между связями основной цепи. Значение каж-
дой длины связи и угла между связями основной цепи сравнивают с
распределением, наблюдаемым для качественных кристаллических
структур. Отклонения >0,05 C для длин связей и >10° для углов обычно
считаются чрезмерными, и соответствующие фрагменты требуют
внимательной проверки [3].
— Ароматические системы (Phe, Tyr, Trp, His) и sp2-гибридизованные
концевые группы (Arg, Asn, Asp, Glu, Gln) следует проверить на пла-
нарность.

Отклонение от этих параметров часто свидетельствует о «плохих»


межатомных контактах. Отказ от стерических ограничений и последу-
174

Рис. 4.5.3. Карты c1–c2 для различных аминокислот (PROCHECK)


Молекулярное моделирование
Глава 4. Моделирование белков. Введение 175

ющая оптимизация модели в большинстве случаев приводят к релакси-


рованной структуре с идеальными геометрическими параметрами.

4.5.2. Качество упаковки


Считается, что важную роль в структурной специфичности белков игра-
ют особые упаковочные взаимодействия [13–15]. Было обнаружено, что
глобулярные белки очень плотно упакованы, причем плотность упаков-
ки сопоставима с плотностью кристаллов малых органических молекул
[13]. Внутреннее пространство глобулярных белков содержит боковые
цепи, сложенные на удивление плотно, подобно элементам трехмерного
пазла. Высокая плотность упаковки, наблюдаемая в белках, является
следствием того, что фрагменты вторичной структуры упакованы упо-
рядоченно: спираль рядом со спиралью, спираль рядом с цепями b-лис-
тов, цепи рядом с цепями разных b-листов [15–18]. Внутренняя упаков-
ка глобулярных белков вносит наибольший вклад в стабильность общей
конформации, поэтому качество упаковки в модели белка может быть
использовано для оценки ее достоверности. Оно может быть оценено
разными методами, которые будут описаны в этом разделе.
Первым делом необходимо удостовериться, что в оптимизирован-
ной модели белка нет «плохих» ван-дер-ваальсовых контактов. Для это-
го необходимо проверить, чтобы все межатомные расстояния находи-
лись в пределах, характерных для высококачественных кристаллических
структур. Существуют различные методы такой проверки расстояний.
В простейшем случае изменяются все межатомные расстояния и те из них,
которые меньше определенного граничного значения, объявляются «пло-
хими» контактами, которые следует детально изучить (например, в про-
грамме PROCHECK используется граничное значение 2,6 C). Более
точная оценка межатомных расстояний проводится программой
WHATCHECK [8]: для всех высококачественных кристаллических стру-
ктур, хранящихся в PDB, определяются и записываются все межато-
мные расстояния, меньшие суммы ван-дер-ваальсовых радиусов атомов
+ 1,0 C. Расстояние, разделяющее все собранные значения таким обра-
зом, что 5% расстояний короче его и 95% длиннее его, объявляется
«кратчайшим нормальным расстоянием». Поскольку в природных ами-
нокислотах встречаются 163 различных типа атомов, всего определяет-
ся 163 ´ 163 «кратчайших нормальных расстояний». Программа выво-
дит все расстояния в модели, которые короче «кратчайших нормальных
расстояний» более, чем на 0,25 C.
На следующем шаге производится проверка элементов вторичной
структуры белковой модели. Как мы уже говорили в разд. 4.3.2, элемен-
ты вторичной структуры наиболее консервативны в гомологичных бел-
ках. Поэтому следует доказать, что элементы вторичной структуры, на-
блюдаемые в шаблонном белке, также обнаруживаются и в модели,
иными словами, что вторичная структура сохраняется в процессе по-
строения и оптимизации модели. Для этой цели можно использовать
программы DSSP [19] и STRIDE [20] (см. разд. 4.3.2), которые позволя-
176 Молекулярное моделирование

ют произвести более надежное отнесение вторичной структуры, чем руч-


ной анализ a-спиралей и b-листов.
Существует значительное число методов, использующих огромное
количество информации из кристаллических структур белков для оцен-
ки качества упаковки структурных моделей [21–24]. Исходя из предпо-
ложения, что межатомные взаимодействия являются главным факто-
ром, определяющим конформацию белка, Вриенд и Сандер разработали
программу, оценивающую качество модели с помощью так называемого
«индекса качества контактов» [21]. Этот индекс является мерой соотве-
тствия между распределением атомов вокруг боковой цепи аминокисло-
ты в модели белка и аналогичным распределением для высококачес-
твенных кристаллических структур. Исследователи создали базу дан-
ных, содержащую распределение вероятности контактов для боковых
цепей всех аминокислот. Эта величина описывает вероятность того, что
атом определенного типа окажется в определенной области вокруг боко-
вой цепи. Значения этих вероятностей используются для проверки ка-
чества контактов в модели белка. Чем выше соответствие между распре-
делениями для модели и кристаллических структур, тем выше индекс
качества контактов и тем более выгодна упаковка остатков.
Распределение полярных и неполярных остатков между внутренни-
ми областями и поверхностью белка весьма характерно для архитекту-
ры глобулярных белков. На простейшем уровне можно рассматривать
глобулярный белок как состоящий из гидрофобного ядра, окруженного
гидрофильной внешней поверхностью, которая взаимодействует с моле-
кулами растворителя. Общие принципы строения были идентифициро-
ваны в большинстве трехмерных структур глобулярных белков и могут
быть сформулированы следующим образом:
— Внутренние области глобулярных белков плотно упакованы, лише-
ны больших областей пустого пространства и преимущественно гид-
рофобны. Там преобладают неполярные боковые цепи; Val, Leu, Ile,
Phe, Ala и Gly составляют 63% внутренних аминокислот [11]. Иони-
зированные пары кислых и оснoвных групп редко встречаются внут-
ри белков, несмотря на то что такие пары не должны иметь суммар-
ного заряда благодаря образованию солевых мостиков.
— Заряженные и полярные группы находятся на доступной для раство-
рителя поверхности глобулярных белков. Остатки Asp, Glu, Lys и
Arg в среднем составляют 27% внешней поверхности белка и только
4% внутренних остатков [11]. (Интегральные мембранные белки от-
личаются от глобулярных белков преимущественно тем, что области
их поверхности, находящиеся в контакте с гидрофобной частью мем-
браны, неполярны.)
Эти особенности вносят основной вклад в стабильность свернутых
белков [15, 25, 26]. В основе такого распределения лежит гидрофобный
эффект, состоящий в том, что гидрофобные остатки избегают контакта с
водой. Наблюдения показывают, что свободные энергии перехода из
воды в органический растворитель для полярных, неполярных и гидро-
Глава 4. Моделирование белков. Введение 177

фобных остатков коррелируют с частотой их появления на поверхности


и во внутренних областях белков [27]. Поэтому распределение гидро-
фильных и гидрофобных остатков в белках может быть использовано
для оценки достоверности моделей белков [27–30]. Разработан ряд про-
грамм, использующих это распределение как меру качества белковых
моделей [8, 29, 30].
Имеются также наблюдения, что гидрофобность аминокислоты,
определяемая как свободная энергия переноса из воды в органический
растворитель, линейно соотносится с площадью ее поверхности, доступ-
ной для растворителя в белке, то есть, чем гидрофобнее аминокислота,
тем меньше площадь ее контакта с растворителем [31]. Площадь погру-
женной поверхности аминокислоты — это разница между доступной
для растворителя поверхностью остатка в развернутой полипептидной
цепи (обычно определяется в стандартном состоянии для трипептида
Gly-Xaa-Gly) и доступной для растворителя поверхностью остатка в
свернутом белке. Было показано, что площадь погруженной поверхнос-
ти, то есть площадь контакта с растворителем, потерянная, когда оста-
ток переносится из стандартного состояния в свернутый белок, пропор-
циональна гидрофобности остатка.
Кроме того, общая погруженная поверхность глобулярных белков
коррелирует с их молекулярной массой. Это означает, что при укладке
белков становится недоступной для растворителя постоянная доля по-
верхности [27]. Для оценки качества упаковки глобулярных белков
были разработаны различные программы, учитывающие общие свой-
ства поверхностей аминокислот [8, 29, 31]. Детальный обзор темы моле-
кулярных поверхностей и их вклада в стабильность белков можно
найти в литературе [15, 32].
Хотя внутренние области белков обычно состоят из неполярных или
нейтральных остатков, иногда в них встречаются и полярные остатки,
если все полярные группы внутри белка участвуют в образовании водо-
родных связей. Многие из этих полярных групп вступают в водородные
связи внутри своих вторичных структур (a-спиралей и b-листов). Дру-
гие участвуют в связывании кофакторов, ионов металлов или располо-
жены в активном центре белка. Ионизированные группы, изредка
встречающиеся внутри глобулярных белков, почти всегда участвуют в
солевых мостиках. Иногда положительный и отрицательный заряд сое-
диняются через мостиковую молекулу воды. Поэтому необходимо про-
верять, все ли полярные остатки остова белка участвуют в водородных
связях и все ли заряженные остатки участвуют в солевых мостиках. Со-
левые мостики и водородные связи обычно идентифицируются на осно-
ве межатомных расстояний [33].

4.5.3. Анализ достоверности укладки


Белки с гомологичными последовательностями обычно уложены похо-
жим образом, поэтому пространственные структуры модели и шаблона
должны быть в целом схожи. Гомологичные белки должны обладать
одинаковыми конформациями, в особенности в структурно консерва-
178 Молекулярное моделирование

тивных областях. В случаях, когда изначально сконструированная мо-


дель белка содержит обширные области стерических напряжений из-за
неверной архитектуры, трехмерная структура белка может претерпе-
вать соответствующие изменения во время оптимизации. Получающая-
ся конформация белка недостоверна, поскольку она находится лишь в
небольшом соответствии с трехмерной структурой шаблонного белка.
При проверке конформаций белка обычно измеряют подобие трехмер-
ной структуры по среднеквадратичным отклонениям (rmsd) координат
Ca-атомов или атомов основной цепи после оптимального совмещения
двух структур (детали см. в [34]). Большое среднеквадратичное отклоне-
ние говорит о том, что структуры не похожи друг на друга, а нулевое его
значение говорит о том, что конформации идентичны. Гомологичные
белки обычно имеют небольшие среднеквадратичные отклонения для
Ca-атомов, но не существует общего индикаторного значения среднеквад-
ратичного отклонения, которое позволило бы сказать, являются ли струк-
туры подобными или нет. Чотиа с сотр. [35] исследовали структурное
подобие гомологичных белков, оценивая структурное различие между
двумя гомологичными белками путем оптимального наложения об-
щих консервативных областей (так называемый общий остов) и вычис-
ления среднеквадратичного отклонения атомов их основных цепей.
Для контрольной выборки из 32 пар гомологичных белков среднеквад-
ратичные отклонения общих остовов варьировались от 0,62 до 2,31 C
(см. рис. 4.5.4).
При оценке общего структурного подобия между моделью и шабло-
ном возникает вопрос, имеет ли генерированная конформация неизвес-
тного белка правильную укладку, соответствующую нативной. Как
можно доказать, что общая конформация сконструированной модели
верна? В поисках критерия, позволяющего различить правильно и не-
правильно свернутые модели, Новотны с сотр. выполнили интересное
исследование [36]. Они изучали два структурно непохожих, но одинако-

Рис. 4.5.4. Зависимость среднеквадратичного отклонения от идентичности


последовательностей
Глава 4. Моделирование белков. Введение 179

во больших белка гемэритрин (1HMQ) и вариабельный домен k-цепи мы-


шиного иммуноглобулина (1MCP-L). Эти два белка были модифициро-
ваны путем наложения аминокислотной последовательности одного на
структуру основной цепи другого и наоборот для того, чтобы получить
заведомо неправильные модели. Структуры моделей были оптимизиро-
ваны для удаления неблагоприятных взаимодействий между боковыми
цепями. После минимизации общие энергии природных белков и невер-
ных моделей были приблизительно одинаковы. Авторы заключили, что
значения энергии, вычисленные в стандартных силовых полях, непри-
годны для различения правильных и неправильных конформаций.
С другой стороны, исследование показало, что критерии упаковки не-
верных моделей отличались от тех, которые найдены в нативных бел-
ках. В неверных структурах с очевидностью нарушались общие прин-
ципы плотной упаковки, наличия водородных связей, минимальной
наружной неполярной площади и доступности заряженных групп для
растворителя. Проверка внутренних областей белка показала, что упа-
ковка боковых цепей в областях взаимодействия вторичных структур
также отличалась от характеристик, обнаруженных в природных бел-
ках (например, спиральное расположение выступов и желобков боко-
вых цепей в a-спиралях, преимущественно плоская структура b-лис-
тов). Это исследование показало, что надежность моделей может быть
доказана только при внимательной проверке структурных особенностей
модели белка.
По этой причине были разработаны различные методы, позволяю-
щие различить правильно и неправильно сложенные белковые структу-
ры [37–45]. Одним из них является метод трехмерных профилей [37–40],
который основывается на предположении, что трехмерная структура
белка обязана быть совместимой с его аминокислотной последователь-
ностью. Эта совместимость измеряется путем сведения трехмерной
структуры модели белка к упрощенному одномерному представлению,
так называемой строке окружения. Строка окружения имеет ту же дли-
ну, что и соответствующая аминокислотная последовательность, поэтому
ее можно сравнить с этой последовательностью, которая также представ-
ляет собой одномерный массов.
На первом шаге необходимо конвертировать трехмерную структуру
модели белка в одномерный массив. Для этого программа определяет
особенности окружения каждого остатка: погруженную площадь боко-
вой цепи, часть площади боковой цепи, контактирующую с полярными
областями, и вторичную структуру, к которой относится остаток. На
основе этих характеристик каждый остаток относится к одному из 18
различных классов окружения [39]. Таким образом трехмерная струк-
тура транслируется в одномерную строку, описывающую класс окруже-
ния для каждой аминокислоты модели.
Хотя строка окружения и одномерна, она не может быть выравнена
с аминокислотной последовательностью без некой меры совместимости
каждого класса окружения с каждой из 20 природных аминокислот.
Поэтому в программу включена матрица совместимости, разработанная
180 Молекулярное моделирование

на основе наборов известных структур [40] и похожая на оценочные мат-


рицы, описанные в разд. 4.3.1. С применением этой матрицы выравни-
ваются аминокислотная последовательность и строка окружения, и для
выравнивания выводится так называемая трехмерно-одномерная оцен-
ка. По очевидным причинам более правильно вычислять трехмерно-од-
номерную оценку для небольших и средних областей длиной от 5 до 30
остатков, а не общую оценку для всего выравнивания. Локальные оцен-
ки затем наносятся на график в зависимости от позиций остатков для
определения локальных областей низкой или высокой совместимости
между трехмерной структурой и аминокислотной последовательностью
[39]. Области с необычно низкой оценкой скорее всего имеют неверную
конформацию и нуждаются в оптимизации структуры.
Надежность упаковки также можно проверить с помощью силовых
полей, основанных на знаниях [43–45]. Эти методы основываются на со-
здании потенциалов средней силы (PMF) путем статистического анализа
базы известных трехмерных структур белков. Идея заключается в том,
что межатомные взаимодействия в белках определяют их правильную
укладку.
Была разработана программа PROSA-II, использующая PMF для вы-
числения общей энергии аминокислотных последовательностей во мно-
жестве различных укладок [43]. Вычисленная общая энергия определен-
ной конформации белка является количественным критерием качества
модели. В этом отличие данного подхода от описанного выше подхода,
где энергия конформации вычисляется с помощью стандартных силовых
полей молекулярной механики [36]. При проверке предсказательной
способности PROSA-II в качестве контрольной выборки были использо-
ваны различные природные и некорректно модифицированные конфор-
мации белков, и для огромного числа белков было показано, что рассчи-
танная общая энергия правильно свернутого белка значительно ниже,
чем для любой альтернативной (неверной) конформации. Поэтому дан-
ная программа может успешно применяться для распознавания невер-
ных упаковок белка или неверных частей структуры моделей белков.

Цитированная литература
1. Br@nden, C. J. and Jones, T. A. (1990) Between objectivity and subjectivity,
Nature, 343, 687–89.
2. Jones, T. A., Zou J. Y., and Cowan S. W, (1991) Improved method for building
protein models in electron density maps and the location of errors in these models.
Acta crystallographica, A47, 110–19.
3. Engh, R. A. and Huber, R. (1991) Accurate bond and angle parameters for X-ray
protein structure refinement. Acta Crystallographica, A47, 392–400.
4. Hubbard, T. J. P. and Blundell, T. L. (1987) Comparison of solvent-inaccessible
cores of homologous proteins: definitions useful for protein modeling. Protein
Engineering, 1, 139–71.
5. Drenth, J. (1994) Principles of Protein X-ray Crystallography, Springer-Verlag,
New York.
Глава 4. Моделирование белков. Введение 181

6. Morris, A. L., MacArthur, M. W., Hutchinson, E. G., and Thornton, J. M. (1992)


Stereochemical quality of protein structure coordinates. Proteins Structure
Function and Genetics, 12, 345–64.
7. Laskowski, R. A., MacArthur, M. W., Moss, D. S.,and Thornton, J. M. (1993)
PROCHECK: a program to check the stereochemical quality of protein struc-
tures. Journal of Applied Crystallography, 26, 283–91.
8. Hooft, R. W. W., Vriend, G., Sander, C., and Abola, E. E. (1996) Errors in pro-
tein structures, Nature, 381, 272.
9. Willard, L., Ranjan, A., Zhang, H. et al. (2003) VADAR: a web server for quantita-
tive evaluation of protein structure quality. Nucleic Acids Research, 31, 3316–19.
10. Ponder, J. and Richards, F. M. (1987) Tertiary templates for proteins. Use of
packing criteria in the enumeration of allowed sequences for different structural
classes. Journal of Molecular Biology, 193. 775–91.
11. Creighton, T. E. (1993) Proteins: Structures and Molecular Properties, 2nd edn,
W. H. Freeman and Company, New York.
12. Stewart, D. E., Sarkar, A., and Wampler, J. E. (1990) Occurrence and role of cis
peptide bonds in protein structures. Journal of Molecular Biology, 214, 253–60.
13. Richards, F. M. (1974) The interpretation of protein structures: total volume, group
volume distributions and packing density. Journal of Molecular Biology, 82, 1–14.
14. Richards, F. M. (1977) Areas, volumes, packing and protein structure. Annual
Review of Biophysics and Bioengineering, 6, 151–76.
15. Chothia, C. (1984) Principles that determine the structure of proteins. Annual
Review of Biochemistry, 53, 537–72.
16. Zehfus, M. H. and Rose, G. D. (1986) Compact units in proteins. Biochemistry,
25, 5759–65.
17. Janin, J. and Chothia, C. (1980) Packing of alpha-helices onto beta-pleated sheets and
the anatomy of alpha/beta proteins. Journal of Molecular Biology, 143, 95–128.
18. Leszczynski, J. F. and Rose, G. D. (1986) Loops in globular proteins: a novel cate-
gory of secondary structure. Science, 234, 849–55.
19. Kabsch, W. and Sander, C. (1983) Dictionary of protein secondary structure:
pattern recognition of hydrogen-bonded and geometrical features. Biopolymers,
22, 2577–637.
20. Frishman, D. and Argos, P. (1995) Knowledge-based protein secondary struc-
ture assignment. Proteins Structure Function and Genetics.
21. Hooft, R. W., Sander, C., and Vriend, G. (1997) Objectively judging the quality
of a protein structure from a Ramachandran plot. Computer Applications in the
Biosciences, 13, 425–30.
22. Hunt, N. G., Gregoret, L. M., and Cohen, F. E. (1994) The origins of protein sec-
ondary structure. Effects of packing density and hydrogen bonding studied by a
fast conformational search. Journal of Molecular Biology, 241, 214–25.
23. Laskowski, R. A., Thornton, J. M., Humblet, C., and Singh, J. (1996) X-SITE: use of
empirically derived atomic packing preferences to identify favourable interaction re-
gions in the binding sites of proteins. Journal of Molecular Biology, 259, 175–201.
24. Privalov, P. L. and Gili, S. J. (1988) Stability of protein structure and hydropho-
bic interaction. Advances in Protein Chemistry, 39, 191–234.
182 Молекулярное моделирование

25. Chothia, C. (1976) The nature of the accessible and buried surfaces in proteins.
Journal of Molecular Biology, 105, 1–12.
26. Wolfenden, R., Anderson, L., Cullis, P. M., and Southgate, C. B. (1983) Affini-
ties of aminoacid side chains for solvent water. Biochemistry, 20, 849–55.
27. Miller, S., Janin, J., Lesk, A. M., and Chothia, C. (1987) Interior and surface of
monomeric proteins. Journal of Molecular Biology, 196, 641–56.
28. Lee, B, and Richards, F. M. (1971) The interpretation of protein structures: esti-
mation of static accessibility. Journal of Molecular Biology, 55, 379–400.
29. Eisenberg, D. and McLachlan, A. D. (1986) Solvation energy in protein folding
and binding. Nature, 319, 199–203.
30. Linzaad, P., Berendsen, H. J., and Argos, P. (1996) Hydrophobic patches on the sur-
faces of protein structures. Proteins Structure Function and Genetics, 25, 389–97.
31. Rose, G. D., Geselowitz, A. R., Lesser, G. L. et al. (1985) Hydrophobicity of
aminoacid residues in globular proteins. Science, 229, 834–38.
32. Rose, G. D. and Dworkin, J. E. (1989) The hydrophobicity profile, in Prediction
of Protein Structure and Function and the Principle of Protein Conformation
(ed. G. D. Fasman), Plenum Press, New York, pp. 625–34.
33. Rashin, A. and Honig, B. (1984) On the environment of ionizable groups in globu-
lar proteins. Journal of Molecular Biology, 174, 515–21.
34. Rao, S. T. and Rosman, M. G. (1974) Comparison of super-secondary structures
in proteins. Journal of Molecular Biology, 76, 214–28.
35. Chothia, C. and Lesk, A. M. (1986) The relation between the divergence of se-
quence and structure in proteins. EMBO Journal, 5, 823–26.
36. Novotny, J., Bruccoleri, R. and Karplus, M. (1984) An analysis of incorrectly
folded protein models. Implications for structure predictions. Journal of Mole-
cular Biology, 177, 787–818.
37. Fischer, D. and Eisenberg, D. (1999) Predicting structures for genome proteins.
Current Opinion in Structural Biology, 9, 208–11.
38. Bowie, J. U., Luthy, R., and Eisenberg, D. (1991) A method to identify protein se-
quences that fold into a known three-dimensional structure. Science, 253, 164–70.
39. PROFILES-3D. User guide, Accelrys, San Diego, http://www.accelrys.com.
40. Luthy, R., McLachlan, A. D., and Eisenberg, D. (1991) Secondary struc-
ture-based profiles: use of structure-conserving scoring tables in searching pro-
tein sequence databases for structural similarities. Proteins Structure Function
and Genetics, 10, 229–29.
41. Novotny, J., Rachin, J. J., and Bruccoleri, R. E. (1988) Criteria that discrimi-
nate between native proteins and incorrectly folded models. Proteins Structure
Function and Genetics, 4, 19–25.
42. Hendlich, M., Lackner, P., Weitckus, S. et al. (1990) Identification of native
protein folds amongst a large number of incorrect models. The calculation of
low energy conformations from potentials of mean force. Journal of Molecular
Biology, 216, 167–80.
43. Domingues, F. S., Koppensteiner, W. A., Jaritz, M., et al. (1999) Sustained per-
formance of knowledge-based potentials in fold recognition. Proteins Structure
Function and Genetics, 37, 112–20.
Глава 4. Моделирование белков. Введение 183

44. Casari, G. and Sippl. M. J. (1992) Structure-derived hydrophobic potential.


Hydrophobic potential derived from X-ray structures of globular proteins is able
to identify native folds. Journal of Molecular Biology, 224, 725–32.
45. Watson, J. D., Laskowski, R. A., and Thornton, J. M. (2005). Predicting protein
function from sequence and structural data. Current Opinion in Structural Bio-
logy, 15, 275–84.

4.6. Свойства белков


4.6.1. Электростатический потенциал
Как отмечалось выше, электростатические взаимодействия являются од-
ним из важнейших факторов, определяющих конформацию молекулы в
водном растворе и энергию взаимодействия между двумя молекулами.
Белок, растворитель, кофакторы и простетические группы почти всегда
заряжены или полярны, поэтому электростатические взаимодействия
определяют многие их эффекты [1–4]. В отличие от дисперсионных сил
электростатические взаимодействия действуют на достаточно больших
расстояниях. Из-за их сильного влияния на структуру и функцию макро-
молекул в водном растворе совершенно необходимо учитывать влияние
электростатических взаимодействий в явном виде в любом теоретическом
исследовании белков [1]. Для этого необходимы модели, корректно описы-
вающие электростатические свойства белков.
Взаимодействие двух зарядов описывается законом Кулона (см.
разд. 2.2.1). В своей простейшей форме он применим только для двух то-
чечных зарядов в вакууме. Если заряды погружены в любое другое ве-
щество, частицы вещества поляризуются, и индуцированные диполи
частиц взаимодействуют с исходными точечными зарядами. Поэтому
общая сила, действующая на каждый из точечных зарядов, уменьшает-
ся, и электростатическое взаимодействие ослабевает под влиянием
диэлектрической среды.
В классических континуальных методах описания электростати-
ческих взаимодействий вещества рассматриваются как однородная ди-
электрическая среда, которая может быть поляризована зарядами и
диполями. Диэлектрическая проницаемость рассматривается как мак-
роскопическая мера поляризуемости среды, не учитывающая явно по-
ляризуемость каждого конкретного атома.
Следует помнить, что такое рассмотрение является весьма упрощен-
ным и что концепция диэлектрической проницаемости как истинно мак-
роскопического свойства верна только для однородной среды. Менее од-
нородное окружение необходимо учитывать в явном виде. Отдельные
проблемы возникают на границах областей с очень разными диэлектри-
ческими свойствами [5]. Поверхность белка представляет собой как раз
такой случай, поскольку она разделяет систему на две области, сильно
различающиеся по составу. Внутренняя часть молекулы обладает очень
малой диэлектрической проницаемостью и содержит некоторое число за-
рядов (большинство из которых расположено рядом с поверхностью). Вне
белка находится полярная водная среда, которая в обычных условиях со-
184 Молекулярное моделирование

держит значительное количество ионов. Для двух точечных зарядов, раз-


деленных определенным расстоянием в макромолекуле в водном раство-
ре, электростатическая энергия зависит от формы макромолекулы и точ-
ных позиций зарядов (более детально данная тема раскрывается в [5–7]).
При использовании закона Кулона для вычисления электростатических
взаимодействий зависимость от формы учтена не будет.
Множество взаимодействий, возникающих между точечными заря-
дами и диполями белка и растворителя, взаимозависимы и изменяют
простое кулоновское соотношение на очень сложное. Электростатическое
взаимодействие между молекулами в однородной среде можно усреднить
и учесть с помощью обычной диэлектрической проницаемости, но эта
концепция неприменима для неоднородного окружения белков, по-
скольку их электростатические свойства включают взаимодействия
между множеством зарядов и диполей белка, а также их взаимодей-
ствия с окружающим растворителем и ионами в нем. В этой ситуации
взаимодействия между конкретными зарядами и диполями необходимо
вычислять отдельно. Это непрактично из-за наличия огромного числа
атомов в системе.
Основная проблема при исследовании электростатических эффек-
тов для белков состоит в учете эффектов поляризации [4]. Во многих
электростатических задачах реальные материалы рассматриваются
просто как континуумы, и эффекты микроскопической структуры
материала учитываются в макроскопической диэлектрической посто-
янной. На микроскопическом уровне из-за поляризуемости индивиду-
альных атомов возникает экранирование зарядов. Поэтому метод, в
котором не используется диэлектрическая проницаемость, а рассмат-
риваются индивидуальные атомы и их поляризуемость, является иде-
альным решением проблемы. Конечно, точная квантово-механическая
обработка тоже могла бы быть подходящим решением, но в настоящее
время из-за ограничений вычислительных мощностей это непрактич-
но для систем белкового размера. Поэтому для точного вычисления
электростатических взаимодействий в белках используются эмпири-
ческие подходы [4–12].
В большинстве таких подходов используется приближение точечных
зарядов, в котором зарядовое распределение белка описывается путем
расположения точечных зарядов в центрах атомов. Существуют различ-
ные методы вычисления таких частичных зарядов [13–15], похожие на
соответствующие процедуры для малых молекул (см. разд. 2.4.1). Пос-
кольку весь белок слишком велик для квантово-химического расчета, за-
ряды рассчитывают для меньших фрагментов, таких как индивидуаль-
ные аминокислоты. Полученные таким образом точечные заряды для
конкретных аминокислот хранятся в библиотеках белковых зарядов, от-
куда их можно извлечь и приписать каждому атому исследуемого белка.
Часто используемые заряды Коллмана, например, были выведены путем
такого масштабирования точечных зарядов, чтобы они соответствовали
молекулярным электростатическим потенциалам ab initio [14]. В случае
белков также необходимо учитывать состояние ионизации, поэтому фор-
Глава 4. Моделирование белков. Введение 185

мальные заряды приписываются аминокислотным остаткам, которые


должны существовать в заряженном виде в физиологических условиях.
Эти заряды локализуются на одном или двух атомах остатка. Например,
остаток аспарагиновой кислоты получает формальный заряд –1, который
распределен между двумя карбоксильными атомами кислорода.
В одном из первых методов более точного учета электростатических
взаимодействий внутри белков было предложено использовать зависи-
мость диэлектрической проницаемости от расстояния. Математическое
выражение соответствующей функции часто имеет вид e(r) = r, где r —
расстояние между рассматриваемыми атомами [16]. Эта концепция бази-
руется не столько на экспериментально измеримом эффекте, сколько на
правдоподобии. Предполагается, что на расстояниях порядка атомных
размеров диэлектрическая проницаемость соответствует условиям ваку-
ума, в то время как на значительно больших расстояниях она стремится к
величине диэлектрической проницаемости воды e = 80. Для промежуточ-
ных расстояний предполагается, что диэлектрическая проницаемость
меняется линейно. Зависимость e(r) может частично имитировать эффект
экранирования электростатического взаимодействия растворителем и
успешно стабилизирует макромолекулы при моделировании молекуляр-
ной динамики. Тем не менее она не позволяет корректно описать такие
свойства, как электростатические силы и электростатический потенциал.
Решение электростатической задачи возможно с помощью уравне-
ния Пуассона—Больцмана (ПБ). Это дифференциальное уравнение, ти-
пичное для описания граничных явлений. Уравнение ПБ дает точный
метод вычисления электростатических эффектов белков, включая элек-
тростатический потенциал. Были разработаны различные методы, осно-
ванные на этом уравнении. Коммерчески доступны программы DelPhi
[17, 18] и UHBD [10, 19].
В рамках метода Пуассона—Больцмана макромолекулярная систе-
ма рассматривается как состоящая из двух отдельных диэлектрических
областей. Поверхность белка представляет собой границу между этими
областями. То, что расположено внутри поверхности, расценивается как
растворенное вещество, а то, что снаружи, — как растворитель. Молеку-
лы воды, расположенные внутри поверхности, обычно рассматриваются
как часть растворенного вещества, а не растворителя. Белок описывает-
ся как трехмерная структура с точечными зарядами, локализованными
в центрах атомов. Малые значения диэлектрической проницаемости,
обычно от 2 до 5, используются для всех точек внутри поверхности.
Уравнение ПБ также позволяет рассматривать электростатические эф-
фекты, связанные с ионами, находящимися в растворителе. Таким об-
разом, в расчете могут быть учтены физиологические условия (концен-
трация соли 0,145 М).
При использовании метода ПБ общий электростатический потенци-
ал заряженной молекулы в растворителе описывается следующим упро-
щенным уравнением:
ftot coul
i = fi + fself
i
+ fcross
i + fown
i .
186 Молекулярное моделирование

Молекула растворителя взаимодействует с электростатическим по-


лем, создаваемым каждым точечным зарядом молекулы. Это взаимодей-
ствие, состоящее из двух электростатических эффектов — ориентации
диполей и электронной поляризации — в свою очередь создает электро-
статическое поле в позициях исходных точечных зарядов, которое на-
зывается ответным полем или полем реакции (reaction field) [20]. Его
величина определяется величиной точечного заряда, его расстоянием от
молекулярной поверхности, формой поверхности и диэлектрическими
проницаемостями молекул растворенного вещества и растворителя.
Ответное поле действует на все точечные заряды системы, включая ис-
ходный заряд. Общий электростатический потенциал ftoti — это сумма
взаимодействий каждого точечного заряда с его собственным ответным
полем fself
i
, индуцированным другими зарядами ответным полем fcross
i ,
прямым кулоновским взаимодействием с другими точечными зарядами
fcoul
i и создаваемым каждым точечным зарядом внутренним электроста-
тическим потенциалом fowni (детальный обзор темы см. в [5, 7, 21]).
Уравнение Пуассона—Больцмана позволяет построить достоверную
модель электростатических взаимодействий в белках, поскольку оно
включает в рассмотрение как эффект поляризации, так и ионную силу.
К сожалению, это уравнение представляет собой весьма сложное диффе-
ренциальное уравнение, имеющее аналитические решения лишь для
простых систем. Альтернативой аналитическому решению является
численное решение, позволяющее найти приближенные решения даже
для больших белковых систем. Для численного решения используется
так называемый метод конечных разностей (Finite Difference Methods,
FDPB), при использовании которого белок накладывается на трехмер-
ную кубическую решетку. Расчетные значения плотности заряда и
электростатического потенциала располагаются в каждом узле решет-
ки. Численное решение уравнения дает значения, которые совпадают с
аналитическими решениями, доступными для малых систем, с точнос-
тью до 5%. Наиболее критическими областями и, как следствие, облас-
тями наибольшей ошибки являются области, расположенные рядом с
заряженными остатками на поверхности белка. Для избежания этих
ошибок были разработаны различные методы [18].
Вычисление электростатического потенциала молекулы белка — это
лишь одна из возможностей, предлагаемых методом Пуассона—Больц-
мана. С его помощью можно вычислить также такие параметры, как
полная электростатическая энергия системы, энергия сольватации и
энергия ответного поля. Тем не менее наиболее важным параметром яв-
ляется электростатический потенциал, который может быть изображен
разными способами, как описывалось для малых молекул в разд. 2.4.1.
Показано, что электростатические потенциалы играют важную
роль в молекулярном узнавании и связывании. Например, электроста-
тический потенциал супероксид-дисмутазы ответственен за увеличение
скорости внешней диффузии субстратов к активному центру [22]. Иссле-
Глава 4. Моделирование белков. Введение 187

Рис. 4.6.1. Представление электростатического потенциала димера грамици-


дина А в мембранном окружении. Расчеты выполнены в программе DelPhi. (Цве-
товое обозначение: фиолетовый — отрицательный потенциал, зеленый — поло-
жительный.)

дование электростатических потенциалов крысиного и коровьего трип-


сина дало интересные результаты [23]: хотя эти два фермента имеют
один и тот же каталитический механизм, их суммарный заряд отлича-
ется на 12,5 единиц. Вычисление электростатических потенциалов по
методу Пуассона—Больцмана показало, что оба активных центра эф-
фективно экранированы от зарядов, находящихся на поверхности, что
приводит к почти идентичным электростатическим потенциалам внут-
ри активных центров.
Грамицидин А, широко известный мембранный транспортер катио-
нов, использован нами в качестве примера для графического представ-
ления электростатического потенциала белка (рис. 4.6.1). В мембране
грамицидин А образует димер. Вычисление электростатического по-
тенциала выполнялось в программе DelPhi для димера, внедренного в
мембранный слой с низкой диэлектрической проницаемостью, который
рассматривался как часть растворенной системы.

4.6.2. Потенциалы взаимодействия


Другие важные особенности взаимодействия, распознавания и связыва-
ния различных субстратов с белком вытекают из оценки полей молеку-
лярных взаимодействий. Как мы уже подробно обсудили в разд. 2.5.4,
потенциалы взаимодействия являются полезными индикаторами для
предсказания свойств связывания молекул. Такие программы, как опи-
санная ранее GRID [24, 25], могут быть использованы для картирования
областей белка, где предпочтительно притягивается молекула воды
или субстрата. Поля взаимодействий, построенные с помощью опреде-
ленного зонда, могут быть использованы в качестве стартовой точки
188 Молекулярное моделирование

для докинга субстратов в активный центр. Методы, применяемые


для этих целей, точно такие же, как описано в случае малых молекул
в разд. 2.4.2. В литературе можно найти множество примеров успешно-
го применения этих программ для предсказания областей связывания
[26–28], для докинга молекул в активные центры [29–32], а также для
оптимизации структуры лигандов с целью оптимизации связывания
[26, 33, 34]. Превосходное собрание статей и обзоров по этой теме можно
найти в [35].

4.6.3. Гидрофобность
Обсуждая в разд. 4.5.2 качество упаковки белков, мы говорили о важ-
ной роли гидрофобных взаимодействий в процессе укладки белков. Сте-
пень связывания малых молекул с белком также часто определяется
гидрофобными взаимодействиями. Как уже обсуждалось для малых мо-
лекул (разд. 2.4.3), существуют различные методы представления гидро-
фобных и гидрофильных свойств молекул. Гидрофобность может быть
представлена непосредственно на молекулярной поверхности или в виде
гидрофобного поля в пространстве, окружающем молекулу. Полезными
программами в этом смысле являются GRID [24], HINT [36] и MOLCAD
[37]. Детальное описание различных методов и сравнение полученных
результатов в исследовании белков можно найти в литературе [38].

Цитированная литература
1. MacArthur, M. W., Laskowski, R. A., and Thornton, J. M. (1998) Validation of protein
models derived from experiment. Current Opinion in Structural Biology, 8, 631–37.
2. Honig, B., Hubbel, W., and Fleweling, R.F. (1986) Electrostatic interactions in
membranes and proteins. Annual Review of Biophysics and Biophysical Chemis-
try, 15, 163–93.
3. Matthew, J. B. (1985) Electrostatic effects in proteins. Annual Review of Bio-
physics and Biophysical Chemistry, 14, 387–417.
4. Schutz, C. N. and Warshel, A. (2001) What are the dielectric «constants» of pro-
teins and how to validate electrostatic models? Proteins Structure Function and
Genetics, 44, 400–17.
5. Warshel, A. and Aqvist, J. (1991) Electrostatic energy and macromolecular
function. Annual Review of Biophysics and Biophysical Chemistry, 20, 267–98.
6. Gilson, M., Rashin, A., Fine, R., and Honig, B. (1985) On the calculation of elec-
trostatic interactions in proteins. Journal of Molecular Biology, 183, 503–16.
7. Harvey, S. C. (1989) Treatment of electrostatic effects in macromolecular model-
ing. Proteins Structure Function and Genetics, 5, 78–92.
8. Zauhar, R. J. and Morgan, R. S. (1985) A new method for computing the
macromolecular electric potential. Journal of Molecular Biology, 186, 815–20.
9. States, D.J. and Karplus, M. (1987) A model for electrostatic effects in proteins.
Journal of Molecular Biology, 197, 122–30.
10. Karplus, M. and McCammon, J. A. (2002) Molecular dynamics simulations of
biomolecules. Nature Structural Biology, 9, 646–52.
Глава 4. Моделирование белков. Введение 189

11. Warwicker, J. and Watson, H. C. (1982) Calculation of the electric potential in the ac-
tive site cleft due to alpha-helix dipoles. Journal of Molecular Biology, 157, 671–79.
12. Warshel, A. and Papazyan, A. (1998) Electrostatic effects in macromolecules
fundamental concepts and practical modeling. Current Opinion in Structural
Biology, 8, 211–17.
13. Jorgensen, W. L. and Tirado-Rives, J. (1988) The OPLS-potential functions for
proteins. Energy minimization for crystals of cyclic peptides and crambin.
Journal of the American Chemical Society, 110, 1657–66.
14. Weiner, P. K. and Kollman, P. A. (1981) AMBER: assisted model building with
energy refinement. A general program for modeling molecules and their interac-
tions. Journal of Computational Chemistry, 2, 287–99.
15. Abraham, R. J., Grant, G. H., Haworth, I. S., and Smith, P. E. (1991) Charge cal-
culations in molecular mechanics. Part 8. Partial atomic charges from classical
calculations. Journal of Computer-Aided Molecular Design, 5, 21–39.
16. McCammon, J. A.,Wolyness, P. G., and Karplus,M. (1979) Picosecond dynamics
of tyrosine side chains in proteins. Biopolymers, 18, 927–42.
17. DelPhi User Guide, Accelrys, San Diego, http://www.accelrys.com.
18. Luo, R., David, L., and Gildon, M. K. (2002) Accelerated Poisson-Boltzmann cal-
culations for static and dynamic systems. Journal of Computational Chemistry,
23, 1244–53.
19. Antosiewicz, J., McCammon, J. A., and Gilson, M. K. (1994) Prediction of pH-de-
pendent properties of proteins. Journal of Molecular Biology, 238, 415–36.
20. Bottcher, C. J. F. (1973) Theory of Electric Polarization, Elsevier Press, Amsterdam.
21. Gilson, M. K., McCammon, J. A., and Madura, J. D. (1995) Molecular dynamics
simulation with a continuum electrostatic model of the solvent. Journal of
Computational Chemistry, 9, 1081–95.
22. Sharp, K., Fine, R., and Honig, B. (1987) Computer simulations of the diffusion
of a substrate to an active site of an enzyme. Science, 236, 1460–63.
23. Soman, K., Yang, A., Honig, B., and Fletterick, R. (1989) Electrical potentials in
trypsin isozymes. Biochemistry, 28, 9918–26.
24. Goodford, P. J. (1985) A computational procedure for determining energetically
favourable binding sites on biologically important macromolecules. Journal of
Medicinal Chemistry, 28, 849–57.
25. Wade, R. C., Clark, K. J., and Goodford, P. J. (1993) Further development of hy-
drogen bond functions for use in determining energetically favourable binding
sites on molecules of known structure. 1. Ligand probe groups with the ability to
form two hydrogen bonds. Journal of Medicinal Chemistry, 36, 140–47.
26. Windshugel, B., Jyrkkarinne, J., Poso, A. et al. (2005) Molecular dynamics sim-
ulations of the human CAR ligand-binding domain: deciphering the molecular
basis for constitutive activity. Journal of Molecular Modeling, 11, 69–79.
27. Von Itzstein, M., Dyason, J. C., Oliver, S. W. et al. (1996) A study of the active
site of influenza virus sialidase: an approach to the rational design of novel
anti-influenza drugs. Journal of Medicinal Chemistry, 39, 388–91.
28. Wade, R. C. (1997) Flu' and structure-based drug design. Structure, 5, 1139–46.
29. Meng, E. C., Shoichet, B. K., and Kuntz, I. D. (1992) Automated docking with
grid-based energy evaluation. Journal of Computational Chemistry, 13, 505–24.
190 Молекулярное моделирование

30. Byberg, J. R., Jorgensen, F. S., Hansen, S., and Hough, E. (1992) Substrate-enzyme
interactions and catalytic mechanism in phospholipase C: a molecular modeling study
using the GRID program. Proteins Structure Function and Genetics, 12, 331–38.
31. Stoddard, B. L. and Koshland, D. E. (1993) Molecular recognition analyzed by
docking simulations: the aspartate receptor and isocitrate dehydrogenase from
Escherichia coli. Proceedings of the National Academy of Sciences of the United
States of America, 90, 1146–53.
32. Bitomsky, W. and Wade, R. C. (1999) Docking of glycosaminoglycans to hepa-
rin-binding proteins. Journal of the American Chemical Society, 121, 3004–13.
33. Varney, M. D., Marzoni, G. P., Palmer, C. L. et al. (1992) Crystal-structure-
based design and synthesis of benzdindole-containing inhibitors of thymidylate
synthase. Journal of Medicinal Chemistry, 35, 663–76.
34. Ocain, T. D., Deininger, D. D., Russo, R. et al. (1992) New modified heterocyclic
phenylalanine derivatives. Incorporation into potent inhibitors of human
rennin. Journal of Medicinal Chemistry, 35, 823–32.
35. Cruciani, G. (2005) In Molecular Interaction Fields, Methods and Principles in
Medicinal Chemistry, Series (eds H. Kubinyi, G. Folkers, and R. Mannhold),
VCH Publishers, New York.
36. Kellogg, G. E., Semus, S. F., and Abraham, D. J. (1991) HINT: a new method of
empirical hydrophobic field calculation for CoMFA. Journal of Computer-Aided
Molecular Design, 5, 545–52.
37. Heiden, W., Moeckel, G., and Brickmann, J. (1993) A new approach to analysis
and display of local lipophilicity/hydrophilicity mapped on molecular surfaces.
Journal of Computer-Aided Molecular Design, 7, 593–14.
38. Folkers, G., Merz, A., and Rognan, D. (1993) CoMFA as a tool for active site mod-
eling, in Trends in QSAR and Molecular Modelling (ed. C. G. Wernuth), ESCOM
Science Publishers B. V., Leiden, Vol. 92, pp. 233–44.
Виртуальный скрининг
5
и докинг

Высокопроизводительный скрининг (High-Throughput Screening, HTS)


является эффективным методом поиска новых ведущих соединений
(lead compounds)1 при разработке лекарств. Тем не менее, поскольку
доступные библиотеки соединений становятся все больше и больше, сто-
имость такого скрининга возрастает, а доля хитов уменьшается. Этой
проблемы можно избежать, если экспериментально проверять не всю
базу данных, а небольшую ее часть, обогащенную соединениями, кото-
рые с высокой вероятностью связываются с мишенью. Вычислительный
метод выбора перспективных соединений из электронной базы данных
для экспериментального скрининга называется виртуальным скринин-
гом (ВС, virtual screening) [1]. ВС можно проводить путем поиска в базах
данных молекул, удовлетворяющих ограничениям, заданным пользо-
вателем, таким как соответствие набору активных молекул [2], фарма-
кофору [3], пространственной структуре макромолекулярной мише-
ни [4]. Эта глава не посвящена обзору всех вычислительных процедур
скрининга электронных баз данных; мы уделим внимание в основном
ВС по структурам белков-мишеней (структурный виртуальный скрининг).
Четыре важнейших этапа ВС (подготовка, докинг, оценка, фильтрация;
см. рис. 5.1) будут подробно описаны в дальнейшем.

5.1. Подготовка системы


5.1.1. Подготовка библиотеки соединений
Помимо корпоративных библиотек имеются также коммерчески дос-
тупные коллекции соединений для скрининга, существующие как в
электронном виде, так и физически (почти исчерпывающий список по-
ставщиков см. в табл. 5.1). Из таких библиотек соединений следует сна-
чала отбросить те соединения, которые в любом случае не только не про-
йдут, но и не достигнут клинических испытаний из-за своих нежела-
тельных свойств. Критерии фильтрации всегда следует адаптировать к
1
В русскоязычной литературе часто встречается термин «соединение-лидер». Мы счита-
ем этот термин неудачным.
192 Молекулярное моделирование

Рис. 5.1. Схема виртуального скрининга по структуре биомишени: 1 — на-


стройка трехмерной библиотеки, 2 — докинг, 3 — оценка, 4 — обработка резуль-
татов и выбор окончательного хита
Глава 5. Виртуальный скрининг и докинг 193

Таблица 5.1. Химические библиотеки, пригодные для виртуального


скрининга

Производитель Размер Веб-сайт


Физически доступные соединения
AKos screening samples 700 000 http://www.akosgmbh.de
Ambinter 500 000 http://www.ambinter.com
AMRI (Comgenex) 241 000 http://www.albmolecular.hu
ASDI Biosciences 105 600 http://www.asdibiosciences.com
Asinex Synergy 11 000 http://www.asinex.com
Asinex Gold 227 480 http://www.asinex.com
Asinex Platinum 130 646 http://www.asinex.com
Asinex building blocks 5908 http://www.asinex.com
Bionet 44 546 http://www.keyorganics.ltd.uk
ChemBridge Express-Pick 435 000 http://chembridge.com/
ChemDiv new chemistry 28 300 http://www.chemdiv.com
ChemDiv discovery chemistry 620 200 http://www.chemdiv.com
ChemStar 60 086 http://www.chemstaronline.com
CNRS National Library 29 356 http://chimiotheque-nationale.enscm.fr
Enamine 857 000 http://www.enamine.relc.com
Exclusive chemistry 1906 http://www.exchemistry.com
Innovapharm 680 000 http://www.innovapharm.com
InterBioScreen natural compounds 40 000 http://www.ibscreen.com
InterBioScreen synthetic compounds 340 000 http://www.ibscreen.com
LifeChemicals 208 000 http://www.lifechemicals.com
Maybridge 66 000 http://www.maybridge.com
MDD 33 000 http://www.worldmolecules.com
NCI DTP 127 000 http://dtp.nci.nih.gov
Otava 109 00 http://www.otava.com.ua
Peakdale Molecular 8500 http://www.peakdale.co.uk
Pharmeks 165 000 http://www.pharmeks.com
Princeton BioMolecular Research 530 000 http://www.princetonbio.com
Specs 240 000 http://www.specs.net
TimTec Stock 225 000 http://www.timtec.net
TosLab 20 500 http://www.toslab.com
Tripos Leadquest 52 000 http://www.tripos.com
Vitas-M STK 234 000 http://www.vitasmlab.com
Vitas-M Tulip 24 700 http://www.vitasmlab.com
Интернет-базы данных
ChemDB 4 100 000 http://cdb.ics.uci.edu/CHEM/Web
ChemMine 5 800 000 http://bioweb.ucr.edu/ChemMineV2
ChemNavigator 24 000 000 http://www.chemnavigator.com
PubChem 4 000 000 http://pubchem.ncbi.nlm.nih.gov
MDL screening compounds directory 3 500 000 http://www.mdli.com
ZINC 3 381 5811 http://zinc.docking.org

1
Более 13 млн структур по состоянию на ноябрь 2011 г.

размеру электронной базы данных и задачам исследователя (нахождение


хита, ведущего соединения либо фармакологического инструмента).
Существуют два способа удаления ненужных молекул из базы дан-
ных. Первый из них основан на использовании различных фильтров,
каждый из которых исключает соединения с определенными свойства-
194 Молекулярное моделирование

ми [5]. Излишне реакционноспособные и токсичные соединения можно


удалить на основании наличия в них таких группировок, как ацилгало-
генидная, сульфонилгалогенидная, акцептор Михаэля и т. д. Широко
известны также «правила пяти» Липински1 [6]: плохая абсорбция или
проникающая способность будет у соединений, имеющих молекуляр-
ную массу >500, вычисленный коэффициент распределения октанол —
вода (clogP) >5, >10 акцепторов водородной связи и >5 доноров водород-
ной связи. Все соединения, удовлетворяющие двум и более из этих усло-
вий, с высокой вероятностью обладают плохой проникающей способнос-
тью и должны быть удалены из базы данных. В настоящее время разраба-
тываются более сложные фильтры [7] для предсказания специфичных
свойств соединения — абсорбции, распределения, метаболизма и выде-
ления (Absorption/Distribution/Metabolism/Excretion, ADME), а также
растворимости в воде, мембранной проницаемости и коэффициента мета-
болического выведения. Второй способ отсечения неподходящих соеди-
нений состоит в создании систем бинарной классификации, основанных
на знаниях (например, нейронные сети, генетические алгоритмы, де-
ревья решений), которые автоматически различают подходящие и не-
подходящие соединения [8]. Помимо «непохожих на лекарства» соедине-
ний часто бывает желательно отсечь молекулы, взаимодействующие с
большим количеством различных белковых мишеней, вследствие чего
их часто называют неразборчиво связывающимися (promiscuous
binders) [9]. Они могут вносить погрешность в пробу или метод детекти-
рования (например, флуоресцентные молекулы) или специфично взаи-
модействовать с различными макромолекулярными мишенями путем
агрегации или денатурации [10].
Поскольку коммерческие и корпоративные библиотеки изменяются
с течением времени, огромную важность имеет по возможности автома-
тическая подготовка библиотеки для упрощения будущих обновлений.
С использованием вышеупомянутых правил можно легко настраивать
автоматические технологические процессы для выполнения следую-
щих задач (рис. 5.2):
— чтение начальных данных от различных производителей (обычно с
использованием файлов формата SD);
— первичная подготовка данных: удаление ошибочных и сложных
структур и противоионов (обычно с использованием файлов одно-
мерных форматов SMILES или SMARTS);
— фильтрование по заранее определенным свойствам;
— поиск дубликатов;
— конвертация из одномерного формата в трехмерный с потенциаль-
ным перечислением конформеров, стереоизомеров и таутомеров;
— ионизация при физиологическом pH;
— вычисление физико-химических и топологических дескрипторов;
— сохранение в реляционных базах данных для целей будущего поиска.

1
Кристофер Липински — американский физикохимик, руководитель одной из исследова-
тельских лабораторий фирмы Pfizer, лауреат премий международных научных обществ.
Рис. 5.2. Автоматический процесс подготовки библиотек Pipeline Pilot [11].
1 — Чтение начальных данных от различных производителей; 2 — первичная
подготовка данных: удаление ошибочных и сложных структур и противоионов;
3 — фильтрование по заранее определенным свойствам; 4 — поиск дубликатов;
5 — конвертация в трехмерный формат с потенциальным перечислением кон-
формеров, стереоизомеров и таутомеров; 6 — ионизация при физиологическом
pH; 7 — вычисление физико-химических и топологических дескрипторов;
8 — конвертация в двумерный формат и сохранение в реляционных базах данных
196 Молекулярное моделирование

На некоторых общедоступных интернет-ресурсах (например, ZINC


[12], ChemDB [13], табл. 5.1) эти задачи уже были выполнены; получив-
шиеся библиотеки от разных производителей готовы для скрининга. На
других ресурсах (например, ChemNavigator) подготовку библиотеки не-
обходимо выполнять самостоятельно.

5.1.2. Представление белков и лигандов


Воспроизведение конформационного пространства, доступного для мак-
ромолекулы, является весьма сложной задачей и требует неизбежной
аппроксимации. В связи с этим методы построения моделей лиганд-бел-
ковых комплексов (докинга) можно классифицировать, выделив три
категории в зависимости от используемого уровня аппроксимации:
(1) жесткий докинг, когда и белок, и лиганд рассматриваются как жес-
ткие тела; (2) полугибкий докинг, когда только лиганд проявляет кон-
формационную гибкость, и (3) полностью гибкий докинг, когда
учитывается конформационная подвижность и белка, и лиганда.

5.1.2.1. Гибкость белка


Белки — весьма гибкие молекулы, для которых существует множество
конформационных состояний, разделенных низкими энергетическими
барьерами. В движениях молекул белка можно выделить три группы.
1. Быстрые движения малого масштаба, преимущественно включаю-
щие в себя движение боковых цепей, хотя также присутствуют не-
большие движения основной цепи. Места связывания зачастую про-
являют большую гибкость, чем другие области поверхности белка.
2. Медленные крупномасштабные движения доменов, например шар-
нирное вращение жестких доменов, соединенных гибкими сочлене-
ниями, которые стягивают и ограничивают их движение. Считается,
что шарнирное вращение приводит к «индуцированному соответ-
ствию» (induced fit) лиганда.
3. Ренатурация при связывании лиганда происходит для многих бел-
ков, находящихся в частично развернутом состоянии либо из-за ма-
лого гидрофобного остова, либо из-за наличия некомпенсированных
зарядов внутри белка. При связывании лиганда стабилизируется
связанная конформация и равновесие сдвигается в ее сторону. При
этом конформационные изменения в белке при связывании лиганда
могут изменяться от немногочисленных движений боковых цепей до
значительных шарнирных вращений.
Очевидно, что при докинге лигандов белки необходимо рассматри-
вать как гибкие, особенно если для докинга используется структура,
свободная от лиганда. Тем не менее в течение долгого времени это было
невозможно сделать при вычислениях. Разработка алгоритмов докинга,
учитывающих гибкость белка, началась лишь недавно благодаря экспо-
ненциальному росту скорости компьютеров и емкости оперативной и
постоянной памяти.
Глава 5. Виртуальный скрининг и докинг 197

Один из способов учета подвижности белка состоит в том, чтобы на-


чать с определенной трехмерной структуры, а затем позволять опреде-
ленным подструктурам двигаться. Его можно реализовать путем иссле-
дования конформационного пространства боковых цепей белка с по-
мощью библиотеки ротамеров [14] при замораживании атомов основной
цепи, допускающем шарнирное движение доменов белка. Альтернатив-
ный подход предполагает использование ансамбля из нескольких экспе-
риментально определенных (методами рентгеноструктурного анализа
или ЯМР) или расчетных (методами молекулярной динамики или Мон-
те-Карло) конформаций. Конформационный ансамбль затем транслиру-
ется в решетку для вычисления поля (решеточного поля) и используется
для вычисления потенциала пробного атома в узлах решетки. Во время
докинга значения энергии взаимодействия считываются из предвари-
тельно сохраненных файлов решеточного поля [15]. Последняя недавно
разработанная стратегия использует обобщенное описание белка в виде
наложенных структур. Похожие части структур объединяются, в то вре-
мя как непохожие рассматриваются как отдельные альтернативы [16].
Различные структуры ансамбля можно рекомбинировать с целью полу-
чения новых структур белка в процессе докинга.
Учет гибкости белка особенно важен при использовании моделей
белка с низким разрешением или построенных по гомологии.

5.1.2.2. Гибкость лиганда


Поскольку лекарственные молекулы обычно значительно меньше, чем
макромолекулы, гибкость лиганда учитывается значительно легче и
на сегодняшний день является стандартным вариантом в методах до-
кинга. Простейший подход состоит в том, чтобы поместить конформа-
ции лиганда в базу данных, рассматривая в процессе докинга каждую
конформацию как жесткую. Другой способ учета гибкости лиганда за-
ключается в том, чтобы сохранять в базе данных лишь одну конформа-
цию лиганда, но в процессе докинга рассматривать лиганды как гиб-
кие молекулярные объекты. Часто используется метод постепенного
конструирования, при использовании которого лиганд разделяется на
фрагменты и в процессе докинга постепенно собирается заново в облас-
ти связывания. При поиске оптимальных решений просматриваются
только выгодные торсионные углы. В качестве примеров программ, ис-
пользующих этот метод, можно привести FlexX и Dock (табл. 5.2). Дру-
гая возможность, реализованная, например, в Gold и AutoDock, заклю-
чается в том, чтобы кодировать значения торсионных углов в виде «ге-
нов» и использовать генетический алгоритм. Генетические операции
(скрещивание, мутации), которые применяются к этим «генам», будут
воздействовать на конформацию лиганда. В конце концов можно ис-
пользовать вычислительные методы исчерпывающего исследования
конформационного пространства (молекулярная динамика, моделиро-
вание отжига, метод Монте-Карло) в случаях, когда скорость алгорит-
ма поиска не является определяющим фактором виртуального скри-
нинга.
198 Молекулярное моделирование

Табл. 5.2. Важнейшие программы докинга


Название Разработчик Веб-сайт Ссылка

Adam Institute of Medicinal http://www.immd.co.jp/en 17


Molecular Design, Inc.
AutoDock The Scripps Research http://autodock.scripps.edu 18
Institute
CDocker Eli Lilly 19
Clix Commonwealth Scientific and 20
Industrial Research
Organisation
CombiDock University of California, San 21
Francisco (UCSF)
Darwin Wistar Institute 22
Divali UCSF 23
Dock UCSF http://dock.compbio.ucsf.edu 24
DockIt Metaphorics L.L.C. http://www.metaphorics.com
DockVision Alberta University http://www.dockvision.com 25
Dream++ UCSF 26
eHiTS SimBioSys Inc. http://www.simbiosys.ca 27
Eudoc Mayo Clinic Cancer Center 28
FDS Southampton University 29
FFLD Zurich University http://www.biochem-caflish.unizh.ch 30
FlexScreen Forschungszentrum http://iwrwww1.fzk.de/biostruct 31
Karlsruhe GmbH
FlexX BioSolveIT http://www.biosolveit.de 32
Flog Merck Research Laboratories 33
Fred OpenEye http://www.eyesopen.com 34
FTDock Imperial Cancer Research http://www.sbg.bio.ic.ac.uk/docking 35
Fund
GAsDock Dalian University of 36
Technology
Glide Schrodinger http://www.scrodinger.com 37
Gold Cambridge Crystallographic http://www.ccdc.cam.ac.uk 38
Data Center
Hammerhead Arris Pharmaceutical 39
Corporation
HierDock California Institute of 40
Technology
ICM Molsoft http://www.molsoft.com 41
LibDock Accelrys http://www.accelrys.com 42
LigandFit Accelrys http://www.accelrys.com 43
Ligin Weizmann Institute http://swift.cmbi.kun.nl/swift/ligin 44
of Science
MCDock Georgetown University Medical 45
Center
MOE-Dock Chemical Computing Group http://www.chemcomp.com
MolDock Molegro ApS http://www.molegro.com 46
PAS-Dock Norwegian University of 47
Science and Technology
Глава 5. Виртуальный скрининг и докинг 199

Название Разработчик Веб-сайт Ссылка

PhDock Wyeth Research 48


Ph4Dock Ryoka Systems Inc. 49
ProDock Cornell University 50
Pro_Leads Proteus Molecular Design Ltd. 51
ProPose 4SC http://www.4sc.de 52
Psi-Dock Peking University 53
Q-fit University College, London 54
QXP Novartis Pharmaceuticals 55
RiboDock Vernalis 56
Sandock Edinburgh University 57
SDocker Lilly Research Labs 58
Seed Zurich University http://www.biochem-caflish.unizh.ch 59
SFDock Peking University 60
SkelGen De Novo Pharmaceuticals http://www.denovopharma.com 61
Ltd.
Slide Michigan State University http://www.bch.msu.edu/~kuhn/ 62
projects/slide/home.html
Surflex Biopharmics http://www.biopharmics.com 63

Наиболее современные алгоритмы докинга учитывают гибкость ли-


ганда во время выполнения процедуры, что дает заметное преимущес-
тво — уменьшение дискового пространства, необходимого для хранения
базы данных. Тем не менее всегда можно воспользоваться качественными
генераторами конформаций (например, CATALYST, OMEGA, CORINA),
которые в наборе предполагаемых конформеров обычно генерируют
конформацию, близкую к биоактивной [64].
При использовании любой стратегии общим советом является
оптимизация структуры лиганда с помощью быстрого протокола ми-
нимизации энергии методом молекулярной механики. Координаты
лигандов хранят обычно в форматах mol2 (Tripos), SD (MDL) или mae
(Schrodinger).

5.2. Алгоритмы докинга


Многочисленные программы докинга (см. табл. 5.2) различаются между
собой в таких аспектах, как описание молекулярных взаимодействий,
алгоритмы, используемые для генерации структур лигандов, а также
среднее время докинга молекулы. Алгоритмы могут быть классифици-
рованы на детерминированные и стохастические: первые дают полнос-
тью воспроизводимые результаты, в то время как вторые включают
фактор случайности, вследствие чего их результаты не могут быть пол-
ностью воспроизводимы, хотя могут быть сколь угодно близки.
200 Молекулярное моделирование

5.2.1. Методы постепенного конструирования


При использовании алгоритма постепенного конструирования (incre-
mental construction) лиганд не вводится в область связывания сразу как
целая молекула, а разделяется на отдельные фрагменты и постепенно
воссоздается внутри активного центра (рис. 5.3).
Первым методом постепенного конструирования был метод Dock
[24]. Первый его шаг — идентификация точек в активном центре, где
могут быть расположены атомы лиганда. Эти точки расположены в цен-
трах перекрывающихся сфер, заполняющих активный центр. Форма
активного центра описывается с помощью минимального набора сфер.
Затем лиганд «режут» по каждой гибкой связи так, чтобы получить

Рис. 5.3. Постепенное конструирование лиганда


Глава 5. Виртуальный скрининг и докинг 201

жесткие фрагменты. Из этих фрагментов вручную или автоматически


выбирают якорный фрагмент, который ориентируют в активном центре
независимо от остальной части лиганда путем установки соответствия
между атомами лиганда и центрами сфер (в связи с чем алгоритм Dock
иногда называют быстрым алгоритмом соответствия формы). Все воз-
можные расположения якоря оценивают по их взаимодействию с бел-
ком (описание оценочной функции Dock см. в разд. 5.3), и лучшие из
них используют для дальнейшего «наращивания» лиганда. На послед-
ней стадии выбирают расположения лиганда с наилучшими значения-
ми оценочной функции.
FlexX [32] также рассматривает белок как жесткий, а лиганд как
гибкий. Подобно Dock, этот метод также делит лиганд по вращающимся
связям на жесткие фрагменты, затем помещает базовый фрагмент в ак-
тивный центр и заново присоединяет оставшиеся фрагменты. Главное
отличие этого подхода от Dock состоит в методе, используемом для опре-
деления положения базового фрагмента. Вместо определения точек, в
которых могут располагаться атомы лиганда, FlexX определяет места
взаимодействий для каждой возможной взаимодействующей группы
активного центра и лиганда. Этим местам приписывается тип взаимо-
действия (акцептор водородной связи, донор водородной связи и др.) и
для них моделируется геометрия взаимодействий, состоящая из центра
взаимодействия и сферической поверхности уровня энергии. Базовый
фрагмент ориентируется путем поиска расположений, в которых могут
возникать три взаимодействия между белком и лигандом. Остальные
фрагменты лиганда затем постепенно присоединяются к остову молеку-
лы. На каждом шаге наращивания считывается список предпочтитель-
ных значений торсионных углов; лучшие конформации в терминах ли-
ганд-белковых взаимодействий сохраняются для дальнейшего «роста»
лиганда (описание оценочной функции FlexX см. в разд. 5.3) [32]. Dock
и FlexX в настоящее время являются наиболее используемыми инстру-
ментами докинга фрагментарным подходом. Другие программы, напри-
мер Propose, Slide, Surflex (табл. 5.2), используют похожий способ фраг-
ментирования, хотя стратегии добавления периферических фрагментов
и оценки взаимодействий (разд. 5.3) могут различаться.
5.2.2. Генетические алгоритмы
Генетический алгоритм — это алгоритм, имитирующий процесс эволю-
ции путем манипуляций с набором структур, именуемых хромосомами
(см. рис. 5.4). Каждая хромосома кодирует возможное решение исследу-
емой задачи. Gold [38] использует генетический алгоритм для докинга
лиганда в белок. Каждая хромосома представляет собой возможную
конформацию лиганд-белкового комплекса. Хромосоме приписывается
оценочное значение на основе относительного качества лиганд-белко-
вых взаимодействий. Начиная со случайным образом построенного «ро-
дительского» поколения хромосом, генетический алгоритм циклически
применяет два главных генетических оператора, скрещивание и мута-
цию, получая «дочерние» хромосомы, которые заменяют наихудших
202 Молекулярное моделирование

Рис. 5.4. Главные особенности генетического алгоритма

представителей родительской популяции. Оператор скрещивания тре-


бует двух родителей и дает двух потомков, в то время как оператор мута-
ции производит единственного потомка от одного родителя. Таким обра-
зом, скрещивание комбинирует особенности двух разных хромосом в од-
ной, в то время как мутация вносит случайные изменения. Давление
отбора проявляется в форме предпочтительного выбора лучших
представителей существующей популяции в качестве «родительских»
хромосом. Это условие гарантирует, что со временем популяция будет
двигаться к оптимальному решению, то есть к правильному способу
связывания.
AutoDock [18] использует ламарковский генетический алгоритм
(Lamarckian Genetic Algorithm, LGA). При использовании LGA адапта-
ция фенотипа к окружающей среде производится путем его транскрип-
ции в генотип на основе предположения Жана Батиста Ламарка1 о том,
что приобретенные фенотипические характеристики могут стать насле-
дственными. В AutoDock для каждого поколения выполняется локаль-
ный поиск (минимизация энергии) для определенной пользователем
части популяции, и получающиеся координаты лиганда сохраняются в
хромосоме вместо родительских.
Генетические алгоритмы широко применяются при конформацион-
ном поиске, и различные их варианты (например, Darwin, Divali,
GAsDock, MolDock, Psi-Dock; см. табл. 5.2) используются для докинга в
комбинации со стратегиями локальной минимизации в различных
силовых полях.

1
Жан Батист Пьер Антуан де Моне Ламарк (1744–1829) — французский естествоиспыта-
тель, создатель первой полноценной теории эволюции.
Глава 5. Виртуальный скрининг и докинг 203

5.2.3. Табупоиск
Алгоритмы табу-поиска были впервые использованы в программе
Pro_Leads [51]. Этот подход характеризуется использованием ограниче-
ний, позволяющих вести поиск в областях, трудно доступных иными
методами (рис. 5.5). Эти ограничения имеют форму запретного списка
(табу-списка), в котором содержатся уже исследованные решения. Пре-
дотвращая многократное посещение этих областей конформационного
пространства, алгоритм стремится к максимально возможному изуче-
нию пространства поиска. В процессе поиска рассматривается только
текущее решение. В начале поиска текущее решение инициализируется
путем выбора случайной позиции и ориентации лиганда в определенной
области активного центра. Затем производится определенное пользова-
телем число шагов от текущего решения с помощью процедуры, подо-
бной мутации, результаты которых ранжируются с помощью оценочной
функции. Алгоритм табу-поиска оперирует запретным списком, в кото-
ром хранятся уже исследованные решения, и шаг считается запрещен-
ным, если он недостаточно отличается (например, среднеквадратичное
отклонение < 0,75 C) от элементов запретного списка. Лучший по оценке
шаг объявляется новым «текущим решением», если его энергия ниже
имеющейся к тому моменту лучшей энергии, и в то же время заменяет
предыдущее «лучшее решение». В иных случаях алгоритм выбирает
лучший незапрещенный шаг. Если решение не удовлетворяет ни одному
из этих критериев, алгоритм останавливается; если найдено новое теку-
щее решение, оно добавляется к запретному списку. Текущее решение
просто добавляется в конец списка, пока он не наполнится (например,
25 решений), а затем заменяет существующие элементы списка по при-

Рис. 5.5. Главные особенности табу-поиска


204 Молекулярное моделирование

нципу «первым вошел, первым вышел» ('first-in, first-out'), иными сло-


вами, происходит замена самых старых элементов списка. После иден-
тификации нового текущего решения генерируется новый набор шагов
и начинается следующая итерация поиска. Генетические алгоритмы и
табу-поиск используются совместно в таких программах, как PAS-Dock,
Psi-Dock и SFDock (см. табл. 5.2) для ограничения конформационного
пространства поиска при докинге малой молекулы в белок. Поскольку
генетический алгоритм быстро сходится в близкой окрестности мини-
мума, он может ошибочно сойтись в локальном минимуме. Использо-
вание табу-поиска позволяет избежать этого недостатка.

5.2.4. Моделирование отжига и метод МонтеКарло


Моделирование отжига — это особый метод моделирования молекуляр-
ной динамики, при использовании которого система охлаждается через
определенные промежутки времени путем уменьшения температуры
моделирования. Таким образом система фиксируется в конформации,
отвечающей ближайшему локальному минимуму. Недостатки метода
заключаются в том, что результат зависит от начального положения ли-
ганда и алгоритм не исследует пространство решений исчерпывающе.
При использовании метода Монте-Карло конформационное простран-
ство исследуется с помощью случайных движений. Возможны различ-
ные варианты метода в программах докинга (табл. 5.2). В старой версии
AutoDock 2.4 использовался протокол моделирования отжига, сов-
мещенного с методом Монте-Карло (Monte Carlo Simulated Annealing,
MCSA). Во время каждого цикла постоянной температуры ориентация и
конформация лиганда претерпевают случайные изменения. Новое со-
стояние немедленно принимается, если его энергия ниже энергии преды-
дущего состояния. В иных случаях конформация принимается или отвер-
гается с вероятностью, основанной на соотношении Больцмана. Вероят-
ность принятия P выражается как
-DE
P =e kT , (1)

где DE — отличие в энергии от предыдущего шага, T — абсолютная тем-


пература, а k — постоянная Больцмана. Это означает, что чем выше тем-
пература, тем выше вероятность, что новое состояние будет принято.
В программе MCDock метод Монте-Карло используется дважды:
сначала происходит чистая геометрическая оптимизация положения
лиганда путем случайных движений для минимизации межмолекуляр-
ного перекрывания, а затем — моделирование MCSA с использованием
силового поля CHARMM. ProDock и ICM (табл. 5.2) используют внут-
ренние координаты для представления молекулярных структур и соче-
тают случайные движения по Монте-Карло с минимизацией энергии на
основе силового поля. Алгоритм DockVision состоит из трех стадий:
(1) случайное позиционирование заранее вычисленных конформаций
лиганда в определенной пользователем области связывания; (2) провер-
Глава 5. Виртуальный скрининг и докинг 205

ка на стерические конфликты с мишенью с помощью «плавающего» ал-


горитма (floating algorithm), сочетающего в себе метод Монте-Карло со
стерической решеточной оценочной функцией; (3) поиск оптимального
способа связывания после удаления потенциальных конфликтов с по-
мощью отбора методом Монте-Карло, основанного на силовом поле.
Программа QXP сочетает случайные монте-карловские движения тор-
сионных углов лиганда с минимизацией энергии и промежуточную
процедуру быстрой подгонки под шаблон для оптимального располо-
жения лиганда в области связывания. В программе Affinity использу-
ется двухшаговая процедура докинга гибкого лиганда в частично гиб-
кий белок: (1) классический метод Монте-Карло применяется для ло-
кализации лиганда в месте связывания; (2) расположение лиганда
оптимизируется по протоколу моделирования отжига с использовани-
ем решеточного силового поля для обработки неподвижной части ком-
плекса и более сложного полного силового поля, включающего неяв-
ные эффекты растворителя, для обработки подвижной части системы
(лиганд, аминокислоты места связывания). Другой коммерчески дос-
тупный продукт Glide использует набор иерархических фильтров для
удаления нежелательных решений, начиная с приближений низкого
уровня (совпадения по расстояниям) и вплоть до сложных вычислений
(полная минимизация методом MCSA с применением силового поля) с
оценкой свободной энергии. Glide использует новый алгоритм быстро-
го построения конформаций, минимизируя вычислительную слож-
ность путем кластеризации якорных областей построенных трехмер-
ных конформаций лиганда и независимой обработки положений кон-
цевых вращающихся групп.
В программе FDS (табл. 5.2) метод Монте-Карло используется вмес-
те с молекулярно-механическим силовым полем AMBER с континуаль-
ной моделью растворителя GB-SA (Generalized Born — Surface Area).
Эта модель растворителя не только менее сложна вычислительно, чем
его явное представление, но и позволяет выполнять более совершенный
отбор конформаций.

5.2.5. Методы подгонки формы


Методы подгонки формы — это быстрый докинг для оценки стери-
ческой и электростатической комплементарности заранее вычисленных
конформаций лиганда и белковой мишени. Программа FTDock (табл.
5.2) использует решеточное представление лиганда и мишени, причем
точкам решетки приписываются определенные значения, зависящие от
доступности атомов. Затем используется быстрое преобразование Фурье
для оптимизации лиганд-белковой комплементарности после глобаль-
ного вращения и переноса лиганда. Программа Ligin оптимизирует ори-
ентацию лиганда с помощью функции комплементарности, суммирую-
щей площади атомных контактов, которым приписывается специаль-
ный вес, зависящий от благоприятности или неблагоприятности
взаимодействия. Sandock учитывает стерическую и электростатичес-
кую комплементарность лиганда, подогнанного к доступной поверхнос-
206 Молекулярное моделирование

ти белка по алгоритму соответствия расстояний. Наконец, LibDock ис-


пользует решеточное представление места связывания для постановки
соответствия тройки атомов лиганда тройке «горячих точек» (мест
предпочтительного взаимодействия). После исключения неподходящих
ориентаций возможные совпадения оптимизируются с помощью мяг-
кого атомного парного потенциала.

5.2.6. Другие методы


В табл. 5.2 описаны также некоторые другие программно реализован-
ные подходы к построению набора конформаций и оценки положения
при докинге. Отбор конформаций с помощью молекулярной динамики
вместе с моделированием отжига применен в CDocker, использующем
набор скриптов CHARMm [65] для потенциалов с мягким остовом
(soft-core potential) с целью улучшения конформационного поиска. Ме-
тод дистанционной геометрии для набора межмолекулярных и внутри-
молекулярных расстояний реализован в DockIt. В Eudoc осуществляют-
ся систематические перемещения и вращения лиганда в предваритель-
но заданном пространстве докинга. Наконец, в целом ряде методов
(SEED, FFLD, eHiTS) лиганд подразделяется на жесткие фрагменты, ко-
торые подвергают раздельному докингу, чтобы использовать их как
ограничения при восстановлении структуры полного лиганда с по-
мощью генетического алгоритма (SEED, FFLD) или алгоритма соответ-
ствия графов для выбора наиболее совместимых положений этих
фрагментов с дальнейшей подгонкой гибких боковых цепей между
ограничивающими фрагментами (eHiTS).

5.3. Оценочные функции


Свободная энергия связывания выражается уравнением Гиббса—Гельм-
гольца:
DG = DH – TDS, (2)

где DG — свободная энергия связывания, DH — энтальпия, T — абсо-


лютная температура и DS — энтропия. Свободная энергия соотносится с
константой связывания Ki следующим образом:
DG = –RT lnKi, (3)
где R — универсальная газовая постоянная.
Существует огромное количество методов предсказания свободной
энергии связывания молекулы лиганда на основе трехмерной структу-
ры лиганд-белкового комплекса. Эти методы значительно различаются
по своей точности и скорости. Если нужно предсказать разницу в сво-
бодной энергии связывания между лигандом и эталонной молекулой,
следует использовать очень точные, но ресурсоемкие методы, например
метод возмущения свободной энергии (Free Energy Perturbation, FEP).
Если же цель заключается в том, чтобы сравнить свободные энергии со-
тен или тысяч лиганд-белковых комплексов, построенных с помощью
Глава 5. Виртуальный скрининг и докинг 207

Табл. 5.3. Наиболее популярные оценочные функции


Название Ссылка

Эмпирические функции
Chemscore 67
FlexX 32
Fresno 68
Glidescore 37
Hint 69
Ligscore 70
Ludi 71
PLP 72
Screenscore 73
X-Score 74

Силовые поля
AutoDock 18
Dock 24
Goldscore 75

Потенциалы средней силы


Bleep 76
Drugscore 77
PMF 78
SmoG 79

виртуального скрининга, то необходимо обратиться к значительно более


быстрым и, следовательно, менее точным оценочным функциям. Оценоч-
ные функции можно в основном разделить на три группы (табл. 5.3):
эмпирические, основанные на силовых полях, а также потенциалы
средней силы, основанные на знаниях (knowledge-based potentials of
mean force). В ходе виртуального скрининга оценочные функции ис-
пользуются двояким образом: (1) в ходе докинга служат мерой качества
подгонки при оптимизации расположения лиганда; (2) по завершении
докинга позволяют ранжировать все лиганды из базы данных, для кото-
рой было успешно найдено решение задачи докинга. В принципе, для
двух этих случаев могут использоваться различные оценочные функ-
ции, хотя большинство инструментов докинга ограничивается исполь-
зованием в обоих случаях одной и той же оценки.

5.3.1. Эмпирические оценочные функции


Эмпирические оценочные функции используют различные зависимости
свойств, важных для связывания лигандов, для конструирования так
208 Молекулярное моделирование

называемого основного уравнения, предсказывающего энергию связы-


вания белка и лиганда. Множественная линейная регрессия служит для
оптимизации весовых коэффициентов при вычисленных функциях на
основе обучающей выборки лиганд-белковых комплексов, для которых
известна аффинность и доступна экспериментально определенная высо-
кокачественная структура. Эти функции описывают полярные взаимо-
действия (водородные связи и ионные взаимодействия), неполярные
взаимодействия (липофильные и ароматические взаимодействия),
потерю гибкости лиганда (энтропия) и иногда эффекты десольватации.
Прорыв в построении эмпирических оценочных функций наметил-
ся после того, как Бём разработал функцию для программы дизайна
de novo LUDI (табл. 5.3), которая вошла в измененной форме в програм-
му FlexX и представляет собой типичный вид эмпирической оценочной
функции:
DG = DG0 + DGrotNrot + DGhbåf(DR, Da) + DGioåf(DR, Da) +
(4)
+ DGarf(DR, Da) + DGlipof*(DR).

Коэффициенты DGi заранее неизвестны и вычисляются с помощью


множественной линейной регрессии так, чтобы удовлетворять экспери-
ментально измеренным аффинностям. DG0 — это свободный член. Следу-
ющий член учитывает потерю энтропии при связывании лиганда из-за
ограничения подвижности вращающихся связей (DGrot — потеря энер-
гии на одну связь, Nrot — число вращающихся связей). DGhb и DGio выра-
жают, соответственно, энергии оптимальной водородной связи и опти-
мального солевого мостика; f(DR, Da) — это функция масштабирования,
описывающая отклонения от идеальной геометрии взаимодействия в тер-
минах расстояния (DR) и угла (Da). Такая же функция используется для
ароматических взаимодействий (DGar). Липофильный член (DGlipo) вы-
числяется как сумма всех попарных межатомных контактов. Функция
f*(DR) рассматривает контакты с более или менее идеальным расстояни-
ем и делает невыгодными слишком близкие контакты.
Главный недостаток эмпирических функций заключается в необхо-
димости создания обучающей выборки для вывода весовых факторов
индивидуальных членов. Можно также ожидать, что эмпирическая
функция будет хорошо работать лишь для белков (металлоферментов,
протеаз), похожих на использованные в обучающей выборке [80].

5.3.2. Оценочные функции, основанные на силовых полях


Силовые оценочные функции, например оценочная функция Dock
(табл. 5.3), основываются на нековалентных членах классических сило-
вых полей молекулярной механики (например, AMBER, CHARMm и
др.). Ван-дер-ваальсовы взаимодействия описываются потенциалом
Леннард-Джонса, а электростатический компонент взаимодействия —
законом Кулона. Энергия нековалентных взаимодействий вычисляется
по формуле (5):
Глава 5. Виртуальный скрининг и докинг 209

lig rec é A qiqj ù


ij Bij
E=ååê - + 332 ú, (5)
i =1 j =1 ê Drij ú
12 6
ë rij rij û

где Aij и Bij — это параметры ван-дер-ваальсова отталкивания и притя-


жения между двумя атомами i и j на расстоянии rij соответственно; qi и
qj — точечные заряды на этих атомах; D — диэлектрическая функция, а
332 — множитель пересчета электростатической энергии в ккал/моль.
Главный недостаток силовых полей заключается в неучете энтропийного
компонента свободной энергии связывания1. Поэтому не следует пере-
оценивать тот факт, что большие и полярные молекулы обычно получа-
ют наилучшую оценку для энтальпии взаимодействия.

5.3.3. Оценочные функции, основанные на знаниях


Главный недостаток эмпирических оценочных функций состоит в том,
что неизвестно, в какой мере они применимы к лиганд-белковым ком-
плексам, не представленным в обучающей выборке при выводе основного
уравнения. Далее, эмпирические функции делят свободную энергию свя-
зывания на физически значимые вклады и оценивают их в явном виде.
Тем не менее оценить вклады энтропии и десольватации особенно
трудно.
Недавно был разработан подход, лишенный этих недостатков. В нем
используются оценочные функции с потенциалами средней силы PMF,
основанные на знаниях (табл. 5.3). Потенциал PMF кодирует структур-
ную информацию, полученную из рентгеноструктурных данных для ли-
ганд-белковых комплексов, в свободные энергии Гельмгольца взаимо-
действий пар атомов белка и лиганда. Предполагается, что чем чаще
атом белка типа i и атом лиганда типа j находятся на расстоянии rij, тем
выгоднее такое взаимодействие. Каждому типу взаимодействия между
атомом белка типа i и атомом лиганда типа j на расстоянии rij приписы-
вается свободная энергия лиганд-белкового взаимодействия A(r) в зави-
симости от его частоты:
A(r) = –kBT lngij(r), (6)
где kB — постоянная Больцмана, T — абсолютная температура и gij(r) —
функция распределения пары атомов белка и лиганда (i, j). Функция
распределения вычисляется по численной плотности вхождений этой
пары (i, j) на расстоянии r в базу лиганд-белковых комплексов (обычно
PDB).
Оценка определяется как сумма по всем межатомным взаимодей-
ствиям в комплексе. Преимущество этого подхода состоит в том, что не
требуется подгонка к экспериментальным значениям свободной энергии
связывания комплексов в обучающей выборке и вклад сольватации и эн-
тропии учитывается в неявном виде.

1
Энтропия может приближенно учитываться через Nrot.
210 Молекулярное моделирование

5.3.4. Критический обзор быстрых оценочных функций


Оценочная функция является ахиллесовой пятой виртуального скри-
нинга по структуре мишени. Несколько недавних независимых иссле-
дований показали, что многие быстрые оценочные функции могут в са-
мом деле отличить близкие к нативным ориентации (среднеквадратичное
отклонение от ориентации, найденной с помощью рентгеноструктурного
анализа, не более 2,0 C) от ошибочных для примерно 70% высококачес-
твенных рентгеноструктурных данных для комплексов [81]. Тем не ме-
нее, когда докинг применяется к большой базе данных, соответствую-
щая оценочная функция должна быть достаточно чувствительной для
того, чтобы расположить предполагаемые хиты в порядке увеличения
свободной энергии связывания. К сожалению, точное предсказание энер-
гии связывания до сих пор невозможно вне зависимости от метода, моде-
ли расчета зарядов и способа учета сольватации [80]. Предсказание изме-
нения свободной энергии возможно при условии применения специально
настроенной оценочной функции к ряду близкородственных лигандов.
Для базы, содержащей большое разнообразие соединений, и для мише-
ней, которые не были включены в калибровку оценочных функций, по-
лучаемая точность обычно весьма ограничена (около 7 кДж/моль или
1,5 единицы pK). Исходя из этого наблюдения возможны две стратегии
улучшения расчетов: (1) создание более точных оценочных функций и
(2) создание более интеллектуальных стратегий обработки результатов
докинга (см. следующий раздел). Многие специалисты предпочитают
второй вариант. Точность оценочных функций достигла своего предела
уже несколько лет назад, поскольку некоторые неизвестные параметры
(например, роль связанной воды или гибкость белка) остаются чрезвы-
чайно сложными для предсказания, какие бы физические принципы не
использовались для вывода оценочной функции.

5.4. Фильтрование результатов


виртуального скрининга
Оценочные функции далеки от возможности количественно предсказы-
вать свободные энергии связывания (аффинности), поэтому необходимы
продуманные стратегии обработки результатов при выборе виртуаль-
ных хитов для дальнейшей экспериментальной проверки. В большин-
стве случаев исследователи стараются выявить ложные положительные
результаты, увеличивая тем самым долю истинных положительных
результатов.

5.4.1. Фильтрование по топологическим свойствам


Для того чтобы отбросить лиганд-белковые комплексы с непригодными
геометриями, можно применять различные фильтры, которые оценива-
ют лиганд-белковые комплексы по их стерическому соответствию.
Шталь и др. разработали набор таких фильтров [82], включающий долю
объема лиганда, погруженную внутрь полости связывания, размер ли-
Глава 5. Виртуальный скрининг и докинг 211

пофильных карманов на поверхности взаимодействия лиганда с бел-


ком, площадь доступной для растворителя поверхности лиганда, а так-
же число близких контактов между атомами лиганда и белка, не свя-
занными водородными связями. Для оптимальной ориентации
погруженный объем лиганда должен быть максимален, в то время как
размер липофильных карманов, доступных для растворителя неполяр-
ных частей лиганда и число близких контактов между полярными атома-
ми, не связанными водородными связями, должны быть минимальны.

5.4.2. Фильтрование с помощью консенсусных подходов


Поскольку средний результат повторяющихся испытаний стремится к
реальному значению [83], использование различных методов докинга
[84] или оценочных функций [85, 86] может открыть путь к удалению
ложных положительных результатов. На основе этого предположения
можно использовать любую возможную комбинацию методов докинга и
оценки, в то же время рискуя значительно уменьшить размер списка
хитов из-за увеличения количества ограничений. Поскольку цель вир-
туального скрининга состоит в нахождении наилучшего компромисса
между долей хитов (процент истинно активных соединений в списке хи-
тов) и долей извлеченных в список хитов истинно активных соединений
по отношению к их общему количеству в выборке, следует весьма осто-
рожно использовать консенсусные подходы и всегда сравнивать различ-
ные стратегии отбора хитов, чтобы получались списки хитов сопостави-
мого размера [87].
В то же время исследование различных конформаций мишени до-
кинга может помочь в учете гибкости места связывания путем вывода
усредненной оценки докинга [88]. Наконец, различные ориентации
каждого лиганда (необязательно с лучшим рангом) можно анализиро-
вать с использованием всех сценариев консенсусной обработки [89].
Консенсусные подходы обычно требуют значительного объема предва-
рительных знаний (несколько решенных структур, много известных ак-
тивных соединений) и обычно настраиваются под конкретную мишень,
вследствие чего неприменимы для других мишеней.

5.4.3. Фильтрование с помощью


комбинированных вычислительных процедур
Координаты, полученные с помощью докинга, по крайней мере для наи-
более интересных лиганд-белковых комплексов, можно изучать с по-
мощью более сложных вычислительных методов с целью предсказания
абсолютных значений свободной энергии связывания. Неправильный
учет дальнодействующих электростатических эффектов и десольвата-
ции является одним из основных недостатков быстрых оценочных
функций. Возможно применение более мощных оценочных методов,
основанных на молекулярной механике в сочетании с непрерывными
моделями растворителя [90, 91] (например, MM-PBSA (Molecular
Mechanics — Poisson—Boltzmann solvent accessible Surface Area) или
212 Молекулярное моделирование

MM-GBSA (Molecular Mechanics — Generalized Born Solvent Acces-


sibility)) или даже квантовую механику [92, 93]. Такие подходы ограни-
чены предварительно отфильтрованным набором виртуальных хитов,
поскольку они вычислительно более ресурсоемки, хотя возможно их при-
менение на стандартных вычислительных кластерах за разумное время.
Методы машинного обучения, позволяющие извлекать информацию
из наборов данных с высоким информационным шумом, могут также
помочь в обнаружении интересующих исследователя хитов. Среди наи-
более многообещающих методов стоит выделить байесовскую статисти-
ку, сравнивающую частоту двумерных подструктурных особенностей
для известных активных и неактивных соединений, которая была пред-
ставлена как весьма мощный фильтр результатов докинга [94].
Наконец, трехмерную информацию об известном способе связывания
активных соединений можно закодировать в виде вектора (кодирование
по принципу «отпечатков пальцев», fingerprint coding), в котором конеч-
ное число элементов будет кодировать или каждый атом лиганда, или
аминокислотный остаток области связывания, или межмолекулярное
взаимодействие (водородные связи, ионные взаимодействия, гидро-
фобные контакты) [95]. В предположении, что активные соединения
имеют похожие способы связывания (однотипные взаимодействия со
строго определенными остатками), построение отпечатков молекуляр-
ных взаимодействий для всех предсказанных ориентаций и оценка их
по подобию известным активным соединениям является многообещаю-
щим методом удаления ложных положительных результатов, для ко-
торых схема лиганд-белковых взаимодействий не соответствует экспе-
риментальным данным.

5.4.4. Фильтрование по химическому разнообразию


С целью уменьшения числа виртуальных хитов, для которых необходи-
мо провести биологические испытания (докинг 50 000 соединений часто
приводит к списку хитов, включающему 1000–2000 соединений), вир-
туальные хиты часто группируются с учетом их химического разнообра-
зия. Хотя четкого определения молекулярного разнообразия не сущест-
вует (оно зависит от молекулярных дескрипторов и метрики, использо-
ванной для оценки), данная стратегия позволяет меньше фокусироваться
на численных значениях (оценках докинга) и больше на том, как эти
значения будут распределены в химическом пространстве (рис. 5.6).
Если приписывать приоритеты структурным классам, а не индивиду-
альным соединениям, появляется возможность «спасти» ложные отри-
цательные результаты, если они относятся к тому же классу, что и ис-
тинно положительные результаты.

5.4.5. Визуальное фильтрование


Необходимо провести внимательный визуальный анализ предсказанной
структуры комплекса белка и хита на как можно более ранней стадии,
чтобы убедиться в том, что (1) лиганд размещен именно в активном цен-
Глава 5. Виртуальный скрининг и докинг 213

Рис. 5.6. Влияние стратегий обработки результатов на извлечение реальных


антагонистов вазопрессинового рецептора V1a путем структурного скрининга
базы из 990 случайно выбранных соединений, похожих на лекарства, и 10 реаль-
ных активных соединений [96]. 1 — 5% лучших лигандов по оценке FlexX;
2 — 5% лучших лигандов по оценке Gold; 3 — хиты, общие для 1 и 2; 4 — расста-
новка приоритетов с помощью классов программы ClassPharmer [97], которые
содержат больше двух соединений, 60% представителей имеют оценку FlexX
ниже –22 кДж/моль; 5 — расстановка приоритетов с помощью классов
ClassPharmer, которые содержат больше двух соединений, 60% представителей
имеют оценку Gold больше 37,5; 6 — расстановка приоритетов с помощью клас-
сов ClassPharmer, содержащих больше двух соединений, для которых 60% пред-
ставителей имеют оценку Gold больше 37,5 и оценку FlexX ниже –22 кДж/моль

тре, а не на периферии, (2) конформация лиганда физико-химически


осмысленна, (3) лиганд взаимодействует с ключевыми остатками места
связывания. Этот шаг может быть весьма длительным и утомительным,
но позволяет убедиться в том, что каждый избранный хит обладает
необходимыми свойствами.

5.5. Сравнение различных методов докинга и оценки


Существуют различные программы докинга, основанные на различных
физико-химических приближениях (см. табл. 5.2). Поскольку любой
инструмент докинга представляет собой сочетание метода докинга с
быстрой оценочной функцией, в литературе встречается огромное коли-
чество сравнительных исследований, фокусирующихся на трех основ-
ных аспектах: (1) способность алгоритма докинга воспроизводить ори-
ентацию небольшого лиганда, найденную рентгеноструктурным мето-
дом [81, 89]; (2) способность быстрых оценочных функций распознавать
близкие к нативным ориентации в наборе неверно предсказанных
[98] и предсказывать абсолютные свободные энергии связывания [80];
214 Молекулярное моделирование

(3) отделение связывающихся молекул от набора случайных в экспери-


ментах по виртуальному скринингу [99, 100]. Тем не менее весьма слож-
но анализировать все эти данные с целью сравнительного анализа
инструментов докинга. Во-первых, многие программы труднодоступны.
Во-вторых, независимые исследования, касающиеся относительной эф-
фективности алгоритмов докинга и оценочных функций, достаточно
редки и концентрируются на использовании немногих методов.
В-третьих, качество оценки зависит от исследуемых свойств (качество
лучшей по рангу ориентации, качество всех правдоподобных ориента-
ций, предсказание свободной энергии связывания, полезность вирту-
ального скрининга). В-четвертых, программы докинга используют раз-
личные уровни аппроксимации, что приводит, например, к весьма не-
однородным скоростям докинга — от нескольких секунд до нескольких
часов на одну молекулу. Наконец, многие программы докинга калибро-
вались и проверялись на небольших наборах белков и лигандов; обшир-
ные тесты (>100 лиганд-белковых комплексов) публиковались лишь
для немногих инструментов докинга. Последние исследования на раз-
личных наборах данных показывают, что точность инструмента докин-
га сильно зависит от мишени, но каждый случай требует отдельного рас-
смотрения. Glide и Gold считаются наиболее надежными программами,
воспроизводящими ориентацию лиганда в кристалле в 75–80% случаев
[81] при условии, что исследуется несколько решений. Главная пробле-
ма состоит в том, что оценочная функция не всегда, а лишь в 40–50%
случаев предсказывает верное решение как наиболее вероятное, что за-
метно усложняет анализ результатов докинга. Существует несколько
причин, объясняющих такое ограничение точности. Некоторые из них
легко исправить (например, ошибки в типах атомов белка или лиганда),
некоторые сложнее (точность трехмерной структуры белка, гибкость
лиганда, точность оценочной функции и др.), а некоторые весьма труд-
но (гибкость белка, роль связанной воды). Тем не менее предсказать, ка-
кая программа докинга лучше всего подходит для выполнения конкрет-
ного исследовательского проекта, до сих пор невозможно. Если доступны
известные лиганды, лучшим возможным вариантом будет испытание
различных комбинаций параметров докинга и оценки с последующим
выбором для рутинного скрининга той комбинации, которая лучше все-
го отделяет истинно активные соединения от истинно неактивных. Если
известно очень мало лигандов или они не известны вообще, можно руко-
водствоваться общими соображениями, выбирая инструмент, лучше
всего описывающий физико-химические свойства области связывания.

5.6. Примеры успешного применения


виртуального скрининга
В табл. 5.4 сведены некоторые примеры (2003–2006 гг.) успешного вир-
туального скрининга по структуре биомишени. В большинстве из них ис-
пользованы высококачественные структуры, определенные методом РСА
[73–79, 101–127], хотя обнадеживающие результаты были получены и
Глава 5. Виртуальный скрининг и докинг 215

Таблица 5.4. Данные успешного виртуального скрининга (2003–2006 гг.)

Мишень Программа Библиотека Размер Доля хитова Ссылка

Альдозоредуктаза FlexX ACD 260 000 55% @ 20 mM 101


L-Ксилулозоредуктаза Dock NCIб 249 071 5% @ 100 mM 135
IMPDHв FlexX Roche reagents 3425 8% @ 100 mM 136
DHFRг FlexX 9448 21% @ 25 mM 102
DHFR Dock ACDe ? 33% @ 20 mM 103
Тимидинфосфорилаза Dock NCI 250 000 7% @ 20 mM 104
т-РНК-гуанинтранс- FlexX 7 разных 827 000 55% @ 10 mM 105
гликозалаза
Киназа Chk-1 FlexX AstraZeneca 550 000 36% @ 68 mM 106
rDock Vernalis 700 000 0,8% @ 50 mM 107
Казеинкиназа II Dock Novartis 450 000 33% @ 10 mM 108
Moe, Glide, база данных 2000 ? 109
Fred, Gold MMS
Тирозиновая киназа Dock ChemDiv 200 000 13% @ 30 mM 110
BCR-ABL
P56 Lck Dock ? 2 000 000 17% @ 100 mM 111
EphB2 Gold ChemDiv 50 452 5% @ 10 mM 112
Протеинкиназа B FlexX ChemBridge 50 000 10% @ 20 mM 113
Тимидинкиназа FlexX CMCе + KEGGж 7986 10% @ 20 mM 114
Cdk2 Lidaeus Коммерческие 50 000 5% @ 20 mM 115
соединения
Ацетилхолинэстераза ADAM & ACD + 160 000 11% @ 10 mM 116
EVE Maybridge
AutoDock Комбинаторная 271 50% @ 10 mM 117
библиотека
Фосфодиэстераза 4D FlexX Комбинаторная 320 55% @ 100 nM 137
библиотека
ГТФаза Rac FlexX NCI 140 000 6% @ 50 mM 118
3C-подобная протеаза Dock ACD + MDDR 630 000 7% @ 200 mM 119
SARS CoV + NCI
Интеграза ВИЧ-1 Gold ChemBridge 1700 43% @ 100 mM 120
Трансформилаза AutoDock NCI 1990 51% @ 20 mM 121
AICARз
XIAPи Dock TCMк 8000 3% @ 5 mM 138
Stat3b Dock 4 разных 429 000 1% @ 20 mM 139
CytP450 2D6 Gold поднабор NCI 111 39% @ 10 mM 122
VU Amsterdam 5760 62% @ 5 mM 123
SHBGл Glide Природные 23 836 7% @ 25 mM 124
соединения
Рецептор тироидного ICM ACD 190 000 14% @ 30 mM 125
гормона b
Фактор отека Dock ACD 205 226 8% @ 100 mM 126
RmIcм FlexX Комбинаторная 3888 32% @ 20 mM 127
библиотека
Рибосомный A-сайт rDock Vernalis 1 000 000 26% @ 500 mM 128
216 Молекулярное моделирование

Таблица 5.4. (Окончание)


Мишень Программа Библиотека Размер Доля хитова Ссылка

Hsp90 rDock Vernalis 700 000 ? 129


b-Лактамаза Dock ZINC 33 000 30% @ 120 mM 130
11bHSD-1н Gold, Glide Природные сое- 114 000 13% @ 20 mM 131
динения
Фалципаин-2 Gold ChemBridge 50 000 28% @ 60 mM 132
15-Липоксигеназа Glide ChemBridge 50 000 3% @ 10 mM 133
Рецептор 5-HT1A Dock > 20 производи- 1 600 000 21% @ 5 mM 134
телей
Рецептор NK1 Dock > 20 производи- 1 600 000 15% @ 5 mM 134
телей
Рецептор D2 Dock > 20 производи- 1 600 000 17% @ 5 mM 134
телей
Рецептор CCR3 Dock > 20 производи- 1 600 000 12% @ 5 mM 134
телей
Рецептор 5-HT4 Dock > 20 производи- 1 600 000 21% @ 5 mM 134
телей
Рецептор A1a Gold Aventis ? 30% @ 1 mM 140
Рецептор NK1 FlexX 7 разных 827 000 14% @ 1 mM 141
Рецептор D3 LigandFit NCI 250 000 40% @ 1 mM 142
a Доля хитов при данном пороговом значении концентрации: число активных
соединений среди протестированных.
б База Национального института рака (National Cancer Institute, NCI).
в Инозин-5¢-монофосфатдегидрогеназа.
г Дигидрофолатредуктаза.
д Аvailable Chemicals Directory.
е CMC: comprehensive medicinal chemistry database
ж База данных KEGG (http://www.genome.jp/kegg/ligand.html).
з Аминоимидазолкарбоксамидрибонуклеотидтрансформилаза.
и X-связанный ингибитор апоптоза.
к База данных традиционных китайских лекарств (http://www.tcm3d.com).
л Глобулин, связывающийся с половыми гормонами.
м дГТФ-6-деокси-D-ксило-4-гексулозо-3,5-эпимераза.
н 11b-Гидроксистероиддегидрогеназа.

для моделей, построенных по гомологии [128–134], что позволило рас-


ширить применимость методов скрининга по структуре биомишени на
большой массив фармацевтически интересных мишеней.
Макромолекулярные мишени с четко выраженным гидрофильным
карманом (например, киназы, редуктазы, эстеразы), для которого на-
правленность межмолекулярных взаимодействий играет ключевую
роль в распознавании лиганда, достаточно хорошо подходят для вирту-
ального скрининга по той простой причине, что большинство инстру-
ментов докинга и оценочных функций было калибровано именно для та-
ких ситуаций. Поэтому совершенно неудивительно, что эти семейства
Глава 5. Виртуальный скрининг и докинг 217

белков широко представлены в списке мишеней, для которых истинные


ингибиторы были обнаружены с помощью докинга баз данных [73–79,
101–115] (табл. 5.4). Вторая причина этого успеха заключается в том,
что и предварительное фильтрование базы данных, и анализ результа-
тов докинга могут быть ограничены имеющимися данными о предпоч-
тительных химических типах и способах связывания [111].
Тем не менее для некоторых мишеней с помощью высокопроизводи-
тельного докинга были обнаружены микромолярные ингибиторы
[138, 139], представляющие новые классы, что свидетельствует о мощи
метода виртуального скрининга для сложных мишеней. В большинстве
случаев были идентифицированы соединения, похожие на лекарства или
ведущие соединения. Виртуальный скрининг можно использовать так-
же в так называемых «фрагономических» проектах [135, 136], в которых
производится скрининг фрагментов с малой молекулярной массой (обыч-
но <300) методами структурной биологии (РСА, ЯМР). Очень сложным
аспектом фрагментного скрининга in silico является оценка и ранжи-
рование результатов, поскольку многие программы докинга обычно ге-
нерируют большое количество энергетически сравнимых ориентаций,
для которых весьма сложен окончательный выбор. Ранжирование та-
ких фрагментов с использованием отпечатков молекулярных взаимодей-
ствий является многообещающим методом удаления неоднозначностей,
связанных с оценочными функциями [143].
Подавляющее большинство проектов виртуального скрининга
имеют своей целью идентификацию хитов для поиска лекарственных
средств. Оптимизация ведущего соединения возможна при условии,
что можно однозначно установить его способ связывания и создать
стратегию рационального выбора следующих соединений для синтеза
[137].

5.7. Перспективы
Метод виртуального скрининга по биомишени уже развит до такой сте-
пени, чтобы применяться в качестве первичного метода скрининга, осо-
бенно в академических лабораториях, не имеющих инфраструктуры
для высокопроизводительного скрининга. Экспериментальный и вирту-
альный скрининг — не взаимоисключающие, а взаимодополняющие
методы, которые лучше всего работают в различных ситуациях. В то
время как высокопроизводительный скрининг требует индустриально-
го оборудования (хранение и обслуживание библиотеки соединений, ро-
боты для скрининга, многочисленные методы считывания), виртуаль-
ный скрининг можно применять с относительно небольшими издержка-
ми в лабораторных условиях. Очевидно, что виртуальный скрининг
может давать значительно больше ложных положительных результа-
тов, чем высокопроизводительный скрининг, но сам по себе этот факт не
создает сложностей при условии достаточно большого процента извле-
чения хитов (малого процента ложных отрицательных результатов); это
позволяет начать проект по созданию лекарства с экспериментальной
218 Молекулярное моделирование

проверки виртуальных хитов. Очевидное преимущество виртуального


скрининга перед экспериментальным состоит в том, что методы in silico
можно использовать в тех условиях, когда экспериментальное проведе-
ние высокопроизводительного скрининга обременительно или невоз-
можно. Кроме того, виртуальный скрининг можно применять к коллек-
циям соединений, которые недоступны для экспериментального скри-
нинга, и максимизировать таким образом вероятность нахождения
интересных хитов.
Очевидная опасность виртуального скрининга, особенно для нович-
ков в этой области, заключается в искушении работать со все большими
и большими библиотеками с целью увеличения доли хитов. Большин-
ство, если не все, известные истории успеха показывают, что настройка
библиотеки и анализ результатов докинга, возможно, являются ключе-
выми факторами успеха. Сейчас обычной практикой и строгой рекомен-
дацией является отбор из начальной библиотеки соединений, удовлетво-
ряющих определенным внешним ограничениям (поиск подструктуры,
двумерный или трехмерный фармакофор), жесткая настройка стратегии
докинга и оценки на основе различия известных активных и известных
неактивных соединений и внимательный анализ результатов докинга
даже для соединений или ориентаций, не получивших на первый взгляд
высокой оценки. Не следует также иметь предубеждений относительно
доли хитов в анализе виртуального скрининга, поскольку это число
сильно зависит от мишени и библиотеки. Число новых испытанных клас-
сов соединений, пригодных для оптимизации, является поэтому лучшим
дескриптором, чем доля хитов, которая заметно различается в зависи-
мости от текущих знаний о конкретной мишени. Виртуальный скрининг
служит вполне естественным дополнением к традиционной химии лека-
рственных веществ, позволяя вполне обоснованно предложить новые
классы структур, которые можно легко преобразовать в фокусированные
библиотеки предполагаемых лигандов. Методологические улучшения
(докинг, оценка, сортировка хитов, предсказание абсорбции, распреде-
ления, метаболизма, выделения и токсичности (ADMET)) и лучшие кол-
лекции для скрининга (фокусированные и направленные библиотеки)
должны помочь увеличить роль этого мощного инструмента.

Цитированная литература
1. Walters, W. P., Stahl, M. T., and Murcko, M. A. (1998) Virtual screening — an
overview. Drug Discovery Today, 3, 160–78.
2. Stahura, F. L. and Bajorath, J. (2004) Virtual screening methods that comple-
ment HTS. Combinatorial Chemistry & High Throughput Screening, 7,
259–69.
3. Guner, O., Clement, O., and Kurogi, Y. (2004) Pharmacophore modeling and
three dimensional database searching for drug design using catalyst: recent ad-
vances. Current Medicinal Chemistry, 11, 2991–3005.
4. Klebe, G. (2006) Virtual ligand screening strategies, perspectives and limita-
tions. Drug Discovery Today, 11, 580–94.
Глава 5. Виртуальный скрининг и докинг 219

5. Rishton, G. M. (1997) Reactive compounts and to vitro false positives in HTS.


Drug Discovery Today, 2, 382–84.
6. Lipinski, C. A., Lombardo, F., Dominy, B. W., and Feney P. J. (1997) Experimen-
tal and computational approaches to estimate solubility and permeability in drug
discovery and development settings. Advanced Drug Delivery Reviews, 23, 3–25.
7. Roche, O. and Guba, W. (2005) Computational chemistry as an integral compo-
nent of lead generation. Mini Reviews in Medicinal Chemistry, 5, 677–83.
8. Muresan, S. and Sadowski, J. (2005) «In-house likeness»: comparison of large
compound collections using artificial neural networks. Journal of Chemical
Information and Modeling, 45, 888–93.
9. Pearce, B. C., Sofia, M. J., Good, A. C. et al. (2006) An empirical process for the
design of high-throughput screening deck filters. Journal of Chemical Informa-
tion and Modeling, 46, 1060–68.
10. Shoichet, B. K. (2006) Screening in a spirit haunted world. Drug Discovery Today,
11, 607–15.
11. SciTegic, Accelrys Inc., San Diego, USA, sales@scitegic.com.
12. Irwon, J. J. and Shoichet, B. K. (2005) ZINC. A free database of commercially
available compounds for virtual screening. Journal of Chemical Information
and Computer Sciences, 45, 177–182.
13. Chen, J., Swamidass, S. J., Dou, Y. et al. (2005) ChemDB: a public database of small
molecules and related chemoinformatics resources. Bioinformatics, 21, 4233–39.
14. Leach, A. R. and Lemon, A. P. (1998) Exploring the conformational space of pro-
tein side chains using dead-end elimination and the A* algorithm. Proteins, 33,
227–39.
15. Osterberg, F., Morris, G. M., Sanner, M. F. et al. (2002) Automated docking to
multiple target structures: incorporation of protein mobility and structural wa-
ter heterogeneity in AutoDick. Proteins, 46, 34–40.
16. Claussen, H., Вuning, C., Rarey, M., and Lengauer, T. (2001) FlexE: efficient
molecular docking considering protein structure variations. Journal of Molecu-
lar Biology, 308, 377–95.
17. Mizutani, M. Y., Takamatsu, Y., Ichinose, T. et al. (2006) Effective handling of
induced-fit motion in flexible dicking. Proteins, 63, 878–91.
18. Morris, G. M., Goodsell, D. S., Halliday, R. S. et al. (2998) Automated docking
using a Lamarckian genetic algorithm and an empirical binding free energy func-
tion. Journal of Computational Chemistry, 19, 1639–62.
19. Wu, G., Robertson, D. H., Brooks, C. L. 3rd, and Vieth, M. (2003) Detailed analy-
sis of grid-based molecular docking: A case study of CDOCKER-A CHARMM-
based MD docking algorithm. Journal of Computational Chemistry, 24, 1549–62.
20. Lawrence, M. C. and Davis, P. C. (1992) CLIX: a search algorithm for finding
novel ligands capable of binding proteins of known three-dimensional structure.
Proteins, 12, 31–41.
21. Sun, Y., Ewing, T. J., Skillman, A. G., and Kuntz, I. D. (1998) CombiDOCK:
structure-based combinatorial docking and library design. Journal of Com-
puter-Aided Molecular Design, 12, 597–604.
220 Молекулярное моделирование

22. Taylor, J. S. and Burnet, R. M. (2000) DARWIN: a program for docking flexible
molecules. Proteins, 41, 173–91.
23. Clark, K. P. (1995) and Ajay, J. Flexible ligand docking without parameter ad-
justment across four ligand-receptor complexes. Journal of Computational
Chemistry, 16, 1210–26.
24. Ewing, T. J., Makino, S., Skillman, A. G., and Kuntz, I. D. (2001) DOCK 4.0:
search strategies for automated molecular docking of flexible molecule data-
bases. Journal of Computer-Aided Molecular Design, 15, 411–28.
25. Hart, T. N. and Read, R. J. (1992) A multiple-start Monte Carlo docking method.
Proteins, 13, 206–22.
26. Makino, S., Ewing, T. J. A., and Kuntz, I. D. (1999) DREAM++: flexible docking
program for virtual combinatorial libraries. Journal of Computer-Aided Molecu-
lar Design, 13, 513–32.
27. Zsoldos, Z., Reid, D., Simon, A. et al. (2007 eHiTS: A new fast, exhaustive flexi-
ble ligand docking system. Journal of Molecular Graphics & Modelling, 26,
198–212.
28. Pang, Y. P., Perola, E., Xu, K., and Prendergast, F. G. (2001) EUDOC: a com-
puter program for identification of drug interaction sites in macromolecules and
drug leads from chemical databases. Journal of Computational Chemistry, 22,
1750–71.
29. Taylor, R. D., Jewsbury, P. J., and Essex, J. W. (2003) FDS: flexible ligand and
receptor docking with a continuum solvent model and soft-core energy function.
Journal of Computational Chemistry, 24, 1637–56.
30. Cecchini, M., Kolb, P., Majeux, N., and Caflisch, A. (2004) Automated docking
of highly flexible ligands by genetic algorithms: a critical assessment. Journal of
Computational Chemistry, 25, 412–22.
31. Merlitz, H., Herges, T., and Wenzel, W. (2004) Fluctuation analysis and accuracy
of a large-scale in silico screen. Journal of Computational Chemistry, 25, 1568–75.
32. Rarey, M., Kramer, B., Lengauer, T., and Klebe, G. (1996) A fast flexible dock-
ing method using an incremental construction algorithm. Journal of Molecular
Biology, 261, 470–89.
33. Miller, M. D., Sheridan, R. P., Kearsley, S. K., and Underwood, D. J. (1994) Ad-
vances in automated docking applied to human immunodeficiency virus type 1
protease. Methods in Enzymology, 241, 354–70.
34. OpenEye Scientific Software, Santa Fe, USA. business@eyesopen.com.
35. Gabb, H. A., Jackson,R. M., and Sternberg, M. J. (1997) Modelling protein using
shape complementarity, electrostatics and biochemical information. Journal of
Molecular Biology, 272, 106–20.
36. Li, H., Li, C., Gui, C. et al. (2004) GAsDock: a new approach for rapid flexible
docking based on an improved multi-population genetic algorithm. Bioorganic &
Medicinal Chemistry Letters, 14, 4671–76.
37. Friesner, R. A., Banks, J. L., Murphy, R. B. et al. (2004) Glide: a new approach
for rapid, accurate docking and scoring. 1. Method and assessment of docking ac-
curacy. Journal of Medicinal Chemistry, 47, 1739–49.
Глава 5. Виртуальный скрининг и докинг 221

38. Verdonk, M. L., Cole, J. C., Hartshorn, M. J. et al. (2003) Improved protein-
ligand docking using GOLD. Proteins, 52, 609–23.
39. Welch, W., Ruppert, J., and Jain, A. N. (1996) Hammerhead: fast, fully auto-
mated docking of flexible ligands to protein binding sites. Chemistry & Biology,
3, 449–62.
40. Floriano, W. B., Vaidehi, N., Zamanakos, G., and Goddard, W. A. III (2004)
HierVLS hierarchical docking protocol for virtual ligand screening of large-mol-
ecule databases. Journal of Medicinal Chemistry, 47, 56–71.
41. Totrov, M. and Abagyan, R. (1997) Flexible protein-ligand docking by global en-
ergy optimization in internal coordinates. Proteins, 1(Suppl.), 215–20.
42. Diller, D. J. and Merz, K. M. Jr. (2001) High throughput docking for library de-
sign and library prioritization. Proteins, 43, 113–24.
43. Venkatachalam, C. M., Jiang, X., Oldfield, T., and Waldman, M. (2003)
LigandFit: a novel method for the shape-directed rapid docking of ligands to pro-
tein active sites. Journal of Molecular Graphics & Modelling, 21, 289–307.
44. Sobolev, V., Moallem, T. M., Wade, R. C. et al. (1997) CASP2 molecular docking
predictions with the LIGIN software. Proteins, 1(Suppl.), 210–14.
45. Liu, M. and Wang, S. (1999) MCDOCK: a Monte Carlo simulation approach to the
molecular docking problem. Journal of Computer-Aided Molecular Design, 13,
435–51.
46. Thomsen, R. and Christensen, M. H. (2006) MolDock: a new technique for high-
accuracy molecular docking. Journal of Medicinal Chemistry, 49, 3315–21.
47. Tondel, K., Anderseen, E., and Drablos, F. (2006) Protein Alpha Shape (PAS) Dock:
a new Gaussian-based score function suitable for docking in homology modeled pro-
tein structures. Journal of Computer-Aided Molecular Design, 20, 131–44.
48. Joseph-McCarthy, D. and Alvarez, J. C. (2003) Automated generation of MCSS-
derived pharmacophoric DOCK site points for searching multiconformation da-
tabases. Proteins, 51, 189–202.
49. Goto, J., Kataoka, R., and Hirayama, N. (2004) Ph3Dock: pharmacophore-based
protein-ligand docking. Journal of Medicinal Chemistry, 47, 6804–11.
50. Trosset, J. Y. and Scheraga, H. A. (1999) Prodock: software package for protein
modeling and docking. Journal of Computational Chemistry, 20, 412–27.
51. Baxter, C. A., Murray, C. W., Clark, D. E. et al. (1998) Flexible docking using
Tabu search and an empirical estimate of binding affinity. Proteins, 33,
367–82.
52. Seifert, M. H. (2005) ProPose: steered virtual screening by simultaneous protein-
ligand docking and ligand-ligand alignment. Journal of Chemical Information
and Modeling, 45, 449–60.
53. Pei, J., Wang, Q., Liu, Z. et al. (2006) PSI-DOCK: towards highly efficient and
accurate flexible ligand docking. Proteins, 62, 934–46.
54. Jackson, R. M. (2002) Q-fit: a probabilistic method for docking molecular frag-
ments by sampling low energy conformational space. Journal of Computer-Aided
Molecular Design, 16, 43–57.
222 Молекулярное моделирование

55. McMartin, C. and Bohacek, R. S. (2997) QXP: powerful, rapid computer algo-
rithms for structure-based drug design. Journal of Computer-Aided Molecular
Design, 11, 333–44.
56. Morley, S. D. and Afshar, M. (2004) Validation of an empirical RNA-ligand scor-
ing function for fast flexible docking using Ribodock. Journal of Com-
puter-Aided Molecular Design, 18, 189–208.
57. Burkhard, P., Taylor, P., and Walkinshaw, M. D. (1998) An example of a protein
ligand found by database mining: description of the docking method and its veri-
fication by a 2.3 A X-ray structure of a thrombin-ligand complex. Journal of Mo-
lecular Biology, 277, 449–66.
58. Wu, G. and Vieth, M. (2004) SDOCKER: a method utilizing existing X-ray struc-
tures to improve docking accuracy. Journal of Medicinal Chemistry, 47,
3142–48.
59. Majeux, N., Scarsi, M., Apostolakis, J. et al. (1999) Exhaustive docking of mo-
lecular fragments with electrostatic solvation. Proteins, 37, 88–105.
60. Hou, T., Wang, J., Chen, L., and Xu, X. (1999) Automated docking of peptides
and proteins by using a genetic algorithm combined with a tabu search. Protein
Engineering, 12, 639–48.
61. Firth-Clark, S., Willems, H. M., Williams, A., and Harris, W. (2000) Generation
and selection of novel estrogen receptor ligands using the de novo struc-
ture-based design tool, SkelGen. Journal of Chemical Information and Model-
ing, 46, 642–47.
62. Zavodszky, M. I., Sanschagrin, P. C., Korde, R. S., and Kuhn, L. A. (2002) Dis-
tilling the essential features of a protein surface for improving protein-ligand
docking, scoring, and virtual screening. Journal of Computer-Aided Molecular
Design, 16, 883–902.
63. Jain, A. N. (2003) Surflex: fully automatic flexible molecular docking using a
molecular similarity-based search engine. Journal of Medicinal Chemistry, 46,
499–511.
64. Kirchmair, J., Wolber, G., Laggner, C., and Langer, T. (2006) Comparative per-
formance assessment of the conformational model generators Omega and Cata-
lyst: a large-scale survey on the retrieval of protein-bound ligand conformations.
Journal of Chemical Information and Modeling, 46, 1848–61.
65. Brooks, B. R., Bruccoleri, R. E., Olafson, B. D. et al. (1983) CHARMM: a pro-
gram for macromolecular energy, minimization, and dynamics calculations.
Journal of Computational Chemistry, 4, 187–217.
66. Miyamoto, S. and Kollman, P. A. (1993) Absolute and relative binding free energy
calculations of the interaction of biotin and its analogs with streptavidin using mo-
lecular dynamics/free energy perturbation approaches. Proteins, 16, 226–45.
67. Eldridge, M., Murray C. W., Auton, N. A. et al. (1997) Empirical scoring func-
tions: 1. The development of a fast empirical scoring function to estimate the
binding affinity of ligands in receptor complexes. Journal of Computer-Aided
Molecular Design, 11, 425–45.
Глава 5. Виртуальный скрининг и докинг 223

68. Rognan, D., Laumoeller, S. L., Holm, A. et al. (1999) Predicting binding affini-
ties of protein ligands from three-dimensional coordinates: application to pep-
tide binding to class I major histocompatibility proteins. Journal of Medicinal
Chemistry, 42, 4650-58.
69. Cozzini, P., Fornabaio, M., Marabotti, A. et al. (2002) Simple, intuitive calcula-
tions of free energy of binding for protein-ligand complexes. 1. Models without
explicit constrained water. Journal of Medicinal Chemistry, 45, 2469–83.
70. Krammer, A., Kirchhoff, P. D., Jiang, X. et al. (2005) LigScore: a novel scoring
function for predicting binding affinities. Journal of Molecular Graphics &
Modelling, 23, 395–407.
71. Bohm, H. J. (1994) The development of a simple empirical scoring function to es-
timate the binding constant for a protein-ligand complex of known three-dimen-
sional structure. Journal of Computer-Aided Molecular Design, 8, 243–56.
72. Gehlhaar, D. K., Verkhivker, G. M., Rejto, P. A. et al. (1995) Molecular recogni-
tion of the inhibitor AG-1343 by HIV-1 protease: conformationally flexible dock-
ing by evolutionary programming. Chemistry & Biology, 2, 317–24.
73. Stahl, M. and Rarey, M. (2001) Detailed analysis of scoring functions for virtual
screening. Journal of Medicinal Chemistry, 44, 1035–42.
74. Wang, R., Lai, L, and Wang, S. (2002) Further development and validation of
empirical scoring functions for structure-based binding affinity prediction.
Journal of Computer-Aided Molecular Design, 16, 11–26.
75. Jones, G., Wilett, P., Glen, R. C. et al. (1997) Development and validation of a
genetic algorithm for flexible docking. Journal of Molecular Biology, 267,
727–48.
76. Mitchell, J. B., Laskowski, R. A., Alex, A., and Thornton, J. M. (1999) BLEEP:
potential of mean force describing protein-ligand interactions. II. Calculation of
binding energies and comparison with experimental data. Journal of Computa-
tional Chemistry, 20, 117–1185.
77. Gohlke, H., Hendlich, M., and Klebe, G. (2000) Knowledge-based scoring function
to predict protein-ligand interactions. Journal of Molecular Biology, 295, 337–56.
78. Muegge, I. and Martin, Y. C. (1999) A general and fast scoring function for pro-
tein-ligand interactions: a simplified potential approach. Journal of Medicinal
Chemistry, 42, 791–804.
79. Ishchenko, A. V. and Shakhnovich, E. I. (2002) Small molecule growth 2001
(SMoG2001): an improved knowledge-based scoring function for protein-ligand
interactions. Journal of Medicinal Chemistry, 45, 2770–80.
80. Ferrara, P., Gohlke, H., Price, D. J. et al. (2004) Assessing scoring functions for
protein-ligand interactions. Journal of Medicinal Chemistry, 47, 3032–47.
81. Kellenberger, E., Rodrigo, J., Muller, P., and Rognan, D. (2004) Comparative
evaluation of eight docking tools for docking and virtual screening accuracy.
Proteins, 57, 225–42.
82. Stahl, M. and Bohm, H. J. (1998) Development of filter functions for pro-
tein-ligand docking. Journal of Molecular Graphics & Modelling, 16, 121–32.
224 Молекулярное моделирование

83. Wang, R. and Wang, S. (2001) How does consensus scoring work for virtual li-
brary screening? An idealized computer experiment. Journal of Chemical Infor-
mation and Computer Sciences, 41, 1422–26.
84. Paul, N. and Rognan, D. (2002) ConsDock: a new program for the consensus anal-
ysis of protein-ligand interactions. Proteins, 47, 521–33.
85. Charifson, P. S., Corkery, J. J., Murcko, M. A., and Walters, W. P. (1999) Con-
sensus scoring: A method for obtaining improved hit rates from docking
databases of three-dimensional structures into proteins. Journal of Medicinal
Chemistry, 42, 5100–9.
86. Bissantz, C., Folkers, G., and Rognan, D. (2000) Protein-based virtual screening
of chemical databases. 1. Evaluation of different docking/scoring combinations.
Journal of Medicinal Chemistry, 43, 4759–67.
87. Xing, L., Hodgkin, E., Liu, Q., and Sedlock, D. (2004) Evaluation and application
of multiple scoring functions for a virtual screening experiment. Journal of
Computer-Aided Molecular Design, 18, 333–44.
88. Vigers, G. P. and Rizzi, J. P. (2004) Multiple active site corrections for docking
and virtual screening. Journal of Medicinal Chemistry, 47, 80–89.
89. Kontoyianni, M., McClellan, L. M., and Sokol, G. S. (2004) Evaluation of docking
performance: comparative data on docking algorithms. Journal of Medicinal
Chemistry, 47, 558–65.
90. Lyne, P. D., Lamb, M. L., and Saeh, J. C. (2006) Accurate prediction of the rela-
tive potencies of members of a series of kinase inhibitors using molecular docking
and MM-GBSA scoring. Journal of Medicinal Chemistry, 49, 4805–8.
91. Kuhn, B., Gerber, P., Schulz-Gasch, T., and Stahl, M. (2005) Validation and use
of the MM-PBSA approach for drug discovery. Journal of Medicinal Chemistry,
48, 4040–48.
92. Khandelwal, A., Lukacova, V., Comez, D. et al. (2005) A combination of docking,
QM/MM methods, and MD simulation for binding affinity estimation of
metalloprotein ligands. Journal of Medicinal Chemistry, 48, 5437–47.
93. Ferrara, P., Curioni, A., Vangrevelinghe, E. et al. (2006) New scoring functions
for virtual screening from molecular dynamics simulations with a quantum-re-
fined force-field (QRFF-MD). Application to cyclin-dependent kinase 2. Journal
of Chemical Information and Modeling, 46, 254–63.
94. Klon, A. E., Glick, M., and Davies, J. W. (2004) Combination of a naive Bayes
classifier with consensus scoring improves enrichment of high-throughput dock-
ing results. Journal of Medicinal Chemistry, 47, 4356–59.
95. Deng, Z., Chuaqui, C., and Singh, J. (2004) Structural interaction fingerprint
(SIFt): a novel method for analyzing three-dimensional protein-ligand binding
interactions. Journal of Medicinal Chemistry, 47, 337–44.
96. Bissantz, C., Bernard, P., Hibert, M., and Rognan, D. (2003) Protein-based vir-
tual screening of chemical databases. II. Are homology models of G-Protein Cou-
pled Receptors suitable targets? Proteins, 50, 5–25.
97. Simulations Plus, Inc., Lancaster, USA, info@simulationplus.com.
98. Wang, R., Lu, Y., Fang, X., and Wang, S. (2004) An extensive test of 14 scoring
functions using the PDBbind refined set of 800 protein-ligand complexes.
Journal of Chemical Information and Computer Sciences, 44, 2114–25.
Глава 5. Виртуальный скрининг и докинг 225

99. Perola, E., Walters, W. P., and Charifson, P. S. (2004) A detailed comparison of
current docking and scoring methods on systems of pharmaceutical relevance.
Proteins, 56, 235–49.
100. Cummings, M. D., DesJarlais, R. L., Gibbs, A. C. et al. (2005) Comparison of au-
tomated docking programs as virtual screening tools. Journal of Medicinal
Chemistry, 48, 962–76.
101. Kraemer, O., Hazemann, I., Podjarny, A. D., and Klebe, G. (2004) Virtual
screening for inhibitors of human aldose reductase. Proteins, 55, 814–23.
102. Wyss, P. C., Gerber, P., Hartman, P. G. et al. (2003) Novel dihydrofolate
reductase inhibitors. Structure-based versus diversity-based library design and
high-throughput synthesis and screening. Journal of Medicinal Chemistry, 46,
2304–12.
103. Rastelli, G., Pacchioni, S., Sirawaraporn, W. et al. (2003) Docking and database
screening reveal new classes of Plasmodium falciparum dihydrofolate
reductase inhibitors. Journal of Medicinal Chemistry, 46, 2834–45.
104. McNally, V. A., Gbaj, A., Douglas, K. T. et al. (2003) Identification of a novel
class of inhibitor of human and Escherichia coli thymidine phosphorylase by in
silico screening. Bioorganic & Medicinal Chemistry Letters, 13, 3705–9.
105. Brenk, R., Naerum, L., Gradler, U. et al. (2003) Virtual screening for
submicromolar leads of tRNA-guanine transglycosylase based on a new unex-
pected binding mode detected by crystal structure analysis. Journal of Medici-
nal Chemistry, 46, 1133–43.
106. Lyne, P. D., Kenny, P. W., Cosgrove, D. A. et al. (2004) Identification of com-
pounds with nanomolar binding affinity for checkpoint kinase-1 using knowl-
edge-based virtual screening. Journal of Medicinal Chemistry, 47, 1962–68.
107. Foloppe, N., Fisher, L. M., Howes, R. et al. (2006) Identification of chemically
diverse Chk1 inhibitors by receptor-based virtual screening. Bioorganic &
Medicinal Chemistry, 14, 4792–802.
108. Vangrevelinghe, E., Zimmermann, K., Schoepfer, J. et al. (2003) Discovery of a
potent and selective protein kinase CK2 inhibitor by high-throughput docking.
Journal of Medicinal Chemistry, 46, 2556–62.
109. Cozza, G., Bonvini, P., Zorzi, E. et al. (2006) Identification of ellagic acid as po-
tent inhibitor of protein kinase CK2: a successful example of a virtual screening
application. Journal of Medicinal Chemistry 49, 2363–66.
110. Peng, H., Huang, N., Qi. J. et al. (2003) Identificatioin of novel inhibitors of
BCR-ABL tyrosine kinase via virtual screening. Bioorganic & Medicinal
Chemistry Letters, 13, 3693–99.
111. Juang, N., Nagarsekar, A., Xia, G. et al. (2004) Identification of non-phos-
phate-containing small molecular weight inhibitors of the tyrosine kinase p56
Lck SH2 domain via in silico screening against the pY +3 binding site. Journal
of Medicinal Chemistry, 47, 3502–11.
112. Toledo-Sherman, L., Deretey, E., Slon-Usakievicz, J. J. et al. (2005) Frontal af-
finity chromatography with MS detection of EphB2 tyrosine kinase receptor. 2.
Identification of small-molecule inhibitors via coupling with virtual screening.
Journal of Medicinal Chemistry, 48, 3221–30.
226 Молекулярное моделирование

113. Forino, M., Jung, D., Easton, J. B. et al. (2005) Virtual docking approaches to
protein kinase B inhibition. Journal of Medicinal Chemistry, 48, 2278–81.
114. Douguet, D., Munier-Lehmann, H., Labesse, G., and Pochet, S. (2005) LEA3D:
a computer-aided ligand design for structure-based drug design. Journal of
Medicinal Chemistry, 48, 2457–68.
115. Wu, S. Y., McNae,I., Kontopidis, G. et al. (2003) Discovery of a novel family of
CDK inhibitors with the program LIDAEUS: structural basis for ligand-in-
duced disordering of the activation loop. Structure, 11, 399–410.
116. Mizutani, M. Y. and Itai, A. (2004) Efficient method for high-throughput vir-
tual screening based on flexible docking: discovery of novel
acetylcholinesterase inhibitors. Journal of Medicinal Chemistry, 47, 4818–28.
117. Dickerson, T. J., Beuscher, A. E. IV, Rogers, C. J. et al. (2005) Discovery of
acetylcholinesterase peripheral anionic site ligands through computational re-
finement of a directed fibrary. Biochemistry, 44, 14845–53.
118. Gao, Y., Dickerson, J. B., Guo, F. et al. (2004) Rational design and characteriza-
tion of a Rac GTPase-specific small molecule inhibitor. Proceedings of the Na-
tional Academy of Sciences of the United States of America, 101, 7618–23.
119. Liu, Z., Huang, C., Fan, K. et al. (2005) Virtual screening of novel noncovalent
inhibitors for SARS-CoV 3C-like proteinase. Journal of Chemical Information
and Modeling, 45, 10–17.
120. Dayam, R., Sanchez, T., Clement, P. et al. (2005) Beta-diketo acid
pharmacophore hypothesis. 1. Discovery of a novel class of HIV-1 integrase in-
hibitors. Journal of Medicinal Chemistry, 48, 111–20.
121. Li, C., Xu, L., Wolan, D. W. et al. (2004) Virtual screening of human
5-aminoimidazole-4-carboxamide ribonucleotide transformylase against the
NCI diversity set by use of AutoDock to identify novel nonfolate inhibitors.
Journal of Medicinal Chemistry, 47, 6681–90.
122. Kemp, C. A., Flanagan, J. U., van Eldik, A. J. et al. (2004) Validation of model
of cytochrome P450 2D6: an in silico tool for predicting metabolism and inhibi-
tion. Journal of Medicinal Chemistry, 47, 5340–46.
123. de Graaf, C., Oostenbrink, C., Keizers, P. H. et al. (2006) Catalytic site predic-
tion and virtual screening of cytochrome P450 2D6 substrates by consideration
of water and rescoring in automated docking. Journal of Medicinal Chemistry,
49, 2417–30.
124. Cherkasov, A., Shi, Z., Fallahi, M., and Hammond, G. L. (2005) Successful in
silico discovery of novel nonsteroidal ligands for human sex hormone binding
globulin. Journal of Medicinal Chemistry, 48, 3203–13.
125. Schapira, M., Raaka, B. M., Das, S. et al. (2003) Discovery of diverse thyroid
hormone receptor antagonists by high-throughput docking. Proceedings of the
National Academy of Sciences of the United States of America, 100, 7354–59.
126. Soelaiman, S., Wei, B. Q., Bergson, P. et al. (2003) Structure-based inhibitor
discovery against adenylyl cyclase toxins from pathogenic bacteria that cause
anthrax and whooping cough. The Journal of Biological Chemistry, 278,
25990–97.
Глава 5. Виртуальный скрининг и докинг 227

127. Babaoglu, K., Page, M. A., Jones, V. C. et al. (2003) Novel inhibitors of an
emerging target in Mycobacterium tuberculosis: substituted thiazolidinones as
inhibitors of dTDP-rhamnose synthesis. Bioorganic & Medicinal Chemistry
Letters, 13, 3227–30.
128. Foloppe, N., Chen., I. J., Davis, B. et al. (2004) A structure-based strategy to
identify new molecular scaffolds targeting the bacterial ribosomal A-site.
Bioorganic & Medicinal Chemistry, 12, 935–47.
129. Barril, X., Brough, P., Drysdale, M. et al. (2005) Structure-based discovery of a
new class of Hsp90 inhibitors. Bioorganic & Medicinal Chemistry Letters, 15,
5187–91.
130. Irwin, J. J., Raushel, F. M., and Shoichet, B. K. (2005) Virtual screening
against metalloenzymes for inhibitors and substrates. Biochemistry, 44,
12316–28.
131. Miguet, L., Zhang, Z., Barbier, M., and Grigorov, M. G. (2006) Comparison of a
homology model and the crystallographic structure of human 11beta-
hydroxysteroid dehydrogenase type 1 (11betaHSD1) in a structure-based iden-
tification of inhibitors. Journal of Computer-Aided Molecular Design, 20,
67–81.
132. Desai, P. V., Patny, A., Sabnis, Y. et al. (2004) Identification of novel parasitic
cysteine protease inhibitors using virtual screening. 1. The ChemBridge data-
base. Journal of Medicinal Chemistry, 47, 6609–15.
133. Kenyon, V., Chorny, I., Carvajal, W. J. et al. (2006) Novel human lipoxygenase
inhibitors discovered using virtual screening with homology models. Journal of
Medicinal Chemistry, 49, 1356–63.
134. Becker, O. M., Marantz, Y., Shacham, S. et al. (2004) G protein-coupled recep-
tors: in silico drug discovery in 3D. Proceedings of the National Academy of Sci-
ences of the United States of America, 101, 11304–9.
135. Carbone, V., Ishikura, S., Hara, A., and El-Kabbani, O. (2005) Structure-
based discovery of human L-xylulose reductase inhibitors from database
screening and molecular docking. Bioorganic & Medicinal Chemistry, 13,
301–12.
136. Pickett, S. D., Sherborne, B. S., Wilkinson, T. et al. (2003) Discovery of novel
low molecular weight inhibitors of IMPDH via virtual needle screening.
Bioorganic & Medicinal Chemistry Letters, 13, 1691–94.
137. Krier, M., Araujo-Junior, J. X., Schmitt, M. et al. (2005) Design of small-sized
libraries by combinatorial assembly of linkers and functional groups to a given
scaffold: application to the structure-based optimization of a phosphodiesterase
4 inhibitor. Journal of Medicinal Chemistry, 48, 3816–22.
138. Nikolovska-Coleska, Z., Xu, L., Hu Z., et al. (2004) Discovery of embelin as a
cell-permeable, small-molecular weight inhibitor of XIAP through struc-
ture-based computational screening of a traditional herbal medicine
three-dimensional structure database. Journal of Medicinal Chemistry, 47,
2430–40.
139. Song, H., Wang, R., Wang, S., and Lin, J. (2005) A low-molecular-weight com-
pound discovered through virtual database screening inhibits Stat3 function in
breast cancer cells. Proceedings of the National Academy of Sciences of the
United States of America, 102, 4700–5.
228 Молекулярное моделирование

140. Evers, A. and Klabunde, T. (2005) Structure-based drug discovery using


GPCR homology modelling: successful virtual screening for antagonists of
the alpha1A adrenergic receptor. Journal of Medicinal Chemistry, 48,
1088–97.
141. Evers, A. and Klebe, G. (2004) Successful virtual screening for a submicromolar
antagonist of the neurokinin-1 receptor based on a ligand-supported homology
model. Journal of Medicinal Chemistry, 47, 5381–92.
142. Varady, J., Wu, X., Fang, X. et al. (2003) Molecular modeling of the three-di-
mensional structure of dopamine 3 (D3) subtype receptor: discovery of novel
and potent D3 ligands through a hybrid pharmacophore- and structure-based
database searching approach. Journal of Medicinal Chemistry, 46, 4377–92.
143. Marcou, G. and Rognan, D. (2007) Optimizing fragment and scaffold docking by
use of molecular interaction fingerprints. Journal of Chemical Information
and Modeling, 47, 195–207.
Области применения
6
и ограничения молекулярного
докинга

Задача этой главы состоит в том, чтобы показать необходимость реше-


ния различных задач докинга посредством различных процедур. Такие
задачи, как правило, относятся к одной из двух категорий.
В первом случае (т. н. слепой докинг) активный центр белка неиз-
вестен, и необходимо определить сначала место связывания лиганда, а
затем и способ его связывания. Такие методы важны в том числе при из-
учении белок-белковых взаимодействий. Частным случаем слепого до-
кинга является докинг в модели белков, построенные по гомологии, ког-
да предполагается сходство центров связывания модели и шаблонного
белка. К этой категории относится докинг в модели трансмембранных
белков, таких, как рецепторы, сопряженные с G-белками (G-Protein
Coupled Receptors, GPCR).
Второй случай (т. н. прямой докинг) представляет собой докинг в из-
вестный активный сайт при условии, что место связывания известно из
данных РСА или ЯМР. В этом случае нас интересует прежде всего способ
связывания лиганда. Перед выполнением докинга необходимо решить
ряд проблем, которые вместе с категориями докинга схематически
представлены на рис. 6.1.
Вот некоторые из проблем, которые встречаются при докинге.
1. В центре связывания могут находиться отдельные молекулы крис-
таллизационной воды, играющие роль мостика между лигандом и
мишенью. Следует ли их учитывать или игнорировать в процессе мо-
делирования? Этот вопрос рассматривается в разделе 6.1.
2. Центр связывания лиганда перекрывается с центром связывания ко-
фактора. Нужно ли оставлять кофактор в активном центре при до-
кинге? Нужен ли он для связывания ингибиторов, если известно, что
при связывании субстрата кофактор необходим? Обсуждение этого
вопроса см. в разд. 6.2.
3. Активный центр содержит ионы металлов, которые важны для ката-
литической функции фермента. Как это учитывать? Как правило,
такие ионы играют ключевую роль в ферментативном катализе.
Если мы хотим их учесть, то возникает важная проблема параметри-
зации. Как они координируются с аминокислотными остатками бел-
230 Молекулярное моделирование

Рис. 6.1. Задачи, решаемые молекулярным докингом

ков, молекулами воды и лигандами, а также какой заряд несут? Изу-


чению роли металлов в докинге и скрининге посвящены многочис-
ленные работы (см. примеры [1, 2]), однако эти вопросы выходят за
рамки данной главы.
4. Последние исследования в области методов докинга выявили новые
важные факторы, которые ранее не рассматривались: (а) учет (или
скорее его отсутствие) таутомерных форм исследуемых соединений;
(б) влияние pH или pKa аминокислот в микросреде центра связыва-
ния на взаимодействие с лигандом; (в) моделирование индуцирован-
ного соответствия и изменения конформации белка при связывании
с лигандом; (г) докинг лигандов, которые связываются с белком ко-
валентно. В качестве примера учета этих факторов в последнем раз-
деле этой главы рассматривается влияние таутомерии на результаты
докинга.

6.1. Докинг в полярные центры связывания,


содержащие молекулы воды
Этот раздел посвящен описанию роли воды в активном центре молеку-
лярной мишени. При связывании лиганда в активном центре происхо-
дит изменение конформации белка и перераспределение молекул во-
ды. Отдельные молекулы воды могут принимать участие в связывании
лиганда с белком и даже непосредственно участвовать в процессе ката-
лиза [3].
В ходе виртуального скрининга всегда возникает вопрос, необходи-
мо ли учитывать молекулы воды. При скрининге больших баз данных
точная информация о способе связывания соединений обычно неизвес-
тна, поэтому однозначно ответить на этот вопрос сложно. Тем не менее
делались попытки учесть при докинге все молекулы воды, принимаю-
Глава 6. Области применения и ограничения молекулярного докинга 231

щие участие в связывании [4–6]. Поддержка учета молекул воды также


была включена в ряд программ виртуального скрининга (см. цитирован-
ную литературу в [7]). Если в центре связывания присутствует несколь-
ко молекул воды, то обычно сложно предсказать, какие из них действи-
тельно участвуют в связывании лиганда и каково их положение. По
этой причине обычно рекомендуют удалять все молекулы воды из цен-
тра связывания, так что виртуальный скрининг выполняется для «пус-
того», т. е. свободного от воды, активного центра. Однако, когда речь
идет о термолабильных токсинах холеры [6], протеазе ВИЧ-1 [8] или ти-
мидинкиназе вируса простого герпеса (TK HSV1), молекулы воды игра-
ют важную роль при связывании лигандов.
В следующем примере показано положительное влияние молекул
воды в активном центре на точность докинга и предсказания способа
связывания, а значит, на качество виртуального скрининга. Тимидин-
киназа HSV1 представляет собой важную фармакологическую мишень
и может использоваться при генной терапии рака с вирусным вектором
[9, 10]. Особенностью этого фермента является способность фосфорили-
ровать не только природный субстрат тимидин и его пиримидиновые
аналоги, но и некоторые производные пурина, например противогерпес-
ное пролекарство ацикловир (АЦВ) [11, 12]. Величины аффинности к
TK HSV1 экспериментально определены в основном для производных
пиримидина и пурина [13, 14], и их можно сравнить с расчетными зна-
чениями, которые прогнозируются программами докинга. Данные
рентгеноструктурного анализа показали, что сравнительно небольшой
и полярный активный центр HSV1 TK разделен на две смежные доли:
первая доля связывается с субстратом и молекулами воды, а вторая со-
держит кофактор аденозинтрифосфат (АТФ).
Сначала был проведен докинг известных лигандов, чтобы воспроиз-
вести определенный кристаллографически способ их связывания. Ре-
зультаты докинга для двух субстратов, дезокситимидина (дТ) и ацикло-
вира (АЦВ), описаны ниже. Координаты для комплексов тимидинкина-
зы (ТК) с дТ и АЦВ были извлечены из PDB (2VTK, 2KI5) [13, 15]. Для
определения способа связывания дТ и АЦВ применяли программу
AutoDock (версия 3.0) [16]. Как подробно описано в разд. 5.2.2, в ней ре-
ализован весьма эффективный ламарковский генетический алгоритм
докинга гибких лигандов в жесткий центр связывания, позволяющий
построить ряд различных низкоэнергетических связанных конформа-
ций. Как и во многих других программах докинга, в AutoDock можно
сохранить молекулы кристаллизационной воды и задать их точное по-
ложение в центре связывания, так что они фактически рассматривают-
ся как часть белка. Пользователь может задать параметры молекул
воды — положение атомов водорода и частичный заряд атомов (напри-
мер, из параметризации AMBER [17]). Таким способом были получены
координаты лигандов в центре связывания как в присутствии молекул
воды, так и без них.
Кроме того, с помощью программы FlexX [18] был проведен докинг
базы данных, состоящей из 26 известных лигандов тимидинкиназы
232 Молекулярное моделирование

HSV1. В отличие от AutoDock алгоритм FlexX постепенно наращивает


лиганд в жестком активном центре, сначала помещая туда центральный
фрагмент лиганда, а затем поэтапно достраивая остальные фрагменты
(см. разд. 5.2.1). Этот алгоритм дает только одну конформацию связан-
ного лиганда с минимальной энергией. FlexX использует формальные
заряды и не требует значительных временных затрат на расчет зарядов
ab initio, молекулы воды можно определить как часть центра связыва-
ния, сохраняя конкретные молекулы в ходе процедуры докинга (меню
«customize») или выбрав режим «particle concept» [8], в котором моле-
кулы воды размещаются в активном центре в ходе виртуального скри-
нинга. В описываемом исследовании были сохранены координаты моле-
кул воды, определенные кристаллографически.
В третьей и последней части нашего исследования была подготовле-
на база данных ACD [19], состоящая из 80 000 соединений, похожих на
лекарства, а затем обогащена 26 известными лигандами тимидинкина-
зы. Виртуальный скрининг проводился сначала с помощью программы
DOCK 4.0 [20], а затем FlexX. Алгоритм программы DOCK сопоставляет
лиганды с обратным образом активного центра; молекулы воды можно
рассматривать как часть активного центра с заданными координатами.
Учитывая важность двух отдельных молекул воды для связывания ли-
гандов тимидинкиназы (см. ниже), расчет проводили в двух вариан-
тах — с включением молекул воды в активный центр и без них. DOCK
хорошо подходит для скрининга больших баз данных и может служить
предварительным фильтром, отсеивающим заведомо неактивные моле-
кулы (см. гл. 5). По результатам скрининга с помощью программы
DOCK по обоим вариантам расчета было отобрано 1000 соединений с на-
илучшими энергиями связывания и для них выполнен повторный скри-
нинг с помощью FlexX. Для ранжирования результатов были использо-
ваны 26 известных лигандов этого фермента.
Анализ полученных результатов. Тимидин взаимодействует с ти-
мидинкиназой HSV1, образуя водородные связи, как показано на
рис. 6.2. Было обнаружено, что две молекулы воды (W1 и W2) опосреду-
ют взаимодействия между кислородом O2 молекулы дТ и остатком
Arg176; это характерно также для других производных пиримидина
[15, 21, 22]. АЦВ представляет собой производное пурина с ацикличес-
кой боковой цепью, имитирующей углеводный остаток. АЦВ связыва-
ется с активным центром подобно дТ, но образует другую систему водо-
родных связей без участия молекул воды (рис. 6.3, а). Данная схема свя-
зывания также подтверждена рентгеноструктурным анализом для
других производных пурина [14].
Перед проведением докинга был рассмотрен вопрос о роли двух от-
дельных молекул воды, присутствующих в комплексе дТ с тимидинки-
назой. Приблизительно в половине кристаллических структур вирус-
ной тимидинкиназы молекулы воды участвуют в связывании лигандов,
опосредуя водородные связи между лигандом и белком. В комплексах
производных пиримидина эти две молекулы воды присутствуют всегда.
Поэтому было принято решение проводить докинг 2 раза — с включени-
Глава 6. Области применения и ограничения молекулярного докинга 233

Рис. 6.2. Активный центр TK HSV1 в комплексе с тимидином. Тимидин распо-


лагается между Tyr172 и Met128, образуя пять прямых водородных связей (об-
означены пунктирной линией) и две опосредованные водородные связи с участи-
ем молекул воды W1 и W2 (показаны в виде шариков)

ем молекул воды в центр связывания (центр с молекулами воды) и без


них (пустой центр).
Докинг дТ в центр с молекулами воды точно воспроизводит способ
связывания, определенный кристаллографически. Среднеквадратичное
отклонение (rmsd) составило от 0,36 до 0,72 C для 50 запусков програм-
мы. Напротив, результаты докинга в пустой центр связывания оказа-
лись менее точными, а картина связывания лиганда нечеткой (rmsd уве-
личилось до 0,7–1,23 C) (рис. 6.3, б). С другой стороны, докинг АЦВ в
центр с молекулами воды привел к нескольким возможным ориентаци-
ям, а отклонение от экспериментальных комплексов оказалось неудов-
летворительным (rmsd > 1,2 C). При проведении докинга АЦВ в актив-
ный центр без молекул воды качество прогноза геометрии связывания
улучшилось, и была получена одна ориентация лиганда (для конформа-
ции с наименьшей энергией rmsd — 1,03 C) (рис. 6.3, в). Таким образом,
если для дТ предпочтителен докинг в центр с молекулами воды, то для
АЦВ более точные результаты дает докинг в пустой центр связывания.
Как уже упоминалось, был проведен докинг 26 лигандов с помощью
программы FlexX. Учитывая сказанное выше, докинг проводился как в
дТ-подобный центр (с молекулами воды), так и в АЦВ-подобный (пус-
той) центр связывания. Далее были выбраны конформации лигандов с
наименьшими энергиями связывания и для них рассчитаны константы
связывания Ki по уравнению (1):
DGFlexX = –RT ln Ki, (1)
а

в
Рис. 6.3. Докинг ацикловира в TK HSV1. Химическая структура ацикловира
(а), кластеры результатов докинга молекулы АЦВ (атомы углерода показаны
черным цветом) в активный центр HSV1 TK в присутствии воды (красные шари-
ки (б)) и в активный центр без молекул воды (в). Кластер результатов докинга
АЦВ с самой низкой энергией близок к расположению лиганда в кристалличес-
кой структуре комплекса (шаростержневая модель, атомы углерода показаны зе-
леным цветом)
Глава 6. Области применения и ограничения молекулярного докинга 235

где DGFlexX — свободная энергия связывания, вычисленная с помощью


FlexX. В табл. 6.1 подробно представлены результаты прогнозирования
Ki для 6 соединений из серии 26 известных лигандов ТК HSV1. Сравне-
ние предсказанных и экспериментальных значений Ki показало, что в
случае пиримидинов лучшее качество прогноза достигалось для дТ-по-
добного центра связывания. Аналогичное улучшение характерно для
пуриновых производных при докинге в АЦВ-подобный активный
центр. Таким образом, включение имеющихся в кристалле молекул
воды увеличивает качество прогноза констант связывания для произ-
водных пиримидина. Напротив, для пуриновых производных, АЦВ и
ганцикловира (ГЦВ), такой результат наблюдается для активного цен-
тра без молекул воды, что полностью соответствует известным кристал-
лическим структурам.
Очевидно, что для пуриновых производных докинг в активный
центр с молекулами воды невыгоден, и переход к пустому активному
центру дает выигрыш в энергии связывания. Это полностью соответ-

Таблица 6.1. Предсказанные константы связывания Ki для лигандов TK HSV1


по результатам докинга в активные центры с учетом и без учета
воды
Экспериментальное

Докинг в дТ-подобный Докинг в АЦВ-подобный


значение Ki (мкМ)

активный центр (вода активный центр (вода


присутствует) отсутвует)

Лиганд
Предсказан- Предсказан-
DG DG
ное значение ное значение
(кДж/моль) (кДж/моль)
Ki (мкМ) Ki (мкМ)
производные
Пуриновые

АЦВ 200 –19,8 341,0 –20,7 239,1


ГЦВ 47,6 –15,9 1631,3 –20,1 302,1
Пиримидиновые

дТ 0,2 –35,3 0,7 –24,4 54,2


производные

БВДУа 0,1 –33,1 1,6 –19,7 357,9


ИДУб 0,09 –33,7 1,2 –23,9 64,7
N-МКТв 11,54 –26,4 23,5 –12,1 7586,7

а Бромвинилдезоксиуридин (БВДУ).
б Иододезоксиуридин (ИДУ).
в N-Метанкарбатимидин (N-МКТ).
236 Молекулярное моделирование

ствует выводам, полученным при докинге дТ и АЦВ с помощью Auto-


Dock. Весьма ценно, что с помощью докинга удается ясно определить
различия между двумя основными классами лигандов — производными
пиримидина и пурина.
Применение для виртуального скрининга. Полученные данные о
влиянии молекул воды на связывание лигандов были использованы для
скрининга 80 000 соединений, похожих на лекарства, из базы данных
ACD, что позволило получить интересные результаты. Для 1000 луч-
ших соединений, отобранных по результатам предварительного скри-
нинга, был проведен докинг в центр связывания с молекулами воды.
Одно из соединений вошло в число 100 лучших по результатам скринин-
га для активного центра с молекулами воды, но не попало даже в 1000
лучших при скрининге для пустого центра связывания. При этом экспе-
риментально было показано, что это соединение действительно связыва-
ется с TK HSV1 и имеет аффинность на субмикромолярном уровне, тог-
да как для дТ и производных пиримидина она значительно меньше. Это
дополнительно подчеркивает важность учета молекул воды при вирту-
альном скрининге и показывает, что рассмотрение отдельных молекул
воды в активном центре в качестве части мишени докинга позволяет по-
лучить уникальные и перспективные соединения-лидеры.

6.2. Докинг в центры связывания,


содержащие кофактор
В качестве иллюстрации важности учета кофактора1 мы рассмотрим
пример докинга в центр связывания дигидрооротатдегидрогеназы
(ДГОДГ) человека. Этот пример также подчеркивает, насколько важно
анализировать имеющиеся экспериментальные данные, в том числе об
условиях кристаллизации и измерениях аффинности in vitro.
ДГОДГ человека катализирует четвертую ключевую стадию биосин-
теза пиримидинов de novo. Дегидрирование дигидрооротата (ДГО) про-
исходит в большом и преимущественно гидрофобном активном центре
фермента, при этом в качестве кофакторов выступают молекулы фла-
винмононуклеотида (ФМН) и убихинона. Через молекулу убихинона
фермент связывается с внутренней митохондриальной мембраной. Быс-
тро делящиеся Т-клетки человека обладают значительной потребнос-
тью в пиримидинах, поэтому ингибиторы ДГОДГ перспективно исполь-
зовать для лечения аутоиммунных заболеваний, иммуносуппрессии, а
также при лечении рака [23–25].
Пример ДГОДГ ясно показывает важность учета кофакторов актив-
ного центра и их влияние на точность докинга. В базе данных PDB дос-
тупны две кристаллические структуры2: комплекс ДГОДГ с аналогом

1
Кофакторы — малые молекулы или ионы, специфически связывающиеся с белком и
участвующие в его каталитическом действии.
2
Количество комплексов ДГОДГ в базе данных PDB значительно увеличилось с момента
выхода в свет оригинального издания этой книги.
Глава 6. Области применения и ограничения молекулярного докинга 237

ингибитора бреквинара (в структуре аналога отсутствует один атом фто-


ра) (1D3G) [24, 26] и комплекс с активной формой ингибитора лефлуно-
мида, получившей обозначение A771726 (1D3H) [25, 26] (рис. 6.4, а). На
примере этих комплексов были показаны особенности докинга в фер-
менты, содержащие кофакторы. В обоих комплексах есть небольшой
участок, связывающий субстрат ДГО, рядом с которым располагается
ФМН. Молекула ФМН принимает гидрид-ион и протон от ДГО, а затем
восстанавливает второй кофактор — убихинон. Оба ингибитора связы-
ваются в гидрофобном участке связывания убихинона и блокируют пе-
ренос электронов. Оба комплекса содержат молекулу поверхностно-ак-
тивного вещества N,N-диметилдециламин-N-оксида (ДДАО), которая
имитирует убихинон и располагается с другой стороны активного цен-
тра фермента. Исходя из этой структурной информации возникает воп-
рос о том, какие кофакторы необходимо учитывать при докинге.
Маклин и др. [27] показали, что A771726 и бреквинар являются не-
конкурентными ингибиторами по отношению к ДГО, не влияя на вос-
становление флавина с помощью ДГО. По этой причине целесообразно
сохранить субстрат ДГО и кофактор ФМН в активном центре и сосредо-
точиться на центре связывания убихинона. Кроме того, было показано,
что бреквинар является конкурентным ингибитором по отношению к

Рис. 6.4. Структуры и результаты докинга ингибиторов ДГОДГ. а — химичес-


кие структуры бреквинара, его аналога лефлуномида и его активной формы
A771726. б и в — Гидрофобные остатки активного центра представлены в виде
поверхности, некоторые другие — в виде стержневой модели. Для удобства визу-
ализации остатки, находящиеся над и под молекулой бреквинара, не показаны.
Водородные связи и электростатические взаимодействия показаны пунктирны-
ми линиями. б — Наложение результатов докинга аналога бреквинара (шаро-
стержневая модель) на его экспериментальную структуру в комплексе (стержне-
вая модель). Связывание бреквинара не зависит от наличия или отсутствия
ДДАО в активном центре. в — Лефлуномид (шаростержневая модель) при докин-
ге в отсутствие молекулы ДДАО локализуется при входе в карман. Его активная
форма A771726 в кристаллической структуре (стержневая модель) расположена
около центра связывания ФМН, в глубине убихинон-связывающего кармана.
Если ДДАО включен в активный центр, докинг лефлуномида и A771726 не дает
хороших результатов
238 Молекулярное моделирование

Рис. 6.4. (Продолжение)


убихинону, а A771726 — неконкурентным. Авторы предположили, что
положения бреквинара и A771726 в активном центре не отражают ре-
альную картину связывания в физиологических условиях. В обоих слу-
чаях кристаллизация проводилась при концентрациях ингибиторов,
которые на 4–6 порядков превышают Ki (~100 нМ для A771726 и ~1 нМ
для бреквинара) и в 200 раз больше нижнего предела Kd, полученного
изотермической калориметрией. Авторы пришли к выводу, что наблю-
даемая геометрия комплексов отражает связывание с низкой аффиннос-
тью. Они также отмечают, что оба участка связывания ингибиторов на-
кладываются друг на друга, но участок связывания A771726 не распо-
ложен рядом с ФМН. Было сделано предположение, что A771726
связывается рядом со входом в карман связывания убихинона, и в ре-
зультате эта область белка сохраняет значительную подвижность, что
позволяет одновременно связать и ингибитор, и гидрофобный «хвост»
убихинона. Такая модель отличается от структуры комплексов, опреде-
Глава 6. Области применения и ограничения молекулярного докинга 239

ленной Лю и др. [26]. В связи с этим мы проводили докинг два раза (с со-
хранением молекулы ДДАО в центре связывания убихинона и без нее),
имитируя тем самым экспериментальные условия.
В кристаллической структуре карбоксильная группа бреквинара
участвует в электростатическом взаимодействии с Gln47 и Arg136, а фе-
нильная группа находится в гидрофобном «туннеле». Докинг аналога
бреквинара в активный центр без ДДАО точно воспроизводит положе-
ние, определенное методом РСА (rmsd = 0,63 C) (рис. 6.4, а). Интересно
отметить, что тот же результат был получен, когда в активном центре
присутствовала молекула ДДАО, имитирующая второй кофактор уби-
хинон; иными словами, ДДАО не оказывает влияния на связывание
бреквинара.
Напротив, при докинге лефлуномида и его активной формы
A771726 (неконкурентный ингибитор по отношению к убихинону) была
обнаружена зависимость от присутствия ДДАО. При сохранении моле-
кулы ДДАО в активном центре докинг A771726 и лефлуномида оказал-
ся невозможным. В отсутствие ДДАО докинг удается выполнить только
для лефлуномида, но не его активной формы A771726 (рис. 6.4, в).
Определенный кристаллографически способ связывания воспроиз-
водится при докинге только в случае бреквинара, который связывается
с высокой аффинностью (Ki = 1 нМ) и является конкурентом убихинона.
Результаты докинга лефлуномида показали, что он связывается около
входа в активный центр. Это подтверждает предположение о том, что
его положение в кристаллической структуре соответствует слабому
(низкоаффинному) связыванию.
Этот пример демонстрирует, что кофактор в активном центре весьма
важен для докинга, и его сохранение или удаление из структуры непос-
редственно влияет на точность результатов. Кроме того, мы видим, что
докинг способен предложить альтернативные варианты связывания ли-
гандов (которые могут оказаться правильными или неправильными),
помогая планировать новые экспериментальные исследования. В самом
деле, в недавних работах (в частности, в кристаллографическом иссле-
довании Баумгартнера и др. [28]) представлена новая серия ингибиторов
ДГОДГ, которые могут связываться двумя разными способами и явля-
ются конкурентными по отношению к убихинону.
Итак, мы показали, что кофакторы могут существенно влиять на ре-
зультаты докинга, поэтому важно внимательно анализировать инфор-
мацию об их наличии в активном центре.

6.3. Влияние таутомерии на результаты докинга


Таутомерные формы лигандов часто игнорируются при молекулярном
моделировании [29, 30]. Поведение таутомеров в газовой фазе и водных
растворах хорошо изучено, однако о таутомерии лигандов в центрах
связывания белков известно немного. Таутомеры часто отличаются по
форме, набору функциональных групп, особенностям молекулярной по-
240 Молекулярное моделирование

верхности и расположению возможных доноров и акцепторов водород-


ных связей, что может оказывать решающее влияние на распознавание
молекулы.
Рассмотрим простой пример протонного сдвига. При такой таутоме-
рии структура молекулы лиганда меняется, и в принципе ее можно рас-
сматривать как новую молекулу с иным сродством к мишени. Таким об-
разом, учет таутомерии при лиганд-белковых взаимодействиях может
существенно влиять на качество прогноза связывания различными ме-
тодами докинга. Именно этой проблеме посвящен данный раздел.
Окружение молекулы в центре связывания белка имеет особые свой-
ства, отличаясь от окружения в вакууме или в водном растворе. Непо-
лярные и полярные, кислотные и основные аминокислотные остатки со-
здают локальный баланс pH, смещая значения pK соседних полярных
аминокислот, и оказывают влияние на функциональные группы лиган-
да. Присутствие лигандов, катионов металла и молекул воды также вли-
яет на локальные значения pH (и pK) для близко лежащих аминокис-
лотных остатков и на процесс катализа [31]. В таких условиях возможна
ионизация лиганда или его переход в другую таутомерную форму.
Многие терапевтически значимые ферменты, например киназы
нуклеозидов, теломеразы или ДНК-полимеразы, связывают в активном
центре производные пурина или пиримидина, поэтому таутомерия нук-
леиновых кислот и ее влияние на биологическую функцию хорошо из-
учены. Например, нарушение комплементарности нуклеотидов вслед-
ствие таутомерии является источником ошибок при репликации ДНК
[32, 33]. В норме основания нуклеиновых кислот находятся в одной тау-
томерной форме, обеспечивающей наибольшую стабильность. Способ-
ность пиримидиновых и пуриновых структур образовывать водородные
связи непосредственно связана с наличием определенных таутомерных
форм. Изучена также таутомерия гистаминов и гистидиновых боковых
цепей белков [34, 35].
Таутомеры различаются по форме молекул и способности к образо-
ванию водородных связей, что существенно влияет на молекулярное
распознавание. Тем не менее до недавнего времени при автоматическом
молекулярном докинге таутомерные формы лигандов игнорировались.
Здесь возникает несколько вопросов. Связывается ли молекула пре-
имущественно в одной таутомерной форме? Будет ли самая стабильная в
водной среде таутомерная форма лиганда также наиболее стабильной в
активном центре мишени? Чем отличается связывание белка с лиган-
дом в менее стабильной таутомерной форме от связывания с «нормаль-
ным» низкоэнергетическим таутомером? Как работать с лигандами, в
которых при протонном сдвиге возникает стереоизомерия?
К сожалению, влияние таутомерии на результаты докинга плохо
освещено в литературе [36]. Хороший пример описан Брандштеттером
и др. [37], которые показали, что барбитуратный ингибитор Ro 200–1770
взаимодействует с активным центром матричной металлопротеазы
MMP-8 (PDB ID: 1JJ9) в виде енольного изомера (таутомер 1) (рис. 6.5, а).
Неподеленная пара кислорода О2 участвует в координации иона Zn2+,
Глава 6. Области применения и ограничения молекулярного докинга 241

Рис. 6.5. Результаты докинга таутомеров барбитурата Ro 200–1770 в структуру


MMP8. а — Связывание таутомера 1 с активным центром MMP8 в кристалличес-
кой структуре комплекса. б — Структура таутомера 2. Атом углерода C5 из-за
протонного сдвига между атомами азота N1 и N3 барбитуратного кольца является
псевдохиральным, принимая S- или R-конфигурацию в зависимости от тауто-
мерной формы. в — Наложение результатов докинга таутомера 1 (зеленый) на его
положение в кристаллической структуре (оранжевый). г — Результат докинга
таутомера 2 (зеленый). Фенильная группа повернута на 180° по сравнению с экс-
периментальными данными (оранжевый). В случаях в и г при докинге учитывал-
ся ион Zn2+ (пурпурный)

а водород гидроксильной группы образует водородную связь с Glu198.


В результате в белковой матрице именно енольная форма барбитурата
(таутомер 1) преобладает над кетоформой (таутомер 2), доминирующей
в растворе. Атом водорода на N1 взаимодействует с карбонильной груп-
пой Ala161, а кетонный атом O6 — с близлежащими амидными группа-
ми Ala160 и Ala161. Фенильная и пиперидиновая группы взаимодей-
ствуют с гидрофобными участками центра связывания.
Для докинга двух таутомеров барбитуратного ингибитора
Ro 200–1770 использовалась программа FlexX. Было обнаружено, что
докинг приводит к существенно различным результатам (рис. 6.5, б и в).
Положение таутомера 1 после докинга соответствует кристаллической
структуре комплекса (rmsd < 1 C), тогда как ароматическое кольцо тау-
242 Молекулярное моделирование

томера 2 оказалось повернуто на 180° (рис. 6.5, в). Это показывает влия-
ние протонного сдвига на результаты докинга различных таутомерных
форм лигандов.
Как правило, структуры химических соединений помещаются в
базы данных в канонической форме, к которой по четко определенным
правилам можно свести любую таутомерную или ионизированную фор-
му соединения. Тем не менее многие базы данных содержат пары тауто-
меров, зарегистрированных с разными названиями и даже ценами
[38, 39]. По оценке Трепалина и др., до 0,5% коммерчески доступных
соединений в базах данных, предназначенных для биологических испы-
таний, имеют таутомеры [38]. В то же время значительное количество
таутомеров отсутствует в базах данных.
Большинство алгоритмов докинга обрабатывает химическую струк-
туру в том виде, в котором она была задана пользователем или импорти-
рована из базы данных, без предварительного анализа возможных тау-
томеров. Можно считать, что включение различных таутомеров соеди-
нений увеличивает число степеней свободы процедуры докинга.
Благодаря этому можно быстро и относительно точно преодолеть не-
определенность, вызванную изменчивостью эффективных значений
pKа в различных участках центра связывания. Если база данных ис-
пользуется для компьютерного поиска ведущих соединений, то включе-
ние в нее близких по энергии таутомерных форм может значительно
улучшить эффективность разработки лекарств.

Цитированная литература
1. Irwin, J. J., Raushel, F. M., and Shoichet, B. K. (2005) Virtual screening against
metaloenzymes for inhibitors and substrates. Biochemistry, 44, 12316–28.
2. Gresh, N. (2005) Development, validation, and applications of anisotropic
polarizable molecular mechanics to study ligand and drug-receptor interactions.
Current Pharmaceutical Design, 12, 2121–58.
3. Gohlke, H. and Klebe, G. (2002) Approaches to the description and prediction of
the binding affinity of small-molecule ligands to macromolecular receptors.
Angewandte Chemiе (International ed. In English), 41, 2644–76.
4. Pospisil, P., Scapozza, L., and Folkers, G. (2001) The role of water in drug design:
thymidine kinase as case study, in Rational Approaches to Drug Design: 13th Eu-
ropean Symposium on Quantitative Structure-Activity Relationship (eds H.-D.
Holtje and W. Sippl), Prous Science, Barcelona-Philadelphia, pp. 92–96.
5. Hetenyi, C. and Van Der Spoel, D. (2002) Efficient docking of peptides to pro-
teins without prior knowledge of the binding site. Protein Science, 11, 1729–37.
6. Minke, W. E., Diller, D. J., Hol, W. G., and Verlinde, C. L. (1999) The role of wa-
ters in docking strategies with incremental flexibility for carbohydrate deriva-
tives: heat-labile enterotoxin, a multivalent test case. Journal of Medicinal
Chemistry, 42, 1778–88.
7. de Graaf, C., Pospisil, P., Pos, W. et al. (2005) Binding mode prediction of
cytochrome p450 and thymidine kinase protein-ligand complexes by con-
sideration of water and rescoring in automated docking. Journal of Medicinal
Chemistry, 48, 2308–18.
Глава 6. Области применения и ограничения молекулярного докинга 243

8. Rarey, M., Kramer, B., and Lengauer, T. (1999) The particle concept: placing
discrete water molecules during protein-ligand docking predictions. Proteins,
34, 17–28.
9. Culver, K. W., Ram, Z., Wallbridge, S. et al. (1992) In vivo gene transfer with
retroviral vector-producer cells for treatment of experimental brain tumors. Sci-
ence, 256, 1550–52.
10. Bonini, C., Ferrari, G., Verzeletti, S. et al. (1997) HSV-TK gene transfer into do-
nor lymphocytes for control of allogeneic graft-versus-leukemia. Science, 276,
1719–24.
11. Elion, G. B, Furman, P. A., Fyfe, J. A. et al. (1977) Selectivity of action of an
antiherpetic agent, 9-(2-hydroxyethoxymethyl) guanine. Proceeding of the
National Academy of Sciences of the United States of America, 74, 5716–20.
12. Keller, P. M., Fyfe, J. A., Beauchamp, I. et al. (1981) Enzymatic phosphorylation
of acyclic nucleoside analogs and correlations with antiherpetic activities.
Biochemical Pharmacology, 30, 3071–77.
13. Wild, K., Bohner, T., Aubry, A. et al. (1995) The 3-dimensional structure of
thymidine kinase from herpes simplex virus type 1. FEBS Letters, 368, 289–92.
14. Champness, J. N., Bennett, M. S., Wien, F. et al. (1998) Exploring the active site
of herpes simplex virus type-1 thymidine kinase by X-ray crystallography of
complexes with acyclovir and other ligands. Proteins, 32, 350–61.
15. Bennett, M. S., Wien, F., Champness, J. N. et al. (1999) Structure to 1.9 A reso-
lution of a comlex with herpes simplex virus type-1 thymidine kinase of a novel,
non-substrate inhibitor: X-ray crystallographic comparison with binding of
acyclovir. FEBS Letters, 443, 121–25.
16. AutoDock. http://autodock.scripps.edu.
17. AMBER. http://ambermd.org.
18. FlexX. http://www.biosolveit.de/FlexX/.
19. ACD. http://www.mdli.com/products/experiment/available.chem.dir/index.jsp.
20. DOCK. http://www.dock.compbio.ucsf.edu/.
21. Wild, K., Bohner, T., Folkers, G., and Schulz, G. E. (1997) The structures of
thymidine kinase from herpes simplex virus type 1 in complex with substrates
and a substrate analogue. Protein Science, 6, 2097–106.
22. Prota, A., Vogt, J., Pilger, B. et al. (2000) Kinetics and crystal structure of the
wild-type and the engineered Y101F mutant of herpes simplex virus type 1
thymidine kinase interacting with (North)-methanocarba-thymidine. Bio-
chemistry, 39, 9597–603.
23. Fairbanks, L. D., Bofill, M., Ruckemann, K., and Simmonds, H. A. (1995) Impor-
tance of ribonucleotide availability to proliferating T-lymphocytes from healthy
humans. Disproportionate expansion of pyrimidine pools and contrasting effects
of de novo synthesis inhibitors. Journal of Biological Chemistry, 270, 29682–89.
24. Chen, S. F., Perrella, F. W., Behrens, D. L., and Papp. L. M. (1992) Inhibition of
dihydroorotate dehydrogenase activity by brequinar sodium. Cancer Research,
52, 3521–27.
25. Williamson, R. A., Yea, C. M., Robson, P. A. et al. (1995) Dihydroorotate
dehydrogenase is a high affinity binding protein for A771726 and mediator of a
range of biological effects of the immunomodulatory compound. Journal of Bio-
logical Chemistry, 270, 22467–72.
244 Молекулярное моделирование

26. Liu, S., Neidhardt, E. A., Grossman, T. H. et al. (2000) Structures of human
dihydroorotate dehydrogenase in complex with antiproliferative agents. Struc-
ture with Folding & Design, 8, 25–33.
27. McLean, J. E., Neidhardt, E. A., Grossman, T. H., and Hedstrom, L. (2001) Mul-
tiple inhibitor analysis of the brequinar and leflunomide binding sites on human
dihydroorotate dehydrogenase. Biochemistry, 40, 2194–200.
28. Baumgartner, R., Walloschek, M., Kralik, M. et al. (1006) Dual binding mode of
a novel series of DHODH inhibitors. Journal of Medicinal Chemistry, 49,
1239–47.
29. Pospisil, P., Ballmer, P., Scapozza, L., and Folkers, G. (2003) Tautomerism in
computer-aided drug design. Journal of Receptor and Signal Transduction, 23,
361–71.
30. Kubinyi, H. (2001) Drug research: myths, hype and reality. Nature Review Drug
Discovery, 2, 665–68.
31. Fersht, A. (1999) The pH dependence of enzyme catalysis. Structure and Mecha-
nism in Protein Science, 2nd Printing edn, W. H. Freeman and Company, New
York, pp. 169–90.
32. Strazewski, P. (1988) Mispair formation in DNA can involve rare tautomeric
forms in the template. Nucleic Acids Research, 16, 9377–98.
33. Lutz, W. K. (1990) Endogenous genotоxic, agents and processes as a basis of
spontaneous carcinogenesis. Mutation Research, 238, 287–95.
34. Nederkoorn, P. H. J., Vernooijs, P., Denkelder, G. M. D. O. et al. (1994) A new
model for the agonistic binding-site on the histamine H-2-receptor — the cata-
lytic triad in serine proteases as a model for the binding-site of histamine H-2-re-
ceptor agonists. Journal of Molecular Graphics, 12, 242–56.
35. Boehm, H.-J., Klebe, G., and Kubinyi, H. (1996) Wirkstoffdesign, Spektrum
Akademischer Verlag GmbH, Heidelberg, Berlin, Oxford.
36. Todorov, N. P., Monthoux, P. H., and Alberts, I. L. (2006) The influence of varia-
tions of ligand protonation and tautomerism on protein-ligand recognition and
binding energy landscape. Journal of Chemical Information and Modeling, 46,
1134–42.
37. Brandstetter, H., Grams, F., Glitz, D. et al. (2001) The 1.8-angstrom crystal
structure of a matrix metalloproteinase 8-barbiturate inhibitor complex reveals
a previously unobserved mechanism for collagenase substrate recognition. The
Journal of Biological Chemistry, 276, 17405–12.
38. Trepalin, S. V., Skorenko, A. V., Balakin, K. V. et al. (2003) Advanced exact
structure searching in large databases of chemical compounds. Journal of
Chemical Information and Computer Sciences, 43, 852–60.
39. Kubinyi, H. (2001) In Virtual screening — problems and success stories, 4th
European Workshop in Drug Design, Siena.

Дополнительная литература
Williamson, R. A., Yea, C. M., Robson, P. A. et al. (1996) Dihydroorotate
dehydrogenase is a target for the biological effects of leflunomide. Transplanta-
tion Proceedings, 28, 3088–91.
Рациональная разработка
7
лекарственных веществ методами
хемогеномики

До полной расшифровки генома человека [1, 2] разработка лека-


рственных веществ представляла собой междисциплинарную задачу
оптимизации свойств лигандов (активности, селективности, фармако-
кинетики) по отношению к определенной биологической макромолеку-
ле-мишени. По имеющимся оценкам, из 20 000–25 000 генов человека
[3] лишь около 3000 связаны с потенциальными мишенями лекарствен-
ных средств [4], и только 800 из них исследованы фармацевтическими
компаниями [5] (рис. 7.1). Успехи химии за последние годы огромны,
однако из 10 млн химических структур, составляющих актуальное
химическое пространство (chemical space)1, всего лишь около 1000 со-
единений одобрены для использования в качестве лекарственных
средств. К сожалению, взаимодействие было исследовано лишь для
немногих доступных химических веществ и малой части биологичес-
ких мишеней.
Хемогеномика — новая междисциплинарная область исследова-
ний, которая ставит целью связать два множества (пространства) — хи-
мических веществ и биологических мишеней (target space)2 — и в ко-
нечном итоге исследовать активность всех лигандов относительно всех
мишеней [6]. Было предложено выделить близкую хемогеномике на-
учную область — химическую генетику, или химическую геномику
(см. табл. 7.1). Мы опираемся на более широкое определение хемогено-
мики, которое включает и задачи хемопротеомики, то есть изучение
влияния потенциальных низкомолекулярных лекарств на функции ге-
нов и белков. Хемогеномика находится на стыке химии и биологии, а
также информатики (обработка данных для получения надежной ин-
формации). Важную роль играют области знания, находящиеся на сты-
ке химии и биологии (медицинская химия), химии и информатики (хе-
моинформатика), биологии и информатики (биоинформатика).

1
Химическое пространство — множество химических соединений, которые синтезиро-
ваны или могут быть синтезированы.
2
Пространство мишеней — множество всех биологических мишеней, в качестве кото-
рых могут выступать как белки, так и нуклеиновые кислоты.
246 Молекулярное моделирование

Рис. 7.1. Поиск человеческих генов, связанных с потенциальными мишенями


лекарств

Хемогеномный анализ требует наличия трех важных составляю-


щих, для реализации каждой из которых необходима трудоемкая экспе-
риментальная работа: (а) библиотека соединений, (б) исследуемая био-
логическая система (библиотека мишеней, клетка или живой организм

Таблица 7.1. Хемогеномика и связанные с нею дисциплины


Термин Область, изучаемая дисциплиной
Химическая генетика Влияние химических веществ на функцию генов
Химическая геномика Влияние мишень-специфичных лигандов на
функции генов и белков
Хемогеномика Влияние мишень-специфичных кандидатов
в лекарства на функции генов и белков
Хемопротеомика Влияние мишень-специфичных кандидатов
в лекарства на функции белков
Геномика Изучение полного генома организма
Метаболомика Изучение метаболитов малых молекул в биоло-
гических образцах (включая организм в целом)
Протеомика Широкомасштабное исследование структуры
и функций белков
Транскриптомика Изучение матричной РНК (мРНК) одной клетки
или группы клеток
Глава 7. Разработка лекарственных веществ методами хемогеномики 247

в целом) и (в) надежные методики эксперимента (данные по экспрессии


генов или белков, данные высокопроизводительного скрининга по аф-
финности лигандов к мишени или функциональному ответу).
Предметом настоящего обзора является предсказательная хемоге-
номика, которая использует подходы in silico для извлечения инфор-
мации из данных параллельного биологического тестирования мно-
жеств соединений и мишеней. По сути анализ хемогеномных дан-
ных — это процесс заполнения бесконечной матрицы, где мишени
(гены) соответствуют столбцам, а соединения — строкам (рис. 7.2). Дан-
ные обычно представлены в виде констант связывания (Ki, IC50) или
функциональных эффектов (EC50). Такая матрица является сильно раз-
реженной, поскольку все возможные соединения пока не были протес-
тированы на всех возможных мишенях. Предсказательная хемогеноми-
ка пытается заполнить такие пробелы, прогнозируя взаимодействие со-
единений с генами или белками. Подходы к предсказанию этих данных
in silico (селективность мишеней к различным лигандам, и лигандов к
различным мишеням) включают методы, использующие информацию о
лигандах (сравнение известных лигандов для предсказания вероятных
мишеней), информацию о мишенях (сравнение мишеней или центров
связывания для предсказания их вероятных лигандов), а в конечном
счете информацию о мишенях и лигандах (использование эксперимен-
тальных и предсказанных матриц аффинности).

Рис. 7.2. Хемогеномная матрица связывания. Красные квадраты показывают


наличие взаимодействия между лигандом и мишенью (связывание), а зеленые
квадраты — отсутствие какого-либо взаимодействия (отсутствие связывания).
Для большинства пар мишень-«лиганд» такие данные неизвестны, но их можно
прогнозировать
248 Молекулярное моделирование

7.1. Описание пространства лигандов и мишеней


Все методы хемогеномики опираются на два основных допущения:
(а) похожие соединения действуют на одни и те же мишени; (б) биологи-
ческие мишени с похожими лигандами должны иметь похожие центры
связывания. Таким образом, при заполнении теоретической хемогеном-
ной матрицы данные о лигандах для мишеней, лиганды которых неиз-
вестны, можно получить на основе информации о ближайших мишенях
с известными лигандами, а данные о неизвестных мишенях лигандов —
на основе информации о ближайших лигандах с известными мишеня-
ми. Проблема заключается в том, как измерить близость двух лигандов
или двух мишеней.

7.1.1. Пространство лигандов


Для эффективного анализа множества лигандов необходимо описать со-
единение с помощью подходящих параметров (дескрипторов), а затем
определить схожесть соединений, построив матрицу подобия.
Дескрипторы обычно подразделяются по их размерности на одно-
мерные (1D), двумерные (2D) и трехмерные (3D) [7] (рис. 7.3, табл. 7.2).
Одномерные дескрипторы подсчитываются легко и быстро. Они описы-

Рис. 7.3. Примеры молекулярных дескрипторов для низкомолекулярных лигандов


Глава 7. Разработка лекарственных веществ методами хемогеномики 249

Таблица 7.2. Молекулярные дескрипторы лигандов


Природа
Размерность Примеры
дескрипторов
1D Глобальные Молекулярная масса, число атомов,
связей, доноров водородной связи,
циклов, площадь полярной поверх-
ности, поляризуемость, липофиль-
ность
2D Топологические Индексы связности и топологичес-
кие индексы, фрагменты, подструк-
туры, топологические отпечатки
(структурные ключи)
3D Конформационные Фармакофор (N точек), форма, поля,
спектры, отпечатки

вают глобальные свойства молекулы (например, молекулярную массу


или число атомов и связей), которые можно определить по структурной
формуле. Различные сочетания таких дескрипторов позволяют не толь-
ко прогнозировать физико-химические свойства соединений (напри-
мер, растворимость), но и относить их к различным классам (например,
лекарства и нелекарства [8] или лиганды различных биологических ми-
шеней [9]) с помощью линейных или нелинейных методов QSAR. Для
быстрого сравнения структур молекул используют их одномерные ли-
нейные представления, наиболее популярным из которых является
SMILES [10] (рис. 7.4, см. также разд. 2.1.3).
Большинство дескрипторов относится к топологическим (двумер-
ным). Таблица связности (список связей между атомами лиганда) ис-
пользуется для кодирования свойств атомов и связей. Самый простой
способ представления такой информации — это структурная формула
вещества (рис. 7.3), которая может быть использована для визуализа-
ции библиотеки лигандов и поиска соединений по подструктуре. Мето-
ды, представляющие двумерную структуру молекулы в виде молеку-
лярного графа, широко применяются для подструктурного поиска и
разбиения соединений на структурные группы [11], но значительным
их недостатком является низкая скорость. Методы, использующие «от-
печатки» (fingerprints)1, гораздо быстрее, поскольку наличие или отсу-
тствие заранее заданных структурных элементов (атомов, фрагментов,
циклов, подструктур, двумерных фармакофорных фрагментов) кодиру-
ется в виде битовой строки (последовательности нулей и единиц), кото-
рую легко генерировать, хранить и обрабатывать. Хотя лиганд-рецеп-
торное взаимодействие является трехмерным, двумерные отпечатки в
большинстве случаев подходят для поиска по подобию лучше, чем трех-
мерные.

1
В данном случае разумным может выглядеть ввод нового термина «фингерпринт», по-
скольку слово «отпечаток» имеет в русском языке слишком широкий спектр значений.
250 Молекулярное моделирование

Рис. 7.4. Распространенные форматы файлов, используемые для одномерного


(SMILES, InChI), двумерного (SD-файл) и трехмерного (MOL2) представления мо-
лекул

Истинные трехмерные дескрипторы кодируют свойства, связанные


с конкретной конформацией молекулы, например, координаты атомов,
3D-фармакофоры, форму, потенциалы, поля и спектры (см. табл. 7.2).
По этой причине для их сравнения в единой системе координат обычно
требуется пространственное выравнивание (особенно при сравнении ре-
шеточных полей или потенциалов) и репрезентативная выборка доступ-
ного конформационного пространства для каждого из лигандов. Чтобы
устранить процедуру выравнивания молекул в пространстве, которая
может приводить к ложным положительным результатам виртуального
скрининга, трехмерную информацию можно кодировать в виде отпечат-
ков, описывающих присутствие всех возможных фармакофорных соче-
таний (пар, троек и четверок) с соответствующими центрами (акцепто-
Глава 7. Разработка лекарственных веществ методами хемогеномики 251

ры водородной связи, потенциально заряженные атомы и т. д.) и рассто-


яниями между ними. Отпечатки гораздо легче сравнивать, чем
структуры, поэтому в большинстве методов поиска по подобию использу-
ется двоичное представление информации о двумерных и трехмерных
свойствах. Самым распространенным индексом подобия является коэф-
фициент Танимото:
c
Tc = , (1)
a+b+c
где: a — число битов, которые равны 1 для соединения A, но не для сое-
динения B; b — число битов, которые равны 1 для соединения B, но не
для соединения A; c — число битов, которые равны 1 для обоих соедине-
ний A и B.
Таким образом, коэффициент Танимото изменяется от нуля для
двух полностью различных соединений до единицы для двух идентич-
ных соединений.

7.1.2. Пространство мишеней


Как правило, классификация белков опирается на их структуру
(табл. 7.3). Первичную информацию о них дает аминокислотная после-
довательность (рис. 7.5), на основе которой можно надежно отнести ми-
шень к тому или иному семейству, например киназам или рецепторам,
сопряженным с G-белками (G-protein coupled receptors, GPCR). Тем не
менее длина последовательности может значительно варьироваться в
пределах семейства (например, для GPCR человека она может состав-
лять от 290 до 6200 остатков), поэтому для анализа сходства и различия
мишеней необходимо сначала построить выравнивание аминокислот-
ных последовательностей, что часто затруднительно при большом числе
инсерций и делеций (см. разд. 4.3.1). Поэтому лучше сосредоточиться
на специфических мотивах [12] — непрерывных фрагментах последова-
тельности, которые характерны для того или иного семейства белков.
Чтобы учесть структурную организацию мишени, целесообразно рас-
сматривать двумерную (положение a-спиралей, b-листов, шпилек и

Таблица 7.3. Классификация белков по структуре


Размерность Свойство Базы данных
1D Последовательность UniProt [13], Pfam [14]
Мотив PRINTS [12], PROSITE [15]
2D Вторичная структура, SCOP [16], CATH [17]
укладка
3D Координаты атомов PDB [18], MODBASE [19]
Центр связывания BindingMOAD [20], sc-PDB [21]
252 Молекулярное моделирование

Рис. 7.5. Представления белка на основе свойств различной размерности


(1D–3D)

структурированных фрагментов), а предпочтительно трехмерную


структуру белка (координаты атомов, определенные методами ЯМР
или РСА) и/или информацию об укладке. В хемогеномике основное
внимание уделяется центру связывания, где структурное сходство
между родственными мишенями обычно гораздо выше, чем для всей
аминокислотной последовательности или трехмерной структуры белка.
Классификацию мишеней также можно провести на основе их фар-
макологических профилей1 (аффинности по отношению к набору лиган-
дов), то есть по характеру лигандов, с которыми они взаимодействуют [5].
Конечно, классификации по структуре и по лигандам дают во многом
сходные результаты, поскольку лиганды обычно взаимодействуют лишь
с определенным подмножеством белков. Взаимосвязи между подсемей-
ствами мишеней особенно интересны при прогнозировании или модифи-
кации фармакологического профиля разрабатываемого лекарства.
1
Фармакологический профиль соединения — набор биологических мишеней, на которые
действует данное вещество, и спектр фармакологических ответов, которые оно вызывает.
Глава 7. Разработка лекарственных веществ методами хемогеномики 253

7.1.3. Пространство лигандбелковых взаимодействий


Пространство лиганд-белковых взаимодействий можно анализировать
непосредственно по матрицам, содержащим данные об аффинности или
структурную информацию. Экспериментальное тестирование x соеди-
нений по отношению к y мишеней (например, измерение аффинности in

Рис. 7.6. Формирование отпечатков структурных взаимодействий (А) и их ис-


пользование для сравнения лиганд-белковых комплексов. Для удобства воспри-
ятия и сравнения наличие взаимодействий (единица в соответствующем положе-
нии отпечатка) обозначено цветными квадратами (синий цвет — гидрофобные
взаимодействия, зеленый — взаимодействия ароматических фрагментов, крас-
ный — водородные связи)
254 Молекулярное моделирование

vitro) дает матрицу из xy чисел (например, значений IC50), которую в


дальнейшем можно использовать для предсказания аффинности новых
соединений к существующей мишени с помощью различных методов:
множественной линейной регрессии [22], оценки сходства зависимостей
структура—активность (SAR) для двух мишеней [23] или прогнозирова-
ния общего фармакологического профиля молекулы [24]. Явным преи-
муществом такого подхода является опора на реальные эксперимен-
тальные данные, которые обычно позволяют получить более точные ре-
зультаты, чем расчетные параметры. В то же время для надежного
анализа необходимы огромные объемы экспериментальных данных, ко-
торые недоступны ученым, работающим в некоммерческих организаци-
ях. Учитывая это, экспериментальные значения аффинности можно за-
менить прогнозируемыми величинами, полученными с помощью до-
кинга (см. гл. 5) или 3D-QSAR (см. гл. 3) [25, 26], хотя узость набора
белков ограничивает возможности экстраполяции.
Поскольку предсказать свободную энергию связывания крайне
сложно, вместо аффинности можно использовать дескрипторы межмо-
лекулярного взаимодействия. Особый интерес представляют отпечатки
структурных взаимодействий (Structural Interaction Fingerprints, SIF)
[27], которые позволяют перейти от координат атомов лиганд-белкового
комплекса (полученных экспериментально или с помощью докинга) к
битовой строке, где для каждой аминокислоты центра связывания зако-
дированы межмолекулярные взаимодействия (например, водородные
связи, взаимодействия ароматических фрагментов или гидрофобные
контакты), в которые она вступает с лигандом. Таким образом, чтобы
сравнить ряд комплексов одного белка с несколькими лигандами или
одного лиганда с несколькими родственными белками, можно вычис-
лить расстояния между одномерными отпечатками взаимодействий
(рис. 7.6) точно так же, как для лигандов (см. разд. 7.1.1).

7.2. Методы хемогеномики,


основанные на информации о лигандах
7.2.1. Аннотирование библиотек лигандов
Основной принцип хемогеномных подходов, использующих информа-
цию о лигандах, состоит в том, что молекулы, достаточно близкие к су-
ществующим лигандам с известными мишенями, будут с большой веро-
ятностью обладать схожим профилем биологической активности
(рис. 7.7). По этой причине очень важной задачей является аннотирова-
ние биологических свойств (мишеней, аффинности in vitro, абсорбции,
распределения, метаболизма, выделения1) в химических библиотеках.
В последние годы (главным образом небольшими биотехнологическими
компаниями) было предпринято много усилий по сбору этой информа-
ции из литературных и патентных данных (табл. 7.4). Поскольку хемо-
1
ADME — absorption, distribution, metabolism, excretion — абсорбция, распределение,
метаболизм, выделение.
Рис. 7.7. Процедура анализа отношений «структура—активность» для близко-
родственных соединений
256 Молекулярное моделирование

Таблица 7.4. Библиотеки химических соединений с аннотированными


биологическими данными

База данных Описание Веб-сайт


AurSCOPE База фармакологических http://www.aureus-pharma.com
и фармакокинетических
данных для 160000 ли-
гандов GPCR и 77000 ин-
гибиторов киназ
Bioprint Биологический профиль http://www.cerep.fr
(данные in vitro и клини-
ческих исследований) для
2400 низкомолекуляр-
ных соединений — ле-
карств и веществ, похо-
жих на лекарства
ChemBank База данных по 50000 сое- http://chembank.broad.harvard.edu
динений и их биологичес-
ким свойствам (441 тест
высокопроизводительно-
го скрининга и анализа на
микропанелях)
ChemBioBase База данных по лигандам http://www.jubilantbiosys.com
определенных мишеней
(фосфодиэстеразы, GPCR,
киназы)
Kinase know- Данные об активности и http://www.eidogen-sertanty.com
ledgebase методах синтеза ингиби-
торов киназ
MDL Drug 123000 соединений с из- http://www.symyx.com
Data Report вестной биологической
активностью
MedChem 650000 соединений с ин- http://www.gvkbio.com
database формацией о биологичес-
ких и фармакологичес-
ких свойствах
StARLITe Проверенная информа- http://www.biofocus.com/StARLITe
ция о связях структу-
ра-активность
Wombat 154236 веществ и 307700 http://www.sunsetmolecular.com
измерений активности
для 1320 мишеней

геномные подходы обычно ориентированы на определенные семейства


мишеней, большинство таких архивов касается наиболее важных для
фармакологии семейств (GPCR, киназы, ядерные рецепторы, протеазы,
фосфодиэстеразы).
Глава 7. Разработка лекарственных веществ методами хемогеномики 257

Хорошая объединенная база хемогеномных данных с возможностью


поиска была создана сотрудниками компании Novartis [28], которые
связали пространство мишеней и пространство лигандов, объединив
разрозненные химические и биологические базы данных. Более 110 000
фармацевтических соединений были выбраны из базы данных MDDR
(Measurement Devices Ltd Drug Data Report, см. табл. 7.4). Аннотиро-
вание мишеней выполнялось на основе существующей классификации
ферментов и рецепторов. Связав классификацию мишеней с «ключами
активности» MDDR, удалось выполнить аннотирование 53 000 соедине-
ний в общей сложности по 799 различным ключам активности и мише-
ням. Благодаря связи между лигандом и аминокислотной последова-
тельностью мишени стал возможен поиск лигандов для гомолога белко-
вой мишени на основе сходства последовательности между ней и
мишенью с известными лигандами. Например, аннотированные лиган-
ды определенного GPCR были использованы для поиска новых лигандов
этого или похожих на него рецепторов. Интересно, что эффективность
виртуального скрининга соответствовала степени филогенетического
родства между известным и исследуемым рецептором. Другой естест-
венный пример использования библиотек соединений с известной био-
логической активностью — дизайн мишень-специфичных комбинатор-
ных библиотек [29], которые ориентированы на химические классы,
предпочтительные для исследуемого семейства мишеней.
Природные соединения охватывают весьма интересное и биологи-
чески значимое подмножество химического пространства, поскольку
эволюционное давление обеспечивает их связывание (обычно очень спе-
цифичное) с определенными мишенями. Химическое пространство,
охватываемое природными соединениями с известной биологической
активностью, было описано в виде иерархического структурного дерева
[30], которое можно использовать для дизайна библиотек, ориентиро-
ванных на природные соединения.
Библиотеки соединений с известными биологическими данными
являются превосходным источником для исследования новых биологи-
ческих механизмов, которые позволят корректировать фенотип. Рут с
сотр. создали библиотеку из 2036 биологически активных соединений,
участвующих в 169 различных биохимических механизмах. Авторы по-
казали, что она отличается достаточным структурным разнообразием, а
85 соединений оказались активными в тесте жизнеспособности и проли-
ферации клеток. Предполагается, что 27 из них проявляют новые био-
химические механизмы действия [31].

7.2.2. Привилегированные структуры


Термин «привилегированная структура» был введен Эвансом и др. [32],
которые заметили, что 1,4-бензодиазепиновый фрагмент встречается в
лигандах, действующих на различные биологические мишени (рис. 7.8).
Привилегированная структура — это подструктура или тип скелета, ко-
торая оказывается сильно предпочтительной для определенной области
258 Молекулярное моделирование

Рис. 7.8. Скелет 3H-1,4-бензодиазепин-2-она (синий) в лигандах различных


мишеней. 1 — Ro-5-3335, ингибитор белка tat вируса иммунодефицита челове-
ка; 2 — диазепам, лиганд рецептора g-аминомасляной кислоты подтипа А
(ГАМКА); 3 — 231023, ингибитор фарнезилтрансферазы; 4 — CI-1044, ингибитор
фосфодиэстеразы 4; 5 — праназепид, антагонист рецептора холецистокинина
(CCK); 6 — BZ-423, ингибитор АТФазы F1F0; 7 — 171 644, антагонист окситоци-
нового рецептора; 8 — 309 060, ингибитор b-g-секретазы; 9 — 278 588, антагонист
Stat5; 10 — 276 345, блокатор калиевого канала KVS

пространства мишеней (например, GPCR) и может использоваться как


основа для дизайна библиотек соединений [33]. Однако углубленный
анализ похожих на лекарства соединений из базы данных MDDR привел
к выводу, что привилегированные структуры появляются лишь при дос-
тижении определенного уровня химической функционализации скеле-
та [34]. Например, бифенил — не привилегированная структура, а обыч-
ный фрагмент, который участвует в связывании с белками и встречает-
Глава 7. Разработка лекарственных веществ методами хемогеномики 259

Рис 7.9. GPCR человека, взаимодействующие с привилегированной структу-


рой орто-алкокси-N-фенилпиперазина (http://bioinfo-pharma.u-strasbg.fr/
hGPCRLig/). Примечательно, что с этой подструктурой не в состоянии взаимодей-
ствовать никакие другие белки, для которых были получены кристаллы ком-
плексов с похожими на лекарства соединениями (http://bioinfo-pharma.
u-strasbg.fr/scPDB/)

ся в самых разных лигандах без какой-либо предрасположенности к


определенному семейству мишеней. Однако если перейти от него к
структуре 2-тетразолбифенила, то появляется сильная специфичность к
определенным семействам GPCR [34]. Примечательно, что многие при-
вилегированные структуры могут взаимодействовать с различными не-
родственными семействами мишеней (например, GPCR, киназами, ион-
ными каналами, протеазами, ядерными рецепторами), и только неболь-
шая часть из них действительно селективна к определенному семейству
мишеней (рис. 7.9). Основная причина высокой специфичности — кон-
сервативность центров связывания определенных подструктур в ходе
эволюции подсемейств мишеней (рис. 7.10) [35, 36]. Привилегирован-
ные структуры, специфичные к определенному семейству мишеней,

Рис. 7.10. Физико-химическая ком-


плементарность фрагментов структу-
ры 2-тетразолбифенила (бифенил —
синий, тетразол — красный) и кон-
сервативных участков двух подтипов
рецептора ангиотензина 2, участву-
ющих в специфическом связывании
(синий цвет — ароматический учас-
ток, красный — полярный)
260 Молекулярное моделирование

крайне важны при разработке библиотек лигандов, поскольку они по-


зволяют увеличить эффективность экспериментального скрининга ли-
гандов входящих в это семейство белков.

7.2.3. Скрининг in silico с использованием данных о лигандах


Основные семейства биологических мишеней можно различить, просто
анализируя физико-химические свойства их лигандов (молекулярную
массу, липофильность, площадь полярной поверхности, число доноров
и акцепторов водородных связей) [9]. Таким образом, можно ожидать,
что более сложные дескрипторы (см. разд. 7.2.1) позволят предсказы-
вать общий профиль биологических мишеней любого соединения при
условии, что для рассматриваемых мишеней описано достаточное коли-
чество лигандов. В последнее время в литературе начали появляться ра-
боты по поиску мишеней in silico с использованием данных о лигандах
[37–43]. Все они опираются на три основные составляющие: (а) набор
эталонных лигандов, для которых рассчитываются и сохраняются в
базе данных двумерные (скелет, подструктуры и отпечатки) или трех-
мерные (фармакофоры) дескрипторы; (б) процедура скрининга на осно-
ве методов QSAR, машинного обучения (байесовские классификаторы,
метод опорных векторов) или поиска по фармакофору; (в) база данных
для скрининга, в которой с помощью указанных дескрипторов выявля-
ются соединения, с большой вероятностью взаимодействующие с той же
мишенью или обладающие таким же фармакологическим профилем,
что эталонные соединения (рис. 7.11).
Местрес и сотр. [38, 39] выполнили аннотирование библиотеки сое-
динений, действующих на ядерные рецепторы. Используя иерархичес-
кую классификацию 2000 соединений и 25 мишеней, они получили хе-
могеномные связи между пространствами лигандов и мишеней, что по-
зволило выделить селективные и неселективные фрагменты. С помощью
дескрипторов энтропии Шеннона (SHannon Entropy Descriptors, SHED),
основанных на распределении пар фрагментов с определенными цен-
тральными атомами, в любом наборе соединений можно провести поиск
молекул, для которых SHED-расстояния лежат в заданных пределах и
вероятно проявление сходного профиля взаимодействия с ядерными ре-
цепторами.
Компания Novartis успешно применила алгоритмы машинного обу-
чения на основе байесовской статистики для прогнозирования биологи-
ческого профиля соединений из базы данных Wombat с использованием
дескрипторов расширенных отпечатков связности (extended connec-
tivity fingerprints) [40]. Для каждого класса активности (мишени) была
построена отдельная байесовская модель, способная разделить извест-
ные активные и неактивные соединения. Предсказание наиболее веро-
ятных мишеней соединений из контрольной выборки проводилось пу-
тем расчета вероятностей того, что каждое из соединений может стать
лигандом каждой из мишеней. В среднем при использовании Wombat в
качестве обучающей выборки и соединений MDDR для 10 классов ак-
Глава 7. Разработка лекарственных веществ методами хемогеномики 261

Рис. 7.11. Поиск биологических мишеней in silico


тивности в качестве контрольного набора правильная мишень была най-
дена в 77% случаев [40]. Качество предсказания значительно улучшается,
если вместо ряда индивидуальных вероятностей рассматривать глобаль-
ный профиль всех соединений обучающей выборки, объединяющий все
вероятности для мишеней в «байесовский отпечаток аффинности» [41].
При разработке этой методики были опробованы различные двумерные
и трехмерные дескрипторы. Прогностическая способность модели, по-
строенной на двумерных дескрипторах, в контрольной выборке соеди-
нений, подобных соединениям обучающей выборки, оказалась выше,
чем у модели на основе трехмерных фармакофоров. Для одиночных мо-
лекул, не обладающих достаточным сходством с молекулами обучаю-
щей выборки, лучшее качество обеспечивают трехмерные дескрипторы.
Во всех этих подходах первоначально необходимо автоматически
классифицировать соединения обучающей выборки в зависимости от их
биологической мишени без учета информации о том, действительно ли
соединение связывается с мишенью, в каком центре связывания это
происходит и к какому отклику приводит (например, агонисты или ан-
тагонисты в случае рецепторов). По этой причине всегда существует
риск, что алгоритм машинного обучения будет использовать неправиль-
262 Молекулярное моделирование

ные данные и построит ложные правила. Для решения этой проблемы


были разработаны более точные, но менее быстрые подходы. Перспек-
тивный метод опирается на выделение трехмерных фармакофоров из
лиганд-рецепторных комплексов, для которых экспериментально опре-
делены атомные координаты и фармакологическая активность [37]. По-
лученная библиотека фармакофоров известных мишеней может быть
использована для поиска мишеней новых соединений с помощью про-
стого фармакофорного поиска. Преимуществом этого метода является
опора на исходные данные более высокого качества, однако его приме-
нимость ограничивается способом построения фармакофора и пока
ограниченным разнообразием лигандов в комплексах, представленных
в PDB [21]. Например, метод нельзя использовать для прогнозирования
взаимодействия с мембранными рецепторами (GPCR, ионные каналы),
поскольку кристаллографические данные для этих семейств белков
крайне скудны, хотя теоретически фармакофоры можно построить и на
основе моделей, построенных по гомологии.

7.3. Методы хемогеномики,


основанные на информации о мишенях
На ранних стадиях разработки лекарств важной задачей является кон-
троль селективности лигандов к родственным мишеням белкового семе-
йства. В связи с этим существует растущий интерес к сравнению всех
мишеней одного семейства, особенно тех, для которых имеется доста-
точная структурная информация (полученная методами РСА или ЯМР)
для сравнительного моделирования мишеней пока неизвестной струк-
туры в рамках всего протеома (например, киназ). Хемогеномные мето-
ды, использующие информацию о мишенях, делятся на две категории в
зависимости от того, сравниваются ли аминокислотные последователь-
ности или трехмерные структуры мишеней.

7.3.1. Сравнение аминокислотных последовательностей


Подходы, использующие информацию об аминокислотных последова-
тельностях, применимы к любым семействам мишеней при условии,
что для всех исследуемых мишеней можно построить множественное
выравнивание. Как правило, они используются для семейств, где отсу-
тствуют структурные данные высокого качества. Идеальным объектом
для методов сравнения первичных последовательностей являются ре-
цепторы GPCR [36, 44–46], поскольку это семейство чрезвычайно важ-
но для фармацевтики, однако экспериментально определена структура
только одного его представителя (родопсина быка) [47]1. После построе-
ния выравнивания определяются все ключевые остатки, участвующие в
1
В ноябре 2007 г. была опубликована структура другого представителя семейства b2-адрено-
рецептора (разрешение 3,4–3,7 C) [Rasmussen, S. G., Choi, H. J., et. al. 2007. Nature. 450:
383–387]. К настоящему времени многие кристаллические структуры различных GPCR
расшифрованы.
Глава 7. Разработка лекарственных веществ методами хемогеномики 263

связывании большинства лигандов. Они записываются в виде неболь-


шой последовательности (обычно около 30 аминокислотных остатков),
которую в дальнейшем используют для построения матрицы расстоя-
ний на основе идентичности последовательностей [36], сходства после-
довательностей [46] или отпечатков физико-химических свойств [45]
(рис. 7.12). На основе такого подхода была предложена исчерпывающая

Рис. 7.12. Сравнение аденозиновых рецепторов человека на основе аминокис-


лотных последовательностей [36]. а — определение ключевых аминокислот цен-
тров связывания; б — классификация рецепторов на основе информации о кон-
сервативных аминокислотах
264 Молекулярное моделирование

классификация 372 GPCR человека, основанная на центрах связывания


[36]. Интересно, что данный способ классификации полностью вос-
производит дерево, полученное на основе полных аминокислотных
последовательностей. Это позволяет предположить, что для сравне-
ния мишеней внутри семейства действительно важны лишь немногие
аминокислотные остатки. Такое упрощение позволяет свести анализ
особенностей активных центров, ответственных за селективное или не-
селективное связывание, к простому анализу консервативных остатков
[36, 44]. Классификацию активных центров можно использовать при
решении различных задач разработки лекарств. Одна из них состоит в
поиске лигандов на основе анализа известных лигандов родственных ре-
цепторов (target hopping). Например, антагонисты рецептора CRTH2
можно найти путем анализа антагонистов рецептора ангиотензина II
типа 1 [45]. Кроме того, при создании фокусированных библиотек ли-
гандов, ориентированных на определенные мишени, согласно класси-
фикации активных центров, можно использовать связанную с каждой
аминокислотой информацию о селективности или ее отсутствии [45, 46].

7.3.2. Сравнение белковых структур


Сравнение белковых структур возможно только для семейств, где име-
ется достаточное количество качественных структурных шаблонов
(кристаллических структур) для построения по гомологии моделей дру-
гих родственных мишеней. В большинстве случаев сравниваются толь-
ко центры связывания [20, 21], так как основная задача сравнения со-
стоит в изучении особенностей мишеней, которые определяют их селек-
тивность или неселективность к известным лигандам.
7.3.2.1. Сравнение молекулярных полей
Одним из способов сравнения трехмерных структур белков является
сравнение рассчитанных полей молекулярных взаимодействий для цен-
тров связывания (molecular interaction fields, MIF) [48–50]. Для этого
сначала проводится выравнивание структур мишеней, а затем рассчи-
тываются энергии взаимодействия пробных атомов (например, sp3-гиб-
ридизованного атома углерода) в каждой точке трехмерной решетки,
окружающей полость связывания. Полученные значения сводятся в
вектор MIF, который помещается в общую матрицу, где строки описы-
вают мишени, а столбцы — энергии взаимодействия в каждой точке ре-
шетки (рис. 7.13). Для сравнения MIF-векторов и кластеризации род-
ственных мишеней можно либо обработать матрицу с помощью анализа
главных компонент [48, 49], либо вычислить различие между полями и
использовать его как дескриптор для иерархической классификации
[50]. Очевидно, что этот подход имеет тот же недостаток, что и методы
3D-QSAR (см. разд. 2.6): результаты сильно зависят от качества струк-
турного выравнивания, шага решетки и выбора пробного атома. Кроме
того, этим методом нельзя сравнивать мишени, относящиеся к различ-
ным семействам. Тем не менее он был с успехом применен для определе-
ния участков центра связывания, ответственных за селективное или не-
Глава 7. Разработка лекарственных веществ методами хемогеномики 265

Рис. 7.13. Кластеризация мишеней на основе полей молекулярных взаимодей-


ствий

селективное связывание лигандов протеинкиназ [48, 50], сериновых


протеаз [50], матричных металлопротеаз [49] и ядерных рецепторов
[50], что облегчило разработку библиотек соединений с заданным
профилем селективности.

7.3.2.2. Сравнение пространственных структур


Чтобы избежать рассмотренных ранее ошибок, которые обычно возни-
кают при выравнивании белков, были разработаны методы непосред-
ственного сравнения трехмерных координат атомов белков и расчета
расстояния между мишенями (табл. 7.5). Методы глобального выравни-
вания структур (GASH [51], DaliLite [52], CE [53]) обычно подсчитывают
количество структурно эквивалентных остатков, сравнивая перекрыва-
ющиеся фрагменты. Эти методы плохо работают для последовательнос-
266 Молекулярное моделирование

Таблица 7.5. Программы для сравнения структур белков и центров


связывания

Название Метод Веб-сайт Ссылка


TESS Сравнение со структур- http://www.ebi.ac.uk/thornton- [54]
ными шаблонами по рас- srv/databases/CSA/
стоянию
ASSAM Сравнение пространст- — [55]
венных консервативных
мотивов с помощью алго-
ритма изоморфизма под-
графов
eF-site Сравнение триангулиро- http://ef-site.hgc.jp/eF-site/ [56]
ванных поверхностей с
информацией об электро-
статическом потенциале
SuMo Сравнение графов из тре- http://sumo-pbil.ibcp.fr/cgi- [57]
угольников, образован- bin/sumo-welcome
ных стереоцентрами
Cavbase Сравнение псевдоцен- — [58]
тров с помощью алгорит-
ма поиска клик
SiteEngine Сравнение треугольни- http://bioinfo3d.cs.tau.ac.il/ [59]
ков физико-химических SiteEngine/
свойств с помощью геомет-
рического хеширования
SitesBase Сравнение троек атомов с http://www.modelling.leeds. [60]
помощью геометрическо- ac.uk/sb/
го хеширования
CPASS Максимизация оценоч- http://bionmr-c1.unl.edu/ [61]
ной функции BLOSUM62
на основе rmsd

тей с разрывами (центров связывания) и для белков с разной укладкой


цепи.
Другой подход основан на поиске заданных структурных мотивов
или шаблонов (например, каталитической триады Ser—His—Asp в се-
риновых протеазах), по которым строится выравнивание мишени с из-
вестными белками [54, 55]. Однако многие белки (например, киназы,
GPCR, ионные каналы) могут содержать одинаковые центры связыва-
ния уникальных лигандов (например, АТФ) в отсутствие сходства
структурных шаблонов.
Более новые подходы к выравниванию структур мишеней описыва-
ют белки, опираясь на физико-химические свойства в определенных
Глава 7. Разработка лекарственных веществ методами хемогеномики 267

точках. На молекулярной поверхности белка легко построить дискрет-


ный набор изолированных точек с химическими метками [62] или гра-
фов [63], который можно использовать для поиска выравнивания, обес-
печивающего максимальное совпадение поверхности с эталоном
(табл. 7.5). База данных белковых поверхностей eF-site была успешно
использована для предсказания функции предполагаемого белка архей
MJ0226, в котором удалось выявить центр связывания мононуклеотида
[63]. Сравнение поверхностей белка требует довольно много времени,
поэтому данный метод неприменим для глобального исследования всех
белков. В течение последних нескольких лет были разработаны более
быстрые методы (SUMO [57], Cavbase [58], SiteEngine [59], SitesBase
[60], CPASS [61]), использующие для представления активного центра
так называемые псевдоцентры — виртуальные атомы, расположенные
на или рядом с боковыми цепями представляющих интерес аминокис-
лотных остатков. Псевдоцентры кодируют физико-химические свой-
ства соответствующих аминокислот (способность участвовать в водород-
ных связях, ароматичность, гидрофобность, заряд). Они соединяются
ребрами и таким образом образуют молекулярный граф. Выравнивание
получают, определяя максимально общий подграф [64] или применяя
геометрическое хэширование [65] псевдоцентров. Этим способом можно
обнаружить локальное сходство центров связывания в белках с совер-
шенно разной укладкой белковой цепи и разной каталитической актив-
ностью. Выявленные таким образом сходные активные центры даже
можно соединить в общую сеть, чтобы лучше определить положение
белка в пространстве мишеней [66].
Интересный пример сходства центров связывания для далеких друг
от друга белков был описан Вебером с др. [67]. Опираясь на сходство цен-
тров связывания циклооксигеназы-2 (ЦОГ-2) и карбоангидразы челове-
ка (HCA), авторы обнаружили способность ингибиторов ЦОГ-2 (арил-
сульфонамидов) перекрестно ингибировать HCA. Основная проблема
этих методов сравнения связана со сложностью интерпретации рассчи-
танной меры сходства, которая обычно зависит от количества атомов
или псевдоцентров либо от соответствия треугольников поверхности.
Это особенно характерно для центров связывания различного размера,
поскольку большие центры связывания часто дают больше совпадений,
чем центры малого размера, даже если сходство между последними
выше. Таким образом, как и при сравнении лигандов (см. разд. 7.1.1),
необходимо использовать нормированные расстояния. Многообещаю-
щий подход предложен Сюрганом и др. [68], которые использовали для
дискретизации центра связывания безразмерный сферический много-
гранник («сферу») из 80 треугольников и спроецировали на поверхность
этого многогранника различные топологические и физико-химические
дескрипторы, описывающие Cb-атомы аминокислот центра связыва-
ния. Расстояние между двумя центрами связывания рассчитывается
простым суммированием нормированных разностей в пространстве дес-
крипторов для всех треугольников сферы (рис. 7.14).
Рис. 7.14. Выравнивание и сравнение белков с помощью сфер [68]. а — Проек-
ция дескрипторов Cb-атомов центра связывания на центр триангулированной
сферы (используются: расстояние от центра сферы до атома Cb, ориентация боко-
вой цепи относительно сферы, размер боковой цепи, алифатический характер,
ароматический характер, заряд); б — расчет расстояния между двумя центрами
связывания путем измерения нормированного расстояния в пространстве дес-
крипторов после исчерпывающего перебора поворотов и переносов одной из сфер
(центр B) для увеличения сходства; в — выравнивание центра B с центром А опре-
деляется ориентацией сферы, обеспечивающей наименьшее расстояние
Глава 7. Разработка лекарственных веществ методами хемогеномики 269

В настоящее время высокая скорость таких сравнений позволяет по-


лучать матрицы сходства огромного размера («все со всеми») [58—60] и
и решать такие задачи, как (а) анализ функций и классификации цен-
тров связывания лигандов, (б) прогнозирование потенциальных лиган-
дов, (в) прогнозирование возможных побочных действий лекарств,
предназначенных для определенного белка-мишени.
Альтернативным способом сравнения активных центров является
анализ сходства возможных оболочек центров связывания по известным
структурам белков в апо1- или холо-форме2 [69]. Недавно был построен
первый вариант человеческого «покетома» («pocketome») — набора всех
возможных оболочек лиганд-связывающих центров для 943 рентгенов-
ских структур белков человека — и для него выполнен кластерный ана-
лиз на основе подобия оболочек [69]. Интересно, что дерево классифика-
ции по оболочкам лишь частично совпало с альтернативными деревьями,
построенными на основе аминокислотных последовательностей бел-
ков-мишеней или сходства структуры комплексов с лигандами [69].
Недавно был предложен метод сравнения белков одного семейства
по дефектам упаковки [70], локализованным на так называемых «де-
гидронах» — тяжелых атомах основной цепи, у которых отсутствуют
водородные связи. Такие участки характеризуют способность белка к
взаимодействию с потенциальными лигандами, и их можно предска-
зать по аминокислотной последовательности. Было показано, что опре-
деленные по упаковке расстояния между 32 киназами из PDB практи-
чески полностью совпадают с фармакологическими расстояниями, по-
лученными из экспериментальных данных по их аффинности к 17
ингибиторам [71]. Их можно эффективно использовать для разработки
ориентированных на дефекты упаковки селективных ингибиторов раз-
личных киназ [72].

7.4. Методы хемогеномики, основанные


на информации о мишенях и лигандах
7.4.1. Химическое аннотирование центров связывания мишени
Многочисленные библиотеки химических соединений, содержащие био-
логическую информацию (табл. 7.4), устанавливают связь между про-
странством лигандов и пространством мишеней, позволяя ориентиро-
вать разработку с использованием информации о лигандах определен-
ных семейств мишеней [40–42]. Однако в отсутствие информации о цен-
тре связывания лиганда существует риск, что в сравнение будут
включены лиганды, которые действуют на разные центры связывания
одной мишени (например, ортостерический и аллостерический лиган-
ды). По этой причине очень важно качественное аннотирование белко-
1
Апо-форма белка — неактивная форма белка без связанных лигандов и кофакторов (апо-
фермент).
2
Холо-форма белка — белок со связанным кофактором (ами), но без связанного лиганда
(холофермент).
270 Молекулярное моделирование

вых последовательностей и/или центров связывания на основании ти-


пов лигандов, которые они распознают [73]. Проект создания базы дан-
ных по взаимодействиям малых молекул (Small Molecule Interaction
Database, SMID) представляет собой пример аннотирования белковых
последовательностей на основе домен-специфичных лигандов [73]. В об-
щей сложности она охватывает 6300 лигандов и около 230 000 экспери-
ментально подтвержденных взаимодействий доменов и малых молекул,
которые хранятся в реляционной базе данных и могут использоваться
для предсказания наиболее вероятных лигандов белков с неизвестной
трехмерной структурой путем сравнения их доменов с помощью проце-
дуры, обратной алгоритму BLAST [74]. Полученная из PDB информа-
ция о структуре центров связывания и их лигандах имеется в ряде баз
данных [21], но только две базы данных (BindingMOAD, sc-PDB; см.
табл. 7.3) учитывают фармакологическое значение лиганда и тем самым
представляют интерес для хемогеномики. Эти базы данных могут быть
использованы для определения приоритетных лигандов или молеку-
лярных скелетов при создании фокусированных библиотек соединений,
действующих на определенный набор мишеней (рис. 7.15).

Рис. 7.15. Поиск низкомолекулярных лигандов киназ, удовлетворяющих пра-


вилам Липински (см. разд. 5.1.1), по хемогеномной базе данных sc-PDB
(http://bioinfo-pharma.u-strasbg.fr/scPDB/)
Глава 7. Разработка лекарственных веществ методами хемогеномики 271

7.4.2. Двумерный поиск


Для исследования и предсказания лиганд-белкового взаимодействия
необходимы простые дескрипторы, которые однозначно описывают как
белки, так и лиганды, содержащиеся в базах данных (табл. 7.4), что по-
зволит объединить их в единый лиганд-белковый дескриптор.
Самым простой способ представления этих данных опирается на
матрицы экспериментальной аффинности [22–24], по которым строят
модели QSAR для предсказания аффинности новых соединений к опре-
деленным мишеням или построения полного виртуального профиля с
помощью общего метода моделирования поведения соседей [24].
Другой подход недавно был предложен для решения задачи «деор-
фанизации»1 (deorphaning) GPCR-рецепторов. В ходе анализа отпеча-
ток лиганда соединяется с отпечатком аминокислотной последователь-
ности мишени, если в базе данных PDSP (Psychoactive Drug Screening
Program, http://pdsp.med.unc.edu) описано образование между ними
высокоаффинного комплекса (pKi > 7). Алгоритм был обучен по неизбы-
точному набору 5319 комплексов и применен к 1 911 415 виртуальным
комплексам (55 орфанных рецепторов и 34 753 похожих на лекарства
соединения из базы данных NCI) для предсказания вероятных связей
между ними [75]. Результаты проверки качества модели на внешней
контрольной выборке (поиск рецепторов для неселективного лиганда и
лигандов для одной мишени) в целом согласуются с литературными дан-
ными, а некоторые результаты прогноза еще ожидают эксперименталь-
ной проверки.

7.4.3. Трехмерный поиск


Одним из самых простых способов предсказания вероятных мишеней
лиганда является докинг каждого лиганда из библиотеки соединений в
каждый центр связывания из библиотеки мишеней. Эта стратегия была
проверена несколькими научными группами. Было показано, что она
позволяет правильно идентифицировать известные лиганды для извест-
ных мишеней и их побочные мишени, а значит, и вероятные побочные
эффекты [76, 77]. К настоящему времени в литературе был описан един-
ственный удачный пример поиска мишеней с помощью обратного моле-
кулярного докинга [78]. Такая процедура требует, во-первых, набора
высококачественных данных о трехмерной структуре центров связыва-
ния (который очень трудно сформировать автоматически), а во-вторых,
точных оценочных функций для правильной приоритизации мишеней.
Проблема состоит в том, что энергетические оценочные функции не
очень хорошо описывают разнородные лиганд-белковые комплексы и
занижают свободные энергии связывания [79], поэтому для эффектив-
ного отбора мишеней необходимы другие методы оценки. Одним из наи-
более удачных методов такого рода оказался расчет отпечатков взаимо-

1
«Деорфанизация» — поиск лигандов рецепторов, для которых лиганды ранее не были
известны.
272 Молекулярное моделирование

действия (interaction fingerprints, IFP) между белком и лигандом. На


практике IFP — это способ преобразования трехмерной информации о
лиганд-белковом взаимодействии в одномерные битовые векторы (рис.
7.6), которые можно сравнивать с помощью таких стандартных метрик,
как коэффициент Танимото или эвклидово расстояние. Использование
IFP позволило улучшить качество прогноза связанных конформаций
при докинге [80, 81], провести кластеризацию лиганд-белковых взаимо-
действий для ряда родственных ингибиторов с учетом различий в их
взаимодействии с подсемейством мишеней [81, 82] и разработать библи-
отеки лигандов, ориентированных на конкретную мишень [83].
В то же время представляют интерес и методы предсказания про-
странственной структуры лиганд-рецепторных комплексов, не основан-
ные на докинге. Главной проблемой такого подхода является использо-
вание сходных дескрипторов для описания лиганда и белка, чтобы один
из участников комплекса можно было найти, используя другой в качес-
тве запроса. Удачное решение было предложено в методе CoLiBRI
(Complementary Ligands Based on Receptor Information) [84], в котором
атомы лиганда и атомы центра связывания описываются аналогичными
векторами молекулярных дескрипторов (TAE-RECON), рассчитанных с
учетом формы молекул и электронных свойств изолированных атомов.
Это позволяет непосредственно соотнести химические особенности цен-
тра связывания и его лигандов, устанавливая взаимное соответствие
между участками центра связывания и участками лиганда. При провер-
ке на контрольной выборке 800 комплексов (структуры высокого разре-
шения из PDB) для 90% изученных активных центров соответствую-
щий лиганд был найден среди 1% наилучших результатов из большой
библиотеки соединений. Точность прогноза значительно ухудшается
для центров связывания, не участвовавших в обучении, однако этот ме-
тод можно использовать для предварительного отсева наименее правдо-
подобных лигандов [84].

7.5. Заключение
В последние годы хемогеномные подходы к рациональной разработке
лекарств весьма бурно развиваются благодаря появлению данных высо-
копроизводительных испытаний (структуры, аффинности, функцио-
нальные эффекты) для фармакологически важных мишеней и лиган-
дов. Были предложены многочисленные методы поиска связей между
ними, основанные на сходстве лигандов или мишеней. Для успешного
их применения необходима четкая организация и хранение данных, и
для наиболее важных семейств мишеней (например, киназы, GPCR,
ядерные рецепторы) такие решения начали появляться. В ближайшем
будущем хемогеномные данные помогут еще лучше и быстрее управлять
селективностью лигандов. Это не означает, что будут созданы более се-
лективные лиганды, но наблюдаемый профиль их селективности будет
согласован с терапевтическим применением. Наконец, изучение новых
геномных мишеней будет более эффективным, если определить их место
Глава 7. Разработка лекарственных веществ методами хемогеномики 273

в пространстве мишеней и опереться на соответствующую химическую


информацию.

Цитированная литература
1. Venter, J. C., Adams, M. D., Myers, E. W. et al. (2001) The sequence of the hu-
man genome. Science, 291, 1304–51.
2. Lander, E. S., Linton, L. M., Birren, B. et al. (2001) Initial sequencing and analy-
sis of the human genome. Nature, 409, 860–921.
3. International Human Genome Sequencing Consortium (2004) Finishing the
euchromatic sequence of the human genome. Nature, 431, 931–45.
4. Russ, A. P. and Lampel, S. (2005) The druggable genome: an update. Drug Dis-
covery Today, 10, 1607–10.
5. Paolini, G. V., Shapland, R. H., van Hoorn, W. P. et al. (2006) Global mapping of
pharmacological space. Nature Biotechnology, 24, 805–15.
6. Caron, P. R., Mullican, M. D., Mashal, R. D. et al. (2001) Chemogenomic ap-
proaches to drug discovery. Current Opinion in Chemical Biology, 5, 464–70.
7. Bender, A. and Glen, R. C. (2004) Molecular similarity: a key technique in molec-
ular informatics. Organic & Biomolecular Chemistry, 2, 3204–18.
8. Sadowski, J. and Kubinyi, H. (1998) A scoring scheme for discriminating be-
tween drugs and nondrugs. Journal of Medicinal Chemistry, 41, 3325–29.
9. Morphy, R. (2006) The influence of target family and functional activity on the
physicochemical properties of pre-clinical compounds. Journal of Medicinal
Chemistry, 49, 2969–78.
10. Weininger, D. (1988) SMILES. 1. Introduction and encoding rules. Journal of
Chemical Information and Computer Sciences, 28, 31–36.
11. Baymond, J. W., Blankley, C. J., and Willett, P. (2003) Comparison of chemical
clustering methods using graph-and fingerprint-based similarity measures.
Journal of Molecular Graphics & Modelling, 21, 421–33.
12. Attwood, T. K., Bradley, P., Flower, D. R. et al. (2003) PRINTS and its automatic
supplement, prePRINTS. Nucleic Acids Research, 31, 400–2.
13. Wu, C. H., Apweiler, R., Bairoch, A. et al. (2006) The Universal Protein Re-
source (UniProt): an expanding universe of protein information. Nucleic Acids
Research, 34, D187–91.
14. Finn, R. D., Mistry, K., Schuster-Bockler, B. et al. (2006) Pfam: clans, web tools
and services. Nucleic Acids Research, 34, D247–51.
15. Hulo, N., Bairoch, A., Bulliard, V. et al. (2006) The PROSITE database. Nucleic
Acids Research, 34, D227–30.
16. Casbon, J. and Saqi, M. A. (2005) S4: structure-based sequence alignments of
SCOP superfamilies. Nucleic Acids Research, 33, D219–22.
17. Reeves, G. A., Dallman, T. J., Redfern, O. C. et al. (2006) Structural diversity of
domain superfamilies in the CATH database. Journal of Molecular Biology, 360,
725–41.
274 Молекулярное моделирование

18. Berman, H. M., Westbrook, J., Feng, Z. et al. (2000) The protein data bank.
Nucleic Acids Research, 28, 235–42.
19. Pieper, U., Eswar, N., Braberg, H. et al. (2006) MODBASE: a database of anno-
tated comparative protein structure models and associated resources. Nucleic
Acids Research, 34, D291–95.
20. Hu, L., Benson, M. L., Smith, R. D. et al. (2005) Binding MOAD (mother of all
databases). Proteins, 60, 333–40.
21. Kellenberger, E., Muller, P., Schalon, C. et al. (2006) sc-PDB: an annotated data-
base of druggable binding sites from the Protein Data Bank. Journal of Chemical
Information and Modeling, 46, 717–27.
22. Kauvar, L. M., Higgins, D. L., Villar, H. O. et al. (1995) Predicting ligand bind-
ing to proteins by affinity fingerprinting. Chemistry & Biology, 2, 107–18.
23. Vieth, M., Higgs, R. E., Robertson, D. H. et al. (2004) Kinomics-structural biol-
ogy and chemogenomics of kinase inhibitors and targets. Biochimica et
Biophysica Acta, 1697. 243–57.
24. Krejsa, C. M., Horvath, D., Rogalski, S. L. et al. (2003) Predicting ADME proper-
ties and site effects: the BioPrint approach. Current Opinion in Drug Discovery
& Development, 6, 470–80.
25. Fukunishi, Y., Kubota, S., Nakamura, H. (2006) Noise-reduction method for
molecular interaction energy application to in silico drug screening and in
silico target protein screening. Journal of Chemical Information and Modeling,
46, 2071–84.
26. Matter, H. and Schwab, W. (1999) Affinity and selectivity of matrix
metalloproteinase inhibitors: a chemometrical study from the perspective of
ligands and proteins. Journal of Medicinal Chemistry, 42, 4506–23.
27. Singh, J., Deng, Z., Narale, G., and Chuaqui, C. (2006) Structural interaction
fingerprints: a new approach to organizing, mining, analyzing, and designing
protein-small molecule complexes. Chemical Biology & Drug Design, 67, 5–12.
28. Shuffenhauer, A., Floershein, P., Acklin, P., and Jacoby, E. (2003) Similarity
metrics for ligands reflecting the similarity of the target proteins. Journal of
Chemical Information and Computer Sciences, 43, 391–405.
29. Savchuk, N. P., Balakin, K. V., and Tkachenko, S. E. (2004) Exploring the
chemogenomic knowledge space with annotated chemical libraries. Current
Opinion in Chemical Biology, 8, 412–17.
30. Koch, M. A., Schuffenhauer, A., Scheck, M. et al. (2005) Charting biologically
relevant chemical space: a structural classification of natural products (SCONP).
Proceedings of the National Academy of Sciences of the United States of America,
102, 17272–77.
31. Root, D. E., Flaherty, S. P., Kelley, B. P., and Stockwell, B. R. (2003) Biological
mechanism profiling using an annotated compound library. Chemistry & Biology,
10, 881–92.
32. Evans, B. E., Rittle, K. E., Bock, M. G. et al. (1988) Methods for drug discovery:
development of potent, selective, orally effective cholecystokinin antagonists.
Journal of Medicinal Chemistry, 31, 2235–46.
33. Klabunde, T. and Hessler, G. (2002) Drug design strategies for targeting G-pro-
tein-coupled receptors. Chembiochem, 3, 928–44.
Глава 7. Разработка лекарственных веществ методами хемогеномики 275

34. Schnur, D. M., Hermsmeier, M. A., and Tebben, A. J. (2006) Are target-fam-
ily-privileged substructures truly privileged? Journal of Medicinal Chemistry,
49, 2000–9.
35. Bondensgaard, K., Ankersen, M., Thogersen, H. et al. (2004) Recognition of
privileged structures by G-protein coupled receptors. Journal of Medicinal
Chemistry, 47, 888–99.
36. Surgand, J. S., Rodrigo, J., Kellenberger, E., and Rognan, D. (2006) A
chemogenomic analysis of the transmembrane binding cavity of human G-pro-
tein-coupled receptors. Proteins, 62, 509–38.
37. Steindl, T. M., Schuster, D., Laggner, C., and Langer, T. (2006) Parallel screen-
ing: a novel concept in pharmacophore modeling and virtual screening, Journal
of Chemical Information and Modeling, 46, 2146–57.
38. Cases, M., Carcia-Serna, R., Hettne, K. et al. (2005) Chemical and biological pro-
filing of an annotated compound library directed to the nuclear receptor family.
Current Topics in Medicinal Chemistry, 5, 763–72.
39. Mestres, J., Martin-Couce, L., Gregori-Puigjane, E. et al. (2006) Ligand-based
approach to in silico pharmacology: nuclear receptor profiling. Journal of
Chemical Information and Modeling, 46, 2725–36.
40. Nidhi, Glick, M., Davies, J. W., and Jenkins, J. L. (2006) Prediction of biological
targets for compounds using multiple-category Bayesian models trained on
chemogenomics databases. Journal of Chemical Information and Modeling, 46,
1124–33.
41. Bender, A., Jenkins, J. L., Glick, M., et al. (2006) «Bayes affinity fingerprints»
improve retrieval rates in virtual screening and define orthogonal bioactivity
space: when are multitarget drugs a feasible concept? Journal of Chemical Infor-
mation and Modeling, 46, 2725–36.
42. Nettles, J. H., Jenkins, J. L., Bender, A. et al. (2006) Bridging chemical and bio-
logical space: target fishing using 2D and 3D molecular descriptors. Journal of
Medicinal Chemistry, 49, 6802–10.
43. Bhavani, S., Nagargadde, A., Thawani, A. et al. (2006) Substructure-based sup-
port vector machine classifiers for prediction of adverse effects in diverse classes
of drugs. Journal of Chemical Information and Modeling, 46, 2445–56.
44. Crossley, R. (2004) The design of screening libraries targeted at G-protein cou-
pled receptors. Current Topics in Medicinal Chemistry, 4, 581–88.
45. Frimurer, T. M., Ulven, T., Elling, C. E. et al. (2005) A physicogenetic method to
assign ligand-binding relationships between 7TM receptors. Bioorganic & Me-
dicinal Chemistry Letters, 15, 3707–12.
46. Kratochwil, N. A., Malherbe, P., Lindemann, L. et al. (2005) An automated sys-
tem for the analysis of G protein-coupled receptor transmembrane binding pock-
ets: alignment, receptor-based pharmacophores, and their application. Journal
of Chemical Information and Modeling, 45, 1324–36.
47. Palczewski, K., Kumasaka, T., Hori, T. et al. (2000) Crystal structure of rhodop-
sin: a G protein-coupled receptor. Science, 289, 739–45.
48. Naumann, T. and Matter, H. (2002) Structural classification of protein kinases
using 3D molecular interaction field analysis of their ligand binding sites: target
family landscapes. Journal of Medicinal Chemistry, 45, 2366–78.
276 Молекулярное моделирование

49. Pirard, B. and Matter, H. (2006) Matrix metalloproteinase target family land-
scape: a chemometrical approach to ligand selectivity based on protein binding
site analysis. Journal of Medicinal Chemistry, 49, 51–69.
50. Hoppe, C., Steinbeck, C., and Wohlfahrt, G. (2006) Classification and compari-
son of ligand-binding sites derived from grid-mapped knowledge-based poten-
tials. Journal of Molecular Graphics & Modeling, 24, 328–40.
51. Standley, D. M., Toh, H., and Nakamura, H. (2005) GASH: an improved algo-
rithm for maximizing the number of equivalent residues between two protein
structures. BMC Bioinformatics, 6, 221.
52. Holm, L. and Park, J. (2000) DaliLite workbench for protein structure compari-
son. Bioinformatics, 16, 566–67.
53. Shindyalov, I. N. and Bourne, P. E. (1998) Protein structure alignment by incre-
mental combinatorial extension (CE) of the optimal path. Protein Engineering,
11, 739–47.
54. Wallace, A. C., Borkakoti, N., and Thornton, J. M. (1997) TESS: a geometric
hashing algorithm for deriving 3D coordinate templates for searching structural
databases. Application to enzyme active sites. Protein Science, 6, 2308–23.
55. Artymiuk, P. J., Poirrette, A. R., Grindley, H. M. et al. (1994) A graph-theoretic
approach to the identification of three-dimensional patterns of amino acid
side-chains in protein structures. Journal of Molecular Biology, 243, 327–44.
56. Kinoshita, K., Furui, J., and Nakamura, H. (2002) Identification of protein
functions from a molecular surface database, eF-site. Journal of Structural and
Functional Genomics, 2, 9–22.
57. Jambon, M., Imberty, A., Deleage, G., and Geourjon, C. (2003) A new
bioinformatic approach to detect common 3D sites in protein structures. Pro-
teins, 52, 137–45.
58. Schmitt, S., Kuhn, D., and Klebe, G. (2002) A new method to detect related
function among proteins independent of sequence and fold homology. Journal
of Molecular Biology, 323, 387–406.
59. Shulman-Peleg, A., Nussinov, R., and Wolfson, H. J. (2004) Recognition of func-
tional sites in protein structures. Journal of Molecular Biology, 339, 607–33.
60. Gold, N. D. and Jackson, R. M. (2006) Fold independent structural comparisons
of protein-ligand binding sites for exploring functional relationships. Journal of
Molecular Biology, 355, 1112–24.
61. Powers, R., Copeland, J. C., Germer, K. et al. (2006) Comparison of protein ac-
tive site structures for functional annotation of proteins and drug design. Pro-
teins, 65, 124–35.
62. Rosen, M., Lin, S. L., Wolfson, H., and Nussinov, R. (1998) Molecular shape
comparison in searches for active sites and functional similarity. Protein Engi-
neering, 11, 263–77.
63. Kinoshita, K. and Nakamura, H. (2003) Identification of protein biochemical
functions by similarity search using the molecular surface database eF-site. Pro-
tein Science, 12, 1589–95.
64. Gardiner, E. J., Artymiuk, P. J., and Willett, P. (1997) Cliique-detection
algorithms for matching three-dimensional molecular structures. Journal of
Molecular Graphics & Modelling, 15, 245–53.
Глава 7. Разработка лекарственных веществ методами хемогеномики 277

65. Nossinov, R. and Wolfson, H. J. (1991) Efficient detection of three-dimensional


structural motifs in biological macromolecules by computer vision techniques.
Proceedings of the National Academy of Sciences of the United States of America,
88, 10495–99.
66. Zhang, Z. and Grigorov, M. G. (2006) Similarity networks of protein binding
sites. Proteins, 62, 470–78.
67. Weber, A., Casini, A., Heine, A. et al., (2004) Unexpected nanomolar inhibition
of carbonic anhydrase by COX-2-selective celecoxib: new pharmacological oppor-
tunities due to related binding site recognition. Journal of Medicinal Chemis-
try, 47, 550–57.
68. Surgand, J. S. (2006) Dеveloppement de Nouvelles Methodes Bioinformatiques
Pour l'Etude des Recepteurs Couples aux Proteins G, ThJse de l'Universite Louis
Pasteur — Strasbourg 1. France.
69. An, J., Totrov, M., and Abagyan, R. (2003) Pocketome via comprehensive iden-
tification and classification of ligand binding envelopes. Molecular & Cellular
Proteomics, 4, 752–61.
70. Fernandez, A., Rogale, K., Scott, R., and Scheraga, H. A. (2004) Inhibitor de-
sign by wrapping packing defects in HIV-1 proteins. Proceedings of the National
Academy of Science of the United States of America, 101, 11640–45.
71. Fernandez, A. and Maddipati, S. (2006) A priori inference of cross reactivity of
drug-targeted kinases. Journal of Medicinal Chemistry, 49, 3092–100.
72. Fernandez, A. (2005) Incomplete protein packing as a selectivity filter in drug
design. Structure, 13, 1829–36.
73. Snyder, K. A., Feldman, H. J., Dumontier, M. et al. (2006) Domain-based small
molecule binding site annotation. BMC Bioinformatics, 7, 152.
74. Feldman, H. J., Snyder, K. A., Ticoll, A. et al. (2006) A complete small molecule
dataset from the protein data bank. FEBS Letters, 580, 1649–53.
75. Bock, J. R. and Gough, D. A. (2005) Virtual screen for ligands of orphan G protein-
coupled receptors. Journal of Chemical Informations and Modeling, 45, 1402–14.
76. Chen, Y. Z. and Zhi, D. G. (2001) Ligand-protein inverse docking and its potential
use in the computer search of protein targets of a small molecule. Proteins, 43,
217–26.
77. Paul, N., Kellenberger, E., Bret, G. et al. (2004) Recovering the true targets of spe-
cific ligands by virtual screening of the protein data bank. Proteins, 54, 671–80.
78. Muller, P., Lena, G., Boilard, E. et al. (2006) In silico guided target identification
of a scaffold-focused library: 1,3,5-triazepan-2,6-diones as novel phospholipase
A2 inhibitors. Journal of Medicinal Chemistry, 49, 6768–78.
79. Ferrara, P., Gohkle, H., Price, D. J. et al. (2004) 3rd assessing scoring functions
for protein-ligand interactions. Journal of Medicinal Chemistry, 47, 3032–47.
80. Deng, Z., Chuaqui, C., and Singh, J. (2004) Structural interaction fingerprint
(SIFt): a novel method for analyzing three-dimensional protein-ligand binding
interactions. Journal of Medicinal Chemistry, 47, 337–44.
81. Marcou, G. and Rognan, D. (2007) Optimizing scaffold docking by use of molecu-
lar interaction fingerprints. Journal of Chemical Information and Modeling,
47, 195–207.
278 Молекулярное моделирование

82. Chuaqui, C., Deng, Z., and Singh, J. (2005) Interaction profiles of protein
kinase-inhibitor complexes and their application to virtual screening. Journal of
Medicinal Chemistry, 48, 121–33.
83. Deng, Z., Chuaqui, C., and Singh, J. (2006) Knowledge-based design of target-fo-
cused libraries using protein-ligand interaction constraints. Journal of Medici-
nal Chemistry, 49, 490–500.
84. Oloff, S., Zhang, S., Sukumar, N. et al. (2006) Chemometric analysis of ligand re-
ceptor complementarity: identifying complementary ligands based on receptor
information (CoLiBRI). Journal of Chemical Information and Modeling, 46,
844–51.
Пример
8
моделирования белков:
ядерный рецептор CAR и его
лигандрецепторные комплексы

8.1. Биохимическое и фармакологическое описание


проблемы
8.1.1. Суперсемейство ядерных рецепторов
Ядерные рецепторы (ЯР) гормонов являются ключевыми элементами
внутриклеточной передачи сигналов у многоклеточных организмов.
У человека обнаружено 48 представителей этого суперсемейства. Реаги-
руя на различные гормональные и метаболические изменения, они вы-
ступают в качестве лиганд-зависимых факторов транскрипции и игра-
ют важнейшую роль в регуляции экспрессии генов. Более того, эти рецеп-
торы связаны также с другими сигнальными каскадами, интегрируют
различные пути передачи сигналов и таким образом вовлечены во мно-
гие физиологические процессы, включая дифференциацию клеток, го-
меостаз и репродукцию [1].
ЯР связываются с соответствующими фрагментами ДНК в виде го-
модимеров (тип 1) или гетеродимеров (тип 2). Для активации генов необ-
ходимы коактиваторы1 и другие белковые факторы, которые присоеди-
няются к связанному с промотором2 ЯР, выступающему в качестве ядра
для сборки большого комплекса нескольких белков [2]. Неактивные ЯР
(не связанные с лигандами) образуют комплексы с корепрессорами3, та-
кими как SMRT (Silencing Mediator for Retinoid and Thyroid Receptors).
Корепрессоры связываются с гистондеацетилазами и белками, участву-
ющими в ремоделинге хроматина, поэтому промотор не инициирует
транскрипцию. Коактиваторы, в частности коактиватор стероидного
рецептора SRC-1 (Steroid Receptor Coactivator), взаимодействуют с ЯР

1
Коактиватор — белок, повышающий экспрессию генов при связывании с активато-
ром, который содержит ДНК-связывающий участок. Сам коактиватор не может связы-
ваться с ДНК.
2
Промотор — участок ДНК, который способствует транскрипции определенного гена.
3
Корепрессор — белок, который уменьшает экспрессию генов, связываясь с транскрип-
ционным фактором, который содержит ДНК-связывающий участок.
280 Молекулярное моделирование

через домен взаимодействия с ядерным рецептором NRID (Nuclear


Receptor Interaction Domain), который представляет собой амфифиль-
ную спираль с консервативной аминокислотной последовательностью
LxxLL. Коактиваторы блокируют область связывания корепрессоров; в
то же время неактивные ЯР связываются с антагонистом и изменяют
структуру NRID, что предотвращает их связывание с коактиватором и
способствует связыванию корепрессора [4].

8.1.2. Молекулярная архитектура и механизмы активации


ядерных рецепторов
ЯР обладают консервативной структурой и выполняют сходные функ-
ции, что позволяет объединить их в одно суперсемейство (рис. 8.1).
В структуре рецептора выделяют четыре отдельных домена: N-концевой
домен A/B, консервативный домен, взаимодействующий с ДНК (ДВД,
область C), домен-линкер D и домен, взаимодействующий с лигандом
(ДВЛ, область E) [5]. Пространственная архитектура ДВД и ДВЛ хоро-
шо известна, поскольку в последние годы были исследованы их крис-
таллические структуры [6–8]. Тем не менее полная структура рецептора
до недавнего времени оставалась неизвестной из-за сложностей, связан-
ных с его кристаллизацией. По рентгеноструктурным данным установ-
лено, что консервативная укладка ДВЛ ядерных рецепторов имеет вид
трехслойной структуры («сэндвича») из 12–14 спиралей и b-листа из
2–5 цепей [9]. Пример структуры ДВЛ a-эстрогенового рецептора (ERa)
представлен на рис. 8.2. Лиганды связываются в преимущественно гид-
рофобной полости между внешними участками a-спиралей. Размер и
форма этой полости у разных представителей семейства значительно
различаются (от 220 C3 для ERR3 до 1300 C3 для PPARg), но все они в
той или иной степени гидрофобны [10]. Помимо области связывания ли-
ганда в ДВЛ выделяют участок лиганд-зависимой активации 2 (AF-2)
в C-концевой спирали H12. Положение и конформация этой спирали за-
висят от связывания с агонистом или антагонистом и отвечают за взаи-
модействие с коактиватором и корепрессором. Связывание агониста вы-
зывает изменение конформации H12, которая закрывает центр связыва-
ния. Это позволяет коактиватору связаться с возникающей гидрофобной
областью, образованной спиралями H3, H4 и H12, через определенные
алифатические аминокислотные остатки. При связывании антагонис-
тов спираль H12 приобретает неупорядоченную конформацию, наруша-
ется центр связывания коактиватора и становится возможным присое-
динение корепрессора (см. рис. 8.2) [11]. Функции некоторых из 48 ЯР

Рис. 8.1. Схематичное изображение архитектуры ЯР


Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 281

Рис. 8.2. Домен ЯР (a-эстрогенового рецептора), взаимодействующий с лиган-


дом. а — Неактивная конформация рецептора со связанным антагонистом
(4-гидрокситамоксифеном, оранжевый). б — Рецептор после связывания агонис-
та (эстрадиола, оранжевый). Область AF-2 (зеленый) сворачивается в a-спираль
и образует центр связывания коактиватора (пурпурный)

пока не известны, как не известны и эндогенные лиганды для них,


поэтому такие ЯР относят к орфанным рецепторам [12].

8.1.3. Конститутивноактивный андростановый рецептор человека


Конститутивно-активный андростановый рецептор (CAR) был открыт в
1994 г. [13]. В отличие от других известных на данный момент ЯР он об-
ладает конститутивной1 базальной2 активностью в экспериментах на
клеточных культурах [14], иными словами, CAR постоянно активен в
нативном состоянии. Рецептор локализован в цитоплазме в комплексе с
дополнительными белками, такими как белок теплового шока массой
90 кДа (HSP90) и белок, удерживающий андростановый рецептор в ци-
топлазме (CAR cytoplasmic retention protein, CCRP) (рис. 8.3). Посколь-
ку ядерный рецептор CAR обладает конститутивной активностью, для
измерения отклика на соединения-активаторы необходимо подавить
лиганд-независимую экспрессию генов. Как правило, классические ЯР
постоянно находятся в ядре, поэтому их агонисты и антагонисты дей-
ствуют, связываясь с рецептором в комплексе с хроматином. Классичес-
кий механизм активации CAR подразумевает непосредственное взаимо-
действие агониста с гидрофобным центром связывания рецептора, что
ведет к перемещению рецептора в ядре и образованию гетеродимера с

1
Конститутивная активность — постоянная активность биологической мишени, ме-
ханизмы которой заложены в самой структуре мишени.
2
Базальная активность — ненулевой уровень активности биологической мишени в
апо-форме.
282 Молекулярное моделирование

Рис. 8.3. Схема сигнальной системы CAR: рецептор CAR локализован в цито-
плазме и образует комплекс с HSP90 и CCRP. Активированный CAR в виде диме-
ра с RXR взаимодействует с ДНК и регулирует экспрессию белков, участвующих
в биотрансформациях, например цитохромов P450 (CYP), глюкуронилтрансфе-
раз (UGT), сульфотрансфераз (SULT), белка множественной лекарственной
устойчивости (MDR)

другим ядерным рецептором (a-рецептором ретиноида X (RXR, retinoid


X receptor)) (рис. 8.3) [15].
CAR принадлежит к подсемейству NR1I суперсемейства ЯР, кото-
рое также включает рецептор витамина D (Vitamin D Receptor, VDR) и
рецептор прегнана X (pregnane X receptor, PXR). Рецептор CAR являет-
ся частью системы метаболической защиты человека. Вместе с родст-
венным рецептором PXR он регулирует экспрессию метаболических
ферментов (например, цитохромов CYP2B и CYP3A) при ксенобиоти-
ческом стрессе [16]. Детальная информация о биохимии CAR хорошо
описана в литературе [15].

8.1.4. Лиганды рецептора CAR


В настоящее время известно лишь несколько лигандов CAR. Опреде-
лить тип активности лиганда (агонист или антагонист) зачастую слож-
но, поскольку в зависимости от используемой для исследований клеточ-
ной культуры некоторые соединения могут выступать в качестве аго-
нистов, антагонистов или обратных агонистов. Изменение схемы
экспрессии коактиваторов ЯР в различных клеточных линиях может
привести к различному ответу ЯР на модуляторы [17]. Например, клот-
римазол является агонистом в клеточной линии HEK293 [18], но в дру-
гой клеточной линии CV-1 проявляет себя как обратный агонист [19].
Помимо стероидных производных существует ряд нестероидных акти-
ваторов CAR, например 6-(4-хлорфенил)-имидазо-[2,1b]-[1,3]-тиазол-
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 283

5-карбальдегид-О-(3,4-дихлорбензил)-оксим (CITCO) или три-(п-метил-


фенил)-фосфат (TMPP) [20].
Для выяснения механизма взаимодействия CAR и его лигандов и
разработки новых активных и селективных лигандов необходимо зна-
ние трехмерной структуры рецептора. Однако в начале выполнения это-
го проекта рентгеноструктурные данные еще не были доступны. По этой
и ряду других причин молекулярные факторы специфичности лигандов
CAR оставались неясными.

8.2. Моделирование рецептора CAR человека


по гомологии
Отметим следующие особенности данного проекта по разработке ле-
карств:
1. В начале выполнения проекта не были доступны кристаллографи-
ческие данные о структуре рецептора, которые могли бы помочь по-
ниманию механизма конститутивной активности CAR. Таким обра-
зом, информацию о структуре можно было получить только путем
моделирования по гомологии. Процедура моделирования была тесно
связана с экспериментальными данными о точечных мутациях, ко-
торые помогли проанализировать механизм активации CAR и прове-
рить надежность модели.
2. Было известно лишь несколько лигандов CAR, поэтому получить де-
тальную картину связи их структуры и активности оказалось невоз-
можно. По своим лигандам рецептор CAR совершенно отличается от
родственных рецепторов PXR и VDR, поэтому построенная модель
CAR должна объяснять особенности связывания лигандов, что явля-
ется важным условием для разработки в будущем новых лигандов
CAR.

8.2.1. Выбор шаблонного белка для моделирования


Выбор подходящей структуры шаблона представляет собой важнейший
этап моделирования по гомологии, поскольку определяет качество по-
строенной модели. Первоначально необходимо определить белки, кото-
рые могут выступать в качестве шаблонов, т. е. обладают достаточной
гомологией аминокислотной последовательности достаточно достовер-
ным набором структурных данных (подробно см. разд. 4.3). В случае
CAR наибольшим подобием аминокислотной последовательности
(40–50% для ДВЛ) обладают родственные ядерные рецепторы VDR и
PXR, структуры которых известны. Чтобы оценить качество моделиро-
вания по гомологии на основе лишь одного шаблонного белка, для каж-
дого из них была построена модель с использованием другого в качестве
шаблона, которая затем сравнивалась с экспериментальными структу-
рами [21–25]. Идентичность последовательностей ДВЛ рецепторов PXR
и VDR составляет 37% и считается достаточной для построения надеж-
ных моделей. Однако этот критерий оценки качества не единственный.
284 Молекулярное моделирование

VDR и PXR несколько отличаются по топологии от других ЯР, так как


содержат дополнительный домен между спиралями H1 и H3. У PXR он
состоит из небольшой спирали и двух b-листов, у VDR — из двух спира-
лей и петли. Дополнительное отличие PXR от обычной топологии ЯР
наблюдается в районе спиралей H6 и H8. После построения моделей по
гомологии они были оптимизированы, чтобы исключить возможные
стерические затруднения, возникшие в ходе моделирования. При нало-
жении моделей VDR и PXR и их экспериментальных структур были об-
наружены существенные различия. Это означает, что использование
только одного шаблона не позволяет построить качественную модель ре-
цептора. Для моделей PXR и VDR также было выполнено моделирова-
ние молекулярной динамики (5 нс), которое выявило значительные от-
клонения структур обеих моделей от их начальных конформаций. Раз-
мер полости связывания лиганда в этих моделях был слишком
маленьким для размещения известных лигандов, поэтому они оказа-
лись бесполезными для проведения докинга или разработки лекарств.
Учитывая это, на следующем шаге модель CAR была построена на
основе двух структур-шаблонов с выбором координат VDR и PXR вруч-
ную. Нас интересовало изучение механизма конститутивной активнос-
ти, поэтому модель рецептора CAR строилась в активированном состоя-
нии с использованием кристаллических структур PXR и VDR в ком-
плексе с агонистами. Множественное выравнивание аминокислотных
последовательностей CAR, VDR и PXR было осуществлено с помощью
известной программы CLUSTALW [26] (рис. 8.4).

Рис. 8.4. Выравнивание аминокислотных последовательностей шаблонных


структур (PXR, VDR) и целевого белка CAR. Вертикальные линии обозначают
отсутствующие сегменты. Остатки в последовательности CAR окрашены в зави-
симости от использованного источника структурной информации (PXR — крас-
ный, VDR — зеленый)
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 285

8.2.2. Моделирование рецептора CAR по гомологии


Модель CAR была построена на основе двух рассмотренных выше шаб-
лонных белков с помощью модуля Homology программного комплекса
INSIGHT II [27]. Для большинства аминокислот использовались коор-
динаты из структуры PXR (рис. 8.4). Чтобы получить общую для ЯР
укладку, координаты для спиралей H6 и H7 были взяты из структуры
VDR (1DB1). Кроме того, координаты из шаблона VDR были использо-
ваны для спиралей H10, H11 и C-концевого фрагмента H12. Последова-
тельность в спиралях H10 и H11 рецептора VDR в гораздо большей сте-
пени совпадает с CAR по сравнению с PXR. Кроме того, считается, что
небольшой размер аминокислот спирали H12 CAR обусловливает мень-
шее расстояние между нею и ДВЛ, чем в случае PXR [28]. Это же спра-
ведливо и для VDR, поэтому координаты спирали H12 были взяты из
VDR. Для участка H1–H3 (29 аминокислот) поиск петель и их модели-
рование de novo не привели к надежной конформации, поэтому укладка
его основной цепи была полностью копирована из структуры рецептора
VDR, что облегчается одинаковым числом аминокислот в соответствую-
щих сегментах двух структур.
Для моделирования координат боковых цепей была использована
программа SCWRL [29]. Предсказать многочисленные конформации бо-
ковых цепей белка (ротамеры) значительно сложнее, чем для основной
цепи гомологичного белка. SCWRL основывается на библиотеке ротаме-
ров, учитывающей особенности основной цепи, и добавляет боковые
цепи к основной цепи белка, стараясь избежать их наложения на основ-
ную или другие боковые цепи. Чтобы непосредственно использовать в
модели конформации боковых цепей консервативных аминокислот из
шаблона, определенные аминокислоты можно исключать из процедуры
подбора конформаций. Предварительно точность работы SCWRL для
ЯР была проверена на имеющихся кристаллических структурах VDR и
PXR. Для обоих рецепторов конформации большинства боковых цепей
были определены правильно. Таким образом, SCWRL можно считать
надежным методом предсказания координат боковых цепей ЯР. Для
улучшения качества модели координаты консервативных аминокислот
были взяты непосредственно из структур шаблонов.
ЯР связываются с коактиватором или корепрессором в строго опре-
деленных эпитопах1, играющих ключевую роль в процессе активации
или деактивации. Для моделирования влияния коактиватора или ко-
репрессора была построена другая модель CAR, включающая фрагмент
коактиватора SRC-1. Координаты для него (аминокислоты 682–696)
были полностью перенесены из кристаллической структуры PXR, свя-
занной с SRC-1 (PDB: 1NRL) [30, 31].

1
Эпитоп — характерный участок взаимодействия в структуре белка или полисахарида с
комплементарной ему структурой (ДНК, антителом и др.).
286 Молекулярное моделирование

8.2.3. Настройка системы


для моделирования молекулярной динамики
Как говорилось в разд. 4.4, построенные по гомологии модели обяза-
тельно требуют уточнения. Конформации боковых цепей и петель в них
представляют собой лишь один из возможных вариантов. Анализ кон-
формационного пространства для определения энергетически выгодной
трехмерной структуры системы обычно выполняется путем моделиро-
вания молекулярной динамики.
Для уточнения отдельных моделей CAR была проведена минимиза-
ция энергии, а затем моделирование молекулярной динамики с помощью
программы GROMACS [32] в силовом поле GROMOS96, разработанном
специально для работы с белками [33]. Для имитации водной среды моде-
ли были помещены в куб с молекулами воды, представленными в виде то-
чечных зарядов [32]. Дальние электростатические взаимодействия учи-
тывались с помощью метода PME (Particle Mesh Ewald) [34]. Одним из
условий его использования для расчета кулоновских взаимодействий яв-
ляется электронейтральное состояние системы, поэтому были добавлены
катионы натрия. Для достижения физиологических условий дополни-
тельно добавляли ионы натрия и хлора, так как было показано, что их
учет в явном виде стабилизирует вторичную структуру белка.
Полученные структуры после минимизации энергии использова-
лись в качестве исходных для моделирования молекулярной динамики.
Для имитации объема растворителя были использованы периодические
граничные условия. Температура системы поддерживалась на уровне
310 K с помощью термостата Берендсена с временем взаимодействия
0,1 пс [35]. Постоянное давление поддерживалось с помощью внешнего
баростата. Длины связей с участием атомов водорода были зафиксиро-
ваны на равновесном уровне с помощью алгоритма Lincs [36]. Для при-
ведения системы в состояние равновесия расчет проводили с уменьшаю-
щимися силовыми ограничениями на атомы основной цепи
(1000–100 кДж/моль), после чего моделировали динамику свободной
системы со временем взаимодействия 2,25 нс. Моделирование проводи-
ли в течение продолжительного времени, чтобы структуры рецепторов
гарантированно достигли равновесного состояния.

8.3. Анализ моделей, полученных в результате


моделирования молекулярной динамики
8.3.1. Флуктуации атомов
В ходе моделирования молекулярной динамики наблюдалась стабиль-
ность общей укладки белковой цепи для обеих моделей (CAR и комплек-
са CAR—SRC-1). Для основной цепи среднеквадратичное отклонение
(rmsd) не превысило 2,5 C (см. рис. 8.5). Небольшая величина отклоне-
ния связана с компактностью архитектуры трехслойного спирального
сэндвича, допускающей лишь небольшие смещения отдельных доме-
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 287

Рис. 8.5. Среднеквадратичное отклонение положения атомов основной цепи


модели CAR (синий) и кристаллической структуры VDR (зеленый) во время мо-
делирования молекулярной динамики

нов. Домен AF-2 принимает активную конформацию и образует «крыш-


ку», закрывающую полость связывания, которая оказалась значитель-
но меньше (630 C3 до и 480 C3 после моделирования), чем у рецептора
PXR (1294 C3). Как и у PXR и VDR, центр связывания лиганда рецепто-
ра CAR состоит в основном из гидрофобных аминокислот с небольшим
количеством полярных остатков.
Анализ стереохимического качества полученных моделей (см.
разд. 4.5) выполняли на основе представительных структур из ансам-
бля, построенного с помощью молекулярной динамики. Для этого полу-
ченные траектории были исследованы с помощью программы
NMRCLUST [37] путем наложения всех структур по основной цепи и
дальнейшей группировки в кластеры со схожей конформацией. Для
каждого кластера выбиралась представительная структура и с помощью
программы PROCHECK проводился ее анализ [38]. При анализе карт
Рамачандрана для моделей рецептора CAR и комплекса CAR-SRC-1
было обнаружено, что соответственно 88,4 и 86,4% углов j и y находят-
ся в благоприятных областях. Эти значения согласуются с оценками ка-
чества, полученными по рентгеноструктурным данным высокого разре-
шения. Тем не менее необходимо помнить, что стереохимические пара-
метры не являются достаточным критерием надежности модели белка.
Очень важно использовать дополнительные методы моделирования и
всю имеющуюся экспериментальную информацию о самой мишени и
родственных ей белках.
288 Молекулярное моделирование

Анализ траекторий молекулярной динамики обеих моделей пока-


зал, что домен AF-2 тесно взаимодействует с ДВЛ в течение всего вре-
мени моделирования. Наложение основных цепей моделей CAR и
CAR—SRC-1 после моделирования приведено на рис. 8.6. Необходимо
отметить, что значительных смещений домена AF-2 не следовало ожи-
дать, учитывая небольшое время моделирования молекулярной дина-
мики (2,5 нс), однако высокая стабильность взаимодействия
ДВЛ—AF-2 хорошо согласуется с имеющимися экспериментальными
данными [39, 40]. Чтобы оценить надежность моделирования молеку-
лярной динамики для CAR, доступные кристаллические структуры PXR
и VDR были подвергнуты той же процедуре. Для их основных цепей на-
блюдались флуктуации атомов, сравнимые с моделью CAR (рис. 8.5).

Рис. 8.6. Наложение представительных структур из полученных по результа-


там моделирования молекулярной динамики ансамблей CAR (серый) и комплек-
са CAR—SRC-1 (оранжевый). Структурные отличия между моделями наблюда-
ются в основном в области петель
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 289

Это служит дополнительным подтверждением верности выбранной


стратегии моделирования по гомологии, а также моделирования моле-
кулярной динамики.

8.3.2. Взаимодействия домена AF2


Следующим этапом является детальный анализ взаимодействия спира-
ли AF-2 с аминокислотами, образующими центр связывания. В обеих
моделях CAR обнаружены значительные взаимодействия между спи-
ралью AF-2 и остатками ДВЛ. Аминокислоты Leu343 и Ile346 спирали
AF-2 тесно взаимодействуют с гидрофобными остатками ДВЛ (Val199,
Tyr326, Ile330; см. рис. 8.7). Чтобы понять причину связывания гидро-
фобных аминокислот AF-2 и остатков ДВЛ, с помощью программы
GRID (подробнее см. разд. 2.5 и 4.6.2) были выявлены центры оптималь-
ного взаимодействия. Для специально построенной модели CAR без
фрагмента AF-2 рассчитывались поля GRID для центра взаимодействия
с AF-2. Области, благоприятные для гидрофобных и ван-дер-ваальсовых
взаимодействий, выявляли с помощью гидрофобного пробного атома
DRY и алифатического пробного атома CH3. Полученные контурные
карты были наложены на структуру модели CAR (рис. 8.7). Для метиль-
ного пробного атома две основных области благоприятного взаимодей-
ствия располагались вблизи контакта ДВЛ—AF-2. Положение и размер
областей на контурных картах идеально соответствуют расположению
гидрофобных остатков Leu343 и Ile346 спирали AF-2. Более подробный
анализ показал, что несколько ароматических аминокислот ДВЛ взаи-
модействуют с остатками AF-2. В частности, остаток Tyr326 находится
очень близко к алифатическим остаткам домена AF-2. Он окружен клас-

Рис. 8.7. а — Аминокислоты, расположенные в области взаимодействия AF-2


и ДВЛ. Спираль AF-2 (H12) показана в виде ленты с аминокислотными остат-
ками; остатки ДВЛ окрашены голубым цветом. б — Благоприятные области
гидрофобного взаимодействия (желтый) для ДВЛ без AF-2 (GRID, пробный
атом CH3, контурный предел –2,5 ккал/моль). Показана поверхность MOLCAD
для ДВЛ, окрашенная в соответствии с глубиной полости
290 Молекулярное моделирование

тером ароматических и гидрофобных остатков (Val199, His203, Phe234,


Phe238, Ile330), фиксирующим координаты его боковой цепи, которая
частично видна на рис. 8.7. Каждое из описанных взаимодействий меж-
ду ДВЛ и AF-2 также наблюдается и в модели CAR—SRC-1, однако к
концу процесса моделирования молекулярной динамики (2,5 нс) спи-
раль AF-2 оказалась расположена ближе к ДВЛ, подобно модели CAR
без SRC-1 (рис. 8.6).
При моделировании по гомологии и проверке его качества очень
важна информация о точечных мутациях, поэтому сначала были изуче-
ны результаты экспериментальных исследований, описанные в литера-
туре. Показано, что замена Leu343 или Ile330 на аланин значительно
уменьшает базальную активность [39]. Это подтверждает наше наблюде-
ние, что Leu343 является единственной аминокислотой AF-2, которая
находится в постоянном взаимодействии с ДВЛ во время моделирова-
ния молекулярной динамики. Ее замена на аланин вызывает нарушение
взаимодействий с Tyr326, а остаточного взаимодействия между Ile346 и
ДВЛ недостаточно, чтобы удержать AF-2 в активной конформации. За-
мена Ile330 на аланин не только уменьшает гидрофобную поверхность и
число потенциальных взаимодействий с Leu343, но также дестабилизи-
рует положение Tyr326, поскольку Ile330 входит в число аминокислот,
ограничивающих подвижность боковой цепи Tyr326, и при такой заме-
не гибкость этой цепи увеличивается.

8.3.3. Структурные основы конститутивной активности


рецептора CAR человека
Домен AF-2, находящийся в C-концевом домене ЯР (в том числе CAR),
является ключевым элементом их активации. Агонисты и антагонис-
ты вызывают конформационные изменения AF-2, что приводит к обра-
зованию комплекса с белками-коактиваторами или корепрессорами.
При связывании агониста домен AF-2, подобно крышке, закрывает по-
лость связывания лиганда. Согласно построенным по гомологии моде-
лям, аминокислоты Leu342, Leu343, Ile346, Cys347 и Ser348 домена
AF-2 вносят вклад в базальную активность CAR благодаря стабилиза-
ции взаимодействий со спиралями H11, H5 и H4. В отличие от других
ЯР рецептор CAR проявляет конститутивную активность. Среди всех
остатков, участвующих в этих взаимодействиях, особую роль играет
Tyr326. Окружающий его кластер гидрофобных и ароматических ами-
нокислот фиксирует боковую цепь, делая возможными ван-дер-вааль-
совы взаимодействия с доменом AF-2 (рис. 8.7). Обнаружено, что нахо-
дящийся рядом остаток Phe238 препятствует повороту боковой цепи
Tyr326 и таким образом блокирует его. Находящиеся над и под плос-
костью боковой цепи Tyr326 аминокислотные остатки Val199, His203,
Phe234 и Ile330 также фиксируют его позицию. Таким образом,
Tyr326 при содействии окружающих аминокислот выступает в качес-
тве центрального партнера взаимодействия для AF-2, тесно связывая
его с ДВЛ. Такая схема взаимодействия уникальна среди ЯР и убеди-
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 291

Рис. 8.8. Результаты направ-


ленного мутагенеза: относитель-
ная активность для свободной
среды (GAL), рецептора CAR ди-
кого типа и мутанта Tyr326Ala
рецептора CAR

тельно объясняет конститутивную активность CAR. Чтобы проверить


эту гипотезу, был экспрессирован и исследован Ala326-мутант CAR че-
ловека. Как и предполагалось, мутантный рецептор утратил базаль-
ную активность (рис. 8.8), но активировался трис-n-метилфенилфос-
фатом (TMPP) и другими активаторами, которые, как было показано,
непосредственно взаимодействуют с доменом AF-2 [41]. На основе этих
данных можно предположить, что ван-дер-ваальсовы взаимодействия
между ДВЛ и AF-2 являются ключевым фактором конститутивной ак-
тивности CAR. Эта гипотеза дополнительно подтверждается анализом
кристаллических структур таких ЯР, как рецептор мыши LRH-1
(Liver Receptor Homolog 1) и рецептор человека ERR-3
(Estrogen-Related Receptor 3) [42]. Оба рецептора конститутивно ак-
тивны и характеризуются стабилизацией спирали AF-2 гидрофобными
остатками ДВЛ, подобно модели CAR. Кроме того, в структурах ком-
плексов PXR и VDR с агонистами наблюдаются ван-дер-ваальсовы вза-
имодействия агонистов с доменом AF-2 [23, 24]. Считается, что они
способствуют взаимодействию AF-2 с ДВЛ и таким образом обеспечи-
вают возможность связывания коактиватора. Модель CAR показыва-
ет, что аминокислотный остаток Tyr326 образует похожие ван-дер-ва-
альсовы контакты с доменом AF-2 и играет для него ту же роль, что
агонисты рецепторов PXR и VDR (рис. 8.9). Исходя из этого мы предпо-
ложили, что конститутивная активность CAR объясняется «молеку-
лярной мимикрией» остатка Tyr326, который имитирует связанную
молекулу агониста. В активных ЯР домен AF-2 принимает конформа-
цию, которая позволяет ему вместе с остатками ДВЛ образовать гидро-
фобную полость для связывания коактиваторов. Домен AF-2 в рецепто-
ре CAR способен образовать такую гидрофобную бороздку даже в отсу-
тствие каких-либо связанных агонистов.
292 Молекулярное моделирование

Рис. 8.9. Молекулярная мимикрия: взаимодействие между спиралью H12 и до-


меном AF-2 (зеленый) и ДВЛ (фиолетовый) для VDR (а), PXR (б) и CAR (в). Ли-
ганды PXR (SR12813) и VDR (витамин D3), а также Tyr326 рецептора CAR пока-
заны коричневым

8.3.4. Связывание коактиватора


Активация ЯР требует связывания с коактиваторами, например SRC-1
в случае CAR. Экспериментальные данные показывают, что ЯР облада-
ют специфическими фрагментами связывания коактиваторов [43], ко-
торые, видимо, существенны для их функционирования. Таким обра-
зом, описание взаимодействия между ДВЛ и коактиватором является
необходимым критерием надежности модели, построенной по гомоло-
гии. В известных кристаллических структурах ЯР домен, взаимодейст-
вующий с коактиватором, представлен a-спиралью с консервативным
участком LxxLL. Он взаимодействует с остатками, расположенными в
гидрофобной полости рядом с доменом AF-2. Детальный анализ модели
CAR—SRC-1 показал, что эта гидрофобная бороздка образована 11 ами-
нокислотными остатками. Известно, что участвующая во взаимодейст-
вии спираль белка SRC-1 представляет собой электрический диполь, ко-
торый стабилизирован двумя консервативными аминокислотными
остатками, взаимодействующими с ее N- и С-концевыми аминокислота-
ми и образующими так называемый «зарядовый зажим». Такой консер-
вативный мотив присутствует и в модели комплекса CAR—SRC-1, где в
качестве остатков «зажима» выступают Lys177 (H3) и Glu345 (AF-2)
(рис. 8.10). Остаток Lys177 образует водородную связь с карбонильной
группой основной цепи SRC-1, тогда как Glu345 взаимодействует с
амидными группами основной цепи Ile689 и Leu690. Чтобы проанализи-
ровать стабильность комплекса рецептор—коактиватор, мы провели
моделирование молекулярной динамики комплекса CAR—SRC-1 по ме-
тодике, описанной в разд. 8.2.3. Пептид SRC-1, имитирующий коакти-
ватор, оставался стабильно связанным на протяжении всего времени
моделирования (5 нс). Все водородные связи, обнаруженные в модели по
гомологии, присутствовали и после моделирования молекулярной ди-
намики, что указывает на высокую стабильность комплекса SRC-1 и ак-
тивного CAR. Таким образом, построенная по гомологии модель позво-
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 293

Рис. 8.10. Взаимодействие между ДВЛ и SRC-1: а — Ряд аминокислот из спира-


лей H3, H3¢, H4 и AF-2 (атомы углерода оранжевого цвета) образует гидрофобную
бороздку, с которой связывается SRC-1 (голубой). Остатки лейцина мотива
LxxLL показаны в явном виде. б — Связывание SRC-1 с ДВЛ фиксирует остаток
Leu342 домена AF-2 (зеленый) в гидрофобной полости, образованной аминокис-
лотами ДВЛ (оранжевый) и SRC-1 (голубой). в — Спиральный диполь SRC-1 ста-
билизирован аминокислотами Lys177 (H3) и Glu345 (AF-2), которые расположе-
ны на ДВЛ и образуют «зарядовый зажим». Lys177 образует водородную связь с
карбонильной группой Leu693 основной цепи, тогда как Glu345 взаимодействует
с атомами азота Ile689 и Leu690 основной цепи

ляет объяснить структурные механизмы сильного связывания SRC-1 с


активной формой CAR.
В заключение следует подчеркнуть, что автоматическое моделиро-
вание по гомологии с использованием одного шаблонного белка дает не-
приемлемые модели рецептора, в то время как модель, построенная
вручную на основе двух шаблонов, более надежна и лучше соответствует
известным биохимическим данным.
294 Молекулярное моделирование

8.4. Анализ мутантных вариантов рецептора CAR


8.4.1. Определение аминокислот, значимых для активации
рецептора CAR
Опираясь на модели CAR и результаты моделирования молекулярной
динамики, необходимо исследовать молекулярные факторы специфич-
ности лигандов, а также роль аминокислотных остатков центра связы-
вания. Чтобы определить важнейшие аминокислоты для анализа мута-
ций, в построенной по гомологии модели CAR—SRC-1 были найдены
остатки, образующие полость связывания и поверхность контакта со
спиралью AF-2. Таким образом были выбраны 22 аминокислоты, для
которых проведены эксперименты по мутациям с заменой на аланин.
Активность и специфичность лигандов была измерена для полученных
мутантных рецепторов, экспрессированных в клеточных линиях жи-
вотных. Дополнительно методом дрожжевой двухгибридной системы
было изучено влияние мутаций на взаимодействие ДВЛ и SRC-1 (детали
метода описаны в литературе) [41].
Базальную активность 22 мутантов CAR проанализировали и срав-
нили с активностью рецептора. Построенная модель комплекса
CAR—SRC-1 показывает, что даже без связанного лиганда спираль H12
(AF-2) принимает активированную конформацию благодаря гидрофоб-
ным взаимодействиям Leu343 и Ile346 AF-2 с остатками Val199, Tyr326
и Ile330 ДВЛ. Обнаружена также водородная связь между Asn165 и
Tyr326, которая стабилизирует ароматическую боковую цепь тирозина.
Решающий вклад остатков Asn165, Val199, Tyr326, Ile330 и Leu343 в ба-
зальную активность подтверждается существенным понижением актив-
ности и ухудшением взаимодействия с SRC-1 при их замене на аланин
(см. рис. 8.11 и 8.12).
Интересно, что для 16 мутантов базальная активность (белые полосы
на рис. 8.11) понизилась более чем на 90% по сравнению с нативным ре-
цептором. Таким образом, при замене на аланин ароматических (Phe161,
Phe234, Phe238, Tyr326) или гидрофобных (Cys202, Ile164, Met168,
Ile330, Ile333, Met339) аминокислотных остатков, боковые цепи кото-
рых выходят в полость связывания, освобождается пространство полос-
ти связывания и меняется положение окружающих остатков. В больши-
нстве случаев эта реорганизация понижает базальную активность, так
как влияет на важный остаток Tyr326, положение которого критично
для стабилизации спирали H12 в активной конформации. Три мутанта
Phe129Ala, Phe217Ala и Tyr224Ala также имеют низкую базальную ак-
тивность, не активируются в клетках млекопитающих и не дают откли-
ка на SRC-1 в отличие от 19 других мутантов CAR. Остатки Phe217 и
Tyr224 образуют «стенку» в лиганд-связывающем центре (рис. 8.12), и
их замена на аланин скорее всего нарушает локальную укладку белковой
цепи. Оставшиеся шесть мутантов His203Ala, Leu206Ala, Thr209Ala,
Leu242Ala, Phe243Ala и Gln329Ala сохраняют 30–80% активности ди-
кого типа. Эти остатки находятся в верхней и задней части полости свя-
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 295

Рис. 8.11. Направленный мутагенез CAR человека. Приведенные значения


активности были измерены в клетках HEK293 для активаторов и нормированы
на базальную активность CAR
296 Молекулярное моделирование

Рис. 8.12. Аминокислоты ДВЛ, для которых была проведена замена на аланин,
окрашены светлым цветом, остальные темным. Показана водородная связь меж-
ду Asn165 и Tyr326. а — Полость связывания, вид сбоку. б — Изображение по-
вернуто на 90°

зывания (рис. 8.12) вдалеке от центральной аминокислоты Tyr326. Та-


ким образом, чем дальше аминокислота от Tyr326, тем меньше ее влия-
ние на базальную активность CAR.
После обобщения всех экспериментальных данных и визуального
анализа модели было выявлено сильное взаимодействие между спира-
лями H11 и H12, которое может являться основной силой, удерживаю-
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 297

щей CAR в активном состоянии. Это подтверждается тем, что замена


каждого из перечисленных выше остатков на аланин значительно пони-
жает базальную активность рецептора. Таким образом мы смогли объяс-
нить профиль активирования всех мутированных рецепторов на струк-
турном уровне.

8.4.2. Молекулярная динамика отдельных мутантных вариантов


рецептора CAR
Для проверки соответствия экспериментальных и теоретических дан-
ных для нескольких мутантных рецепторов было проведено моделиро-
вание и анализ молекулярной динамики. Это занимает больше времени,
чем простой визуальный анализ, поэтому мы сконцентрировали внима-
ние только на мутантах остатков, которые непосредственно не контак-
тируют с доменом AF-2. Для большинства мутантов CAR простой визу-
альный анализ модели, построенной по гомологии, четко показывает
причину, по которой конститутивная активность резко снижается (на-
пример, для аминокислот, участвующих во взаимодействии между ДВЛ
и доменом AF-2) или остается практически неизменной (аминокислоты
в верхней и задней части полости связывания, вдали от Tyr326).
Мы исследовали два мутанта (Phe234Ala и Phe238Ala), где изменен-
ный остаток является частью ДВЛ [44]. Моделирование молекулярной
динамики выполнялось в тех же условиях, что и для других моделей
CAR. Мутация Phe238Ala вызвала поворот боковой цепи Tyr326, вслед-
ствие чего последняя сместилась вглубь центра связывания (рис. 8.13) и
было нарушено взаимодействие Tyr326 с Leu343 и Ile346. Водородная
связь между Asn165 и Tyr326 также была потеряна. Мутация
Phe234Ala вызвала смещение спирали H7 по направлению к b-листу бо-

Рис. 8.13. а — Замена Phe234 на аланин (желтый) привела к изменению ориен-


тации боковых цепей некоторых аминокислот CAR. Смещение H10/11 вызвало
перемещение Tyr326 внутрь полости связывания (рецептор с мутацией окрашен
пурпурным цветом). б — Мутация Phe238Ala (желтый): при моделировании мо-
лекулярной динамики Tyr326 изменил конформацию и теперь ориентирован
внутрь полости связывания (рецептор с мутацией окрашен в пурпурный цвет).
Контакт между Tyr326 и доменом AF-2 потерян
298 Молекулярное моделирование

лее чем на 3 C, и в результате спирали H10/11 переместились в том же


направлении. Эти смещения привели к значительному изменению ори-
ентации ряда аминокислотных остатков центра связывания (рис. 8.13).
Так, Tyr326 сильнее выдвинулся внутрь полости связывания, и взаимо-
действие с AF-2 было частично потеряно. Кроме того, изменилась кон-
формация Phe238, и он перестал оказывать стабилизирующее действие
на Tyr326.
На активность CAR влияют также аминокислотные остатки, распо-
ложенные в отдалении от области контакта ДВЛ—AF-2. Мутация
Phe234Ala вызвала изменения общей формы лиганд-связывающей по-
лости, что привело к смещению спиралей H10/11 и последующему из-
менению ориентации Tyr326 (рис. 8.13). Таким образом, наблюдаемую
экспериментально потерю базальной активности для этих двух мутан-
тов можно объяснить отсутствием стабилизирующих взаимодействий
между Tyr326 и доменом AF-2.

8.5. Моделирование комплексов рецептора CAR


с лигандами
Для анализа дальнейшей активации рецептора CAR при связывании
агониста был проведен молекулярный докинг в построенную по гомоло-
гии модель рецептора. Для этого были выбраны структура комплекса
CAR—SRC-1 (разд. 8.2.1) и программа докинга GOLD (см. разд. 5.2.2),
основанная на генетическом алгоритме поиска. В качестве оценочной
функции использовалась встроенная функция GoldScore; для каждого
лиганда генерировали 30 различных связанных конформаций. Перво-
начально были изучены два известных активатора CAR — клотримазол
и TMPP. Анализ ЯР любыми программами докинга вызывает сложности
вследствие того, что полость связывания в основном гидрофобна и со-
держит лишь несколько полярных аминокислот, способных к направ-
ленным взаимодействиям. Полученные в результате докинга ориента-
ции лигандов были проанализированы визуально, а также сгруппирова-
ны в кластеры сходных конформаций на основании значений rmsd. Для
каждого активатора идентифицированы два кластера, незначительно
отличающиеся друг от друга. Было обнаружено, что клотримазол свя-
зывается глубоко внутри полости связывания (рис. 8.14). Интересно,
что прямые взаимодействия между AF-2 и клотримазолом отсутствуют:
ароматические фрагменты лиганда взаимодействуют в основном с аро-
матическими остатками центра связывания (Phe112, Phe161, Phe234 и
Tyr326). Чтобы оценить, являются ли лиганд-рецепторные комплексы
энергетически возможными, для двух комплексов CAR с активаторами
было проведено моделирование молекулярной динамики. Во время мо-
делирования (2,5 нс) конформация клотримазола почти не изменилась
(rmsd<1,5 C), только остаток Phe161 незначительно выдвинулся к об-
ласти контакта между ДВЛ и AF-2, вступая в ван-дер-ваальсово взаимо-
действие с Met339 из домена AF-2.
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 299

Рис. 8.14. Связывание активаторов с рецептором CAR. а — Клотримазол


(атомы углерода серые) связывается в глубине ДВЛ и не взаимодействует со
спиралью AF-2 (оранжевый). Наблюдаются взаимодействия в основном с аро-
матическими аминокислотами (Phe112, Phe161, Phe234 и Tyr326). б — TMPP
(атомы углерода серые) расположен близко к области взаимодействия ДВЛ с
AF-2, вступая в ван-дер-ваальсово взаимодействие с Leu343 и Ile346 домена
AF-2. Дополнительно образуются водородные связи с остатками Asn165 и
Tyr326
300 Молекулярное моделирование

Связывание TMPP—трис-п-метилфенилфосфата — относится к дру-


гому типу (рис. 8.14); по сравнению с клотримазолом он связывается го-
раздо ближе к области взаимодействия ДВЛ и AF-2. Одна из метилфе-
нильных групп непосредственно взаимодействует с остатками Leu343 и
Ile346 из домена AF-2. Две оставшиеся метилфенильные группы на-
правлены внутрь лиганд-связывающей полости, взаимодействуя с
Phe161 и смещая его вглубь активного центра. В результате расстояние
до Met339 увеличивается по сравнению с апо-формой рецептора, также
наблюдаются дополнительные ван-дер-ваальсовы контакты между ме-
тилфенильными группами и двумя ароматическими остатками Phe234
и Tyr326. Фосфатная группа образует водородные связи с Asn165 и
Tyr326, которые остаются стабильными во время моделирования моле-
кулярной динамики. Как и для клотримазола, во время моделирования
молекулярной динамики комплекса TMPP расстояние между Tyr326 и
Leu343 (AF-2) уменьшилось.
Таким образом, оба изученных агониста взаимодействуют с амино-
кислотами, окружающими Tyr326, что приводит к стабилизации поло-
жения его боковой цепи; по сравнению с рецептором без лиганда, во вре-
мя моделирования молекулярной динамики уменьшается также рассто-
яние между Tyr326 и Leu343 домена AF-2. Мы предполагаем, что
стабилизация взаимодействия ДВЛ с AF-2 облегчает связывание SRC-1.
Хотя предложенные схемы связывания клотримазола и TMPP сильно
различаются, оба лиганда вызывают сходные структурные изменения в
области взаимодействия ДВЛ с AF-2-доменом.
Функция CAR как «сенсора ксенобиотиков» требует распознавания
разнообразных лигандов, поэтому способность центра связывания под-
страиваться под разные лиганды очень важна. При связывании лиганда
полость активного центра может увеличиться на 80%. Такое же значи-

Рис. 8.15. Влияние активаторов на мутантные варианты CAR человека. TMPP


(фиолетовый) способен активировать мутанты Tyr326Ala и Phe234Ala, так как
он напрямую взаимодействует со спиралью AF-2
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 301

тельное увеличение было показано и для родственной структуры ком-


плекса PXR с гиперфорином [23–25]. Во время моделирования молеку-
лярной динамики были обнаружены два участка CAR, ответственные за
гибкость активного центра при связывании лигандов. В отличие от PXR
структурная адаптация затрагивает внутренние участки b-листа и ами-
нокислоты, расположенные в области взаимодействия ДВЛ и AF-2. Та-
ким образом, более узкий спектр лигандов CAR по сравнению с PXR
можно объяснить значительно меньшим размером лиганд-связываю-
щей полости и ограниченной гибкостью окружающих ее областей.

8.6. Кристаллическая структура рецептора CAR


8.6.1. Насколько точна построенная модель рецептора CAR?
При работе с моделями, построенными по гомологии, часто возникают
вопросы: насколько надежна теоретическая модель, можно ли исполь-
зовать ее для разработки лекарств? К счастью, во время выполнения
данной работы были опубликованы кристаллические структуры CAR
человека (PDB: 1XV9, 1XVP) и мыши (PDB: 1XLS, 1XNX) в комплексе с
двумя агонистами [45, 46]. Доступные данные о пространственной
структуре CAR человека позволили оценить качество наших моделей и
предложенный механизм активации рецептора.
Чтобы понять, насколько построенная модель соответствует крис-
таллической структуре, мы наложили друга на друга основные цепи
двух структур белка [47] (рис. 8.16). Общее расположение спиралей и
петель в модели прекрасно согласуется с экспериментально полученной
структурой, однако у модели в спиралях H3 и H10/11 есть дополнитель-
ный виток. Наиболее значительное отличие наблюдалось в области, сое-
диняющей H2 и H3. В кристаллических структурах имеется дополни-
тельная спираль (H2¢), тогда как в модели CAR имеется гибкая петля.
Было обнаружено также, что ориентация петли H2–H3 в модели отли-
чается от ориентации в экспериментальной структуре.
Точность модели оценивали путем вычисления значений rmsd меж-
ду наложенными моделями и кристаллическими структурами. Оказа-
лось, что значения rmsd атомов основных цепей составляют 3,4–3,8 C
(для отдельных цепей кристаллической структуры), что является при-
знаком недостаточно высокого качества моделей. Тем не менее при визу-
альном анализе выявляется хорошее общее соответствие вторичных
структурных элементов модели и экспериментально полученной струк-
туры. Фактически высокие значения rmsd возникают вследствие боль-
ших отклонений в области H2–H3. Если исключить этот участок (ами-
нокислоты 139–153), то rmsd падает до 1,8 C. Так как петля H2¢–H3 рас-
положена на поверхности белка и ее остатки не участвуют в
формировании центра связывания или области димеризации рецептора,
можно считать, что ошибочность прогноза для этой области не оказыва-
ет значительного влияния на общую надежность модели CAR. Это так-
же подтверждается родственной структурой VDR: она содержит значи-
302 Молекулярное моделирование

тельно больший участок H2–H3, который также не влияет на основные


функции рецептора [48].
В ходе дальнейшего анализа качества модели CAR мы сравнили в
модели и экспериментальной структуре ориентации боковых цепей
аминокислот, образующих полость связывания. Для этого были отобра-
ны 29 аминокислот, составляющих доступную поверхность лиганд-свя-
зывающего центра. После наложения модели CAR и кристаллической
структуры были рассчитаны значения rmsd для всех тяжелых атомов,
которые составили 1,5–1,9 C в зависимости от использованного мономе-
ра экспериментальной структуры. На рис. 8.16 показано наложение
центров связывания модели и кристаллической структуры (1XVP), ил-
люстрирующее высокое качество модели CAR. Для сравнения, значе-
ния для отдельных цепей кристаллической структуры CAR rmsd состав-
ляют 0,4–0,68 C.
Полученные результаты позволяют сделать вывод, что модель CAR,
построенная на основе одного шаблонного белка (например, PXR), при-
вела к неприемлемой архитектуре модели рецептора из-за отклонений
структуры PXR от обычной топологии ЯР. Модели на основе двух шаб-
лонных белков, где для моделирования проблемных участков использо-
валась структура VDR, дали значительно более надежные результаты.
Дополнительной важной особенностью модели CAR является высокая
точность предсказания ориентации боковых цепей остатков, образую-
щих полость связывания. Последнее особенно важно, если построенные
модели необходимо использовать для докинга или конструирования ле-

Рис. 8.16. а — наложение основных цепей кристаллической структуры ком-


плекса CAR—SRC-1 (1XVP, фиолетовый) и модели комплекса CAR—SRC-1 по
гомологии (зеленый) (a-спирали представлены в виде цилиндров, b-листы —
стрелок, неупорядоченные петли — трубок). б — сравнение ориентаций боковых
цепей аминокислот лиганд-связывающего центра (цветовая схема та же)
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 303

карств на основе структуры мишени, где крайне важна достоверная мо-


дель активного центра.

8.6.2. Молекулярный докинг с использованием


кристаллической структуры CAR
В дополнение к проведенному ранее докингу клотримазола и TMPP мы
решили проверить, способна ли программа докинга правильно воспро-
извести способ связывания двух агонистов CITCO и 5b-прегнандиона,
для которых известна кристаллическая структура комплекса. Конфор-
мации, полученные по результатам докинга (с условиями, описанными
в разд. 8.5), оказались близки к экспериментальным (rmsd равно 1,48 C
для CITCO и 0,65 C для 5b-прегнандиона). Ориентация CITCO в модели
по гомологии была практически идентична ориентации в кристалличес-
кой структуре, rmsd составило 1,97 C (рис. 8.17, а).
В то же время с помощью модели CAR не удается воспроизвести экс-
периментально полученные координаты 5b-прегнандиона (rmsd 4,0 C).
Причина состоит в том, что ориентация боковой цепи Tyr224 в модели
по гомологии отличается от ориентации в кристаллической структуре;
конформация, наблюдаемая в модели, мешает правильному расположе-
нию лиганда. Для анализа возможных изменений конформации Tyr224
в присутствии 5b-прегнандиона было проведено моделирование молеку-
лярной динамики (2,25 нс) модели CAR в комплексе с лигандом, ориен-
тированным согласно результатам докинга. В ходе моделирования про-
изошло смещение боковой цепи Tyr224, и молекула 5b-прегнандиона
приобрела ориентацию, близкую к таковой в кристаллической структу-
ре (rmsd 2,0 C) (рис. 8.17, б). Изменение конформаций боковых цепей
при связывании с лигандом также наблюдалось при моделировании мо-
лекулярной динамики моделей комплексов CAR с клотримазолом или
TMPP. Было обнаружено, что две аминокислоты ДВЛ, Phe161 и Tyr224,
являются чрезвычайно подвижными и в ходе моделирования принима-
ют различные конформации. Можно предположить, что такая конфор-

Рис. 8.17. Сравнение связанных конформаций CITCO (а) и 5b-прегнандиона (б)


по результатам докинга и рентгеноструктурным данным. Атомы углерода крис-
таллических структур окрашены белым, а конформации докинга — розовым.
Спираль H12 (AF-2) показана в виде зеленой ленты
304 Молекулярное моделирование

мационная гибкость боковых цепей позволяет рецептору CAR связы-


ваться с самыми разнообразными лигандами.

8.6.3. Еще раз о конститутивной активности


На основе кристаллических структур CAR была выдвинута гипотеза о
конститутивной активности [45], согласно которой базальная актив-
ность CAR обусловлена тремя структурными особенностями (рис. 8.18).
Первая особенность — гидрофобный барьер, образованный остатками
Phe161, Asn165, Phe234 и Tyr326, которые взаимодействуют со спи-
ралью H12 и удерживают ее в активированном состоянии. Вторая осо-
бенность — небольшой размер спирали H12 (С-концевого домена) по
сравнению с другими ЯР. Предполагается, что это способствует образо-
ванию солевого мостика между Lys195 в спирали 5 и свободной карбок-
сильной группой C-концевого домена, что дополнительно стабилизиру-
ет положение активированной H12. Третья особенность — дополнитель-
ная спираль («спираль X»), находящаяся между спиралями H11 и H12,
которая способствует переориентации H12 в активированное положе-
ние и ее взаимодействию с гидрофобным участком.
Рассмотрим сначала, как эта схема базальной активности согласу-
ется с моделью по гомологии, а также оценим предполагаемые в ней
структурные особенности, используя результаты моделирования моле-
кулярной динамики для кристаллических структур CAR. Гидрофобный
барьер наблюдается в модели и включает Tyr326 как центральный эле-
мент. Были показаны также ван-дер-ваальсовы взаимодействия между

Рис. 8.18. Структурные особенности экспериментальной структуры CAR, от-


ветственные за конститутивную активность: а — гидрофобный барьер (голу-
бой), б — «спираль X» (зеленый), и в — «зарядовый зажим» (красный). Спи-
раль AF-2 показана в виде зеленой ленты
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 305

ДВЛ и спиралью H12, включающие аминокислотные остатки Val199,


Ile330 и Ile346. Более того, остатки, способствующие взаимодействию
ДВЛ с H12, присутствуют как в кристаллических структурах, так и в
моделях этих рецепторов. Таким образом, постулируемый авторами ги-
потезы гидрофобный барьер согласуется с выводом из моделирования
структуры CAR, что ароматические и гидрофобные остатки, в особен-
ности Tyr326, обеспечивают взаимодействие со спиралью AF-2. Для
большинства этих остатков влияние на конститутивную активность
подтверждено направленным мутагенезом [39, 41].
Солевой мостик между Lys195 и Ser348, наблюдаемый в кристалли-
ческой структуре CAR, в модели рецептора отсутствовал (рис. 8.18).
Вместо этого образовалась водородная связь между Lys195 и His687 в
пептиде SRC-1, в то время как аминокислота Ser348 C-концевого домена
взаимодействовала с Gln331 спирали H11. Важность Gln331 для консти-
тутивной активности была показана направленным мутагенезом [41].
Замена Gln331 на аланин приводит к понижению базальной активности
на 70%. Чтобы уточнить стабильность солевого мостика, было проведе-
но моделирование молекулярной динамики (5,25 нс) для кристалличес-
кой структуры комплекса CAR—SRC-1, и оказалось, что солевой мос-
тик между Lys195 и С-концом (Ser348) нестабилен. График изменения
расстояний во времени ясно показывает, что взаимодействие между эти-
ми аминокислотами теряется довольно рано. Вместо этого, как и в моде-
ли CAR—SRC-1 по гомологии, Lys195 образует водородную связь с
остатком His687 пептида SRC-1 (рис. 8.10, в). Эти наблюдения и данные
направленного мутагенеза подтверждают гипотезу, что солевой мостик
между Lys195 и Ser348 является артефактом процедуры кристаллиза-
ции и не вносит существенного вклада в конститутивную активность
CAR.
Кристаллы CAR получены только для комплексов с агонистами, но
не для свободной формы рецептора, поэтому неясно, является ли так на-
зываемая «спираль X» важной для базальной активности или образует-
ся только при связывании с агонистами. Тем не менее анализ ряда дру-
гих кристаллических структур ЯР показал, что мотив «спирали X»
встречается и в других рецепторах. В общей сложности в PDB найдено
26 кристаллических структур со схожим фрагментом (табл. 8.1). Нап-
ример, для рецептора VDR, который не обладает базальной активнос-

Таблица 8.1. Структурный мотив «спираль X» в кристаллических структурах


ЯР (приведены коды PDB)

CAR VDR ТРa/b ГР RORa/b


1XV9, 1DB1 , 1IE8, 1N46, 1NAV, 1M2Z, 1K4W,
1XVP, 1IE9, 1RJK, 1NAX, 1NQO, 1P93 1N4H,
1XLS 1RK3, 1RKG, 1NQ2, 1RGG, 1N83,1NQ7,
1RKH, 1S19, 1YOX 1SOX
1TXI
306 Молекулярное моделирование

тью, все кристаллические комплексы с агонистами включают «спираль


Х». То же самое наблюдается и для рецепторов ROR a и b (Retinoid acid-
related Orphan Receptor, рис. 8.19). Еще один важный факт: тироидный
рецептор (ТR) отличается заметной вариабельностью области H11–H12,
и среди 13 исследованных структур 7 имели элемент, похожий на спи-
раль X, а у 6 структур он отсутствовал. Другой пример — присутствие
«спирали X» в глюкокортикоидном рецепторе (ГР, PDB: 1P93). Инте-
ресно, что в его комплексе с дексаметазоном у двух из четырех мономе-
ров кристаллической структуры «спираль X» присутствовала, а у двух
других — нет!
Таким образом, эти наблюдения подтверждают правомерность воп-
роса о том, может ли наличие спирали из одного витка («спирали Х»)
служить объяснением базальной активности CAR. В соответствии с об-
щепринятыми для ЯР обозначениями мы полагаем, что «спираль X»
скорее следует называть спиралью 11¢, как ранее было предложено в
случае RORb.
Важным результатом анализа кристаллических структур CAR и
других структур ЯР является подтверждение структурной гипотезы
конститутивной базальной активности, которую мы сформулировали
на основе модели CAR. К тому же анализ доступных кристаллических
структур ЯР показал, что «спираль Х» и аналогичные элементы встре-
чаются и в рецепторах без конститутивной активности. Имеющиеся
структурные данные не подтверждают существенную роль «спирали Х»
в проявлении базальной активности CAR. Тем не менее кристалличес-
кая структура CAR без лиганда пока не получена, поэтому для ответа на

Рис 8.19. «Спираль X» в ЯР. Помимо CAR (показана структура 1XVP), этот
спиральный элемент содержат все имеющиеся на сегодня кристаллические
структуры VDR (показана структура 1DB1). «Спираль X» окрашена зеленым, ви-
тамин D — фиолетовым. Некоторые рецепторы тироидных гормонов (ТR a и b)
также содержат мотив «спираль X» (показана структура 1N46 в комплексе с ти-
роидоподобным веществом), как и рецепторы ROR a и b (показан RORb в ком-
плексе со стеаратом, PDB 1K4W)
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 307

вопрос, является ли спираль 11¢ («спираль X») постоянным элементом


структуры или, как предсказано нами, образуется при связывании с
агонистом, должны дать дальнейшие исследования.

8.7. Виртуальный скрининг новых активаторов CAR


Активаторы CAR рассматриваются как потенциальные лекарства для
лечения холестаза и желтухи новорожденных. В настоящее время из-
вестно лишь несколько похожих на лекарства нестероидных активато-
ров CAR (например, CITCO), некоторые из них уже используются или
обсуждается их потенциальное использование для лечения этих забо-
леваний [49]. Чтобы найти новые активаторы CAR человека, принад-
лежащие к другим структурным классам и пригодные для разработки
лекарств или фармакологических инструментов1, мы решили исполь-
зовать виртуальный скрининг на основе модели CAR и его кристал-
лической структуры. На известных кристаллических структурах ЯР
было протестировано несколько программ докинга с различными пара-
метрами, чтобы оценить точность докинга и обогащение полученных ре-
зультатов истинными лигандами. Такой ретроспективный анализ по
близким мишеням дает объективную оценку возможных результатов
виртуального скрининга (см. разд. 5.5). Высокая точность докинга и
уровень обогащения для исследуемых ЯР были получены при использо-
вании программы GOLD с модифицированной оценочной функцией
GoldScore.
Для виртуального скрининга была использована база данных
LeadQuest2, содержащая около 85 000 соединений. Из нее были исклю-
чены молекулы, нарушающие правила Липински, а также производные
стероидов. Далее с помощью модуля UNITY программы SYBYL был про-
веден поиск соединений, удовлетворяющих 3D-запросу, состоящему из
поверхности Коннолли полости связывания и двух гидрофобных учас-
тков (рис. 8.20). Допустимое отклонение для полости составляло 0,5 C.
Гидрофобные участки с допустимым отклонением 1,0 C были выбраны с
учетом ван-дер-ваальсовых взаимодействий между моделью CAR и ли-
гандами — клотримазолом и TMPP, а также благоприятных для липо-
фильного взаимодействия участков полости связывания, определенных
по рассчитанному липофильному потенциалу. В общей сложности пара-
метрам пространственного запроса удовлетворяли 9700 соединений
(около 11% всей базы данных).
Далее для найденных соединений проводился молекулярный до-
кинг с помощью программы GOLD (см. разд. 5.2.2) и оценочной функ-
ции GoldScore. Чтобы учесть влияние молекулярной массы лигандов
ЯР, значение функции делилось на квадратный корень из числа тяже-

1
Фармакологический инструмент — вещество, используемое для исследования функ-
ций биологической мишени, не имеющее перспектив применения в качестве лека-
рственного средства.
2
Tripos Inc., St. Louis, USA (прим. авт).
308 Молекулярное моделирование

Рис. 8.20. Поиск с помощью модуля UNITY. а — Расположение заданного


объема полости (желтый) и двух гидрофобных участков (синие сферы) опреде-
ляется с учетом результатов докинга клотримазола (пурпурный) и TMPP (зеле-
ный). б — Конформация активного (голубой) и неактивного (пурпурный) соеди-
нения внутри полости связывания

лых атомов. Докинг для 9700 молекул был проведен в активные центры
модели и кристаллической структуры CAR. Соединения, имеющие луч-
шие оценки в обоих случаях, анализировали визуально и сравнивали с
результатами докинга известных активаторов. Таким образом, для
дальнейшего экспериментального исследования было отобрано 66 сое-
динений, из которых 30 удалось приобрести у поставщиков. Соединение

Рис. 8.21. Активаторы рецептора CAR. Показано относительное увеличение


активности рецептора под действием указанных агонистов. Представлены дан-
ные для 17 хитов виртуального скрининга, обеспечивающих по крайней мере
двукратную активацию CAR. Соединения, обеспечивающие активацию в 5 и бо-
лее раз, выделены темно-серым цветом. Базальная активность CAR показана в
виде светло-серого столбца. Данные усреднены по результатам трех независи-
мых экспериментов (± rmsd)
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 309

Рис. 8.22. Взаимодействие


самого активного производного
сульфонамида (голубой) с ами-
нокислотными остатками цен-
тра связывания. Поля благо-
приятного взаимодействия
GRID для ароматического проб-
ного атома (желтая контурная
карта, энергетический предел
–2,5 ккал/моль) хорошо согла-
суются с расположением гидро-
фобных участков лиганда по
результатам докинга

считалось агонистом, если величина активности рецептора CAR для


него в выбранной биологической тест-системе по крайней мере на 100%
превышала базальную активность. Согласно этому критерию было най-
дено 17 агонистов CAR, что соответствует успешности 57% (рис. 8.21).
Большинство найденных соединений увеличивает активность рецепто-
ра на 100–300% от базальной активности, а для трех соединений дости-
гается активация в 5–8 раз. Соединения можно разделить на три хими-
ческих класса: N-замещенные и N,N-дизамещенные сульфонамиды, а
также производные тиазолидин-4-она, которые представляют собой аб-
солютно новые классы активаторов CAR. Способ связывания для них
отличается от ориентации известных активаторов, но согласуется с рас-
считанными полями GRID. Пример результатов докинга одного из вы-
сокоактивных сульфонамидов показан на рис. 8.22. Детальный анализ
результатов докинга выходит за рамки этой книги.

8.8. Заключение
Хотя все понимают, что модели не совсем точно отражают реальность, а
их предсказательная способность часто завышается, рассмотренный
здесь процесс моделирования CAR позволяет сделать два общезначи-
мых вывода.
Во-первых, процесс показывает, что тщательный и критический
подход к сочетанию теоретических и экспериментальных данных позво-
ляет получить новые знания о механизмах действия. Тщательно постро-
енная по гомологии модель рецептора CAR вместе с результатами на-
310 Молекулярное моделирование

правленного мутагенеза объяснила, как структура обусловливает кон-


ститутивную активность этого рецептора. Детальное сопоставление
модели с экспериментальными данными дополнительно подтверждает
ее надежность. Поскольку нам повезло и во время выполнения работы
стала доступна кристаллическая структура CAR, мы смогли вниматель-
но проанализировать теоретические результаты и сравнить их с экспе-
риментальными кристаллографическими данными.
Во-вторых, использованный подход позволил найти новые актива-
торы рецептора CAR, принадлежащие к новым структурным классам.
Найденные с помощью виртуального скрининга производные сульфона-
мида и тиазолидинона — самые сильные из известных в настоящее
время активаторы CAR и интересные фармакологические инструменты
исследования CAR. В данном случае теоретические исследования также
стали основой для рабочих гипотез, которые вместе с биологическим
тестированием открыли путь к новым, интересным и активным лиган-
дам CAR. Опыт, полученный в ходе работы, будет полезен в дальнейших
исследованиях CAR.

Цитированная литература
1. Mangelsdorf, D. J., Thummel, C., Beato, M. et al. (1995) The nuclear receptor
superfamily: the second decade, Cell, 83, 835–39.
2. Acevedo, M. L. and Kraus, W. L. (2004) Transcriptional activation by nuclear re-
ceptors. Essays in Biochemistry, 40, 73–88.
3. Kraus, W. L. and Wong, J. (2002) Nuclear receptor-dependent transcription
with chromatin. Is it all about enzymes? European Journal of Biochemistry, 269,
2275–83.
4. Steinmetz, A. C., Renaud, J. P., and Moras, D. (2001) Binding of ligands and ac-
tivation of transcription by nuclear receptors. Annual review of Biophysics and
Biomolecular Structure, 30, 329–59.
5. Robinson-Rechavi, M., Carpentier, A., Duffraise, M., and Laudet, V. (2002)
How many nuclear hormone receptors are there in the human genome. Trends in
Genetics, 17, 554–56.
6. Hard, T., Kellenbach, E., Boelens, R. et al. (1990) Solution structure of the
glucocorticoid receptor DNA-binding domain. Science, 249, 157–60.
7. Luisi, B. F., Xu, W. X., Otwinowski, Z. et al. (1991) Crystallographic analysis of
the interaction of the glucocorticoid receptor with DNA. Nature, 352, 497–505.
8. Bourguet, W., Ruff, M., Chambon, P. et al. (1995) Crystal structure of the
ligand-binding domain of the human nuclear receptor RXR. Nature, 375,
377–82.
9. Wurtz, J. M., Bourguet, W., Renaud, J. P. et al. (1996) A canonical structure for
the ligand binding domain of nuclear receptors. Nature Structural Biology, 3,
87–94.
10. Nolte, R. T., Wisely, G. B., Westin, S. et al. (1998) Ligand binding and co-activator
assembly of the peroxisome proliferator-activated receptor. Nature, 395, 137–43.
11. Brzozowski, A. M., Pike, A. C., Dauter, Z. et al. (1997) Molecular basis of
agonism and antagonism in the estrogen receptor. Nature, 389, 753–58.
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 311

12. Evans, R. M. (1988) The steroid and thyroid hormone receptor superfamily. Sci-
ence, 240, 889–95.
13. Baes, M., Gulick, T., Choi, H. S. et al. (1994) A new orphan member of the nuclear
hormone receptor superfamily that interacts with a subset of retinoic acid re-
sponse elements. Molecular and Cellular Biology, 14, 1544–52.
14. Forman, B. M. (2002) A structural model of the constitutive androstane receptor
defines novel interactions that mediate ligand-independent activity. Molecular
and Cellular Biology, 22, 5270–80.
15. Goodwin, B. and Moore, J. T. (2004) CAR: detailing new models. Trends in Phar-
macological Sciences, 25, 437–41.
16. Wei, P., Zhang, J., Egan-Hafley, M. et al. (2000) The nuclear receptor CAR medi-
ates specific xenobiotic induction of drug metabolism. Nature, 407, 920–23.
17. Liu, Z., Auboeuf, D., Wong, J. et al. (2002) Coactivator/correpressor ratios
modulate PRmediated transcription by the selective receptor modulator RU486.
Proceedings of the National Academy of Sciences of the United States of America,
99, 7940–44.
18. Honkakoski, P., Palvimo, J. J., Panttila, L. et al. (2004) Effects of triaryl phos-
phates on mouse and human nuclear receptors. Biochemical Pharmacology, 67,
97–106.
19. Moore, L. B., Parks, D. J., Jones, S. A. et al. (2000) Orphan nuclear receptors,
constitutive androstane receptor and pregnane X receptor share xenobiotic and
steroid ligands. Journal of Biological Chemistry, 275, 15122–27.
20. Kobayashi, K., Vamanaka, Y., Iwazaki, N., et al. (2005) Identification of
HMG-CoA reductase inhibitors as activators for human, mouse and rat constitu-
tive androstane receptor. Drug Metabolism and Disposition, 33, 924–29.
21. Rochel, N., Wurtz, J. M., Mitschler, A. et al. (2000) The crystal structure of the
nuclear receptor for vitamin D bound to its natural ligans. Molecular Cell, 5,
173–79.
22. Tocchini-Valentini, G, Rochel, N., Wurtz, J. M. et al. (2001) Crystal structures
of the vitamin D receptor complexed to superagonist 20-epi ligands. Proceedings
of the National Academy of Sciences of the United States of America, 98,
5491–96.
23. Watknis, R. E., Davis-Searles, P. R., Lambert, M. H., and Redinbo, M. R. (2003)
Coactivator binding promotes the specific interaction between ligand and the
pregnane X receptor. Journal of Molecular Biology, 331, 815–28.
24. Watkins, R. E., Maglich, J. M., Moore, L. B. et al. (2003) 2.1 A crystal structure
of human PXR in complex with the St. John's wort compound hyperforin.
Biochemistry, 42, 1430–38.
25. Watkins, R. E., Wisely, G. B., Moore, L. B. et al. (2001) The human nuclear
xenobiotic receptor PXR: structural determinants of directed promiscuity. Sci-
ence, 292, 2329–33.
26. Thompson, J. D., Higgins, D. G., and Gibson, T. J. (1994) CLUSTAL W: improv-
ing the sensitivity of progressive multiple sequence alignment through sequence
weighting, position-specific gap penalties and weight matrix choice. Nucleic
Acids Research, 22, 4673–80.
27. Accelrys Inc., San Diego (USA), http://www.accelrys.com.
312 Молекулярное моделирование

28. Dussault, I., Lin, M., Hollister, K. et al. (2002) A structural model of the consti-
tutive androstane receptor defines novel interactions that mediate ligand-inde-
pendent activity. Molecular and Cellular Biology, 22, 5270–80.
29. Dunbrack, R. L. Jr. (1999) Comparative modeling of CASP3 targets using
PSI-BLAST and SCWRL. Proteins, 3, 81–87.
30. Gampe, R. T. Jr., Montana, V. G., Lambert, M. H. et al. (2000) Asymmetry in the
PPARgamma/RXRalpha crystal structure reveals the molecular basis of
heterodimerization among nuclear receptors. Molecular Cell, 5, 545–55.
31. Xu, H. E., Lambert, M. G., Montana, V. G. et al. (1999) Structural determinants
of ligand binding selectivity between the peroxisome proliferator-activated re-
ceptors. Proceedings of the National Academy of Sciences of the United States of
America, 98, 13919–24.
32. Berendsen, H. J. C., van der Spoel, D., and van Drunen, R. (1995) GROMACS:
a message-passing parallel molecular dynamics implementation. Computer
Physics Communication, 91, 43–56.
33. Scott, W. R. P., Hunenberger, P. H., Tironi, I. G. et al. (1999) The GROMOS
biomolecular simulation program package. Journal of Physical Chemistry A,
103, 3596–608.
34. Essmann, U., Perera, L., Berkowitz, M. L. et al. (1995) A smooth particle-mesh
Ewald potential. Journal of Computational Physics, 103, 8577–92.
35. Berendsen, H. J. C., Postma, J. P. M., DiNola, A., and Haak, J. R. (1984) Molecu-
lar dynamics with coupling to an external bath. Journal of Chemical Physics, 81,
3684–90.
36. Hess, B., Becker, H., Berendsen, H. J. C., and Fraaije, J. G. E. M. (1997) LINCS:
a linear constraint solver for molecular simulations. Journal of Computational
Physics, 18, 1463–72.
37. Kelley, L. A., Gardner, S. P., and Sutcliffe, M. J. (1996) An automated approach
for clustering an ensemble of NMR-derived protein structures into
conformationally related subfamilies. Protein Engineering, 9, 1063–65.
38. Laskowski, R. A., MacArthur, M. W., Moss, D. S., and Thornton, J. M. (1993)
PROCHECK: a program to check the stereochemical quality of protein struc-
tures. Journal of Applied Crystallography, 26, 283–91.
39. Frank, C., Molnar, F., Matilainen, M. et al. (2004) Agonist-dependent and ago-
nist-independent transactivations of the human constitutive androstane recep-
tor are modulated by specific amino acid pairs. Journal of Biological Chemistry,
279, 33558–66.
40. Andersin, T., Vaisanen, S., and Carlberg, C. (2003) The critical role of
carboxy-terminal amino acids in ligand-dependent and -independent trans-
activation of the constitutive androstane receptor. Molecular Pharmacology,
17, 234–46.
41. Jyrkkarinne, J., Windshugel, B., Makinen, J. et al. (2005) Amino acids im-
portant for ligand specificity of the human constitutive androstane receptor.
Journal of Biological Chemistry, 280, 5960–71.
42. Sablin, E. P., Krylova, I. N., Fletterick, R. J., and Ingraham, H. A. (2003) Struc-
tural basis for ligand-independent activation of the orphan nuclear receptor
LRH-1. Molecular Cell, 11, 1575–85.
Глава 8. Ядерный рецептор CAR и его лиганд-рецепторные комплексы 313

43. Feng, W., Ribeiro, R. C. J., Wagner, R. L. et al. (1998) Hormone dependent
coactivator binding to a hydrophobic cleft on nuclear receptors. Science, 280,
1747–49.
44. Windshugel, B., Jyrkkarinne, J., Poso, A. et al. (2005) Deciphering the struc-
tural basis for the constitutive activity of the human CAR receptor. Journal of
Molecular Modeling, 11, 69–70.
45. Suino, K., Peng, L., Reynolds, R. et al. (2004) The nuclear xenobiotic receptor
CAR: structural determinants of constitutive activation and heterodimeriza-
tion. Molecular Cell, 16, 893–905.
46. Shan, L., Vincent, J., Brunzelle, J. S. et al. (2004) Structure of the murine consti-
tutive androstane receptor complexed to androstenol: a molecular basis for in-
verse agonism. Molecular Cell, 16, 907–17.
47. Windshugel, B., Jyrkkarinne, J., Vanamo, J. et al. (2007) Comparison of
homology and X-ray structures of the nuclear receptor CAR: assessing the struc-
tural basis of constitutive activity. Journal of Molecular Graphics & Modelling,
25, 644–57.
48. Rochel, N., Tocchini-Valentini, G., Egea, P. F. et al. (2001) Functional and struc-
tural characterization of the insertion region in the ligand binding domains of
the vitamin D nuclear receptor. European Journal of Biochemistry, 268,
971–79.
49. Chang, T. K. and Waxman, D. J. (2006) Synthetic drugs and natural products as
modulators of constitutive androstane receptor (CAR) and pregnane X receptor
(PXR). Drug Metabolism Reviews, 38, 51–73.
50. Ghose, A. K., Viswanadhan, V. N., and Wendoloski, J. J. (1998) Prediction of
hydrophobic (lipophilic) properties of small organic molecules using fragmental
methods: an analysis of ALOGP and GLOGP methods. Journal of Physical
Chemistry A, 102, 3762–72.
Оглавление

Предисловие к русскому изданию . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5


Предисловие редакторов перевода . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Предисловие к третьему изданию. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1. Историческая справка . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2. Современное молекулярное моделирование — лишь отражение
мира по Лукрецию или это что-то большее? . . . . . . . . . . . . . . . . . . . . 12
1.3. Для чего используют модели?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4. В молекулярном моделировании используются все четыре
типа моделей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5. Завершающий этап: конструирование . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6. Цель этой книги. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Малые молекулы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1. Генерация трехмерных координат. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1. Рентгеноструктурные данные . . . . . . . . . . . . . . . . . . . . 17
2.1.2. Библиотеки фрагментов . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.3. Преобразование двумерных структур в трехмерные . . . . 21
2.2. Вычислительные методы оптимизации геометрии . . . . . . . . . . . . . 25
2.2.1. Силовые поля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.2. Оптимизация геометрии . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.3. Методы минимизации энергии . . . . . . . . . . . . . . . . . . . 29
2.2.3.1. Метод скорейшего спуска . . . . . . . . . . . . . . . . . 29
2.2.3.2. Метод сопряженных градиентов . . . . . . . . . . . . 30
2.2.3.3. Метод Ньютона—Рафсона . . . . . . . . . . . . . . . . . 30
2.2.4. Влияние зарядов и растворителя. . . . . . . . . . . . . . . . . . 31
2.2.4.1. Растворитель как статистический континуум. . . 33
2.2.5. Квантово-механические методы . . . . . . . . . . . . . . . . . . 33
2.2.5.1. Неэмпирические (ab initio) методы . . . . . . . . . . 34
2.2.5.2. Полуэмпирические методы молекулярных
орбиталей . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.5.3. Комбинированные методы квантовой
и молекулярной механики . . . . . . . . . . . . . . . . 36
2.3. Конформационный анализ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3.1. Конформационный анализ методом систематического
поиска . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Оглавление 315

2.3.2. Конформационный анализ методом Монте-Карло . . . . . . 47


2.3.3. Конформационный анализ методами молекулярной
динамики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.4. Какой метод выбрать? . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4. Потенциалы молекулярных взаимодействий . . . . . . . . . . . . . . . . . . 59
2.4.1. Молекулярный электростатический потенциал . . . . . . . 60
2.4.1.1. Методы расчета частичных атомных зарядов . . . 60
2.4.1.2. Методы расчета МЭП . . . . . . . . . . . . . . . . . . . . 65
2.4.2. Поля молекулярного взаимодействия . . . . . . . . . . . . . . 69
2.4.2.1. Вычисление полей с помощью программы
GRID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.4.2.2. Гидрофобные взаимодействия . . . . . . . . . . . . . . 73
2.4.3. Отображение свойств на молекулярную поверхность . . . 76
2.5. Фармакофорный поиск . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2.5.1. Совмещение молекул . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2.5.2. Совмещение «атом-на-атом» . . . . . . . . . . . . . . . . . . . . . 83
2.5.3. Совмещение молекулярных полей . . . . . . . . . . . . . . . . . 86
2.6. Методы 3D-QSAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
2.6.1. Метод CoMFA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
2.6.1.1. Биологические данные, используемые
в 3D-QSAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
2.6.1.2. Построение модели CoMFA . . . . . . . . . . . . . . . . 90
2.6.1.3. Статистическое качество моделей CoMFA . . . . . 91
2.6.1.4. Интерпретация результатов . . . . . . . . . . . . . . . 92
2.6.2. Другие методы, подобные CoMFA . . . . . . . . . . . . . . . . . 93
2.6.2.1. CoMSIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
2.6.2.2. GRID и GOLPE . . . . . . . . . . . . . . . . . . . . . . . . . 94
2.6.2.3. Методы, не зависящие от выравнивания . . . . . . 95
2.6.3. Другие методы 3D-QSAR . . . . . . . . . . . . . . . . . . . . . . . 95
2.6.4. 3D-QSAR, основанный на рецепторе . . . . . . . . . . . . . . . 97
2.6.5. Надежность моделей 3D-QSAR . . . . . . . . . . . . . . . . . . . 98

3. Пример моделирования малых молекул: антагонисты


дофаминового рецептора подтипа D3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
3.1. Модель фармакофора антагонистов D3-рецептора . . . . . . . . . . . . . 105
3.1.1. Основно-ароматический фрагмент . . . . . . . . . . . . . . . . 111
3.1.2. Спейсер . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
3.1.3. Амидно-ароматический фрагмент . . . . . . . . . . . . . . . . 114
3.1.4. Конечная модель фармакофора . . . . . . . . . . . . . . . . . . 114
3.1.5. Поля молекулярных взаимодействий. . . . . . . . . . . . . . 115
3.2. Анализ 3D-QSAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
316 Оглавление

3.2.1. Уменьшение числа переменных и регрессия


частичных наименьших квадратов . . . . . . . . . . . . . . . 117
3.2.2. Валидация модели . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.2.3. Прогноз для внешней выборки лигандов . . . . . . . . . . . 120

4. Моделирование белков. Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123


4.1. Где и как получить информацию о белках . . . . . . . . . . . . . . . . . . . . 123
4.2. Принципы организации структуры белков. Терминология . . . . . 127
4.2.1. Конформационные свойства белков . . . . . . . . . . . . . . . 128
4.2.2. Элементы вторичной структуры белков . . . . . . . . . . . . 130
4.2.2.1. a-Спираль . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.2.2.2. b-Лист . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
4.2.2.3. Петли . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.2.3. Гомологичные белки. . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.3. Моделирование белков по гомологии . . . . . . . . . . . . . . . . . . . . . . . . 137
4.3.1. Методы выравнивания последовательностей. . . . . . . . . 138
4.3.2. Идентификация и моделирование консервативных
областей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.3.3. Конструирование вариабельных областей. . . . . . . . . . . 146
4.3.4. Моделирование боковых цепей . . . . . . . . . . . . . . . . . . 147
4.3.5. Метод дистанционной геометрии . . . . . . . . . . . . . . . . . 149
4.3.6. Предсказание вторичной структуры . . . . . . . . . . . . . . 150
4.3.7. Методы протягивания. . . . . . . . . . . . . . . . . . . . . . . . . 154
4.4. Процедуры оптимизации. Уточнение модели.
Молекулярная динамика . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
4.4.1. Силовые поля при моделировании белков . . . . . . . . . . 160
4.4.2. Оптимизация геометрии . . . . . . . . . . . . . . . . . . . . . . . 161
4.4.3. Использование молекулярной динамики
для уточнения модели . . . . . . . . . . . . . . . . . . . . . . . . 163
4.4.4. Обработка сольватированных систем . . . . . . . . . . . . . . 165
4.4.5. Комплексы лигандов и центров связывания . . . . . . . . . 166
4.5. Валидация моделей белков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
4.5.1. Стереохимическая корректность . . . . . . . . . . . . . . . . . 169
4.5.2. Качество упаковки . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
4.5.3. Анализ достоверности укладки . . . . . . . . . . . . . . . . . . 177
4.6. Свойства белков. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
4.6.1. Электростатический потенциал . . . . . . . . . . . . . . . . . . 183
4.6.2. Потенциалы взаимодействия. . . . . . . . . . . . . . . . . . . . 187
4.6.3. Гидрофобность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Оглавление 317

5. Виртуальный скрининг и докинг. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191


5.1. Подготовка системы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
5.1.1. Подготовка библиотеки соединений . . . . . . . . . . . . . . . 191
5.1.2. Представление белков и лигандов . . . . . . . . . . . . . . . . 196
5.1.2.1. Гибкость белка . . . . . . . . . . . . . . . . . . . . . . . . 196
5.1.2.2. Гибкость лиганда . . . . . . . . . . . . . . . . . . . . . . 197
5.2. Алгоритмы докинга . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
5.2.1. Методы постепенного конструирования . . . . . . . . . . . . 200
5.2.2. Генетические алгоритмы. . . . . . . . . . . . . . . . . . . . . . . 201
5.2.3. Табу-поиск. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
5.2.4. Моделирование отжига и метод Монте-Карло . . . . . . . . 204
5.2.5. Методы подгонки формы . . . . . . . . . . . . . . . . . . . . . . 205
5.2.6. Другие методы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.3. Оценочные функции. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.3.1. Эмпирические оценочные функции . . . . . . . . . . . . . . . 207
5.3.2. Оценочные функции, основанные на силовых полях. . . 208
5.3.3. Оценочные функции, основанные на знаниях. . . . . . . . 209
5.3.4. Критический обзор быстрых оценочных функций. . . . . 210
5.4. Фильтрование результатов виртуального скрининга . . . . . . . . . . 210
5.4.1. Фильтрование по топологическим свойствам . . . . . . . . 210
5.4.2. Фильтрование с помощью консенсусных подходов . . . . 211
5.4.3. Фильтрование с помощью комбинированных
вычислительных процедур . . . . . . . . . . . . . . . . . . . . . 211
5.4.4. Фильтрование по химическому разнообразию . . . . . . . 212
5.4.5. Визуальное фильтрование . . . . . . . . . . . . . . . . . . . . . . 212
5.5. Сравнение различных методов докинга и оценки . . . . . . . . . . . . . . 213
5.6. Примеры успешного применения виртуального скрининга . . . . . 214
5.7. Перспективы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

6. Области применения и ограничения молекулярного докинга . . . . . 229


6.1. Докинг в полярные центры связывания, содержащие
молекулы воды . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
6.2. Докинг в центры связывания, содержащие кофактор . . . . . . . . . . 236
6.3. Влияние таутомерии на результаты докинга. . . . . . . . . . . . . . . . . . 239

7. Рациональная разработка лекарственных веществ методами


хемогеномики. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
7.1. Описание пространства лигандов и мишеней . . . . . . . . . . . . . . . . . 248
7.1.1. Пространство лигандов . . . . . . . . . . . . . . . . . . . . . . . . 248
7.1.2. Пространство мишеней . . . . . . . . . . . . . . . . . . . . . . . . 251
7.1.3. Пространство лиганд-белковых взаимодействий . . . . . . 253
318 Оглавление

7.2. Методы хемогеномики, основанные на информации


о лигандах . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
7.2.1. Аннотирование библиотек лигандов . . . . . . . . . . . . . . 254
7.2.2. Привилегированные структуры . . . . . . . . . . . . . . . . . . 257
7.2.3. Скрининг in silico с использованием данных
о лигандах. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
7.3. Методы хемогеномики, основанные на информации
о мишенях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
7.3.1. Сравнение аминокислотных последовательностей . . . . . 262
7.3.2. Сравнение белковых структур . . . . . . . . . . . . . . . . . . . 264
7.3.2.1. Сравнение молекулярных полей . . . . . . . . . . . 264
7.3.2.2. Сравнение пространственных структур . . . . . . 265
7.4. Методы хемогеномики, основанные на информации о мишенях
и лигандах . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
7.4.1. Химическое аннотирование центров связывания
мишени . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
7.4.2. Двумерный поиск. . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
7.4.3. Трехмерный поиск . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
7.5. Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272

8. Пример моделирования белков: ядерный рецептор CAR и его


лиганд-рецепторные комплексы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
8.1. Биохимическое и фармакологическое описание проблемы . . . . . 279
8.1.1. Суперсемейство ядерных рецепторов . . . . . . . . . . . . . . 279
8.1.2. Молекулярная архитектура и механизмы активации
ядерных рецепторов . . . . . . . . . . . . . . . . . . . . . . . . . . 280
8.1.3. Конститутивно-активный андростановый рецептор
человека . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
8.1.4. Лиганды рецептора CAR. . . . . . . . . . . . . . . . . . . . . . . 282
8.2. Моделирование рецептора CAR человека по гомологии . . . . . . . . 283
8.2.1. Выбор шаблонного белка для моделирования . . . . . . . . 283
8.2.2. Моделирование рецептора CAR по гомологии . . . . . . . . 285
8.2.3. Настройка системы для моделирования молекулярной
динамики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
8.3. Анализ моделей, полученных в результате моделирования
молекулярной динамики. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
8.3.1. Флуктуации атомов . . . . . . . . . . . . . . . . . . . . . . . . . . 286
8.3.2. Взаимодействия домена AF-2 . . . . . . . . . . . . . . . . . . . 289
8.3.3. Структурные основы конститутивной активности
рецептора CAR человека. . . . . . . . . . . . . . . . . . . . . . . 290
8.3.4. Связывание коактиватора . . . . . . . . . . . . . . . . . . . . . . 292
8.4. Анализ мутантных вариантов рецептора CAR . . . . . . . . . . . . . . . . 294
Оглавление 319

8.4.1. Определение аминокислот, значимых для активации


рецептора CAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
8.4.2. Молекулярная динамика отдельных мутантных
вариантов рецептора CAR . . . . . . . . . . . . . . . . . . . . . . 297
8.5. Моделирование комплексов рецептора CAR с лигандами. . . . . . . 298
8.6. Кристаллическая структура рецептора CAR . . . . . . . . . . . . . . . . . . 301
8.6.1. Насколько точна построенная модель
рецептора CAR? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
8.6.2. Молекулярный докинг с использованием
кристаллической структуры CAR . . . . . . . . . . . . . . . . 303
8.6.3. Еще раз о конститутивной активности . . . . . . . . . . . . . 304
8.7. Виртуальный скрининг новых активаторов CAR . . . . . . . . . . . . . . 307
8.8. Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
Минимальные системные требования определяются соответствующими требованиями про-
граммы Adobe Reader версии не ниже 11-й для платформ Windows, Mac OS, Android, iOS,
Windows Phone и BlackBerry; экран 10"
Научное электронное издание

Хёльтье Ханс-Дитер, Зиппль Вольфганг, Роньян Дидье, Фолькерс Герд


МОЛЕКУЛЯРНОЕ МОДЕЛИРОВАНИЕ: ТЕОРИЯ И ПРАКТИКА
Ведущий редактор канд. хим. наук Т. И. Почкаева. Редактор Е. И. Тулина
Художественное оформление: И. Е. Марев. Художник Н. А. Новак.
Технический редактор Е. В. Денюкова
Компьютерная верстка: Л. В. Катуркина
Подписано к использованию 05.02.15. Формат 145×225 мм
Издательство «БИНОМ. Лаборатория знаний» 125167, Москва, проезд Аэропорта, д. 3
Телефон: (499) 157-5272 e-mail: binom@Lbz.ru, http://www.Lbz.ru
Молекулярное моделирование — бурно развивающаяся область современной компьютерной химии,
играющая важную роль при конструировании лекарственных веществ. Дизайн практически всех
новых лекарств, появившихся в последние годы, прошел стадию молекулярного моделирования.
Это единственная книга, где оцениваются сильные и слабые стороны методов и программ
молекулярного моделирования. Интересный и ценный материал приведен в разделе, посвя-
щенном хемогеномике.
Эта книга — идеальное пособие для начинающих. Здесь объяснены основы молекулярного мо-
делирования и в доступной форме, но на достаточно высоком уровне описаны рабочие примеры.
Книга может служить учебным пособием для студентов и практическим руководством для иссле-
дователей.

Ханс-Дитер Хёльтье Вольфганг Зиппль Дидье Роньян Герд Фолькерс


Директор Института фар- Профессор кафедры Руководитель научной Профессор кафедры
мацевтической и меди- фармацевтической группы лекарственной фармацевтической
цинской химии Универ- и медицинской химии биоинформатики в ла- химии Швейцарского
ситета Генриха Гейне Университета Марти- боратории молекуляр- федерального техно-
(Дюссельдорф). Заведу- на Лютера (Галле). ной фармакохимии логического институ-
ющий кафедрой меди- Научные интересы: (Илкирш, Франция). та (ETH), председа-
цинской химии. Почетный использование мето- Научные интересы: тель Collegium Helve-
доктор Университета дов квантовой химии структурные иссле- ticum (Цюрих).
Куопио (Финляндия). и молекулярной био- дования белковых Научные интересы:
Научные интересы: мо- логии при разработке молекул. междисциплинарные
лекулярные механизмы лекарств. взаимосвязи как источ-
действия лекарств. ник новых знаний.

Вам также может понравиться