Вы находитесь на странице: 1из 69

Домены

Определения
Методы разделения структуры
на домены
Классификации
Что такое “домен”?
Три определения:
•По функции
•По структуре
•По последовательности
Функциональный домен
(биохимия/биоинженерия)

Минимальная часть полипептидной цепи,


которая
(i) достаточна в эксперименте для
сохранения одной из активностей
целого белка
(ii) может автономно свернуться в
правильную, нативную структуру
Derbyshire et al., PNAS, 94,
11466-11471(1997)“Genetic
definition of a protein-splicing
domain: Functional mini-inteins
support structure predictions and a
model for intein evolution”
Рекомбиназа A из Mycobacterium
tuberculosis (790 а.о.) содержит интеин
(440 а.о.) – мобильный элемент,
обладающий способностью автономно
вырезаться из полипептидной цепи
(явление белкового сплайсинга)

Интеин обладает также эндонуклеазной


активностью
По сходству последовательностей
с другими более изученными интеинами,
в т.ч. интеином с расшифрованной
РСА структурой (1VDE),
была высказана гипотеза о том, что

за две разные активности отвечают


разные домены.

При этом за белковый сплайсинг отвечает


домен, который составлен из N-концевого и
C-концевого участков полипептидной цепи
Для проверки гипотезы авторы
создали 21 конструкт генов
интеина, в которых удалены
разные внутренние участки
полипептидной цепи.

Конструкты были встроены в ген


другого белка
(тимидилатсинтазы, TS) и
экспрессировались в E.coli

Активность проверялась по
наличию нативного белка TS (без
вставки интеина)
Результат: белковый сплайсинг сохранялся
в тех случаях, когда удаленный участок не
затрагивал первые 96 и последние 35 а.о.

Вывод авторов: функциональный домен


автономного белкового сплайсинга состоит
из остатков 1-96 и 406-440 (всего 131 из
полных 440)
Структура гомологичного белка PI-SceI –
хоминг эндонуклеазы из дрожжей (PDB код
1VDE)
Эндонуклеаза
186-405

Интеин
1-181,
416-454
Площадь контакта
доменов не такая уж и
маленькая.

Белок димеризуется
Последовательность интеина консервативна.

Об этом свидетельствуют доменные архитектуры трех


белков из разных грибов, описанные в PFam
Доменная структура белка PI-SceI

Доменная структура полноразмерного белка VMA1

Доменная структура полноразмерного белка TFP1


(аннотирован по сходству)
Эволюционный домен
(биоинформатика: последовательности)

Длинный непрерывный участок полипептидной


цепи, который

(i) эволюционирует существенно медленнее


других участков

(ii) замечен в перемешивании доменов (domain


shuffling)
Белки, содержащие два эволюционных домена: гомеодомен
и OAR домен (N-концевые участки не показаны)
Гомеодомены активно перемешивались в
эволюции.
Об этом можно судить по 65(!) различным
доменным архитектурам гомеобелков,
представленным в банке Pfam
Гомеодомен
Парный домен и гомеодомен
Lim домены и гомеодомен
Гомеодомен, продолженный
Лейциновой молнией
POU домен и гомеодомен
Два гомеодомена

PBX-домен и гомеодомен
OAR- домен, обнаруженныйтолько в
некоторых гомеодоменных
транскрипционных факторах
• Консервативность наблюдается

• В перемешивании доменов пока не замечен

• Образует структурный домен? - нет аргументов за;


против – слишком короткий

• Функция не установлена
Пример консервативности, которую
трудно характеризовать как домен:
гексапептид антеннапедиа
Структурный домен
(биоинформатика: 3D структуры)
Обособленная в пространстве часть
белка, его структурная единица,
имеющая

(i) сравнительно мало контактов с другими


частями белка

(ii) собственное гидрофобное ядро


Пептидаза, а за одно и
димеризационный Двудоменный
домен транскрипционный
фактор – репрессор
из бактериофага
P22 (PDB код
1QAR):
два оче-видных
домена связаны
гибким линкером

ДНК-связывающий домен
P22 репрессор
димеризуется ….
… и связывается с
ДНК

Сайт связывания –
палиндром.

Весь комплекс
обладает (неполной)
симметрией 2го
порядка

ATTTAAGACTTCTTAATT
Домен белка XXX
(жизнь)

Часть белка, названная доменом

• Субъективизм
• Образность
• Традиция
В полимеразах обычно определяют три
домена: fingers, palm, thumb

Product RNA

Fingers Template RNA

Thumb

NTP
Palm
Разные определения часто
дают похожие результаты!

Но не всегда…
Парный домен из
транскрипционного фактора
PAX5 человека (PDB 1K78)

19-81A
82-90A
91-142A

Эволюционный домен (PAX в Pfam)


включает оба структурных домена
(126 а.о.)
Полипептидные цепи обоих структурных
доменов имеют общую топологию
(- одинаковое число спиралей,
- одинаковы межспиральные взаимодействия,
- одинаковый порядок следования спиралей
вдоль цепи;
* минорные элементы вторичной структуры не в
счет!)
N-концевой структурный домен парного домена
хорошо совмещается с C-концевым
Синий – N-концевой
Зеленый – C-концевой

Совмещение – по двум
спиралям, всего по14
C атомам

Rmsd = 0.5 Å
Структурные домены парного домена
одинаково расположены на ДНК
Карта локального сходства последовательностей
двух структурных доменов эволюционного домена
PAX/Prd из белка PAX5 человека
Достоверного
сходства
последователь
ностей не
наблюдается
При этом последовательности PAX/prd
доменов консервативны по всех длине
Структурные домены

Методы детектирования
На чем основаны методы
• Домен имеет собственное гидрофобное
ядро (пример: алгоритм DETECTIVE
Swindells, 1995)
• Домен – это часть белка, внутри которой
много контактов аминокислотных
остатков, а между доменами – мало
контактов (пример: алгоритм DOMAK,
Siddiqui&Barton, 1995)
Siddiqui&Barton, 1995:
DOMAK
Сверху – вниз, от целого – к части!

• Предпосылки: домен состоит из одного


или двух непрерывных участков
полипептидной цепи
• Число контактов остатков внутри домена
больше чем число междоменных
контактов
Формализация
• Два остатка контактируют если расстояние
между ними меньше 5Å
• Если белок разбит на две части, A и B, то
определяется индекс разделенности:

SplitValue=(intA/extAB)*(intB/extAB)

intA – число пар контактирующих остатков из A;


intB – число пар контактирующих остатков из B;
extAB – число пар контактирующих остатков,
один из A, а другой – из B
Пример. Структура 1CD4. Часть A: N-конец полипептидной
цепи до остатка i; часть B – от (i+1) до C-конца

График зависимости
индекса разделенности
от номера граничного
остатка
Деление по остатку 97 (пик на графике)
В алгоритме DOMAK проверяются
следующие разделения на части A и B
Алгоритм
• К полной цепи применяются методы 1 и 2. Выбирается
разделение с лучшим индексом
• К полученным двум доменам применяется та же
процедура. В случае, когда домен состоит из двух
сегментов, применяется также метод 3.
• Алгоритм останавливается в зависимости от пороговых
значений:
– MDS – минимальный размер домена (в числе остатков)
– MSS - минимальный размер сегмента
• Отдельная процедура предусмотрена для сегментов,
длина которых между MDS и MSS
• Найденные домены проверяются на “компактность”;
некомпактные – сливаются в один
Swindells, 1995
DETECTIVE
Снизу – вверх, наращивание частей!

Предпосылки: каждый домен имеет свое гидрофобное


ядро.
(1) Построение кластеров гидрофобно
взаимодействующих неэкспонированных
остатков
• Отбираются остатки, которые
– Слабо экспонированы (<7%)
– Принадлежат спиралям или тяжам
– Более 75% контактов их атомов с другими атомами
классифицируются как гидрофобные

Контактом считается сближение “тяжелых” атомов


на сумму vdW радиусов + 1 ангстрем

Гидрофобным контактом считается контакт


углеродов
Два остатка из отобранных считаются
взаимодействующими гидрофобно
если число гидрофобных межатомных
контактов превосходит число
негидрофобных межатомных контактов
Строится граф:
• Вершина – отобранный остаток
• Ребро соединяет вершины, если
соответствующие остатки гидрофобно
взаимодействуют
• Связные компоненты графа, содержащие
5 или более остатков, называются
гидрофобными ядрами
Граф гидрофобных контактов
(пример)
Гидрофобные ядра – еще не домены!

Для получения доменов применяется


многоходовая процедура чистки-слияния
Алгоритм демонстрируется на примере (см. рис.)
(1) найдено 3 кластера – 1й, 2й и 3й
(2) остатки, окруженные “чужими” вычищаются
(3) кластеры меньше чем из 5и остатков вычищаются
(4) заливка некластеризованных остатков
(5) оставшиеся некластеризованные остатки присоединяются
по контактам к кластерами предыдущего шага
(6) - (8) опять прочистка, заливка и присоединение хвостов
Структурная классификация
доменов
• SCOP (Murzin, Benner, Hubbard, Chotia,
1995)
• CATH (Orengo et al., 1993, 1997)
• FSSP (Holm&Sander, 1993)
• другие
Structural Classification of
Proteins, SCOP

• Экспертное выделение доменов


• Экспертная классификация
Уровни классификации в SCOP
•Класс
•Укладка (fold) – сходная топология
•Суперсемейство – структурная гомология (?)
•Семейство – сходство последовательностей
и/или хорошее пространственной выравнивание
цепей
•Белок – б.м. ортологичные белковые домены
•Вид – конкретный белок
Классы
Основные

• Альфа-спиральные домены (202 фолда)

• Бета-структурные домены (141)


• Альфа/бета структурные домены (a/b) (130)
(бета-альфа-бета структурные единицы)
• Альфа+бета домены (a+b) (260)
(разделенные альфа спиральные и бета-структурные области)
Специфические
•Многодоменные белки (40)
(сложные домены)
•Мембранные (42)
(кроме белков иммунной системы)
•Маленькие (72)

Формально собранные классы


Спирализованные спирали (6)
Низкое разрешение (22)
Пептиды, фрагменты (111)
Искусственные белки (41)
Разница между a/b и a+b
a/b:
- Спирали и тяжи вместе
образуют глобулу
-Часто спираль соединяет два
тяжа как показано на рис. ниже

1TPH Triosephosphate isomerase


from Chicken (Gallus gallus) 1TPH
Разница между a+b и a/b
a+b:
- Спирали и тяжи более или
менее разобщены
- Часто спирали образуют свое
маленькое ядро
- Мотивы -- как на
предыдущем слайде встречаются
редко

2ACT. ACTINIDIN
(SULFHYDRYL PROTEINASE)
Каталаза Флаводоксин
(C-концевой домен)

Общая укладка (фолд).


Хорошее совмещение полипептидных цепей невозможно, но
что-то общее в расположении элементов вторичной структуры
прослеживается… Говорят: “общая топология”
Общая топология у двух
доменов характеризуется
• Хорошим выравниванием элементов
вторичной структуры при котором
• сопоставленные элементы вторичной
структуры одинаково контактируют в
пространстве между собой
• что-то еще нужно сказать про одинаковое
взаимное расположение элементов вторичной
структуры; но не известно (боюсь, что не
только мне) адекватных проверяемых
формулировок …
Сравнение топологий каталазы (1CF9, C-
концевой домен) и флаводоксина (1AG9)
Вторичная структура
Вторичная структура
C-концевого домена
флаводоксина 1AG9
Каталазы 1CFG
S4 H2 S5 - S1 S2 S3 H2 S2 H1 S1 - H1 –
| | | | | | | | |
S4 H2 S5 h1 - - S3 H2 S2 H1 S1 S1’ H1 h1
SCOP 1.67 release: 24037 PDB Entries (15 May 2004).
65122 Domains.

Number of Number of
Number of
Class superfamilies families
folds

All alpha proteins 202 342 550


All beta proteins 141 280 529
Alpha and beta proteins
130 213 593
(a/b)
Alpha and beta proteins
260 386 650
(a+b)
Multi-domain proteins 40 40 55
Membrane and cell
42 82 91
surface proteins
Small proteins 72 104 162
Total 887 1447 2630
Class Architecture Topology
Homologous superfamily, CATH
• Белок делится на домены автоматически при
согласованных результатах трех алгоритмов:
– DETECTIVE (Swindells, 1995),
– PUU (Holm & Sander, 1994)
– DOMAK (Siddiqui and Barton, 1995).

• При несовпадении результатов алгоритмов –


решение о доменах за экспертом
Первичная классификация
автоматическая (алгоритм SSAP, Taylor
& Orengo 1989).

При отказах программы решение


принимает эксперт
CATH: уровни классификации
• Класс: основные all-alpha, all-beta, alha-beta
• Архитектура: сходное пространственное
расположение элементов вторичной структуры
без учета их последовательности
• Топология (укладка): сходное взаимное
расположение вдоль цепи и в пространстве
элементов вторичной структуры
• Суперсемейство: предположительно или
несомненно гомологичные домены
• Семейство: сходные последовательности (>35%
identity и выровненные участки покрывают >60%
длины)
В каждой структурной классификации –
свои “причуды”
CATH: два (?!!!) “домена” (?!!!)
(красный и зеленый) в структуре
токсина перфринголизин О из
патогенной бакетрии Clostridium
Perfringens (PDB код 1PFO)

Вот что может автоматика ?!

(В базе SCOP это один домен)


SCOP: этот полипептид был классифицирован как
один структурный домен класса all alpha (???) (белок -
транскрипционный фактор из Listeria monocytogenes,
регулирующий основные гены вирулентности)

Человеческий фактор (?)

В последнем релизе
разделен на два домена
http://www.bio.cmu.edu/courses/03231/ProtStruc/ProtStruc.htm
DALI, Distance matrix
ALIgnment
Структурные мотивы
Вторичная и супервторичная
структура домена

Вам также может понравиться