Академический Документы
Профессиональный Документы
Культура Документы
472 (28-02-90)
TESIS DOCTORAL
C. Claravall, 1-3
08022 Barcelona
Tel. 936 022 200
Fax 936 022 249
E-mail: urlsc@sec.url.es
www.url.es
A mis padres
Agradecimientos
En primer lugar, quisiera agradecer al Dr. Jordi Teixid, director de esta tesis, el apoyo
prestado, tanto en el mbito computacional como en el personal, en el que no han faltado
nimos y amistad para seguir adelante. En plan ms materialista no puedo dejar de agradecer
la cantidad de medios que ha puesto siempre a mi disposicin, as como su ayuda en esas tareas
burocrticas de ltima hora (aunque reconocers que he ido progresando).
Este agradecimiento se extiende a todos los miembros del GEM, especialmente al Dr. Ignacio
Borrell por su colaboracin e inters mostrado y por permitirme realizar la tesis en este
proyecto. Asimismo, quisiera agradecer a varios profesores del IQS que a lo largo de la carrera
o el doctorado me han prestado su apoyo de modos diversos: Dr. Jos Javier Molins, Dr.
Santiago Nonell, Dra. Pepa Blanco, Dr. Xavier Toms y Dr. Alberto Barrera. Al Dr. Jordi
Cuadros, gracias por tu amistad y ayuda, especialmente en nuestro perodo de ocupacin de la
seccin de Estadstica.
A todos los miembros de TICS (Sergi, Joaqun, Javi y Susana) con los que hemos compartido
tantas comidas y buenos ratos. Especialmente, Sergi, tu trabajo, paciencia y ayuda con las
mquinas ha sido impresionante.
A todos los compaeros de la seccin que han ido pasando a lo largo de estos aos y que me
hicieron pasar buenos momentos. A Rosala: en el TFC te dije que pondra sin la cual este
proyecto no es el que es, bien, me mantengo, sin el previo de PRALINS no podra haber
aprendido a programar. Ya sabes que adems te agradezco multitud de favores y tu inestimable
amistad. A Oscar (El Rey) por transmitirme tanto optimismo, alegra y serenidad en tus
consejos, qu hueco dejaste cuando te fuiste! A Violeta por tu colaboracin en este trabajo y
por t amistad, ayudndome en los momentos difciles del tramo final de la tesis. A Roger por
su colaboracin, porque de todo se aprende. Asimismo, gracias a todos los compaeros de las
secciones de sntesis, fotoqumica y esteroides por animar los momentos en el IQS.
Al Dr. Gisbert Schneider por permitirme realizar una estancia en su grupo en Frankfurt. A todos
los amigos que all hice, que tan cariosamente me acogisteis y con los que tantas cervezas
bebimos: Teresa, Tina, Swetlana, Domingo, Karin, Philip, Carlos, Stephen, Lutz, Andreas,
Leyla, Micha, Michi, Norberty as hasta el final del grupo MODLAB.
A las de toda la vida: Teresa, Mara, Mepi, Yolanda y Sandra y a toda la gente del Moko
(vamos para 15 aos). A todos los amigos que he conocido en Barcelona, en especial a Nria
y Kike, ngeles, Csar, Mara, Dani, Marc y PereA la pandilla poltica de Pamplona.
Iigo, una suerte haberte conocido. Aunque esta tesis cada vez nos ha ido quitando ms tiempo,
espero devolvrtelo.
A toda mi familia, con mucho cario para mi abuela Irene. A Jorge y Fina, os agradezco lo
mucho que hicisteis por m en mis comienzos en Barcelona. A la familia de Iigo por el aprecio
y todas las atenciones que tenis para conmigo.
Antonio, aunque eres el hermano pequeo tus consejos y saber hacer me ayudan da a da, eso
por no hablar de las sesiones de risas y cachondeoYa que no pongo cita, imagina que est
escrita tu sugerencia de Clico electrnico.
A mis padres, Antonio y Obdulia, a los que dedico esta tesis por todo el esfuerzo que siempre
habis hecho por m y mi hermano.
Abreviaciones y acrnimos
Sumario
En la presente tesis se exploran y validan gran parte de las tcnicas de cribado virtual con el
objetivo de establecer una secuencia jerarquizada de filtros que permitan evaluar aquellos
compuestos candidatos a ser sintetizados. Los sucesivos pasos de filtrado incluyen la seleccin
de compuestos de una quimioteca virtual a partir de la diversidad o representatividad del
espacio qumico, la aplicacin de bsquedas de similitud y modelos farmacofricos
construidos a partir de inhibidores conocidos, un filtrado mediante docking o acoplamiento de
los inhibidores en la cavidad de unin de estas protenas y mtodos de prediccin de la
afinidad de unin de una serie de ligandos. La jerarqua de estas etapas se impone a partir de la
diferencia de recursos computacionales que requiere cada una de ellas, siendo stos cada vez
superiores. Los mtodos han sido validados retrospectivamente en bases de datos formadas por
compuestos activos recopilados de la bibliografa. Una vez validadas, han permitido la
caracterizacin prospectiva de los candidatos sintticos.
En el mbito de otra lnea de investigacin del grupo dirigida hacia el desarrollo de inhibidores
del proceso de fusin del HIV, se estudia el modo de unin de dos antagonistas de CXCR4 y
CCR5, receptores celulares de la familia de las GPCRs implicados en dicha etapa del ciclo del
virus.
ndice
ndice
INTRODUCCIN 1
OBJETIVOS 23
CAPTULO 8. PRALINS:
Program for Rational Analysis of Libraries in Silico 277
CONCLUSIONES 341
ANEXO 345
BIBLIOGRAFA 353
Introduccin
Introduccin
Las tcnicas de High-throughput screening (HTS) se convierten, desde la dcada de los 90, en
la principal fuente de obtencin de nuevos leads. El HTS requiere una quimioteca de cientos de
miles de compuestos y un mtodo de ensayo de actividad.3 Adems, la introduccin de la
qumica combinatoria ha permitido que el tamao de estas quimiotecas se incremente al orden
de millones de compuestos. Por otra parte, la publicacin del genoma4 ampla el espectro de
dianas biolgicas susceptibles de ser moduladas por un frmaco. Todo ello conduce a que frente
a las rutas tradicionales empleadas en qumica mdica para el diseo de frmacos, aparezca la
posibilidad de optar por la estrategia de testar experimentalmente todos los posibles candidatos
frente a todas las posibles dianas.
Sin embargo, la realidad es que a pesar del uso de estas tcnicas a gran escala, la tasa de
descubrimiento de leads ha decado5 y pocos son los frmacos procedentes directamente de los
resultados de HTS.6 En un experimento de HTS, normalmente realizado en formato de dosis
nica-nico experimento, los compuestos que resultan positivos (HTS hits) son nuevamente
testados para confirmar actividad y estructura (debido a los problemas de pureza inherentes al
uso de qumica combinatoria). Esta etapa de identificacin de HTS hits tiene un xito inferior al
0.1%. De cada 2000 HTS hits, aproximadamente 1200 se confirman como activos reales (HTS
actives), ya que existe un gran nmero de falsos positivos que interfieren con los ensayos
biolgicos, de agregantes promiscuos y de interferencias causadas por los tintes y compuestos
fluorescentes utilizados. Cuando se identifica un gran nmero de HTS actives pertenecientes a
una misma familia qumica, se considera que se ha identificado una serie de leads. Cuando es
posible optimizar estos leads, se habla de drug candidate. Tpicamente, 1 de cada 10.000 HTS
actives alcanza este nivel y nicamente 1 de cada 10 drug candidates supera las pruebas clnicas
convirtindose en drug. En la Figura I.1 se detallan estas etapas junto con su factor de xito.7
Riesgo Incremento
Incrementado conocimiento
de fallo
HTS 106
Drug
Incremento
error
experimental
1
Introduccin
Esta baja tasa de xito, junto con el coste de estas tcnicas, ha hecho que se replantee la
aportacin del HTS, perdiendo parte del protagonismo de la dcada pasada a la vez que las
tcnicas de diseo de frmacos asistido por ordenador cobran importancia.
Hansch y Leo8 desarrollan, durante la dcada de los 60, los primeros estudios de QSAR
(Quantitative Structure-Activity Relationships), aunque es durante los aos 80 cuando se
introduce el diseo racional en el proceso de diseo de frmacos. Esto coincide con el desarrollo
terico de tcnicas de modelizacin molecular y la aparicin de ordenadores personales. La
contribucin computacional en esta poca se basa principalmente en optimizar y refinar los
compuestos a partir de la informacin extrada de la estructura de complejos cristalinos con la
estructura del receptor diana.
Posteriormente, la introduccin del HTS hace que tambin en qumica computacional se
comience a trabajar a nivel de quimiotecas. Aparecen as, en 1997, las tcnicas de cribado
virtual o Virtual Screening (VS), con la finalidad de seleccionar/identificar aquellas molculas
biolgicamente activas frente a dianas particulares o dianas pertenecientes a una misma familia.
Ests tcnicas requieren inevitablemente que se conozca la actividad de algunos compuestos o
bien la estructura de la diana biolgica.
En los ltimos cinco aos, se ha incrementado el empleo de VS y, aunque sigue siendo menos
usado que HTS durante el proceso de lead discovery, se afirma que llegar a reemplazarlo
eventualmente. Con ello, cada vez se confa menos nicamente en la suerte o serendipity en el
descubrimiento de frmacos, aunque siempre hay excepciones como el caso del sildenafil
(Viagra).9
En la Figura I.2, se muestra la estructura de una cascada de in silico screening con los diferentes
pasos de filtrado aplicados y la reduccin de compuestos que conlleva cada uno de ellos. La
aplicacin secuencial de cada una de las tcnicas se basa en el nivel de requerimientos
computacionales que utiliza cada uno de los pasos y en la complejidad de la informacin
aportada como entrada para cada uno de ellos. En el transcurso de la introduccin se describen
cada uno de estos pasos.
2
Introduccin
Preparacin de datos
1.E+06
Generacin de estructuras
Anlisis conformacional
1.E+05
1.E+04
Pre-cribado:
1.E+03 Lipinski
Drug-likeness Bsqueda
de similitud
(2D/3D) Bsqueda
1.E+02
con
Lead farmacforos
hopping
1.E+01 Docking
Postprocesado de la lista de hits
Clustering y evaluacin
1.E+00
3
Introduccin
En el primer paso de una cascada de VS, se utilizan filtros generales, inespecficos de la diana
farmacolgica, para eliminar aquellas estructuras que posean propiedades de no-frmaco. Es
decir, consideran si la molcula est dentro de los estndares de relevancia biolgica en cuanto a
los grupos funcionales que presenta y sus propiedades fsicas (Drug-Likeness). As, se habla y
distingue entre compuestos drug-like y los non-druglike. Sin embargo, estos criterios no son del
todo objetivos, de modo que no todos los frmacos actuales satisfacen completamente estos
criterios.
Los diversos filtros se establecen a partir del anlisis estadstico de bases de datos que incluyen
frmacos: Comprehensive Medicinal Chemistry (CMC)11, MACCS-II Drug Data Report
(MDDR)12, World Drug Index (WDI)13; y otras bases de las que se extraen supuestos no
frmacos, entre la que destaca el Available Chemical Directory (ACD)14.
iii) Filtros que eliminan grupos funcionales txicos o demasiado inestables, como los
incluidos en el programa REOS (Rapid Elimination of Swill).
4
Introduccin
Figura I.3. Influencia de las propiedades determinadas en las reglas de Lipinski en la absorcin.
Similitud
El procedimiento bsico para buscar similitud parte de una o varias estructuras diana (focus
compounds) y su descripcin por uno o ms descriptores estructurales, junto con la de los
compuestos candidatos contenidos en la quimioteca virtual.26,27 As, los dos factores que
participan en una bsqueda por similitud son los descriptores utilizados, con su correspondiente
peso asignado, y la mtrica empleada para establecer la comparacin entre pares de molculas.
5
Introduccin
Muchos de los descriptores usados en un cribado por similitud proceden de las bsquedas de
subestructura (substructure searching) en bases de datos. Sin embargo, este tipo de bsquedas
nicamente permiten decidir si la subestructura requerida (por ejemplo, un anillo bencnico) se
encuentra contenida o no en las estructuras de los compuestos a testar, resultando en una
particin binaria del espacio, a no ser que se incluyan otros parmetros. En la bsqueda de
similitud, se calcula una medida de similitud entre la estructura diana y cada uno de los
compuestos presentes en la base de datos, por lo que posteriormente se pueden ordenar por
similitud decreciente. Los primeros de la lista (nearest neighbours) se convierten en los
candidatos seleccionados por el VS.
Tradicionalmente, los descriptores utilizados para caracterizar quimiotecas virtuales han sido
clasificados como 1D, que nicamente especifican el tipo atmico; 2D, que incluyen
informacin topolgica, es decir, la conectividad de la molcula y 3D, cuando contemplan la
estructura tridimensional de la molcula.28 Hay alrededor de tres mil descriptores posibles de
naturaleza diferente: nmero de distintos tipos atmicos, fisicoqumicos: con informacin de las
caractersticas estricas, lipfilas y electrnicas de la molcula tales como la superficie accesible
al solvente, el logaritmo del coeficiente de particin octanol-agua, energas HOMO y LUMO,
momento dipolar; ndices topolgicos: calculados a partir de grafos y que codifican
informacin como las estructuras cclicas, anillos, orden de enlace; descriptores basados en
fragmentos 2D : pares atmicos agrupados segn tipo de tomo y enlace, relaciones geomtricas
entre puntos farmacofricos, bsqueda de grupos funcionales determinados y fragmentos 2D
especficos...; y los basados en fragmentos 3D, que en muchos casos contienen la misma
definicin que los correspondientes 2D, aunque en este caso las distancias se miden en el
espacio Eucldeo en lugar de tratarse de distancias topolgicas.
Otro tipo de codificacin, muy usada con los descriptores basados en fragmentos 2D y 3D, se
basa en cadenas de bits de dimensin constante, en las que se indica la ausencia (0) o presencia
(1) de una determinada caracterstica, denominados huellas digitales o fingerprints. Tambin se
pueden usar cada uno de los bits para representar un posible valor de entre un rango de los
valores permitidos para variables discretas con varias posibilidades, como el nmero de
ocurrencias, o identificar cada bit con un rango de valores que puede adoptar un descriptor
continuo (binning).
A su vez, existen tres tipos de construccin de fingerprints: i) directos, ii) las llaves estructurales
(structural keys) o iii) hashed fingerprints.29
Para superar esta dependencia y la falta de generalizacin, se crearon los hashed fingerprints
para codificar todo tipo de fragmentos o motivos (patterns). En lugar de asignar un bit a cada
fragmento, se utiliza un algoritmo pseudoaleatorio para codificar cada fragmento, reconocido a
partir de un recorrido comprendido entre uno y un nmero predefinido de tomos conectados en
una molcula, en un entero que se traslada a una cadena de bits de tamao predefinido.
6
Introduccin
Otro tipo de codificacin similar a los fingerprints es la basada en vectores de correlacin (CV,
correlation-vector). Este tipo de codificacin, introducida por Broto y Moreau a mediados de
los '8033, genera vectores numricos de dimensin fija a partir de diferentes caractersticas
moleculares (puntos farmacofricos o propiedades fisicoqumicas). Los CVs corresponden a
histogramas o correlogramas, donde cada columna corresponde a un valor de un rango de
distancias entre pares de puntos farmacofricos (descriptores CATS2D y CATS3D, Chemically
Advanced Template Search34), entre pares de nodos correspondientes a un campo de interaccin
molecular (descriptores GRIND, Grind Independent Descriptors35) o entre pares de descriptores
fisicoqumicos (electronegatividades, polarizabilidades atmicas y cargas parciales)36.
La principal ventaja de este tipo de codificacin es que los descriptores generados no requieren
el alineamiento explcito de las molculas para ser comparadas (alignment-free), lo cual agiliza
los clculos, principalmente si se compara con la obtencin de modelos farmacofricos (vase
abajo). Adems, tambin hay que tener en cuenta que la superposicin de molculas, en el modo
en que se supone que actan sobre el receptor, no es trivial. En la Figura I.4 se esquematiza el
proceso de derivacin de fingeprints farmacofricos y su correspondiente correlograma.
Esta falta de definicin de similitud y su medida, es otro de los puntos controvertidos del
principio de Maggiora, ya que la lectura "molculas similares" ha de trasladarse apropiadamente
a "molculas representadas qumicamente de manera similar", cosa no trivial.
Diversos programas comerciales que calculan descriptores moleculares son: MOE38, Cerius2-
Descriptor+39, DRAGON40, Molecular Modeling Pro41 y ChemOffice/ChemSAR 42.
7
Introduccin
Obtencin de Farmacforos
Usualmente, el proceso para derivar un modelo farmacofrico parte del alineamiento de estas
molculas activas para superponer e identificar todos los grupos farmacofricos conservados
entre ellas y as obtener la configuracin espacial de las caractersticas qumicas clave,
responsables de la interaccin con el receptor. Los grupos farmacofricos comnmente
utilizados son tomos con cargas positiva y negativa, dadores y aceptores de puente de
hidrgeno y tomos con carcter hidrofbico.
Una vez se obtiene dicho modelo, se puede utilizar para buscar en bases de datos otras
molculas que contengan el mismo farmacforo, para explicar relaciones de estructura-actividad
o como punto de partida para el diseo de nuevas molculas potencialmente activas.
En un segundo paso, durante el cribado en bases de datos, la necesidad de alinear las molculas
frente a la hiptesis farmacofrica seleccionada, supone otra desventaja de las tcnicas
tradicionales de obtencin de farmacforos.
8
Introduccin
QSAR y 3D-QSAR
9
Introduccin
35000
Crecimiento anual del nmero de estructuras
30000
Total
25000
Anual
20000
Nmero
15000
10000
5000
0
2006 2001 1996 1991 1986 1981 1976
Ao
Figura I.6. Crecimiento del nmero de estructuras depositadas en el Protein Data Bank. Adaptado
de [60].
La estructura del receptor se usa para explorar el espacio qumico identificando ligandos de
bases de datos de compuestos orgnicos, mediante tcnicas de docking o bien para disear
compuestos de novo que encajen en el sitio de unin de la protena.61
Docking
10
Introduccin
Actualmente, todos los algoritmos modernos de docking modelan el ligando como flexible,
dejando de lado las aproximaciones ms primitivas en las que el ligando se consideraba rgido
(docking rgido).
Los mtodos ms comunes son: fast shape matching (DOCK73, EUDOCK74, LIGANDFIT75),
construccin incremental del ligando en la cavidad de la protena (FLEXX76,
HAMMERHEAD77), bsquedas tab (PRO_LEADS78, SFDOCK79), algoritmos genticos
(GOLD80, AUTODOCK3.081, GAMBLER82), algoritmos genticos acoplados a bsqueda local
o Lamarckianos (AUTODOCK3.0), programacin evolutiva83, simulated annealing
(AUTODOCK2.484, GLIDE85), mtodos de Monte Carlo (MCDOCK86, QXP87, ICM-DOCK88)
y geometra de distancias (DOCKIT89). Tambin existen combinaciones de estos mtodos.
Los mtodos fast shape matching, como el implementado en DOCK, caracterizan el sitio activo
del receptor mediante esferas, cuyos centros se ajustan a los centros del ligando (tomos
pesados o esferas) sobre la base de una comparacin de las distancias internas ligando-ligando y
receptor-receptor (Figura I.7). Los mtodos de construccin incremental del ligando utilizan en
muchos casos, como HAMMERHEAD, una caracterizacin del sitio activo similar a la de los
mtodos fast shape matching. En este caso, acoplan progresivamente fragmentos del ligando
que contengan como mnimo dos enlaces rotables, explorando para cada uno de ellos las
conformaciones posibles. Los mtodos que utilizan algoritmos heursticos de optimizacin
parten de una o varias conformaciones iniciales, modificando los grados de libertad de rotacin
y traslacin segn las particularidades de cada algoritmo. Estos mtodos se discuten en trminos
generales en el apartado 1.9.
N
N
O
O O
O
O
O O
O O N
O O O
N
O O
O O
O
O
O O
O O O
O O
O
O O
O O
O
Generacin de esferas en el sitio del Ajuste de los centros del ligando y Orientacin final del ligando en el
receptor el receptor receptor
Figura I.7. Esquema del mtodo de muestreo en docking de los mtodos fast shape matching
(DOCK).
El docking es la parte que requiere ms tiempo computacional, por lo que los algoritmos que
tardan ms de tres minutos por ligando por procesador, se consideran demasiado lentos para ser
utilizados en VS.
11
Introduccin
Las funciones empricas son las ms usadas en los programas de diseo de frmacos, aunque no
hay ninguna funcin superior al resto, ya que diferentes funciones se comportan mejor para
determinados complejos protena-ligando. De hecho, debido a la falta de fiabilidad general,
normalmente se utiliza una combinacin de funciones (consensus scoring)82. Con ello, se
combinan varias funciones y solo aquellas conformaciones (poses) que reciben altos scores por
dos o ms funciones de scoring son consideradas favorables.
A pesar de que, por fundamento terico, el docking es uno de los filtros ms precisos de VS,
existen tres grandes problemas asociados a l101,102 :
12
Introduccin
Uno de los problemas de que adolece el VS con docking, es la gran cantidad de falsos positivos
identificados debido a errores en la medida de afinidad. Se ha comprobado, que las tcnicas de
consensus scoring reducen notablemente esta cifra, tanto en ensayos de VS como en la
deteccin del modo de unin nativo.
Estos falsos positivos proceden en gran parte de ligandos promiscuos (frequent hitters o
promiscuos binders), y suponen un problema recurrente tanto en el VS como en HTS. Estos
compuestos se detectan como hits en diferentes resultados de VS y ensayos biolgicos dirigidos
contra un amplio margen de dianas farmacolgicas. Esto sucede por dos razones: 1) la actividad
del compuesto no es especfica de la diana o 2) el compuesto altera el ensayo o el mtodo de
deteccin. En cualquier caso, estas molculas no suelen ser vlidas como puntos iniciales de los
programas de optimizacin de leads.106
O O O
N N N
N N
O
O O
N N
N N
O O
N
N
O
Figura I.8. Esquema de docking, diseo de novo por crecimiento secuencial y por unin de
fragmentos (de izquierda a derecha).
Diseo de novo
Estas tcnicas permiten disear inhibidores/moduladores from scratch a partir del sitio de
unin en la diana o del farmacforo, es decir, de informacin de la ordenacin espacial de
puntos de interaccin receptor-ligando relevantes (Figura I.8).
De hecho, los programas de docking se pueden utilizar a este propsito si se acoplan con un
generador de estructuras, aunque se han desarrollado programas especializados para construir
los ligandos dentro del sitio de unin por combinacin o ensamblaje de tomos y fragmentos
moleculares que se adecuen a los sitos de interaccin encontrados.107
13
Introduccin
Al igual que en los mtodos de docking, las funciones de scoring ms comunes son las
empricas y las knowledge-based.
El clculo de energas libres de unin aparece a comienzos de los 80, basado en simulaciones
de mecnica molecular con dinmica molecular y mtodos de Monte Carlo.113-115 Los dos
grandes mtodos: el de perturbacin de energa libre (Free Energy Perturbation, FEP) e
Integracin Termodinmica (Thermodynamic Integration, TI), se presentaron como
posibilidades fciles y fiables. Se basan en que los cambios de energa libre relacionados con
pequeas perturbaciones de un sistema molecular se pueden determinar a partir de una
simulacin. As, estos mtodos realizan un tratamiento riguroso de todos los grados de libertad
de complejos ligando-protena, incluyendo modelos de solvatacin adecuados. A partir del ciclo
termodinmico de la Figura I.9, se calcula la diferencia de energa libre entre dos procesos
(unin de dos ligandos distintos, X e Y a la protena P) a partir de introducir
mutaciones/perturbaciones que transforman el ligando X en Y. As, la necesidad de calcular las
ramas horizontales del ciclo se sustituye por la de calcular las ramas verticales del ciclo, es
decir, la transformacin de X e Y en entorno acuoso y en la protena. Durante la mutacin
gradual, se generan especies qumicas inexistentes.
GX
P + X P X
GF GC
GY
P + Y P Y
Hasta los 90, no se dispona, de manera generalizada, de la capacidad de clculo para realizar la
prediccin de manera correcta. Actualmente, tambin es demasiado costoso
computacionalmente para la aplicacin al clculo de miles de compuestos en experimentos de
VS, a lo hay que sumarle el hecho de tener que calcular sobre estructuras inexistentes y
restringirlo a ligandos muy similares, por lo que han quedado relegadas del mundo del VS.116
14
Introduccin
En el otro extremo, se sitan las funciones de scoring aplicadas en los mtodos de docking.
Como se ha comentado, estas funciones son demasiado simples en su evaluacin, ya que estn
diseadas para el tratamiento de miles de compuestos.
En las primeras aplicaciones publicadas, estos mtodos se han aplicado para el clculo de
energas libres de unin de un reducido conjunto de molculas (oscilando en torno a 10-20
molculas), para las que el modo de unin est bien establecido a partir de estructuras
cristalogrficas de complejos o bien para extraer conclusiones estructurales de conformaciones
preferentes e isomera.119-124
Sin embargo, recientemente se ha validado el uso de MM-PBSA en VS.125 En lugar de realizar
una dinmica molecular, se evala una nica conformacin del complejo protena-ligando
mediante MM-PBSA. Esta aproximacin, aunque controvertida con conclusiones de otros
autores121, deja la puerta abierta a la inclusin de estas tcnicas en VS.
Modelizacin de Protenas
15
Introduccin
Los otros dos grandes mtodos de prediccin, ab initio y por reconocimiento de plegamiento, se
utilizan principalmente para la descripcin y prediccin de fenmenos estructurales de las
protenas, ya que todava estn en desarrollo.
Secuencia:
Alineamiento
Construccin a
Reconocimiento partir de los
plegamiento en patrones/plantilla
una base de
datos
Modelo final
16
Introduccin
Los mtodos de docking estn optimizados para encontrar el modo de unin, pero no estn
dirigidos, en principio, a determinar el sitio de unin.
Cuando se dispone del receptor complejado con diversos ligandos, la definicin del sitio de
unin es fcil, a partir de los residuos comprendidos dentro de una distancia umbral (cutoff)
desde el ligando. Sin embargo, cuando nicamente se dispone de la estructura tridimensional de
la apoprotena (sin ligandos), conviene disponer de informacin como la funcin de la protena
o la derivada de experimentos de mutagnesis dirigida.
17
Introduccin
I.5. Diversidad
Hasta este punto, la exposicin se ha centrado en la estrategia del cribado virtual hacia el diseo
de quimiotecas focalizadas a una diana farmacolgica en particular. Sin embargo, otra
alternativa del diseo de quimiotecas es la seleccin de un conjunto basndose en la diversidad
de los compuestos que la componen, de manera que el diseo final sea representativo de la
quimioteca inicial total, disminuyndose la probabilidad de que existan regiones inexploradas.
Este criterio de diversidad se suele aplicar a quimiotecas generales de compuestos con el fin de
identificar un mayor nmero de scaffolds diferentes, por lo que se aplica en las etapas iniciales
de descubrimiento de hits. Estas quimiotecas (diversity library o random library) estn
orientadas a ser testadas frente a un amplio rango de dianas biolgicas. Este tipo de cribado va
particularmente unido a la qumica combinatoria: ante la posibilidad de sintetizar en paralelo
miles de compuestos, es necesaria una seleccin racional de stos o bien de los reactivos que
aportarn un determinado sustituyente en una determinada posicin de manera que el
subconjunto escogido maximice la variabilidad de las propiedades moleculares de los
productos. Estas selecciones de carcter ms general, no contemplan informacin estructural de
los inhibidores conocidos, por lo que son de utilidad para la identificacin de posibles hits
cuando no se dispone de la informacin requerida en los mtodos descritos anteriormente.
18
Introduccin
ii) Los mtodos de particin tambin clasifican el espacio qumico para posteriormente
seleccionar un candidato de cada grupo, pero en este caso lo hacen a partir de celdas
(bins) generadas por divisin recursiva de los rangos de todas las propiedades que
describen el espacio qumico. Este tipo de aproximacin es mucho ms rpida y
requiere menos recursos de memoria que los mtodos de clustering, por lo que se
aplican en quimiotecas de compuestos de tamao medio y grande.
Figura I.11. Esquema de selecciones basadas en clustering, bins y mtodos basados en distancia, de
izquierda a derecha.
La seleccin de compuestos, tanto en versin focalizada como diversa, se puede aplicar a bases
de datos generales, como las colecciones propias de una empresa o catlogos pblicos como el
ACD, Available Chemicals Directory, o a quimiotecas virtuales combinatorias, es decir, donde
se han generado todas las posibles combinaciones de productos a partir de un nmero de
reactivos, tal y como se obtendran sintticamente por qumica combinatoria (Figura I.12).
Previo a la seleccin en estas quimiotecas virtuales, stas se tienen que construir. Para ello, se
tiene que considerar la eleccin de una qumica accesible, es decir, la eleccin del espacio
qumico de inters. Desde un punto de vista sinttico, las reacciones multicomponente (MCR)
permiten la combinacin de tres o ms puntos de diversidad, con lo que se facilita la
construccin de quimiotecas combinatorias grandes con una amplia variedad de funcionalidades
qumicas.
19
Introduccin
Los reactivos se extraen de catlogos de casas comerciales o de bases de datos generales como
el ACD y son sometidos a filtros similares a los aplicados en las etapas de pre-filtrado de
productos del VS. Adems, se incluyen factores como el precio, la accesibilidad comercial de
dichos reactivos y las posibles interferencias que puedan generar en la reaccin qumica
establecida. Dada la falta de bases de datos que recojan aquellos reactivos no aptos para una
determinada reaccin, este ltimo criterio se suele ms bien realizar basndose en intuicin y
conocimientos sintticos que con el uso de filtros automatizados.149
O
2
O O R
1 OH
R O R
2
HS
+ OH + OH R
1 N O
H NH2 R
3
S
3
R
Figura I.12. Esquema de una quimioteca combinatoria con tres puntos de variacin. La combinacin
de N1 aldehdos con N2 aminocidos y N3 tioles genera una quimioteca de N1 N2 N3 productos.
Tanto en bases de datos generales como en quimiotecas combinatorias, se puede aplicar una
seleccin cherry picking o sparse array, esto es, seleccionando n productos de los N totales de
manera que cumplan el criterio de diversidad o similitud requeridos, pero sin imponer una
restriccin combinatoria sobre los reactivos de los que proceden, en el caso de trabajar sobre
quimiotecas combinatorias. Este tipo de seleccin, presenta, aunque no necesariamente, el
inconveniente de que se incrementa el nmero de reactivos necesarios y con ello el coste. El
nmero mnimo de reactivos necesarios para sintetizar n productos en una reaccin
k-componente es kn1/k. El nmero mximo corresponde a kn, al que se tiende en el diseo
cherry picking. Adems, en este diseo se generan problemas en la robotizacin de la sntesis
combinatoria.150
En las quimiotecas combinatorias, adems, pueden aplicarse otras dos estrategias. La primera de
ellas, basada en reactivos (reagent-based), selecciona directamente un conjunto de reactivos de
cada uno de los puntos de variacin disponibles, basndose en lo que Gillet bautiz como
hiptesis de diversidad (diversity hypothesis).150 Dicha hiptesis asume que si es posible
identificar un conjunto de reactivos de mxima diversidad, entonces su uso resultar en la
generacin de una quimioteca combinatoria de productos diversos. As, supone que las
propiedades derivadas de los reactivos son transferibles, para ciertos descriptores, a los
productos. Con ello, el conjunto seleccionado es combinatorio, evitndose los inconvenientes de
la seleccin cherry picking. Al prescindir de la construccin virtual o enumeracin de todos los
productos de la quimioteca, es menos costosa computacionalmente, pero se ha demostrado que
esta simplificacin es menos eficaz en la seleccin de conjuntos diversos que la aproximacin
desarrollada posteriormente, la basada en productos (product-based).151,152
El diseo product-based full array, se ide para superar las desventajas de los otros dos
formatos comentados: prdida de representatividad de los productos (reagent-based) y formato
no combinatorio del conjunto escogido (cherry picking). La seleccin se realiza sobre el espacio
de los productos, pero de manera que sean la combinacin de un subconjunto de reactivos. En
este caso, el nmero de reactivos requeridos tiende al valor mnimo de kn1/k.
20
Introduccin
Seleccin reactivos X1 Y2 Enumeracin (sntesis virtual) X1Y2 X1Y3 X1Y4 X1Y7 Reagent-based
X3 Y3 X3Y2 X3Y3 X3Y4 X3Y7
X4 Y4 X4Y2 X4Y3 X4Y4 X4Y7 Full array
X5 Y7 X5Y2 X5Y3 X5Y4 X5Y7
X1 Y1
X2 Y2
X1Y1 X1Y2 X1Y3 X1Y4 X1Y5 X1Y6 X1Y7
X3 Y3
X4 Y4
X2Y1 X2Y2 X2Y3 X2Y4 X2Y5 X2Y6 X2Y7 Product-based
X3Y1 X3Y2 X3Y3 X3Y4 X3Y5 X3Y6 X3Y7
X5 Y5 Full array
X4Y1 X4Y2 X4Y3 X4Y4 X4Y5 X4Y6 X4Y7
X6 Y6
X5Y1 X5Y2 X5Y3 X5Y4 X5Y5 X5Y6 X5Y7
X7 Y7
X1Y1 X1Y2 X1Y3 X1Y4 X1Y5 X1Y6 X1Y7 X6Y1 X6Y2 X6Y3 X6Y4 X6Y5 X6Y6 X6Y7
X2Y1 X2Y2 X2Y3 X2Y4 X2Y5 X2Y6 X2Y7 X7Y1 X7Y2 X7Y3 X7Y4 X7Y5 X7Y6 X7Y7
X3Y1 X3Y2 X3Y3 X3Y4 X3Y5 X3Y6 X3Y7 Seleccin
X4Y1 X4Y2 X4Y3 X4Y4 X4Y5 X4Y6 X4Y7 productos
X5Y1 X5Y2 X5Y3 X5Y4 X5Y5 X5Y6 X5Y7
X6Y1 X6Y2 X6Y3 X6Y4 X6Y5 X6Y6 X6Y7
Enumeracin X7Y1 X7Y2 X7Y3 X7Y4 X7Y5 X7Y6 X7Y7 X1Y1 X1Y2 X1Y3 X1Y4 X1Y5 X1Y6 X1Y7
(sntesis virtual) X2Y1 X2Y2 X2Y3 X2Y4 X2Y5 X2Y6 X2Y7 Product-based
X3Y1 X3Y2 X3Y3 X3Y4 X3Y5 X3Y6 X3Y7
X4Y1 X4Y2 X4Y3 X4Y4 X4Y5 X4Y6 X4Y7 Cherry picking
X5Y1 X5Y2 X5Y3 X5Y4 X5Y5 X5Y6 X5Y7
X6Y1 X6Y2 X6Y3 X6Y4 X6Y5 X6Y6 X6Y7
X7Y1 X7Y2 X7Y3 X7Y4 X7Y5 X7Y6 X7Y7
Figura I.13. Esquema de selecciones basadas en reactivos (reagent-based) frente a las basadas en
productos (product-based) y de selecciones cherry picking frente a full array.
o puntos de variacin con 10 reactivos asequibles en cada uno de ellos, para los que se desea
escoger 3 reactivos, el nmero de selecciones posibles es de 108. La naturaleza combinatoria de
las selecciones cherry picking es mucho mayor, ya que las posibilidades de seleccin de n
N
productos de un total de N corresponden al nmero combinatorio . Comparativamente, en
n
el caso de la seleccin anterior de 81(3^4) reactivos de un total de 10000 (10^4), el nmero de
selecciones posibles es de 10203. Mientras que la mayora de mtodos cherry picking tienen un
carcter determinista, la naturaleza de la restriccin combinatoria obliga al uso de tcnicas de
optimizacin.
En la ltima dcada, han surgido una variedad de referencias que proponen distintos algoritmos
de optimizacin, tanto heursticos: algoritmos genticos (programas SELECT153, GALOPED154,
HARPick155)156-159 y simulated annealing160,161 como aproximaciones ms deterministas162-164.
Destacan aquellas que eliminan la necesidad de construir/enumerar toda la quimioteca de
compuestos, ya que de manera iterativa seleccionan subconjuntos de reactivos a partir de los
cuales generan productos hasta encontrar el ptimo.163
Adems, existen diferentes paquetes integrados dirigidos a la construccin y seleccin de
quimiotecas combinatorias: el mdulo CombiChem de Cerius239, el paquete Sybyl165 y MOE38,
son algunos ejemplos.
Otra de las direcciones hacia las que ha evolucionado el diseo de quimiotecas virtuales ha sido
hacia la seleccin de compuestos combinando mltiples criterios como diversidad/similitud,
coste, propiedades ADMET, etc149,167 (selecciones multiobjetivo).
21
Objetivos
Objetivos
Finalmente, se estudia el modo de unin de antagonistas de los receptores CXCR4 y CCR5, co-
receptores implicados en la entrada del virus del HIV a las clulas.
23
Captulo 1. Fundamentos tericos
Captulo 1.
Fundamentos tericos
H ( r ) = E ( r ) [1.1]
Los mtodos semiempricos, en los que s hay una parametrizacin emprica para la
descripcin de los electrones internos (core) mientras que los electrones externos se
caracterizan mediante funciones de onda cunticas.
Por otra parte, se han desarrollado tambin modelos mixtos (QM/MM) que tratan el sistema
parcialmente de forma cuntica y clsica.
Aunque los modelos cunticos son ms precisos, su elevado coste computacional los restringe a
molculas con un nmero de tomos del orden de decenas, resultando inviable el tratamiento
cuntico total de macromolculas. Por otra parte, su uso es obligado en el estudio de reacciones
que impliquen la ruptura y formacin de enlaces. Asimismo, la modelizacin de los compuestos
de quimiotecas virtuales se realiza bsicamente en el entorno de la mecnica clsica, aunque
existen aplicaciones de descriptores mecanocunticos a quimiotecas con un nmero limitado de
compuestos.168
Otro tipo de sistemas lo componen los mtodos basados en reglas o rule-based systems que
permiten obtener una estructura tridimensional razonable para compuestos orgnicos a partir de
la informacin topolgica de las molculas, expresada mediante una tabla de conexiones.
25
Captulo 1. Fundamentos tericos
Para ello, utilizan bases de datos tabuladas para las longitudes de enlace, ngulos,
conformaciones de anillos a la par que extienden al mximo los fragmentos acclicos. Destacan
los programas CONCORD169 y CORINA170. El objetivo de estos programas es el de acelerar al
mximo la generacin de estructuras tridimensionales de compuestos en bases de datos.
El force field define los parmetros usados en la descripcin de los tomos y enlaces y el
tratamiento matemtico que los relaciona. As, en primer lugar asigna a cada tomo (bola) un
tipo (atom type) en funcin de su hibridacin, carga y tomos a los que est unido. A cada uno
de los tipos atmicos les corresponde un grupo de parmetros: constantes de fuerza, datos
atmicos (radios atmicos, carga, masa) y valores estructurales de equilibrio. Estos
parmetros se suelen obtener a partir de valores experimentales o bien se derivan de clculos
mecanocunticos.
Finalmente, cada force field define una ecuacin de energa potencial, de manera que la energa
de una molcula en una conformacin determinada se calcula a partir de la que tendran
idealmente las partes que la constituyen. As, la energa es relativa a un estado de referencia y se
calcula como la suma de los diferentes trminos que indican la penalizacin por el alejamiento
de la idealidad de las distancias de enlace, ngulo, torsiones
Aunque la ecuacin matemtica vara entre distintos force fields, de manera general se incluyen
los siguientes trminos:
Interacciones enlazantes: intervienen tomos unidos por enlaces qumicos. Se trata de los
trminos de estiramiento de enlace, doblamiento de ngulos, ngulos diedros y ngulos
impropios (en sistemas planares de cuatro tomos, en los que uno de ellos en posicin
central est unido al resto). Adems, se pueden incluir trminos de interacciones cruzadas
que reflejan el acoplamiento entre las coordenadas internas: acoplamientos ngulo-enlace,
ngulo-ngulo, enlace-enlace
26
Captulo 1. Fundamentos tericos
Figura 1.1. Modelo y representacin grfica de los trminos habituales en un force field.
Existe una gran variedad de force fields creados en funcin de los grupos de molculas
empleados como referencia en la parametrizacin y a los que va destinado. Desde los aplicados
a molculas orgnicas pequeas y medianas (MM2174, MM3175, MM4176, TRIPOS177,
MMFF94178, UFF179, GAFF180) a los dirigidos a macromolculas (AMBER181, CHARMM182,
GROMOS183, OPLS184). En la referencia [185] se puede encontrar una revisin de los distintos
force fields aplicados a protenas.
La ecuacin [1.2] corresponde al force field AMBER, donde los dos primeros trminos
penalizan el alejamiento de los enlaces y ngulo de su valor de equilibrio (ro y o,
respectivamente) mediante un potencial harmnico simple (con constantes de fuerza kr y k,
respectivamente). El potencial de torsin se representa mediante una serie de Fourier truncada,
donde Vn es el potencial en el mximo, n es la periodicidad y o es la fase. Los trminos no
enlazantes se calculan segn las ecuaciones tradicionales comentadas.
E pot = k (r r )
r o
2
+ k ( ) o
2
+
Vn
[1 + cos(n o )] +
enlaces ngulos diedros 2
[1.2]
Aij Bij qi q j
r12 r 6 + 4 rij
ij
no enlazantes ij
no enlazantes
van der Waals electrostticas
La ecuacin del force field AMBER original186 incluye tambin trminos de interaccin por
puente de hidrgeno que se han eliminado en posteriores versiones implementadas en las
versiones 7 y 8 del programa AMBER187.
27
Captulo 1. Fundamentos tericos
Finalmente, el force field MMFF94, desarrollado en Merck, est dirigido a un amplio rango de
sistemas qumicos de inters farmacolgico.
kr 7
E= 143.9325 2 (r r )
enlaces
o
2
1 2 (r ro ) + (r ro ) 2 +
3
k
0.043844 ( o ) [1 0.4 ( o )]
ngulos 2 +
143.9325 k [1 + cos( o )]
ngulos
0.5 [V (1 + cos ) + V
diedros
1 2 (1 cos 2 ) + V3 (1 + cos 3 )] +
[1.3]
La ecuacin [1.3] corresponde a la funcin de energa potencial del force field MMFF94. Se
observa cmo es ms compleja en la definicin de los trminos que la del AMBER. En general,
los force field derivados para macromolculas son los ms sencillos en cuanto a la complejidad
de las funciones y no suelen incluir trminos de interacciones cruzadas, como la del force field
MMFF94 (trmino ngulos-enlaces no lineales).
Los trminos de estiramiento del enlace y torsin de ngulos se modelan en este caso con una
expansin hasta el cuarto orden de la curva de Morse, que se ajusta mejor al modelo de la curva
de energa potencial de un enlace que la de la ley de Hooke. El trmino de torsin de diedros
contiene tres trminos, a diferencia de AMBER; cada uno de los cuales est dirigido a la
explicacin de un efecto fsico (por ejemplo, el segundo trmino, refleja el carcter de doble
enlace para explicar efectos de conjugacin en alquenos). Halgren, autor del force field, propuso
la forma que adopta la interaccin de van der Waals en un intento de mejorar, principalmente, el
trmino de las interacciones repulsivas (r-12) de la ecuacin tradicional de Lennard-Jones.
Finalmente, las interacciones electrostticas contienen en este caso una constante de buffering
electrosttico () y n adopta valores de 1 o 2.
Una vez introducido el modelo terico de aproximacin a las molculas, se describen los
mtodos que permiten buscar las soluciones a la ecuacin de la energa potencial en funcin de
las coordenadas atmicas, espacio conocido como superficie de energa potencial. Dentro de
esta superficie, son especialmente interesantes los estados estacionarios, en los que la derivada
de la energa respecto a las coordenadas (fuerzas) es nula. Particularmente, los mnimos
energticos corresponden a estados estables del sistema. As, hablar de optimizacin de
28
Captulo 1. Fundamentos tericos
Tanto en este caso particular, como en cualquier otro problema de optimizacin, para moverse
por el espacio de bsqueda se pueden adoptar dos posturas diferentes: explorar (generando
puntos en zonas del espacio que previamente no tienen porqu haber sido visitadas) o explotar
(explorando tambin, pero en la cercana de soluciones ya existentes, sacndoles todo el partido
posible). La mayor parte de los algoritmos de bsqueda tratan de establecer un equilibrio entre
explotacin y exploracin, aunque muchos de ellos se inclinan hacia una mayor exploracin
(aleatoriedad) o explotacin (determinismo). As, en general, los mtodos de bsqueda se
dividen, a grandes rasgos, en mtodos globales y locales. Los mtodos globales tratan de
encontrar el mnimo global de un problema, mientras que los locales se concentran en la
vecindad de la solucin generada inicialmente, por lo que no tienen ninguna garanta de que el
mnimo encontrado sea global.
Los problemas de minimizacin energtica se suelen abordar con mtodos de bsqueda local,
por lo que se describen brevemente en este apartado188. Los mtodos de bsqueda global,
empleados en otras aplicaciones de la qumica computacional (seleccin de compuestos en
quimiotecas virtuales combinatorias, anlisis conformacional aplicado en las bsquedas
farmacofricas y docking, superposicin de compuestos) se describen en el apartado 1.9.
Dentro de los mtodos de bsqueda local, para variables continuas, son muy comunes los
mtodos de descenso, de manera que encuentran el mnimo ms prximo al punto inicial. Se
distinguen en funcin del orden de la derivada.
nicamente utilizan valores de la propia funcin. Requieren mucho coste computacional, por lo
que suelen aplicarse en combinacin con otros mtodos de optimizacin ms eficientes. As, en
la optimizacin geomtrica, son tiles al inicio, cuando se parte de una configuracin muy
energtica. El ms popular es el mtodo simplex. Se genera un simplex, una figura de M+1
vrtices interconectados, donde M es la dimensionalidad del problema (funcin de energa). El
sistema inicial corresponde a uno de estos vrtices, y el resto de vrtices se construyen, por
ejemplo, imponiendo un incremento a cada una de las variables (coordenadas) de la funcin. El
simplex se mueve sobre la superficie de la energa potencial mediante una serie de reglas
(reflexin, expansin, contraccin de los vrtices), de manera que se asegura que puede explorar
la totalidad de la superficie de energa.188
Adems de los valores de la propia funcin, utilizan su primera derivada (gradiente). Son menos
robustos que los anteriores, pero ms eficientes y con mayor tasa de convergencia. Son los ms
empleados en mecnica molecular.
donde xi+1 es la nueva posicin en el paso i+1, xi es la posicin previa, li es el tamao de paso y
Si es la direccin de este paso. Los diferentes algoritmos varan en cmo definen esta direccin
y este paso. La iteracin se repite hasta que la variacin en la funcin es menor a un
determinado valor umbral.
29
Captulo 1. Fundamentos tericos
La longitud del paso se puede determinar con un algoritmo de bsqueda lineal o mediante la
aproximacin de paso arbitrario.
La bsqueda lineal localiza el mnimo a lo largo de una direccin especificada (una lnea
en un espacio multidimensional). Para ello, frecuentemente, se ajustan de manera iterativa
funciones polinmicas sobre un conjunto de puntos de la direccin de descenso y se
resuelve el mnimo analticamente. El gradiente en el punto mnimo de la lnea de
bsqueda es perpendicular a la direccin previa, por lo que el gradiente en la siguiente
direccin es ortogonal a la direccin previa.
En la aproximacin del paso arbitrario, el valor del paso tiene un valor predefinido que se
incrementa o reduce durante el proceso segn si el valor de la funcin se reduce o
incrementa, respectivamente. Este ltimo procedimiento, aunque menos riguroso, suele
requerir ms pasos para alcanzar el mnimo, pero frecuentemente requiere menos
evaluaciones de la funcin.
Steepest Descent (SD) / Direccin del mximo gradiente: La direccin de descenso (Si)
corresponde al gradiente (gi) negativo de la funcin en el punto (ecuacin [1.5]).
Si = g i g i [1.5]
Si = g i + i Si 1 [1.6]
g iT g i
i = [1.7]
g iT1 g i1
g iT ( g i g i 1 )
i = [1.8]
g iT1 g i 1
giT ( g i g i 1 )
i = T [1.9]
Si 1 ( g i g i 1)
30
Captulo 1. Fundamentos tericos
xi +1 = xi H i1 ( xi ) g i ( xi ) [1.10]
Donde H i1 ( x) es la matriz Hessiana inversa. El clculo de la inversa de esta matriz hace que el
mtodo Newton-Raphson requiera ms tiempo computacional, por lo que se suele aplicar a
sistemas con menos de cien tomos. Adems, esta matriz ha de ser definida positiva para
impedir que el mtodo se dirija a puntos silla donde la energa se maximiza.
2 xi Fx
= i
[1.11]
t 2 mi
31
Captulo 1. Fundamentos tericos
t2
p (t )
ri (t2 ) = ri (t1 ) + dt [1.12]
t1
m
t2
Las integrales de las ecuaciones [1.12] y [1.13] se descomponen como suma de pequeas
etapas, cada una correspondiente a un pequeo intervalo de tiempo t (tpicamente,
comprendido entre 1 y 10 femtosegundos). En cada paso, se calculan las fuerzas sobre los
tomos, asumindose que son constantes durante este intervalo de tiempo, y se combinan con
las posiciones y velocidades actuales para generar el nuevo estado. Una vez se han movido los
tomos a las nuevas posiciones, se actualizan las fuerzas que actan sobre cada tomo y as
hasta generar toda la trayectoria.
Se trata de un algoritmo exacto (el error de truncacin del algoritmo es del orden de t4),
estable, de fcil implementacin y con un coste computacional modesto, lo que explica su gran
popularidad en las simulaciones de dinmica molecular.
r (t + t ) r (t t )
v(t ) = [1.18]
2 t
32
Captulo 1. Fundamentos tericos
1 r (t + t ) r (t )
v(t + t ) = [1.19]
2 t
Sin embargo, el error asociado a esta expresin es del orden de t2, en lugar de t4. Otro
problema es que para inicializar el algoritmo se necesita una alternativa para obtener las
posiciones del paso previo (r(-t)). Una posibilidad es realizar la aproximacin en serie de
Taylor truncado tras el primer paso (ecuacin [1.20]):
Para superar estas dificultades, se han desarrollado variantes del algoritmo de Verlet que
generan exactamente la misma trayectoria, aunque difieren en las variables almacenadas en
memoria (posicin en paso actual y previo, aceleracin en paso actual para Verlet) y los tiempos
para los que se calculan.
1 1
v(t + t )= v(t t ) + t a (t ) [1.21]
2 2
1
r (t + t )= r (t ) + t v(t + t ) [1.22]
2
1 1 1
v(t )= v(t + t ) + v(t t ) [1.23]
2 2 2
Una de sus desventajas es que las velocidades y posiciones no estn sincronizadas, por lo que no
se posible calcular la energa cintica (velocidades) al mismo tiempo que la energa potencial
(coordenadas), aunque se mantiene la conservacin de la energa incluso a intervalos de tiempo
mayores.
Existen otros algoritmos de integracin como el velocity Verlet193, que obtiene todas las
magnitudes sincronizadas aunque con mayor coste de memoria. El predictor-corrector de
Gear194 y mtodos de Runge-Kutta calculan las velocidades y coordenadas con mayor precisin
(utiliza un truncamiento de la serie de Taylor a mayor orden) aunque con mayor coste
computacional y requisitos de memoria.
33
Captulo 1. Fundamentos tericos
Normalmente, se asume que el lmite superior del time step es aquel que permite simular bien el
movimiento ms rpido del sistema (la vibracin de un enlace de un tomo de hidrgeno, del
orden de 10 fs). As, tpicamente el time step es de 1 fs, al menos un orden de magnitud ms
pequeo que dicho movimiento. Cuando se trabaja a temperaturas por encima de 300 K, el time
step se suele reducir ya que las energas cinticas son superiores y los tomos recorren ms
distancia entre dos evaluaciones de fuerza, pudiendo generar solapamientos de alta energa entre
tomos.
Una posible solucin para incrementar este valor es el de eliminar del sistema aquellos grados
de libertad de mayor frecuencia como lo son los estiramientos de enlace, ya que tienen un efecto
mnimo en el comportamiento general del sistema. Para ello, se congelan dichas frecuencias
al imponer constraints sobre estos enlaces (algoritmo SHAKE195), permitiendo trabajar con time
steps de 2 fs.
Siguiendo la hiptesis ergdica, las simulaciones calculan las propiedades macroscpicas como
promedio de un conjunto de microestados denominado colectivo (ensemble). Las dinmicas
moleculares normalmente se realizan bajo condiciones de nmero constante de partculas (N),
volumen (V) y energa (E), conocido como colectivo microcannico (microcanonical o constant
NVE ensemble). Sin embargo, se pueden realizar bajo otros colectivos: cannico (canonical
ensemble, NVT) con nmero de tomos, volumen y temperatura constantes o el isotermo-
isobrico (isothermal-isobaric ensemble, NPT). Los resultados de propiedades macroscpicas
derivadas de mecnica estadstica y obtenidos en un colectivo pueden ser transformados a otro
colectivo, aunque estrictamente esto es correcto en el lmite de un sistema infinitamente grande.
El primer paso en una dinmica parte de establecer el estado inicial. La conformacin inicial
puede extraerse de datos experimentales o de modelos tericos obtenidos con minimizacin
energtica. Las velocidades iniciales de los tomos se asignan aleatoriamente de forma que
sigan una distribucin Maxwell-Boltzmann a la temperatura de inters.
3
= N kB T [1.24]
2
34
Captulo 1. Fundamentos tericos
Una manera sencilla de mantener la temperatura constante es multiplicar las velocidades tras
cada paso de integracin por un factor que relaciona la temperatura actual (Ta) con la
requerida (Tr), ecuacin [1.25]:
= Tr Ta [1.25]
t Tbao
= 1 + 1 [1.26]
T (t )
En una simulacin en condiciones NVE, la presin flucta mucho ms (varios cientos de bares)
que el resto de magnitudes debido a que est relacionada con el virial, que se obtiene como el
producto de las posiciones y la derivada de la funcin de energa potencial. Este producto
( rij (rij ) / rij ) cambia ms rpidamente con la posicin de lo que lo hace la energa interna.
Sin embargo, el valor promedio a lo largo de muchos pasos puede ser prximo a la presin
objetivo.
Del mismo modo que un sistema macroscpico, una simulacin en el colectivo NPT isotermo-
isobrico mantiene la presin constante cambiando el volumen. La fluctuacin en el volumen
est relacionado con la compresibilidad isoterma (), segn la ecuacin [1.27]:
35
Captulo 1. Fundamentos tericos
1 V
= [1.27]
V P T
t
=1 ( Pbao P (t )) [1.28]
P
r 'i = 1 / 3 ri [1.29]
Esta expresin puede aplicarse isotrpicamente (aconsejado para solutos disueltos en agua) o
anisotrpicamente (en sistemas anisotrpicos como simulaciones de membranas, en los que las
tensiones superficiales difieren con la direccin).
Los sistemas simulados en dinmica molecular, de miles y decenas de miles de tomos, son
relativamente pequeos a escala macroscpica, por lo que un elevado porcentaje de los tomos
se encuentra rodeado de vaco. Esto genera efectos frontera (boundary effects), es decir,
desviaciones del comportamiento de los tomos en los lmites del sistema respecto a los que se
encuentran en el centro, que en el caso lmite conducen a la evaporacin del sistema.
36
Captulo 1. Fundamentos tericos
Estos ltimos mtodos son ms difciles de implementar que las simulaciones peridicas y
pueden conducir a resultados anmalos, por lo que las simulaciones peridicas PBC siguen
siendo el modo ms seguro y tradicionalmente recurrido en dinmica molecular.
La eleccin de tratamiento de los lmites va ligada al tipo de solvente aplicado, por lo que se
retoma este tema en el apartado 1.3.6, donde se detallan los dos esquemas aplicados en el
presente trabajo.
Para eliminar las discontinuidades introducidas por el cutoff en la funcin de energa potencial y
en las fuerzas en la regin de corte, se pueden aplicar shifted potentials switching functions.
En las primeras, se desplaza la funcin de potencial al restrsele un trmino constante
(alternativamente tambin uno lineal). El problema es que al modificar este potencial, las
propiedades macroscpicas no son directamente calculables. Las switching functions son
37
Captulo 1. Fundamentos tericos
En este mtodo198, una partcula electrosttica interacciona no solo con las partculas en la celda
de simulacin, sino tambin con sus imgenes en un sistema peridico infinito de celdas, segn
la expresin de Coulomb correspondiente de la ecuacin [1.30]:
1 N 1 N qi q j
=
4 o n = 0 i =1 J = I +1 rij + n
[1.30]
Donde N es el nmero de cargas contenido en cada celda, qi y qj son dichas cargas, rij la
distancia que las separa y n corresponde a los vectores de una red peridica n=(nxLx, nyLy,
nzLz), siendo L la longitud de cada dimensin de la celda.
La suma de la ecuacin [1.30] es condicionalmente convergente (su resultado depende del orden
en que los trminos son sumados) y tiene una convergencia lenta.
1 f (r ) 1 f (r )
= + [1.31]
r r r
De este modo, divide la interaccin culmbica en un trmino de corto alcance y otro de largo
alcance.
La primera suma, realizada en el espacio real, equivale fsicamente a rodear cada carga puntual
en el sistema por una distribucin neutralizante de cargas de igual magnitud y signo contrario.
Esta distribucin es tpicamente una gaussiana. Este trmino converge rpidamente y es
responsable de las interacciones de corto alcance.
El segundo trmino compensa la distribucin neutralizante del primer trmino, mediante una
distribucin imaginaria de cargas de signo opuesto a las del espacio real. Esta suma se realiza en
el espacio recproco y tambin converge mucho ms rpidamente que la suma original. Se trata
de una serie que vara muy suavemente con la distancia, por lo que puede aplicarse su
transformada de Fourier mediante un nmero de vectores recprocos. En la Figura 1.3 se
esquematizan las dos distribuciones de carga utilizadas en el mtodo de sumas de Ewald.
38
Captulo 1. Fundamentos tericos
Figura 1.3. Distribuciones de carga en el espacio real y recproco respecto al sistema original
utilizadas en el mtodo de sumas de Ewald.
La ecuacin [1.32] muestra la energa potencial final obtenida por el mtodo de sumas de
Ewald, donde el primer y segundo trminos corresponden a las sumas en el espacio directo y
recproco, respectivamente
N 1 N qi q j erfc ( r ij + n )
= 4 +
i =1 j = i +1 n = 0
o rij + n
1 qi q j 4 2 k2
k 0 L
3
4 o k 2
exp(
4 2
) cos( K rij ) [1.32]
N
qk2 2 N
qk
2
k =1 4 o
+ 3
3L
k =1 4 o
rk
2
erfc ( x) = exp(t
2
) dt [1.33]
x
La ecuacin [1.32] es la manera ms exacta de incluir todos los efectos de fuerzas de largo
alcance, aunque es computacionalmente cara de implementar. Formalmente es del orden de
O(N2), aunque puede reducirse a O(N3/2) si se ajusta adecuadamente la anchura de la gaussiana
(), el nmero de vectores K y el truncamiento de las interacciones de los pares en el espacio
directo.
Para acelerar la solucin del mtodo de sumas de Ewald, se han diseado diversas
aproximaciones basadas en mallas (particle mesh-based approaches). Todas ellas utilizan una
transformada rpida de Fourier (FFT) para calcular la suma en el espacio recproco, para lo cual
hay que discretizar los valores. Para discretizar los valores, en lugar de trabajar con una
densidad de cargas continua, se aproxima a un modelo de cargas distribuidas en una malla
construida sobre el espacio cartesiano sobre el que se realiza la dinmica molecular. A partir de
la distribucin de cargas en la malla, se obtiene el potencial debido a las distribuciones
39
Captulo 1. Fundamentos tericos
gaussianas en los puntos de la malla, que vuelven a interpolarse para generar el potencial en las
posiciones de las partculas. En este caso, el algoritmo es de orden O(Nlog(N)).
En particular, AMBER, para el tratamiento de las interacciones electrostticas de largo alcance
en PBC, utiliza el denominado particle-mesh Ewald method (PME) desarrollado por Darden199.
Este mtodo difiere de otros particle-mesh en que la interpolacin la realiza mediante ajuste de
splines.
Las gaussianas de la suma directa se calculan como en la suma de Ewald: por encima de un
valor cutoff no se calculan y utilizan tambin una lista de vecinos como las expuestas
anteriormente.
Actualmente, existen diferentes modelos para el tratamiento del solvente en sistemas biolgicos.
En este trabajo, nicamente se han considerado sistemas biolgicos en los que el solvente es el
agua, sin tratar en ningn caso la descripcin de membranas biolgicas. En un entorno polar
como el agua, la contribucin principal a la solvatacin procede de las interacciones
electrostticas entre soluto y solvente.200 La elevada polarizabilidad del agua, la gran diferencia
entre la constante dielctrica del agua y las protenas y la incertidumbre en la localizacin y
magnitud de las cargas parciales, hacen que el trmino electrosttico de la funcin de potencial
sea uno de los ms difciles de representar. Se citan los mtodos empleados en el presente
trabajo:
Los mtodos empricos tratan el solvente a un coste computacional muy bajo, para simular el
apantallamiento que produce el campo de reaccin del solvente en las interacciones
electrostticas entre tomos de la molcula. Para solventes homogneos y disoluciones muy
diluidas, este efecto puede representarse mediante la constante dielctrica (=80, para el caso
del agua). Sin embargo, en sistemas biolgicos la constante dielctrica efectiva depende de la
distancia (r) entre grupos cargados, que suele modelarse con dependencia lineal (ecuacin
[1.34]):
r = EPS r [1.34]
Donde EPS es un factor constante con valores generalmente comprendidos entre 1 y 4.5. En
otros casos se utiliza una dependencia exponencial o sigmoidea con la distancia.
Estos mtodos se aplicaron ampliamente en las primeras dinmicas moleculares y se siguen
utilizando en los programas de docking. Actualmente, la implementacin de modelos implcitos
para el solvente, que aportan informacin acerca de la solvatacin de cada elemento individual
del sistema, est reemplazando su uso en dinmica molecular.
La inclusin de solvente de forma explcita, de manera que se trata a nivel atmico, es una de
las formas ms exactas, pero tambin ms costosas computacionalmente.
40
Captulo 1. Fundamentos tericos
Otra forma de solvatar explcitamente consiste en rodear la molcula con una capa (cap) de
molculas de solvente y sin tratamiento de condiciones peridicas de contorno. En este caso, el
nmero de molculas de agua requeridas es menor que en PBC, por lo que resulta ms asequible
computacionalmente que la solvatacin explcita peridica. Para prevenir la evaporacin de las
aguas en el lmite solvente-vaco, se aplican stochastic boundary conditions mediante la
restriccin de un potencial harmnico.
En la versin de AMBER 8187 se ha implementado un modelo alternativo de solvatacin para el
tratamiento de esta capa de aguas respecto a versiones anteriores de AMBER. As, se incluye
una correccin para el campo de reaccin de las aguas que estn situadas tras la capa (cap),
calculado mediante el mtodo de diferencias finitas de Poisson-Boltzmann.201 No se trata de un
modelo de solvatacin implcito, como los que se presentan posteriormente, ya que no trata la
generalidad del sistema mediante este modelo.
Las regiones interiores al radio de la capa de aguas (soluto+solvente explcito) se detallan a
nivel atmico y el resto se trata como un medio continuo. Se destaca que en versiones anteriores
de AMBER, se permita la inclusin de una cap de aguas que solvatase parcialmente el sistema
(normalmente la regin activa). En AMBER 8187, ya que modela como un continuo todo aquello
ms all del radio de la capa, la esfera de aguas ha de englobar a todo el soluto.
Aparte del coste computacional ms reducido, estos modelos implcitos presentan una serie de
ventajas frente a la representacin explcita del agua como evitar el equilibrado del sistema
(temperatura y presin); el soluto puede explorar ms rpidamente el espacio de fases debido a
la ausencia de viscosidad asociada a los modelos explcitos; se modela la solvatacin en un
volumen infinito, evitndose artefactos del sistema peridico y se facilita la estimacin de
energas de estructuras solvatadas.
Sin embargo, por otra parte se pierde tambin la posibilidad de analizar interacciones
estructurales soluto-solvente, como la formacin de puentes de hidrgeno.
La ecuacin de Poisson resuelve el potencial electrosttico ((r)) generado por una distribucin
de cargas moleculares ((r)) dentro de un medio con una determinada constante dielctrica
((r)). Si adems se considera la presencia de iones, la distribucin de los mismos se incluye en
la ecuacin de Poisson mediante una distribucin de Boltzmann, resultando en la ecuacin de
Poisson-Boltzmann (PB). Para simplificar, nicamente se muestra la ecuacin linearizada de
PB, adecuada para el tratamiento en soluciones con una fuerza inica baja. Otras formulaciones
de esta ecuacin se pueden encontrar en las referencias [200,202]:
41
Captulo 1. Fundamentos tericos
(r ) (r ) ' (r ) = 4 (r ) [1.35]
1
Gelec = qi ( (ri ) solv (ri ) vaco )
2 i
[1.36]
Donde qi es la carga parcial del tomo en la posicin ri que genera la densidad molecular y
((r)vaco) es el potencial electrosttico calculado para la misma distribucin de cargas pero en
ausencia de lmites dielctricos (en vaco, en el que se utiliza una dielctrica de 1 tanto en la
cavidad del soluto como fuera de ella).
6
qo
i i + 4
h
o = i =1
6
[1.37]
i =1
i + N o ' h 2 2
Donde el sumatorio i se realiza sobre los seis puntos de la grid que rodean al punto con carga qo,
de manera que el potencial en cada punto afecta y es afectado por sus vecinos. Esto se traduce
en una resolucin del sistema de manera iterativa, hasta que alcanza convergencia. El valor h
corresponde a la arista del cubo, se calcula a partir de la fuerza inica y N adopta el valor de
0 cuando la fuerza inica es nula, 1 para la ecuacin lineal o es equivalente a la expansin en
serie ( 1 + o2 6 + o4 120 + ...) para la ecuacin no lineal.
42
Captulo 1. Fundamentos tericos
El mtodo analtico generalizado de Born (GB) supone otra alternativa para el clculo del
trmino electrosttico de la energa libre de solvatacin. Debido a su menor coste
computacional, comparado con PB, esta metodologa se ha convertido en un mtodo bastante
popular en dinmica molecular, para el reemplazo del solvente explcito.
A cada tomo de la molcula le corresponde una esfera de radio i con carga qi centrada en el
ncleo. En el interior del tomo, se asume un material dielctrico de constante 1. La molcula
est envuelta de un solvente de alta permitividad dielctrica (80 para el agua a 300K). La
energa libre electrosttica se determina a partir de la solvatacin individual de Born para cada
tomo, corregida por la perturbacin del resto de tomos, segn la ecuacin [1.38]:
1 1 N N qi q j
Gelec = 1 [1.38]
2 i=1 j =1 f GB (rij , Ri , R j )
Donde rij es la distancia entre cargas, y Ri y Rj son los denominados radios de Born (effective
Born radii).
Uno de los algoritmos ms comunes para fGB es la funcin desarrollada por Still y
colaboradores208 (ecuacin [1.39]):
[ ]
1
f GB = rij2 + Ri R j exp( rij2 4 Ri R j ) 2
[1.39]
Uno de los parmetros ms importantes es el valor de los radios de Born, ya que no son
propiedades atmicas intrnsecas, sino que dependen de la conformacin del soluto, por lo que
se han de recalcular tras cada cambio conformacional. Reflejan el grado de enterramiento de un
tomo en el interior del soluto: para un tomo cercano a la superficie, los radios de Born son
ms pequeos, pudiendo igualarse al radio de van der Waals para aquellos tomos de cadena
43
Captulo 1. Fundamentos tericos
laterales totalmente expuestas al solvente. El clculo de estos radios se deriva de los radios de
van der Waals implementados en el force field o de valores experimentales.
A partir de este modelo, se han generado diversas modificaciones que afectan a la forma de la
funcin fGB y/o al modo en que se calculan los radios efectivos. En este sentido, cada vez se
tiende a obtener funciones analticas ms rpidas, transferibles y que funcionen bien en sistemas
biolgicos.
ij (dij2 dij' 2 )
Gij 2 o '
dijo [1.40]
2t d d ij ij
Junto con la aplicacin del algoritmo SHAKE para la congelacin de la vibracin de los enlaces,
las constraints se aplican en dinmica molecular cuando slo resulta de inters el
comportamiento de una parte del sistema, como el sitio activo.
Las restraints tienen la forma de una ecuacin harmnica (ecuacin [1.41]), en el que k
corresponde a la constante de fuerza y Rij representa la posicin de las conformacin de partida
para el par ij restringido.
44
Captulo 1. Fundamentos tericos
Adems de restringir el sistema de manera general a las coordenadas cartesianas en las que se
encuentra, se puede restringir parmetros particulares como la distancia, ngulo y diedros. Estas
ltimas restricciones estn dirigidas a la introduccin de datos experimentales obtenidos por
RMN en el refinado de los modelos obtenidos.
En esta seccin se describen los mtodos y funciones utilizadas en este trabajo para evaluar la
afinidad protena-ligando. Como se ha introducido, por una parte se encuentran las funciones de
scoring aplicadas en docking, con simplificaciones en su formulacin, y por otra los mtodos
propiamente dedicados a calcular la energa libre de interaccin.
Las funciones de scoring utilizadas en este trabajo para el VS con docking son todas empricas.
Se trabaja con los programas AUTODOCK81 y GOLD80, ste ltimo incorpora las funciones
GOLDSCORE80 y CHEMSCORE93.
Estos mtodos utilizan la aproximacin de una master equation (ecuacin [1.42]), formulada
por Ajay y Murcko211, que asume el carcter aditivo de los componentes de la energa libre:
Donde los cuatro primeros trminos corresponden a los trminos tpicos de mecnica molecular
que consideran la interaccin de van der Waals, formacin de puentes de hidrgeno, interaccin
electrosttica y desviaciones de la geometra covalente, respectivamente. Gtor modela la
traslacin y rotacin globales y Gsol incluye la desolvatacin tras la unin del ligando y el
efecto hidrofbico.
A B
G = Gvdw 12ij 6ij +
i , j rij rij
C D
G puenteH E (t ) 12ij 10ij + E puenteH +
r rij
i, j ij
q q
Gelec i j +
i , j ( rij ) rij
Gtor N tor +
rij2
Gsol Si V j exp( )
iC , j 2 2
[1.43]
45
Captulo 1. Fundamentos tericos
Gvaco f-i
Fase gas
Gsi Gsf
Gagua f-i
Fase acuosa
Los coeficientes (G) se determinaron empricamente, por regresin lineal sobre un conjunto de
30 complejos protena-ligando depositados en el Protein Data Bank cuya constante de
inhibicin (Ki) es conocida.
Las contribuciones en fase gas corresponden al potencial 12-6 de Lennard-Jones, a un potencial
12-10 para los puentes de hidrgeno, que tiene en cuenta la dependencia angular del enlace
mediante el trmino E(t), y al potencial electrosttico de Coulomb, considerando una constante
dielctrica dependiente de la distancia de tipo sigmoideo ((r)). El cuarto trmino corresponde a
la contribucin entrpica desfavorable de unin del ligando, proporcional al nmero de enlaces
sp3 en el ligando, Ntor. Finalmente, el trmino de desolvatacin se calcula mediante una variante
del mtodo de Souten et al212 basado en ocupaciones atmicas, en este caso restringido a los
carbonos alifticos y aromticos del ligando. Para cada uno de estos tomos, se evala el
porcentaje de volumen alrededor de este tomo que est ocupado por tomos de la protena y se
pondera con el parmetro de solvatacin atmica de dicho tomo, obtenindose la energa de
desolvatacin. Adems, se aade la constante EpuenteH en el trmino de puentes de hidrgeno,
para modelar la desolvatacin de los tomos polares.
Las sumas se realizan para todos los pares de tomos del ligando (i) y los tomos de la protena
(j) as como para todos los pares de tomos en el ligando que estn separados por tres o ms
enlaces.
La energa de interaccin intramolecular del ligando no se incluye en el clculo de la energa
libre de unin, pero s se considera en la energa total de la conformacin, que es la funcin
objetivo que dirige el proceso de bsqueda del docking.
Para evaluar rpidamente la energa, se precalculan potenciales de afinidad atmica para cada
tipo de tomo presentes en el ligando. La protena se sita en una malla o grid tridimensional y
se coloca un tomo sonda en cada punto de la malla, calculndose dicho mapa de afinidad,
donde cada punto de la malla almacena as la energa experimentada por la sonda debida a todos
los tomos en la macromolcula. El potencial electrosttico se obtiene tpicamente mediante una
sonda de carga puntual +1, aunque tambin se puede calcular por resolucin de la ecuacin de
Poisson-Boltzmann, segn se describe en el apartado 1.3.6.3.1. La energa de cada
conformacin del ligando se calcula por interpolacin trilineal de los valores de afinidad de los
ocho puntos de la malla que rodean a cada tomo en el sustrato.
46
Captulo 1. Fundamentos tericos
Las caractersticas de los tomos (aceptor o dador de puente de hidrgeno, carcter hidrofbico)
se extraen a partir de la asignacin de los tipos atmicos (normalmente los usados en Sybyl165),
basados en la correcta conectividad de la molcula. A diferencia de AUTODOCK, no utiliza
cargas parciales o formales. As, deduce si un tomo est cargado contando el orden de enlace
de los enlaces que forma y comparando el resultado con la valencia normal del tomo.
El trmino external H-bond resulta de la suma de todas las energas de enlace de puente de
hidrgeno encontradas de todas las posibles combinaciones entre tomos dadores de
puente de hidrgeno del ligando y aceptores de la protena y las combinaciones entre
aceptores del ligando y dadores de puente de hidrgeno de la protena. La contribucin de
un determinado par depende de: i) los tipos atmicos del aceptor y dador, que determinan
la energa mxima ideal del par en el caso de una geometra de puente de hidrgeno ideal y
ii) la ponderacin que atena este valor mximo dependiendo del grado de distorsin
respecto a la geometra ideal. Este peso (w) consiste de dos trminos, uno que incluye la
desviacin de distancia (dist_wt) y otro para la desviacin del ngulo (angulo_wt),
ecuacin [1.45]:
Inicialmente, las energas mximas del par (Epar) se derivaron mediante clculos en fase
gas sobre modelos utilizando un modelo de cargas Mulliken. Para incluir la desolvatacin,
esta energa se calcula como la suma de las energas optimizadas para el par aceptor-dador
(EDA) y entre aguas (EWW) menos las energas sumadas de los enlaces dador-agua (EDW)
y aceptor-agua (EAW).
Posteriormente, se introduce un modelo ms simplista, sin perder precisin en el clculo.
En ste, los pares de puente de hidrgeno entre iones tienen un valor de -10 kcal/mol, para
pares neutros es de -2 or -4 kcal/mol y de -6 kcal/mol cuando slo una de los grupos que
interaccionan est cargado.
La geometra ideal DA corresponde a una distancia de 2.9 y un ngulo de 0 180
grados. La penalizacin de la distancia (dist_wt) se incrementa linealmente con el
alejamiento de la distancia del valor ideal y la penalizacin del ngulo (angulo_wt) se
asigna en funcin de la naturaleza del aceptor del grupo.
El trmino de energa de van der Waals entre protena y ligando resulta de la suma de las
contribuciones de cada par ij, segn un potencial 8-4, ecuacin [1.46]:
A B
Eij = [1.46]
rij8 rij4
Adems del potencial ms suave 8-4 que el tpico 12-6, se aplica tambin un cutoff de
manera que a distancias muy cortas la energa nicamente se incrementa linealmente. De
este modo se permiten interacciones no enlazantes a distancias relativamente cortas, para
compensar que no se introduce flexibilidad en la protena.
47
Captulo 1. Fundamentos tericos
Este trmino se multiplica por un factor (1.375) para incrementar la importancia de las
interacciones hidrofbicas.
El trmino de energa interna del ligando se estima a partir de las funciones de van der
Waals y contribuciones torsionales incluidas en el force field TRIPOS177. Finalmente, el
trmino de energa de puente de hidrgeno intramolecular del ligando se calcula del mismo
modo que el trmino externo correspondiente.
La validacin de esta funcin se realiz sobre una base de datos de 100 complejos, aunque no se
aplicaron tcnicas de regresin lineal de prediccin de energas de unin experimentales para
entrenarla. As, esta funcin ha sido optimizada para la prediccin del modo de unin de
ligandos ms que para la prediccin de afinidades de unin. Sin embargo, sta ltima se puede
calcular a partir de los trminos de contribuciones externas, segn la ecuacin [1.47]:
Gbinding _ original = Go +
G puenteH f (rDA , r1 , r2 ) f ( DA , 1 , 2 ) +
DA
Glipo f (rLL , rl ,1 , rl , 2 ) +
LL
Grot H rot
[1.48]
Los coeficientes (G) resultan de la regresin lineal, donde Go corresponde a una lnea de base
independiente del ligando.
El segundo trmino, correspondiente a las interacciones de puentes de hidrgeno, se computa
para cada combinacin dador(D)-aceptor(A) mediante dos funciones dependientes de la
distancia y del ngulo, respectivamente, que evalan la desviacin de dichos parmetros (rDA,
DA) respecto a un valor ideal y un valor mximo. El tercer trmino modela las interacciones
de coordinacin entre cada par establecido metal(M)-aceptor(A) y el cuarto computa las
interacciones lipoflicas (LL) de todos los pares de tomos lipfilos entre protena y ligando. De
nuevo, evalan la desviacin de la distancia del par (rMA,rLL) respecto a un valor ideal (rm,1 , rl,1)
y mximo (rm,2 , rl,2). En los tres casos, se definen como funciones en bloque como la de la
ecuacin [1.49]:
48
Captulo 1. Fundamentos tericos
1 si x < xideal
x xideal
B( x, xideal , xmax ) = 1 si xideal x xmax [1.49]
xideal xmax
0 si x > xmax
El ltimo trmino, Hrot, modela la prdida de entropa conformacional por restriccin de los
enlaces rotables del ligando tras la unin.
g (u , ) = exp( u 2 2 2 ) [1.51]
Adems, se incluye un trmino que penaliza los contactos entre protena-ligando con
impedimento estrico (Eimped) y la energa interna del ligando (Eint), en un esquema similar al de
la implementacin de la funcin CHEMSCORE original en PRO_LEADS78. Se incorpora
tambin un trmino para el tratamiento de interacciones covalentes protena-ligando, en los
casos en que se produzca una unin covalente, (Ecov), resultando en la ecuacin final [1.52]:
El trmino Eimped se calcula para todos los pares de tomos distintos de hidrgeno entre protena
y ligando segn la ecuacin [1.53], donde r es la distancia del par y rimped es la distancia a la que
colapsa el par. Cuando r>rimped es nula.
El trmino Eint corresponde a la suma del trmino rotacional y de impedimento estrico entre
tomos del ligando unidos al menos cuatro enlaces. Finalmente, el trmino de interaccin
covalente contiene una parte torsional y una parte de acoplamiento enlace-ngulo, calculado
sobre las torsiones (CB) y enlaces (BA) que participan en la interaccin covalente segn la
ecuacin [1.54]:
49
Captulo 1. Fundamentos tericos
En este trabajo se utilizan las versiones 2.1 y 3.0 de GOLD. Se destaca que esta ltima versin,
a diferencia de las anteriores, s considera los tomos de carbono como dadores de puente de
hidrgeno en interacciones CHO en la funcin de CHEMSCORE215, interacciones que se ha
demostrado contribuyen a la estabilidad de diferentes complejos protena-ligando216, como las
tirosina quinasas. Una validacin ms reciente de GOLD215 se realiz sobre una base de datos
de 224 complejos.
Este mtodo fue desarrollado por Srinivassan y Kollman en 1998. Est basado en mecnica
estadstica, conteniendo los distintos trminos fisicoqumicos que intervienen en el proceso de
unin de un ligando a una protena, fenmeno esquematizado en la Figura 1.6.
Figura 1.6. Esquema de unin de un ligando y protena, con el desordenamiento de aguas que
producen el efecto hidrofbico.
Inicialmente, la protena y el ligando se hayan solvatados por molculas de agua. Tras la unin,
las interacciones intermoleculares no enlazantes (suponiendo que no hay unin covalente),
estabilizan el complejo. El cambio entrpico asociado al proceso es debido a la reduccin de
libertad conformacional del ligando (supone una reduccin de entropa) y por el denominado
efecto hidrofbico producido por el desordenamiento de las molculas de agua, inicialmente
ordenadas en torno al ligando y receptor, contribuyendo positivamente al cambio entrpico.
Termodinmicamente, corresponde a la ecuacin [1.55], donde las interacciones
intermoleculares establecen la variacin entlpica.
Gbinding = H TS [1.55]
50
Captulo 1. Fundamentos tericos
Gbinding
L aq + P aq L-P aq
Ggas
L gas + P gas L-P gas
Figura 1.7. Ciclo termodinmico para el clculo de la energa de unin ProtenaLigando.
donde:
Ggas puede escribirse como la suma de la variacin entlpica (Hgas) y entrpica (-TSgas)
(ecuacin [1.57]). A su vez, la entalpa puede escribirse como la energa del potencial en fase
gas que adopta la ecuacin del force field (Egas), donde Einternal representa el potencial de las
interacciones de enlace (ngulos, diedros...), Eelectros corresponde a la variacin en las
interacciones electrostticas y Evdw a las interacciones de van der Waals en fase gaseosa. El
trmino de energa interna (Einternal) se desprecia al asumirse que la energa intramolecular del
ligando no vara significativamente tras la unin, de manera que se facilita el clculo de energas
de unin absolutas y relativas. La variacin entrpica se puede calcular con diferentes
aproximaciones.
51
Captulo 1. Fundamentos tericos
En versiones de AMBER anteriores a la 8, hay que recurrir a programas como DELPHI, UHB o
MEAD para la resolucin de PB, destacando el uso masivo de DELPHI. A partir de AMBER8,
se incorpora un mtodo de resolucin de PB. Por otro lado, el modelo GB se resuelve a partir de
los implementados en AMBER.
GSA = SA + [1.63]
La superficie accesible se determina a partir de la posicin del centro de una sonda esfrica (que
representa una molcula de solvente, de radio 1.4 ) que rueda sobre la superficie de van der
Waals de la protena. Incrementando el valor de los radios de van der Waals por el radio de la
sonda, se obtienen los radios denominados expandidos (expanded atom radii). En la Figura 1.8
se esquematiza este proceso:
AMBER8 contempla dos posibilidades para el clculo de SA, i) con el programa molsurf de
Beroza que implementa el algoritmo de Connolly218 o bien ii) con el modelo de combinaciones
lineales de solapamientos entre pares (Linear Combinations of Pairwise Overlaps, LCPO)219. En
este trabajo, nicamente se utiliza el primer modelo.
Los valores de los parmetros de tensin superficial, y , dependen de la parametrizacin de
los radios utilizada para calcular la superficie, ligada al modelo de clculo de interaccin
electrosttica, segn se muestra en la Tabla 1.1.
Tabla 1.1. Constantes para el clculo de GSA en funcin de la parametrizacin de los radios.
(kcal/2) (kcal/mol)
Radios Parse
0.00542 0.92
(Poisson-Boltzmann, DELPHI)
52
Captulo 1. Fundamentos tericos
La evaluacin de cada uno de los trminos que intervienen en la ecuacin [1.57] se toma como
el valor promedio de una serie de snapshots (fotos) de las estructuras tomadas de la
trayectoria de una dinmica molecular realizada en solvente explcito. Se quiere puntualizar que
los modelos implcitos de solvente se aplican nicamente sobre estas estructuras individuales.
Existen dos protocolos posibles para aplicar el mtodo MM-PBSA/GBSA: i) todos los
snapshots para ligando, protena y complejo se extraen de una nica simulacin del complejo y
ii) los snapshots del complejo se extraen de una dinmica del complejo, los de la protena, de
una dinmica de la protena y los snapshots del ligando, de una dinmica sobre l.
La primera opcin asume que la trayectoria que adoptan la protena y el ligando en el complejo
es de energa libre equivalente a la que adoptaran en una trayectoria por separado. Requiere
menos simulaciones, lo que la ha convertido en una alternativa muy generalizada116,122,220,221 a la
par que se sugiere que se trata de una aproximacin suficientemente correcta. Sin embargo,
otros estudios 121,222 inciden en que se debera tomar con ms precaucin cuando se aplica a
protenas cuya flexibilidad y estructura varan de forma significativa tras la unin del ligando.
Generalmente, se utilizan mtodos que comparan la secuencia de la protena objetivo con las
secuencias recopiladas en una base de datos. Destacan los paquetes BLAST223 (Basic Local
Alignment Search Tools) y FASTA224 (Fast Alignment). Ambos contienen una serie de
programas basados en los algoritmos con sus mismos nombres y accesibles a travs de
servidores Web. Se trata de algoritmos de alineamiento heursticos, no garantizan encontrar el
mejor alineamiento entre la secuencia y las secuencias de la base de datos, ya que priorizan la
rapidez del clculo frente a otros algoritmos ms exactos. Deben presentar un balance entre
sensibilidad, es decir la capacidad de detectar el mximo nmero de verdaderos positivos y
especificidad, de manera que se rechacen el mximo nmero posible de falsos positivos. La
significancia de las secuencias encontradas se establece a partir de una serie de parmetros
estadsticos, expresados mediante valores de corte. El concepto de alineamiento y la base de
estos algoritmos se describen en el apartado 1.5.2.
Respecto a las bases de datos, estos programas estn directamente conectados a aquellas ms
importantes, tanto de protenas como de cidos nucleicos. En el caso de protenas, estas bases de
datos pueden contener entradas para la translacin de genes, secuencias de protenas y/o
protenas con estructura tridimensional publicada y bases de datos de patentes.
53
Captulo 1. Fundamentos tericos
El Brookhaven Protein Data Bank60, que contiene nicamente estructuras resueltas de protenas
por rayos-X o RMN, supone la referencia para la seleccin de plantillas en modelizacin por
homologa. Inicialmente, contena tambin modelos tericos, pero desde julio de 2002 stos se
encuentran depositados de forma separada de las estructuras experimentales. Sin embargo, la
bsqueda de secuencias relacionadas con la diana cuya estructura no ha sido resuelta puede
resultar tambin de inters para determinar la familia o subfamilia de la protena diana, el grado
de conservacin de residuos, etc. En este caso, se suele recurrir a bases de datos como SWISS-
PROT225, en la que se indexan todas las protenas secuenciadas y que contiene mltiples
referencias a otras bases de datos. En la Tabla 1.2 se recoge un compendio de las ms
conocidas, utilizadas en este trabajo.
La referencia [231] es una revisin donde se compila informacin acerca de la mayor parte de
estas bases de datos.
Una vez se ha buscado en las bases de datos, se debe revisar individualmente cada plantilla, no
solo para asegurar una buena significancia estadstica, sino tambin para seleccionar aquellas
ms apropiadas segn factores como pertenencia a una misma subfamilia, que compartan un
mismo entorno (solvente, ligandos, pH), la calidad de la resolucin de la estructura, etc.
Tampoco se trata de seleccionar una nica plantilla, ya que el uso de varias de ellas
generalmente incrementa la calidad del modelo.
Los receptores acoplados a protenas G (GPCRs) son una de las familias para las que ms se
recurre a la modelizacin por homologa, debido a su importancia como dianas teraputicas y a
la dificultad de su cristalizacin. nicamente se dispone de la estructura resuelta por rayos-X de
la rodopsina bovina por Palczewski232 en el ao 2000.
Figura 1.9. Ejemplo de bsqueda de estructura en el Protein Data Bank mediante BLAST.
54
Captulo 1. Fundamentos tericos
nr223 Mezcla de las anteriores (PDB, PIR y National Center for Biotechnology
non-redundant SwissProt, translaciones de GenBank). Se Information (NCBI)
utiliza por defecto para las bsquedas con http://www.ncbi.nlm.nih.gov/
BLAST. Las entradas con secuencias
absolutamente idnticas se han fusionado.
GPCRDB229 Contiene informacin (secuencia, alinea- Horn (1998). Center for Molecular
mientos, filogenia ...) sobre las GPCRs and Biomolecular Informatics
http://www.gpcr.org/7tm/
55
Captulo 1. Fundamentos tericos
El modelo ms simple para trabajar con alineamientos parte del concepto de Edit distance entre
dos secuencias, como el mnimo nmero de operaciones (inserciones, deleciones y
sustituciones) necesarias para transformar una secuencia en otra. En general, la Edit Distance, se
evala a partir de una funcin w, que describe los costes de todas estas operaciones, de forma
que el coste de un alineamiento de dos secuencias S y T es la suma de los costes de cada
operacin. El alineamiento ptimo ser aquel que muestre el mnimo coste entre todos los
posibles alineamientos.
Existen diferentes modelos para esta funcin w: Hamming Distance, Levenshtein Distance o
Unit Cost Model y los modelos basados en matrices de sustitucin. stos ltimos son los ms
sofisticados, ya que consideran el significado biolgico de las sustituciones.
Adems de las sustituciones, las eliminaciones e inserciones generan indels (aminocidos de
una secuencia se alinean frente a espacios en blanco) en alguna de las secuencias. Cada serie de
espacios consecutivos en el alineamiento define un gap, caracterizado por su longitud. Cada gap
se entiende como una unidad, ya que ayuda a la bsqueda de mayor significado biolgico (en un
nico evento mutacional pueden aparecen inserciones/deleciones de una subsecuencia). Existen
muchas maneras de evaluar los gaps (gap penalty models), pero en general se penaliza de
manera diferente la abertura de un nuevo gap en el alineamiento (gap opening penalty) y el
hecho de extenderlo (gap extensin penalty).
H i1, j 1 + wAi ,B j
H i, j = max H i1, j + wAi , [1.64]
H i , j 1 + w ,B j
56
Captulo 1. Fundamentos tericos
alineamiento de un aminocido frente a un gap. Se introduce una fila y una columna H0,0
con un espacio y unas condiciones base:
i j
H i.0 = wAk , ; H 0, j = w ,B j [1.65]
k =0 k =0
Una vez asignado el valor del ltimo elemento (HM,N), ste representa el valor del score
global del alineamiento. El alineamiento final se determina recorriendo en sentido
contrario la matriz y escogiendo los elementos de la matriz con valores mayores. El
trazado de subndices indica el alineamiento final resultante.
H i 1, j 1 + wAi , B j
H i 1, j + wAi ,
H i, j = max [1.66]
H i , j 1 + w , B j
0
H i.0 = 0 ; H 0, j = 0 i, j [1.67]
57
Captulo 1. Fundamentos tericos
Round-Robin
Realineamiento de
cada una de las Alineamiento basado en la
secuencias en el superposicin estructural
alineamiento de los carbonos alfa
Realineamiento aleatorio
de grupos de secuencias
58
Captulo 1. Fundamentos tericos
BLAST utiliza tambin palabras (words), en este caso de longitud de tres, identificando
aquellas con un score, evaluado con una matriz de sustitucin, superior a un determinado
valor frontera (T). Cada hit se extiende en ambas direcciones una determinada distancia (X)
para ver si se pueden unir en un alineamiento mayor (maximal segment pair, MSP), que
son de nuevo reevaluados. El programa devuelve el conjunto de alineamientos locales que
excede un determinado score (S). La versin Gapped-BLAST introdujo adems la opcin
de contemplar gaps en los MSPs. El valor de S se establece mediante anlisis estadstico
basado en la probabilidad de que un aminocido se encuentre en una posicin
aleatoriamente y en la distribucin Poisson que siguen los scores obtenidos en los MSPs.
Se obtiene un valor de significancia p, que corresponde a la probabilidad de que un
determinado segmento se identifique fortuitamente. Su fuerte fundamento estadstico, que
le permite asignar cuantitativamente una significancia del resultado, junto con su mayor
rapidez, ha convertido a BLAST en uno de los mtodos ms usados en la bsqueda de
secuencias en bases de datos.
Tal y como se ha comentado previamente, los elementos de cada matriz especifican el coste a
asignar a una comparacin entre dos aminocidos. Las ms conocidas son:
Matriz de Identidad: H ij = 1, i = j; H ij = 0, i j
Matriz de cdigo gentico (Genetic Code Matrix): El score est basado en el mnimo
nmero de cambios en nucletidos necesarios para convertir un aminocido en otro (por
ejemplo: de Met a Tyr se necesitan que las 3 posiciones de codon varen para permitir la
mutacin).
59
Captulo 1. Fundamentos tericos
qij
Sij = log [1.68]
pi p j
Matrices PAM (Accepted Point Mutation per 100 residues)235. Denominadas tambin
Dayhoff (ya que fueron creadas por Magaret Dayhoff) o MDM (Mutation data Matrix).
Las probabilidades de cambio de un aminocido en otro se derivan a partir de
alineamientos globales de secuencias pertenecientes a una familia de protenas
relacionadas y al menos un 85% idnticas. A partir de ellas, se construye una matriz
normalizada en valores que expresan la probabilidad de que un aminocido de cada 100
sufra una mutacin (PAM-1). El resto de matrices de la serie, para distancias evolutivas
ms grandes, se extrapola a partir de las de menor distancia. As, si se suponen N
mutaciones independientes, se multiplica la PAM-1 por s misma N veces, obtenindose
las PAM160, PAM250... Existen otras matrices desarrolladas por otros grupos, que han
seguido esta metodologa o la han mejorado al utilizar otras bases de datos con ms
ejemplos. Jones y Thornton236 derivaron las matrices PET91 a partir de 2621 familias de
secuencias extradas de SWISS-PROT, aunque es equivalente a una actualizacin de la
PAM120. Gonnet et al237 desarrollan la matriz GONNET, derivada por un proceso
iterativo de alineamiento y refinamiento de la propia matriz. Sin embargo, parece que
no se incrementa la habilidad del sistema para encontrar miembros de la mayora de
familias de protenas238.
Las matrices PAM son ms sensibles para alineamientos de secuencias con homlogos
relacionados evolutivamente. Dentro de ellas, la matriz aconsejada depende del tipo de
alineamiento a realizar: para una bsqueda en base de datos (BLAST/FASTA) se aconseja
la PAM120 y para alineamientos de dos secuencias la PAM200. Otra posibilidad es la de
utilizar combinaciones de ellas. Por ejemplo, para alinear dos secuencias, utilizar la PAM80
y PAM250 conjuntamente o bien la PAM120 y PAM320239. La serie de matrices BLOSUM
generalmente es mejor que la serie PAM para la bsqueda de similitudes locales240, ya que
es posible encontrar alineamientos entre protenas divergentes ms en acuerdo con su
60
Captulo 1. Fundamentos tericos
Uno de los mtodos para construir el modelo 3D por homologa es el de modelizacin por
satisfaccin de restricciones espaciales (modeling by satisfaction of spatial restraints), que es el
que implementa el programa MODELLER131 utilizado en este proyecto. El proceso seguido por
MODELLER para modelar la estructura tridimensional parte de la generacin de un primer
modelo crudo obtenido por transferencia de coordenadas entre todos los tomos equivalentes en
el alineamiento de la secuencia diana y la protenas plantilla e interpolacin del resto de
coordenadas indefinidas. Los mtodos de modelizacin implementan una funcin potencial
(score) que pretende ser equivalente a una funcin de energa (funcin de pseudoenerga), de
manera que el valor mnimo de la misma corresponda con la conformacin ms probable de la
protena. La funcin pseudoenergtica o funcin objetivo del MODELLER resulta de considerar
una serie de restricciones, de manera que el mejor modelo sea aquel que viole el mmino
nmero de ellas. Una vez se obtiene un modelo, es usual modelar ab initio los loops, en cuyo
caso las coordenadas iniciales del primer modelo se obtienen aleatoriamente y no por
transferencia de las coordenadas de las plantillas presentes en el alineamiento, aplicndose
posteriormente una optimizacin de dichos loops segn las restricciones calculadas para dicho
segmento.
61
Captulo 1. Fundamentos tericos
Las restricciones se expresan como funciones de densidad de probabilidad (pdfs, p(x)) para la
propiedad restringida (x). La probabilidad finita de que una propiedad x adopte un valor
comprendido entre x1 y x2 se obtiene segn la ecuacin [1.69]:
x2
p ( x1 x x2 ) = p ( x )dx [1.69]
x1
por lo que es necesario establecer la funcin de probabilidad que mejor defina cada propiedad.
La forma general de esta funcin de probabilidad corresponde a la ecuacin [1.70], que indica
que la probabilidad condicional de la propiedad x viene determinado por los valores conocidos
que adoptan otras propiedades (a,b,c ...):
p( x / a, b,....., c ) [1.70]
Estas propiedades (a,b,c ...), listadas en la Tabla 1.3, se establecieron empricamente por
correlacin de caractersticas estructurales en una base de datos con 17 familias de protenas
respresentativas de las diferentes clases estructurales (clase , clase , clase +, clase /),
alineadas estructuralmente242. La combinacin es emprica, no tienen porqu tener un sentido
fsico, de forma que se ajustan las propiedades para definir cules de ellas tienen un significado
estadstico en el valor que adopta x.
Tabla 1.3. Propiedades (a,b,c..) utilizadas para derivar las probabilidades condicionales de la
propiedad x.
La funcin analtica f se construye de forma que se ajuste lo mejor posible a la tabla de valores
de W :
62
Captulo 1. Fundamentos tericos
rms = [W f ( x, a, b..., c, q )]
2
x , a , b ,...c [1.72]
x , a , b ...c
donde q adopta el valor que minimiza la funcin anterior, ajustada por mnimos cuadrados. La
forma normal de estas funciones f es la de una gaussiana, aunque existen otras posibilidades
como splines cbicos, que pueden ser seleccionadas por el usuario para restricciones especiales.
De este modo, se obtienen las diferentes funciones de densidad de base (basis pdf), ya que
permiten modelar una caracterstica particular de la secuencia objetivo a partir de una nica
secuencia homloga de estructura conocida. Para modelar las caractersticas a partir de varias
estructuras homlogas, estas basis pdf se combinan en lo que se denominan funciones de
probabilidad de parmetros o feature pdfs. Por ejemplo, en el caso de querer obtener la funcin
de densidad para la distancia entre carbonos alfa (C-C) en una determinada protena de
estructura desconocida a partir de dos protenas de estructura conocida (A y B), se debe
combinar la funcin de probabilidad de base que describe la distancia d entre los C de los
residuos equivalentes en el alineamiento de la protena A y la funcin de probabilidad de base de
la distancia equivalente d de la protena B. Adems, se deben tener en cuenta las restricciones
estereoqumicas, por ejemplo, el criterio de van der Waals (distancia superior a la suma de los
radios). En la Figura 1.11 se esquematiza el concepto.
Finalmente, se combinan todas las feature pdfs de los parmetros en una nica funcin de
probabilidad molecular, molecular pdf. Se asume que los diferentes parmetros son
independientes (aunque es errneo, porque por ejemplo, el valor de un ngulo viene muy
influenciado por el valor del ngulo ), de forma que la molecular pdf (P) es el producto de las
feature pdfs [pF(fi)], ecuacin [1.73]:
P = p F ( fi ) [1.73]
i
F = ln P = g( f , a, b, c...) [1.74]
63
Captulo 1. Fundamentos tericos
F
o [1.75]
f ( x, y, z)
Para optimizar dicha funcin, se aplica en primer lugar el Variable Target Function Method
(VTFM) que consiste en una serie de minimizaciones de la funcin anterior realizadas con
gradiente conjugado. La particularidad de dicho mtodo es que parte de unas restricciones
locales, de manera que en cada ciclo de minimizacin se introducen ms y ms restricciones
de mayor alcance, hasta llegar a la verdadera molecular pdf, que incorpora todas las
restricciones. Para ello, utiliza un schedule (plan) de n ciclos, en el que se indica la amplitud del
rango de residuos sobre los que acta cada ciclo de la optimizacin junto con los factores de
escalado de la desviacin estndar de cada restriccin (esto permite debilitar la importancia de
ciertas restricciones frente a otras al aumentar la desviacin, la restriccin es ms potente y una
violacin mayor es ms probable). En la librera del MODELLER existen siete schedules
diferentes, dependiendo de la exhaustividad con que se pretenda optimizar. Posteriormente, se
realiza un simulated annealing con dinmica molecular.
Sobre los tomos seleccionados como loops, se generan las restricciones que actan sobre
ellos. La diferencia es que en este caso se calculan todas las restricciones (incluidas las de
los ngulos , , y ) a partir de una librera y no como derivadas de homologa con
una plantilla (como es el caso de la modelizacin estndar por homologa). A partir de
ellas, se construye la funcin de pseudoenerga (F) que es del mismo tipo que la
anteriormente descrita (ecuacin [1.76]).
64
Captulo 1. Fundamentos tericos
F= k (b b)
enlaces
b
2
+ k ( )
angulos
2
+ k b cos(n + ) + k ( )
diedros impropios
i
2
ln p ( / R) ln p (
diedros
s
residuos
R) ln p
residuos
m ( , R ) + [E (a, a' , d , ) + S (r , r ' , d )]
atomos
i
cadena enlazados
lateral nounidos
[1.76]
Los cuatro primeros trminos corresponden a la ecuacin del force field CHARMM182 para
las distancias de enlace, ngulos, ngulos diedros y ngulos impropios (la parametrizacin
de las constantes de fuerza (ki), valores en el punto de equilibrio, fase y periodicidad de los
ngulos diedros tambin se han extrado de la versin CHARMM-22241).
Los tres trminos siguientes de la ecuacin [1.76] se extraen estadsticamente, de forma
similar a lo explicado anteriormente, segn la preferencia de cada residuo hacia un valor
para los ngulos de la cadena principal y cadena lateral (, , i).
El trmino energtico de interacciones no enlazantes tambin est derivado
estadsticamente, a partir de un potencial medio de fuerza dependiente de la distancia para
pares de tomos en protenas245 (esta funcin de score es del tipo de las usadas en mtodos
ab initio, derivadas aplicando el teorema de Boltzmann).
Una vez construidas las restricciones, se borran todas las coordenadas de dichos tomos
del modelo de partida, de manera que se construyen aleatoriamente sus coordenadas de tal
modo que los extremos N-terminal y C-terminal de cada segmento del loop constituyan el
punto de anclaje, desde el cual hacer la bsqueda del espacio conformacional del loop.
En una de las primeras publicaciones de estudios QSAR, realizada por Crum Brown y Frazer246
en 1868, los autores relacionan la accin fisiolgica () como una funcin de la constitucin
qumica (C), segn la ecuacin [1.77]:
= f (C ) [1.77]
65
Captulo 1. Fundamentos tericos
Tambin se han introducido ya dos de los criterios ms tpicos segn los cuales se clasifican los
descriptores: el tipo de representacin qumica requerida (1D, 2D, 3D) y el tipo de
codificacin matemtica. Adems, se pueden clasificar en funcin de:
En cualquier caso, no existe un nico esquema de clasificacin de los descriptores, aunque entre
las propuestas ms aceptadas destacan la de Todeschini28, cuyo handbook se ha convertido en
una de las referencias bsicas del campo de descriptores. Diferentes esquemas pueden
encontrarse tambin en las referencias [26] y [247].
66
Captulo 1. Fundamentos tericos
En la Tabla 1.4 se recogen aquellos utilizados en este trabajo, junto con la palabra clave incluida
en MOE para ellos.
NDICES TOPOESTRUCTURALES
A ( A 1) 2 2 ( A 1) ( A 2) 2
1
= ; =
(1P) 2 ( 2P ) 2
ndices de forma de Kier252 de orden uno, dos y tres ( A 3) ( A 2) 2
3
= ; si A es par, (A>3)
(Kier1,Kier2,Kier3) (3P ) 2
( A 1) ( A 2) 2
3
= ; si A es impar (A>3)
(3P) 2
( )
ndice de Balaban253,254 B 1
J= i j 2 ; C = B A + 1
(balabanJ) C +1 b b
Dimetro Topolgico D = max i
(diameter) i
ndice de Petitjean255 DR
I2 = 0 I2 1
(petitjean) R
NDICES TOPOQUMICOS
0
= i1 2 ; 1 = ( i j ) 1 2 ;
ndices de Conectividad256, 257 de orden cero, uno y i enlaces
dos 2 path
(chi0,chi1) 2
= (k =1
i j k ) k 1 2
67
Captulo 1. Fundamentos tericos
2 path
2
v = (
k =1
i j k ) k1 2
( A + ) ( A + 1) 2
=
1
;
(1P + ) 2
( A + 1) ( A + 2) 2
ndices de Forma de Kier260 modificados
2
=
( 2P + ) 2
( A + 3) ( A + 2) 2
(KierA1,KierA2,KierA3) 3
= ; si A es par, (A>3)
(3P + ) 2
( A + 1) ( A + 2) 2
3
= ; si A es impar (A>3)
(3P + ) 2
ndice de Flexibilidad Molecular de Kier261 2
1
(KierFlex)
=
A
G
Contenido medio de informacin I = n log 2 n ng log 2 ng
g =1
g =1 B ( B 1) B ( B 1)
igualdad de distancia de arista
D
g g
I D = g f log 2 E ;
E M
E
ndice de Contenido medio de informacin de g =1 W W
magnitud de distancia de arista 1 B B E
E
W = dij ndice de Wiener de aristas
2 i =1 j =1
ndice de Informacin total de la composicin Ag Ag
atmica
I ACT = Ah g
A h
log 2
Ah
G
ndice de Informacin o Entropa de Shanon ICr = = p g log 2 p g
(a_ICM) g =1
ICr
ndice de contenido de Informacin Estructural SICr =
log 2 A
68
Captulo 1. Fundamentos tericos
ICr
BICr =
B *
log 2 b
ndice de contenido de Informacin de enlace
b =1
ndice de Informacin complementario CICr = log 2 A ICr
A A
Radio de Giro r i
2
m r i i
2
(rgyr) Rg1 = ; Rg 2 =
i =1 i =1
A MW
Raz cuadrada del primer, segundo y tercer valor propio mayor de
Primera, Segunda y Tercera
la matriz de covarianza de coordenadas atmicas. Equivalente a la
Dimensin Standard
desviacin estndar a lo largo de los ejes de componentes
(std_dim1,std_dim2,std_dim3)
principales.
rea de la superficie de van der Waals. Se puede calcular segn
Superficie Molecular
una representacin polidrica para cada tomo (VSA) o mediante
(VSA)
una tabla de conexiones (vdw_area)
Volumen molecular de van der Volumen delimitado por la superficie molecular. Se puede
Waals calcular mediante una aproximacin en mallas (vol) o una
(VMVDW) aproximacin mediante una tabla de conexiones (vdw_vol).
69
Captulo 1. Fundamentos tericos
Peso Molecular Descriptor 0D, reflejo del tamao molecular y tipo de tomos
(Weight) constituyentes del compuesto.
Descriptor electrnico 3D, codifica el desplazamiento respecto al
Momento Dipolar
centro de gravedad de densidad de cargas parciales positivas y
(Dipole)
negativas. Es el ejemplo ms simple de un descriptor libre de
(AM1_dipole, MNDO_dipole,
alineamiento, ya que no depende de la orientacin absoluta en el
PM3_dipole)
espacio.
Descriptor electrnico. La polarizabilidad atmica (i)
corresponde a la relacin entre el momento dipolar inducido en
Suma de Polarizabilidades atmicas
un tomo y el campo elctrico inductor. La suma de
(apol)
polarizabilidades atmicas es una buena aproximacin a la
polarizabilidad molecular.
A A
bpol bpol = i j donde i es la polarizabilidad atmica
i =1 j > i
70
Captulo 1. Fundamentos tericos
Potencial o Force Field trminos de ella (E_ang, E_ele, E_nb, E_sol, E_str, E_vdw,
E_tor, E_stb).
En MOE, se pueden utilizar las cargas parciales calculadas
previamente (serie Q_*) o calcularse mediante el mtodo PEOE
(Partial Equalization of Orbital Electronegativities) de
Gasteiger170 (serie de descriptores PEOE_*), basado nicamente
Descriptores de Carga Parcial en topologa.
Estos descriptores comprenden la suma de cargas parciales
positivas (Q_PC+, PEOE_PC+), de cargas parciales negativas
(Q_PC-, PEOE_PC-) y sus correspondientes valores relativos
(Q_RPC+, PEOE_RPC+, Q_RPC-, PEOE_RPC-).
71
Captulo 1. Fundamentos tericos
Simplemente cuentan instancias de los building blocks bsicos de molculas como tomos,
enlaces o anillos. Son muy rpidos de calcular, pero no son muy apropiados para discriminar
correctamente entre molculas, por lo que su uso no es muy comn, excepto aquellos
relacionados con propiedades fisicoqumicas o farmacofricas (nmero de enlaces rotables o de
aceptores/dadores de puente de hidrgeno). En la Tabla 1.7 se muestran aquellos ms relevantes
implementados en MOE.
72
Captulo 1. Fundamentos tericos
En un principio, el tipo atmico se define a partir del elemento atmico, el nmero de enlaces
con tomos pesados y el nmero de enlaces . Esta definicin de tipo atmico se amplia en
sucesivos trabajos de modo que no sea tan restrictiva y especfica. Adems del concepto de
pares atmicos, otros fragmentos 2D tpicos de subestructuras son: el tomo aumentado
(augmented Atom), la secuencia atmica (atom sequence), la secuencia de anillo (ring sequence)
y la torsin topolgica (topological torsion).
O
4.9 Figura 1.12. Ejemplo de asignacin de un atom
N
pair a un binning scheme en funcin de la distancia
O N
medida.
n1 n2 n3 [1.79]
n1 + 1000 n2 + 1000000n3 [1.80]
Bath273 propone dos tipos de medidas basadas en ngulos a partir de la torsin de cuatro
tomos: A-B-C-D (Figura 1.13). En la primera de ellas, BNB measure, se consideran todas
73
Captulo 1. Fundamentos tericos
aquellas posibles torsiones del tipo A-BC-D en las que los pares A-B y C-D estn
enlazados, pero no los tomos B-C. El ndice se establece a partir de la media aritmtica de
los ngulos ABC y BDC (n1), el valor absoluto de la torsin (n2) y la distancia interatmica
B-C (n3), segn la ecuacin [1.81]:
De manera anloga a los mtodos basados en distancias, se generan todos los posibles
ndices de todos los fragmentos BNB de una molcula referencia y su distribucin se
compara, mediante el coeficiente de Tanimoto, con la del resto de molculas de la base de
datos.
La otra medida, denominada NBN measure, considera todas las posibles torsiones del tipo
AB-CD, en la que nicamente est enlazado el par B-C. El cdigo en este caso se
establece a partir del valor del ngulo diedro (n1) y la suma de las aristas de los tringulos
formados por ABC (n2) y ACD (n3), redondeados a su entero ms prximo, segn la
ecuacin [1.82]:
n1 + 10 n2 + 1000 n3 [1.82]
De nuevo, para cada molcula se obtiene la distribucin de cdigos de cada uno de los
posibles fragmentos NBN.
A n3
n1 = 0.5 (torsin ABC + torsin n2
BNB measure
B C BCD)
n2 = torsin ABCD
n3 = BC
D
n1
A D n1 = torsin ABCD
n2 = 0.5 (AB +AD + BD) NBN measure
n3 = 0.5 (AC +AD + CD)
B C
Good y Kuntz275 proponen la reduccin del nmero de puntos posibles trabajando con cinco
tipos atmicos en lugar de todos los tomos constituyentes de la molcula. Construyen tripletes
de estos tomos, con las distancias medidas en el espacio Eucldeo y donde cada triplete queda
caracterizado por: i) el permetro del tringulo formado por los tres tomos, almacenado en una
particin de 4 bytes y ii) la desviacin de este tringulo respecto a un tringulo equiltero,
cuantificada en trminos de la relacin del rea del tringulo obtenido con el rea mxima de un
tringulo equiltero. Esta relacin se reas se parte en un espacio de 10 bytes. Los cinco tipos
atmicos generan un total de 35 posibles tripletes, de forma que el espacio de almacenamiento
total por molcula es de 1400 bytes (10435).
Sheridan276 introduce en el ao 1996 lo que define como binding property pair, en el que cada
tomo se clasifica segn siete posibles tipos: catin, anin, dador de puente de hidrgeno,
aceptor de puente de hidrgeno, polar, hidrofbico u otro. A partir de ellos, se establecen los
pares atmicos medidos en distancia Eucldea.
74
Captulo 1. Fundamentos tericos
Una cadena de bits se divide en secciones segn los valores de mnimo, mximo y
anchura definidos por el usuario.
Se permite el solapamiento de los bins: cada bin viene codificado por dos bits. En el
primer bin se asigna un uno si la distancia medida corresponde al rango de valores que
codifica. En el segundo bit del bin se coloca un uno si la distancia no cae en los lmites
del bin, si lo hace, entonces se coloca el uno en el segundo bit del bin contiguo. El
solapamiento se especifica segn un porcentaje de la anchura del bin.
Distancia_PPP 3
Nmero_Bin = (int) 5 tan 1 + 6 [1.83]
2
El descriptor PPP-triangles codifica todas las combinaciones de tripletes entre PPPs presentes
en una molcula. Cada una de las 35 posibles combinaciones se coloca en un bit de una cadena
segn su distancia Eucldea. La particin en bins se realiza segn un valor mnimo (2 ),
mximo (15 ) y con una anchura de bin de 1 . Debido al elevado nmero de bits necesario
para codificar cada molcula, la codificacin se realiza en forma de hashed fingerprint, (vase
Introduccin) reducindose el almacenamiento en memoria.
75
Captulo 1. Fundamentos tericos
En la Figura 1.14 se esquematizan los farmacforos basados en dos, tres y cuatro puntos.
Mientras que un par atmico queda caracterizado por una distancia, un triplete necesita tres
distancias y el tetraedro, seis. El elevado nmero de combinaciones posibles en los tetraedros,
generando cadenas de bits con gran requerimiento de memoria, conduce a que el esquema de
particin de distancias incluya menos rangos.
N N N
N N N N N N N N N
N N N N N N
O O O O O O
Figura 1.14. Representacin de fingerprints farmacofricos basados en dos, tres y cuatro puntos.
Desarrollos posteriores, como el del mtodo ToPD281 (total pharmacophore diversity) calculan
las distancias entre pares de tomos basados en la feature farmacofrica y la forma, calculada a
partir de todos los tomos pesados presentes en una molcula. La caracterizacin farmacofrica
no se realiza nicamente midiendo las distancias entre PPPs, sino que se determinan las
distancias de cada uno de los PPPs al resto de tomos pesados de la molcula. De este modo, se
muestrea la posicin relativa de todos los PPPs sobre la forma global de la molcula. En este
caso, la codificacin no es binaria, sino que se generan representaciones para cada una de las
caractersticas que posteriormente son descritas segn parmetros estadsticos.
Los descriptores fingerprint farmacofricos usados en este trabajo son los CATS (Chemically
Advanced Template Search) desarrollados por Schneider et al43, en un primer momento
introducidos como descriptores 2D (CATS2D) y extrapolados a 3D (CATS3D) en versiones
posteriores283.
La versin original considera cinco tipos de tomos generalizados: dador de puente de
hidrgeno (D), aceptor de puente de hidrgeno (A), tomo cargado positivamente (P), tomo
cargado negativamente (N) y centros lipoflicos (L). La distancia se mide como el nmero de
enlaces a lo largo del camino ms corto que conecta dos nodos del grafo (CATS2D). En total,
estas distancias estn clasificadas en 10 particiones (de un mnimo de 0 enlaces a un mximo de
9 enlaces), por lo que el nmero de bits necesarios o dimensin del fingerprint corresponde a
150 (15 combinaciones de pares 10 distancias de binning). Cada una de las 15 posibles
combinaciones de pares (DD, DA, DP, DN, DL, AA, AP, AN, AL, PP, PN, PL, NN, NL, LL) se
76
Captulo 1. Fundamentos tericos
escala en funcin de las ocurrencias totales del par correspondiente. En la Figura I.4 de la
Introduccin se esquematiza el proceso de derivacin tpica de los CATS. El vector de
correlacin obtenido (CV) corresponde a la ecuacin [1.84]:
A B
1 1
CVdTP =
A+ B
2
i =1 j =1
TP
ij , d [1.84]
Donde i y j son los tomos, d es el rango de distancias, TP corresponden a los tipos de tomos
del par de tomos i y j, A y B son el nmero total de tomos del tipo de los tomos i y j,
respectivamente, y ijTP, d es la delta de Kronecker, que se evala a uno para todos los pares de
tomos de los tipos TP en el rango de distancia d. Los pares de tomos con uno mismo no se
consideran, as como tampoco aquellos tomos que no corresponden a ninguno de los tipos
atmicos. Cada uno de los bins se encuentra escalado segn la ocurrencia del nmero de tipos
farmacofricos (A+B)-1. Finalmente, una vez obtenidos todos los bins del CV, stos se
normalizan entre cero y uno. Estos descriptores se encuentran implementados en el programa
speedcats.
CATS3D283 expresa la distancia como distancia geomtrica Eucldea entre los dos tomos. La
asignacin de los tipos generalizados de tomos se puede realizar mediante la funcin
PATTY_Type de MOE, basada en el esquema propuesto por Bush y Sheridan284, o mediante la
funcin ph4_aType285, tambin implementada en MOE. En el primer caso283, se consideran siete
tipos generalizados de tomos (catinico, aninico, polar, aceptor, dador, hidrofbico u otros),
mientras que la funcin ph4_aType, utilizada en el presente trabajo, define seis tipos de tomos:
aceptor, dador, polar, catinico, aninico e hidrofbico. As, en el primer caso el nmero de
combinaciones de pares es de 28 y en el segundo, de 21. Las distancias se reparten en 20 bins
equiespaciados [0,20] , conduciendo a un CV de dimensin 560 (PATTY) o de 420
(ph4_aType).
Como se ha introducido, los descriptores CATS se han aplicado con xito en diferentes procesos
de virtual screening.
Los dos mtodos utilizados para derivar modelos farmacofricos son: el mdulo de
farmacforos implementado en MOE versin 2004.03 y el modelo SQUID (Sophisticated
Quantification of Interaction Distributions)51.
Tanto las molculas sobre las que se genera la hiptesis farmacofrica como las de la base de
datos de bsqueda se caracterizan segn un esquema farmacofrico, que incluye el modo de
77
Captulo 1. Fundamentos tericos
PCHD: Incluye el esquema PCH y adicionalmente genera site points, que representan la
posicin hipottica de tomos complementarios en un receptor, determinados a partir de la
posicin de los tomos pesados en el ligando. As, tiene puntos putativos proyectados a
partir de dadores y aceptores de puente de hidrgeno y centros aromticos.
PPCH: Diferencia entre aceptores dadores de puente de hidrgeno planares (sp2) o no (sp3)
y entre reas hidrofbicas planares o no.
El proceso para generar la hiptesis o query parte de un conjunto de ligandos alineados. Este
alineamiento inicial se puede obtener por superposicin de las estructuras cristalogrficas de los
ligandos en el sitio activo de la protena, mediante algoritmos de alineamiento flexible, como el
algoritmo MOE-FlexAlign287 o incluso, a partir de los resultados de un docking en la protena
diana.
La hiptesis incluye restricciones acerca de una feature farmacofrica que un punto en el
espacio debe satisfacer, dentro de un radio de tolerancia. Esta feature puede corresponder a un
nico punto de anotacin del ligando (por ejemplo, que el tomo sea dador) o etiquetarse con
una asignacin mltiple como combinacin lgica de varios (por ejemplo, dador o aceptor).
Adems, varias restricciones de este tipo se pueden agrupar de manera que se fuerce el
cumplimiento de todas ellas por parte de una determinada molcula. MOE permite tambin la
inclusin de restricciones sobre la forma de la molcula mediante la definicin de volmenes.
stos pueden ser excluyentes (el interior del volumen no puede contener ningn tomo con una
determinada caracterstica), incluyentes (se obliga a que en su interior se encuentre al menos un
tomo con una caracterstica) o exteriores (fuera del volumen definido, no se sita ningn tomo
que satisfaga una determinada expresin).
A partir del alineamiento, el usuario define las restricciones de la query, ajustando las
posiciones, radios de los puntos potenciales farmacofricos, sus combinaciones y,
adicionalmente, volmenes. La herramienta Pharmacophore Consensus sugiere restricciones
farmacofricas, a travs de todos los tomos con una anotacin equivalente, superpuestos en el
espacio dentro de una tolerancia y comunes a un determinado porcentaje de las molculas
presentes en el alineamiento.
Una vez formulado el modelo farmacofrico, la bsqueda se realiza sobre una base de datos
multiconformacional previamente calculada, ya que no se generan conformaciones durante la
bsqueda, sino que cada una de las entradas de la base de datos se superpone de forma rgida
sobre la hiptesis. Entonces, se realiza el emparejamiento exhaustivo de todos los puntos de
anotacin del ligando con los puntos potenciales farmacofricos (PPPs) del modelo. Se
introduce cierta nocin de conservacin de stos al permitirse, opcionalmente, que ciertas
restricciones no se satisfagan por parte de la molcula en cuestin. El resultado de la bsqueda
refleja el cuadrado promedio de las distancias (RMSD) de la superposicin entre los PPPs de la
78
Captulo 1. Fundamentos tericos
hiptesis y los puntos del ligando emparejados con ellos, por lo que puede ordenarse la base de
datos en funcin de esta RMSD.
Tal y como se ha introducido, el objetivo del desarrollo del mtodo SQUID51 fue doble: por una
parte, incluir informacin difusa (fuzzy) sobre la conservacin y tolerancia de las
caractersticas (features) farmacofricas en el conjunto de molculas activas sobre las que se
deriva el modelo y por otra, evitar el alineamiento de las molculas de la base de datos sobre el
modelo farmacforo obtenido.
D (tomokt , tomoit )
LFD (tomokt ) = max 0 , 1 2 [1.85]
i rc
donde i recorre todos los tomos del tipo t presentes en el alineamiento, D2 corresponde a la
distancia Eucldea entre dos tomos k e i, y rc es el radio del cluster o cluster radius. Este
cluster radius es el parmetro que determina la resolucin del modelo, ya que indica el nivel de
agrupamiento en clusters de las features para generar los PPPs, y tiene que ser fijado emprica e
independientemente en cada caso particular de estudio. Todos aquellos tomos pertenecientes a
un tipo farmacofrico particular situados dentro de una esfera de radio rc se agrupan alrededor
de aquel que presenta una LFD mxima.
La posicin central del PPP resultante corresponde al centro geomtrico de todos los tomos
que comparten cluster. La desviacin estndar () se establece a partir de la distancia mediana
de todos los tomos del cluster al centro del PPP, con un valor mnimo de 0.5. Esta desviacin
caracteriza la anchura de la distribucin de los tomos representados por un PPP y en las
ilustraciones grficas de los modelos farmacforos SQUID, equivale al radio de los PPPs.
Finalmente, la conservacin de cada PPP se pondera mediante el peso (w), calculado segn la
ecuacin [1.86]:
79
Captulo 1. Fundamentos tericos
m
1 # tomos de la moleculai del PPPk
w (PPP) = min , [1.86]
i =1 m # tomos del PPPk
Una vez obtenido el modelo farmacofrico, ste se codifica en un vector de correlacin (CV)
para realizarse el VS en una base de datos. El modelo SQUID resultante se encapsula en un
vector de dimensin de 420 bits, resultante de la combinacin de los 21 pares atmicos (TP) y
un esquema de particin de las distancias (d) en 20 rangos equiespaciados [0,20] . La
contribucin a cada uno de los bits del CV se obtiene segn la ecuacin [1.87]:
1 1 TP w p wq (
1 D2 ( p, q ) centred ) 2 )
CVdTP = pq 2 ( + ) 2
# pairs (TP ) p =1 q =1 2
exp
( p + q ) 2
[1.87]
p q
En la bsqueda de similitud, este CV-SQUID se compara con los CV-CATS3D calculados para
cada una de las molculas contenidas en una base de datos. El uso de estos vectores de
correlacin, libres de alineamiento, evita la superposicin de todas las molculas frente al
80
Captulo 1. Fundamentos tericos
(a b )
i i
S (a, b) = i =1
n
[1.88]
1 + ((1 ai )bi )
i =1
Durante el cribado virtual, se utilizan pesos adicionales (feature-type weights) que ponderan la
importancia de cada uno de los tipos farmacofricos generalizados en el CV. Estos pesos se
establecen particularmente para cada caso de estudio, ajustndose empricamente sobre un
subconjunto de molculas de la base de datos, lo que supone una desventaja de esta
metodologa.
81
Captulo 1. Fundamentos tericos
Los mtodos de regresin (PLS, MLR, PCR) establecen un modelo predictivo de una o ms
variables dependientes (actividad) en funcin de la variables independientes (descriptores), por
lo que son ampliamente usados en QSAR (especialmente PLS).
X = TPT [1.89]
Anlisis factorial. Las variables originales (X) se describen como combinaciones lineales
de un conjunto menor de factores comunes (CFs), que contienen la varianza comn a
varios descriptores (communality). La varianza individual de cada una de los descriptores
(uniqueness) se estima mediante una funcin de error (E), ecuacin [1.90]:
82
Captulo 1. Fundamentos tericos
X = CF V + E [1.90]
Tanto PCA como el anlisis factorial asumen una constriccin lineal del espacio de entrada, por
lo que se comportan mal en espacios altamente dimensionales no lineales. En espacios no
lineales, se pueden aplicar tcnicas como el escalado multidimensional, los mapas no lineales de
Sammon o los mapas de Kohonen, basados en redes neuronales.289
m
d ij2 = ( xi , k x j , k ) 2 [1.91]
k =1
( d
i< j
ij ij )2
S= [1.92]
i< j
2
ij
Los mtodos de bsqueda global tratan de escaparse de los mnimos locales, explorando con
ms eficiencia el espacio de bsqueda. Generalmente, aaden algn componente aleatorio a la
bsqueda, de forma que, si se encuentra un mnimo local, se salte a otro punto del espacio de
bsqueda, donde pueda haber otro mnimo, posiblemente global. En este caso se habla de
mtodos de optimizacin heursticos o estocsticos, aunque tambin existen mtodos globales
deterministas, con un elevado coste computacional asociado debido a su exhaustividad.
Este tipo de algoritmos opera muy bien en los problemas de optimizacin combinatoria en los
que el conjunto de soluciones posibles es discreto o susceptible de discretizarse. Estos
83
Captulo 1. Fundamentos tericos
Estas tcnicas se basan en la analoga fsica con la tcnica de annealing en la que un material se
calienta a elevadas temperatura y posteriormente se enfra de manera lenta y controlada para
incrementar el tamao de sus cristales y reducir sus defectos, alcanzndose una estructura
cristalina de mnima energa. El calor permite que los tomos abandonen su posicin inicial, un
mnimo local de energa interna, y muestren de forma aleatoria estados de mayor energa. El
enfriamiento lento permite que se incrementen las posibilidades de encontrar configuraciones
con menor energa interna que la inicial.
Anlogamente, cada paso del algoritmo de SA reemplaza la solucin actual e por otra solucin
aleatoria prxima e, escogida segn una probabilidad que depende de la diferencia entre los
valores de la funcin en los dos puntos y un parmetro global de control T (denominado
temperatura por correspondencia con el smil), que se reduce gradualmente durante el proceso.
La probabilidad de transicin se ajusta de manera que a altas temperaturas, las soluciones
aleatorias se acepten fcilmente (el algoritmo se mueve uphill), reducindose la probabilidad
de aceptacin conforme disminuye la temperatura (sentido downhill). En la formulacin
original291, esta probabilidad de transicin P(e,e',T) se define segn la ecuacin [1.93],
siguiendo el criterio de Metropolis implementado en las tcnicas de Monte Carlo, a su vez
basado en la distribucin de energas de Boltzmann.
84
Captulo 1. Fundamentos tericos
con otras soluciones generndose una nueva poblacin, continundose el proceso hasta que se
encuentra una solucin ptima.
Inicializacin de la poblacin
Mximo nmero
Evaluacin del fitness para de generaciones
cada cromosoma Terminacin
fitness adecuado
Seleccin de cromosomas
para emparejamiento
Nueva generacin de
cromosomas
85
Captulo 1. Fundamentos tericos
1.9.2.3. Seleccin
fi
pseleci = [1.94]
f
Sin embargo, la aplicacin de este mtodo sobre la funcin de fitness cruda conlleva dos
problemas: i) la existencia de superindividuos seleccionados muy frecuentemente deriva en
convergencia hacia su genoma, perdindose diversidad en la poblacin con lo que el algoritmo
no progresa y la solucin final es muy pobre y ii) conforme progresa el algoritmo, las
diferencias entre los valores de fitness se reducen. De este modo, la probabilidad asociada a las
mejores soluciones es casi la misma que la del resto de individuos, con lo que la progresin del
algoritmo se transforma en un proceso aleatorio.
Los mtodos de seleccin son mayoritariamente estocsticos, diseados de manera que tambin
se incluyan individuos con un peor valor de fitness. De todos modos, esto no es suficiente para
superar los problemas mencionados, por lo que se adoptan dos estrategias de acondicionamiento
de la funcin de fitness:
f '= a f + b [1.95]
f '= f ( f c ) [1.96]
f '= f k [1.97]
86
Captulo 1. Fundamentos tericos
donde Cmin corresponde al valor absoluto del peor valor de f(x) en la poblacin actual.
GA _ population X ( position 1)
f ' ( position) = GA _ population
[1.101]
X
i =1
( i 1)
87
Captulo 1. Fundamentos tericos
Se distinguen mtodos de crossover que pueden ser aplicados tanto a variables binarias como
reales y aquellos mtodos que quedan restringidos a cromosomas codificados en valores reales.
En los primeros, se encuentra el uniform crossover, en el que cada elemento del cromosoma hijo
generado es elegido aleatoriamente de cada uno de los padres, el single-point crossover en el
que previo a un punto de corte el cromosoma descendiente procede de uno de los padres y a
partir de este punto del otro de los padres o el multi-point crossover, anlogo al anterior,
incluyendo varios puntos de corte (Figura 1.17). La probabilidad de que un par de cromosomas
seleccionados se recombinen viene dada por la tasa de crossover, parmetro impuesto por el
usuario.
Tras la recombinacin, los cromosomas descendientes sufren mutacin con una probabilidad
establecida por la tasa de mutacin. La mutacin consiste en el cambio de valor de un alelo
aleatorio: de 0 a 1 o viceversa en cromosomas binarios, adoptando un valor comprendido en un
rango para un cromosoma entero o adicionndole un valor aleatorio pequeo en cromosomas en
coma flotante.
Single-point crossover
fitness
10 5
Two-point crossover
3 5
Figura 1.17. Esquema del mtodo de seleccin Roulette Wheel selection y de tres mtodos de
crossover para variables binarias.
1.9.2.5. Replacement
Una vez se dispone de una nueva generacin de individuos hijos y se ha evaluado su funcin de
fitness, se distinguen dos modelos en funcin de cmo se realiza el reemplazo de la generacin
anterior de padres (Figura 1.18):
88
Captulo 1. Fundamentos tericos
El trmino reemplazamiento incondicional hace referencia a que la sustitucin de los padres por
parte de los hijos se produce siempre, independientemente del valor de funcin de fitness que
estos presentan, comparativamente frente a los padres. De este modo, la conservacin de las
soluciones ptimas no se asegura del todo, ya que stas, si bien seleccionadas frecuentemente,
pueden perderse durante el crossover y la mutacin y ser sustituidas por los nuevos hijos. Por
ello, se suelen imponer esquemas condicionales de reemplazo ms efectivos, en los que los hijos
nicamente se insertan en la poblacin si suponen una mejora de los miembros existentes de la
poblacin. Adems, se pueden aplicar tcnicas de elitismo en los que un determinado nmero de
individuos son insertados incondicionalmente en las siguientes generaciones, aunque tambin
participan en los eventos reproductivos.
Seleccin
Generacin Generacin Modelo Generacional
Crossover
X X+1
Mutacin
Seleccin
Poblacin Crossover Modelo steady-state
Mutacin
Otro problema potencial asociado a los algoritmos genticos es la deriva gnica o especiacin,
de manera que el proceso se desva hacia reas del espacio de bsqueda donde residen
agrupaciones de individuos muy prximas, dejando reas del espacio de bsqueda inexploradas.
Para reducir este fenmeno, se pueden aplicar tcnicas de niching. La primera solucin
encontrada se posiciona en el centro de un hipervolumen o niche. Si las siguientes soluciones
caen dentro de un radio de distancias definido prximas a un niche, su valor de fitness es
penalizado, de manera que se limita el crecimiento incontrolado de especies particulares dentro
de una poblacin.
Los island models mantienen un nmero de subpoblaciones separadas e introducen el operador
migracin cada cierto nmero de generaciones, permitiendo el intercambio de material gentico
entre ellas. Este tipo de modelos, adems de mantener la diversidad de las especies, constituye
una estrategia til en la paralelizacin de los algoritmos genticos.
En la programacin evolutiva (EP), los miembros de una poblacin se contemplan como partes
de especies especficas ms que miembros de una misma especie, por lo que no existe proceso
de recombinacin y el nico operador es la mutacin. El mtodo de seleccin tpico es (+),
en el que los padres generan hijos, y entre estos 2 individuos se seleccionan
probabilsticamente los individuos que pasan a la siguiente generacin. La codificacin tpica
del cromosoma suele ser en valores reales.
89
Captulo 1. Fundamentos tericos
Las estrategias evolutivas (EG), muy similares a EP, operan con vectores de nmeros reales
sobre los que el operador primario es la mutacin. sta, se aplica adicionando un valor aleatorio
de una distribucin gaussiana cuya desviacin estndar se adapta durante la optimizacin, por lo
que se conocen como procesos autoadaptados.
Para que un determinado coeficiente sea considerado mtrica debe satisfacer las siguientes
condiciones: i) sus valores deben ser cero o positivos y la distancia de un objeto consigo mismo
90
Captulo 1. Fundamentos tericos
tiene que ser cero, ii) tiene que ser simtrico, iii) debe cumplir la desigualdad triangular y iv) la
distancia entre dos objetos no idnticos tiene que ser superior a cero. Se denominan coeficientes
pseudomtricos a aquellos que presentan tres de estas propiedades y coeficientes no-mtricos a
aquellos que no cumplen la tercera propiedad.26,27
n n n
a = xiA b = xiB c = xiA xiB [1.102]
i =1 i =1 i =1
12
n 2
Distancia DA, B = ( xiA xiB ) DA, B = (a + b 2c)1 2
Eucldea i =1 Rango de n a 0
Rango de a 0
n n n n
Coeficiente de
Tanimoto o
S A, B = xiA xiB xiA2 + xiB2 xiA xiB S A, B = c ( a + b c )
Jaccard i =1 i =1 i =1 i =1 Rango de 0 a 1
Rango de 0.333 a 1
12
n n n
= xiA xiB xiA2 xiB2 S A, B = c (a b)1 2
Coeficiente
del coseno u S A, B
Ochiai i =1 i =1 i =1 Rango de 0 a 1
Rango de -1 a +1
n n n
Coeficiente de
Dice o
S A, B = 2 xiA xiB xiA2 + xiB2 S A , B = 2 c ( a + b)
Czekanowski i =1 i =1 i =1 Rango de 0 a 1
Rango de -1 a +1
91
Captulo 1. Fundamentos tericos
Cell-based Chi2: (n n
i
i ) promedio [1.105]
ni ni
Cell-based Density: ( log ) [1.107]
i n promedio n promedio
Donde ni corresponde al nmero de compuestos presentes en el bin i, N es el nmero total de
compuestos totales de la quimioteca y npromedio es el nmero promedio de compuestos por celda.
Los criterios introducidos por cell-based fueron implementados en el programa Cerius2 por
Jamois y Hassan152. En su implementacin original, PRALINS dispone de los dos primeros
criterios.166
La divisin de las distintas metodologas en tres grupos (distancias, clusters y mtodos basados
en particiones) expuesta en la introduccin no es estricta en el sentido de que diferentes autores
han propuesto distintos modelos de clasificacin.
Por una parte, Willet301 y Prez148 dividen los mtodos de seleccin de compuestos en cuatro
grupos: los tres anteriores y una clasificacin adicional reservada para las aproximaciones
basadas en mtodos de optimizacin. stas abordan el problema de la seleccin como un
problema de optimizacin combinatoria, incluyendo algunos algoritmos de seleccin cherry
picking que requieren el uso de tcnicas heursticas y la adaptacin de los tres mtodos
anteriores en la seleccin de compuestos en formato full array. Tambin se incluyen en este
cuarto subgrupo los mtodos basados en el diseo de experiencias, como el D-Optimal Design.
Pascual303 distingue tambin dos grupos: los basados en distancias y los basados en tcnicas de
clasificacin del espacio, incluyendo en este ltimo los mtodos de clustering y los de particin,
ya que el ndice de diversidad determinado en ambos casos es equivalente (ecuaciones [1.103]-
[1.107]).
En los siguientes apartados se describen de manera general estos mtodos, haciendo hincapi en
los implementados en la versin original de PRALINS y en el mdulo CombiChem de Cerius2,
empleados en este trabajo. En las referencias [301] y [303] puede encontrarse una recopilacin
histrica de la incorporacin de estas metodologas al diseo de quimiotecas diversas.
92
Captulo 1. Fundamentos tericos
max min d i , j [1.108]
i j ; j n
n
max d i , j [1.109]
j =1
Una variante del mtodo MaxSum maximiza la suma de distancias de cada compuesto con un
centroide, molcula ficticia situada en el centro del conjunto seleccionado, permitiendo reducir
el orden de tiempo de O(n2N) a O(nN)304.
Este formato bsico no garantiza que se obtenga el subconjunto ptimo, ya que es un proceso
altamente dependiente del punto inicial. Por ello, se introducen posteriormente estas
definiciones de disimilitud en combinacin con algoritmos de optimizacin globales como los
algoritmos genticos150, Simulated Annealing305 o mtodos de Monte Carlo306.
Adems, se incorporan diferentes definiciones de disimilitud, como el criterio MaxMin
promediado, tambin implementado en la versin original de PRALINS (ecuacin [1.110]):
N
DMaxMin _ P = min d i , j [1.110]
i j ;c n
i =1
o las funciones Product (ecuacin [1.111]) y PowerSum (ecuacin [1.112]), introducidas por
Hassan306 e incluidas en el mdulo CombiChem de Cerius2:
[ ]
1
max Di2, j 0.5n ( n1) [1.111]
0.5 n (n 1)
max [1.112]
1 Di , j
2
Estos mtodos de mxima disimilitud, aplicados inicialmente en selecciones cherry picking son
extrapolados en 1997 a la seleccin de subbibiotecas full array en combinacin con algoritmos
genticos150, 153 o Simulated Annealing155.
93
Captulo 1. Fundamentos tericos
Por otra parte, en los mtodos basados en esferas de exclusin a partir de una molcula inicial
seleccionada, aleatoriamente o de manera que sea central a la quimioteca, se genera una
hiperesfera de un determinado radio. Los restantes compuestos comprendidos a una distancia de
este compuesto inferior al radio de la esfera son excludos. El siguiente compuesto aadido
puede ser aquel ms disimilar al seleccionado o un compuesto aleatorio, variando segn la
implementacin particular. El proceso se repite hasta completar el tamao n307. Otras variantes
de este algoritmo, como la implementada en PRALINS, corresponden a mtodos de clustering,
ya que generan agrupaciones de compuestos al incorporarlos a esferas previas si su distancia es
inferior al radio o generan nuevas esferas que se convierten en centros de nuevas agrupaciones.
En la versin aglomerativa, se parte del clculo de una matriz de similitud intermolecular entre
todos los pares de compuestos, cada uno de los cuales constituye un singleton. El par de
compuestos ms similares se fusiona en un cluster formando un nico nuevo punto (cluster o
singleton) para el que se calcula su similitud a todos los dems puntos de la base de datos,
actualizndose la matriz de similitud. Los distintos mtodos difieren en el modo en que se
define cul es el par ms similar y cmo este par es fusionado para generar un nuevo cluster. En
el algoritmo single linkage se selecciona la distancia ms corta entre las molculas.
Alternativamente, cuando se emplea la distancia ms larga entre objetos, se denomina complete
linkage. Finalmente, si se utiliza la distancia promedio, el mtodo corresponde al average
linkage.
d k ,(i , j ) = d k ,i + d k , j + d i , j + d k ,i d k , j [1.113]
94
Captulo 1. Fundamentos tericos
Tabla 1.9. Constantes de la frmula de Lance-Williams para las distintas variantes de clustering
jerrquico aglomerativo. Las variables i, j son los clusters que se fusionan en el nuevo cluster k y ni, nj, nk
corresponden al nmero de compuestos en los clusters i, j, k respectivamente.
Complete linkage
0.5 0.5 0 0.5
(Furthest Neighbour)
Single linkage
0.5 0.5 0 -0.5
(Nearest Neighbour)
ni nj ni n j
Centroid 0
ni + n j ni + n j (ni + n j ) 2
Average linkage
0.5 0.5 0 0
(unweighted)
Average linkage ni nj
(weighted) o 0 0
Group Average ni + n j ni + n j
ni + nk n j + nk nk
Ward 0
ni + n j + nk ni + n j + nk ni + n j + nk
Estas tcnicas presentan una complejidad O(N2) en tiempo y espacio de memoria para la
creacin de la matriz de interdistancias y orden O(N3) en tiempo de realizacin del clustering,
por lo que su aplicacin est limitada a bases de datos de decenas de miles de compuestos.
Por otra parte, los mtodos de clustering no jerrquicos exigen menos demanda computacional
que los jerrquicos. Dentro de la variedad de algoritmos posibles, destacan los mtodos single-
pass, los de relocation y los de nearest-neighbour:
Single-pass: son sencillos de implementar y muy rpidos. En una nica vuelta sobre la base
de datos asignan los compuestos a clusters y segn una tolerancia de similitud deciden si
se asigna el siguiente compuesto a un cluster existente o se utiliza para generar un nuevo
cluster.
95
Captulo 1. Fundamentos tericos
mnimo de vecinos Kmin (similarity threshold). Este valor de Kmin es el que determina
principalmente la particin. El proceso de agrupar los pares se repite hasta que no se
identifica un nuevo par a agrupar. Este algoritmo presenta la desventaja de que identifica
un gran nmero de clusters compuestos de muy pocas molculas o singletons y tambin la
imposibilidad de especificar a priori el nmero de clusters finales requeridos. Tambin se
encuentra implementado en la versin original de PRALINS.
En general, las tcnicas de clustering son apropiadas para el tratamiento de datos con elevada
dimensionalidad, aunque quedan bastante restringidos a su aplicacin en bases de datos de
tamao medio. Otra ventaja es que realizan una particin natural de los datos, aunque la adicin
de nuevos compuestos obliga a repetir la clasificacin de nuevo.
Para cada una de las propiedades o descriptores que definen el espacio qumico se subdivide su
rango en subrangos cuyo producto combinatorio define un conjunto de celdas hipercbicas o
bins. Cada molcula se asigna a aquella celda que comprende el rango de propiedades que
presenta dicha molcula. Las distintas tcnicas difieren en el criterio seguido para definir el
rango.
PRALINS dispone del algoritmo de Optimum Binning que iterativamente divide en dos aquel
rango o segmento con un mayor intervalo de valores hasta que se obtiene un nmero de celdas
ocupadas equivalente o superior al tamao de seleccin deseado. En caso de que sea superior, se
retiene la particin previa de manera que el nmero de celdas ocupadas no supere el nmero de
molculas a seleccionar. De este modo, los bins o celdas tienden a presentar lados iguales.
Este tipo de mtodos son particularmente tiles para comparar bases de datos diferentes,
siempre que se trabaje sobre el mismo conjunto de descriptores y para identificar agujeros de
diversidad (celdas no ocupadas). Adems, la adicin de nuevos compuestos no fuerza la
repeticin de la particin, por lo que se aplican en la complementacin de quimiotecas con
quimiotecas externas. Su ltima ventaja reside en su baja complejidad de clculo, del orden de
O(N), lo que los convierte en mtodos accesibles a quimiotecas del orden de centenares de miles
de compuestos.
Por el contrario, quedan restringidos a espacios qumicos de baja dimensionalidad, dada la
explosin combinatoria del nmero de celdas generadas en espacios de alta dimensin. Adems,
la arbitrariedad en la definicin de los lmites de las celdas provoca efectos frontera (edge
effects) ya que dos compuestos muy cercanos pueden quedar incluidos en distintas celdas,
tratndose entonces como compuestos disimilares. Este fenmeno se recoge en este trabajo en el
captulo 8.
Tanto en el caso de los mtodos de clustering como en los de particin, en el caso de realizar
una seleccin sparse o cherry picking basada en diversidad, se escoge un producto representante
de cada uno de los clusters o bins.
96
Captulo 1. Fundamentos tericos
En el caso de las selecciones full array es necesario acoplar un algoritmo de optimizacin global
que escoja aquel subconjunto combinatorio que maximize alguno de los criterios
implementados en las ecuaciones [1.103]-[1.107]. La versin original de PRALINS dispone de
los mtodos de Monte Carlo y Simulated Annealing y tambin el algoritmo de Local Search
para tal fin.
1 n F
S (C ) = min (d ij ) [1.114]
n i=1 j =1
Sin embargo, en las selecciones sobre quimiotecas combinatorias en formato full array es
necesario imponer un algoritmo de optimizacin que identifique aquellos productos
combinatorios que minimizen dicho criterio. Como en el caso de las selecciones diversas, los
ms aplicados corresponden a algoritmos genticos y a Simulated Annealing.
Previamente, en el ao 2000, Agrafiotis y Lobanov desarrollan dos algorimos con una mayor
componente determinista. El primero de ellos, definido como ultrafast greedy algorithm162
comienza con una seleccin aleatoria full array y de manera secuencial para cada punto de
diversidad, selecciona aquellos reactivos que maximizan la funcin objetivo. Para cada punto de
diversidad, construyen tantas quimiotecas como reactivos disponibles para este punto,
combinando la estructura correspondiente con el resto de listas de reactivos seleccionadas para
97
Captulo 1. Fundamentos tericos
el resto de puntos de diversidad. Una vez que el proceso se ha repetido para todos los puntos de
diversidad, se termina el ciclo y la similitud de la seleccin full array se compara con el valor
del ciclo previo. Si se mejora el resultado, el algoritmo contina, de lo contrario, termina. Los
autores concluyen que el algoritmo presenta una mejor convergencia que las tcnicas heursticas
de optimizacin, alcanzando los mismos valores. El tiempo de preprocesado escala linealmente
con el tamao de la quimioteca virtual, mientras que el tiempo de refinado escala linealmente
con el nmero total de reactivos disponibles.
El otro algoritmo desarrollado por Agrafiotis163 est diseado para evitar la enumeracin y
descripcin de toda la quimioteca, rindiendo una solucin ptima o quasi ptima en un orden de
tiempo razonable. Para ello, selecciona una fraccin aleatoria sparse de productos de la
quimioteca. stos se enumeran y describen, ordenndose por similitud decreciente a la
estructura objetivo. Aquellos que presentan mayor similitud se deconvolucionan en sus building
blocks, denominados reactivos preferenciales (preferred reagents). Estos reactivos
preferenciales se combinan posteriormente, produciendo una quimioteca full array de
productos, sobre la que, una vez enumerada y descrita, se evalua la similitud. La seleccin final
se establece sobre aquellos compuestos con una mayor similitud al compuesto lead. Debido a su
naturaleza estocstica en la seleccin de compuestos aleatoria inicial, el proceso se repite varias
veces, combinndose los resultados por consenso.
98
Captulo 1. Fundamentos tericos
Dado que el diseo diverso est dirigido a la identificacin de compuestos activos frente a
varias dianas, algunos de estos estudios, partiendo de bases de datos con varias clases de
actividad biolgica, comparan el grado de recubrimiento de cada una de las clases segn una
seleccin diversa con el obtenido aleatoriamente. En el estudio de Brown y Martin29, se
comparan distintos mtodos de clustering en funcin de su capacidad para agrupar los
compuestos activos en un mismo cluster y separarlos de de los inactivos, identificando as el
active cluster subset. Concluyen que el mtodo de clustering de Ward es superior al resto de
mtodos de clustering testados.
Otro criterio utilizado para evaluar la efectividad de los distintos algoritmos frente a un diseo
aleatorio y compararlos entre s es el basado en medir el grado de diversidad en el espacio de
propiedades alcanzado en cada uno de ellos, es decir, hasta qu punto la seleccin queda
extendida en el espacio qumico. En este sentido, es necesario disponer de mtodos que
permitan comparar bases de datos, evaluando el recubrimiento alcanzado por ambas de manera
independiente al mtodo de seleccin aplicado y en un mismo marco de referencia.
Otros mtodos, como el del centroide, facilitan la expresin de la diversidad como suma de las
distancias intermoleculares incluidas en una quimioteca. La combinacin de los centroides de
dos bases de datos rinde una medida cuantitativa del cambido en diversidad resultante de la
fusin de las dos bases de datos.314
Figura 1.19. Representacin del diversity integral criterion. Para las dos selecciones A (azul) y B
(rojo) se extienden puntos aleatorios exclusivamente en el espacio qumico definido por ambas
(cuadrados negros) y se cuantifica la distancia de cada uno de ellos al compuesto ms cercano de cada
seleccin. La quimioteca total se representa por los puntos grises.
99
Captulo 2. Tirosina Quinasas
Captulo 2.
Tirosina Quinasas
Uno de los mecanismos fundamentales por los que las clulas eucariotas se comunican es
mediante la unin de ligandos a la superficie de receptores celulares que actan directamente
como enzimas o estn asociados a enzimas. Entre ellos, la mayor parte corresponden a protena
quinasas: tirosina quinasas o serina/treonina quinasas, que fosforilan determinados residuos de
tirosina, serina o treonina de protenas seal intracelulares o bien estn asociados a protenas
que tienen actividad tirosina quinasa.
El quinoma humano contiene 518 protenas quinasa, de las cuales 478 pertenecen a una nica
superfamilia cuyos dominios catalticos estn relacionados en secuencia. stos se pueden
agrupar en 7 grupos, 20 familias y subfamilias, con creciente similitud de secuencia y funcin
bioqumica.317 Las protena tirosina quinasas (PTKs) forman un nico grupo, correspondiendo
los seis restantes a serina/treonina quinasas. Adems, se han secuenciado 40 quinasas atpicas
que no comparten similitud secuencial con el resto, pero cuya actividad enzimtica y/o
plegamiento estructural es conocido o previsto similar al de una protena quinasa. El rbol del
quinoma humano se encuentra accesible a travs de diferentes servidores web como son el
Protein Kinase Resource230 , Cell Signaling Technology, Inc318 y Evolutionary Bioinformatics
and Sugen, Inc319. Esta clasificacin rebasa la previamente utilizada, propuesta por Hanks y
Quinn en el ao 1991320.
En la Figura 2.1 se muestra el rbol filogentico del quinoma humano correspondiente al grupo
de las protena tirosina quinasas (PTKs), en el que se ha centrado el trabajo. La reaccin
especfica catalizada por las PTKs es la transferencia del fosfato del ATP al grupo hidroxilo de
la tirosina de la protena diana. Las PTKs se diferencian tradicionalmente en dos subgrupos:
Los receptores tirosina quinasa (RTKs): son glicoprotenas transmembrana que se activan
por la unin de sus ligandos y transducen la seal extracelular al citoplasma mediante
autofosforilacin y posterior fosforilacin de protenas intracelulares. Esta familia incluye
los receptores de insulina y muchos receptores de factores de crecimiento como el factor
de crecimiento epitelial (EGF), los factores de crecimiento de los fibroblastos (FGF), el
factor de crecimiento derivado de las plaquetas (PDGF), el factor de crecimiento vascular
endotelial (VEGF), el factor de crecimiento de los hepatocitos (HGF), el factor de
crecimiento neuronal (NGF) y el factor estimulador de la formacin de colonias de
macrfagos (M-CSF). Estos receptores se componen de un dominio extracelular,
implicado en la unin del ligando y la dimerizacin del receptor (vase abajo), un nico
101
Captulo 2. Tirosina Quinasas
Las RTKs activan, en respuesta a los factores de crecimiento, numerosas vas de sealizacin
que generan respuestas celulares tales como la mitognesis y proliferacin, diferenciacin,
migracin, la supervivencia celular, la prevencin o induccin de apoptosis, el reordenamiento
del citoesqueleto y cambios metablicos.
Esta variedad de respuestas ante un mismo estmulo puede depender del tipo celular y ms
genricamente de las diversas condiciones fisiolgicas a las cuales estn sometidas las clulas.
As, en cultivos celulares estas respuestas pueden depender de la densidad celular de los
cultivos, del tipo de matriz extracelular a la que estn adheridas las clulas o de la presencia en
el medio de otros factores de crecimiento u hormonas, ya que normalmente estos actan en
combinaciones especficas. Por ejemplo, un nmero pequeo de factores de crecimiento pueden
servir, en combinaciones diferentes, para regular selectivamente la proliferacin de cada una de
las diferentes clases de clulas de un animal superior.
102
Captulo 2. Tirosina Quinasas
Los factores de crecimiento pueden presentar una especificidad amplia (como EGF, FGF y
PDG) o reducida (NGF). Mayoritariamente se encuentran implicados en regulaciones paracrinas
(mediadores locales), aunque algunos estn presentes en la circulacin.
La mayor parte de las RTKs existen como monmeros en la membrana celular, siendo las dos
principales excepciones la familia de receptores de insulina (tetrmeros 22) y la familia Met.
La unin del ligando a los receptores monomricos induce la dimerizacin de stos,
produciendo un acercamiento de sus extremos que permiten que los dominios TK interaccionen
y se autofosforilen (por trans-fosforilacin, se ha descartado la posibilidad de una
cis-fosforilacin), conduciendo a su activacin.
La activacin por autofosforilacin no solo aumenta la actividad del dominio cataltico, sino que
se hacen accesibles determinados sitios de unin con tirosinas autofosforiladas, normalmente
fuera del dominio TK, que reclutan protenas para ser fosforiladas, continundose la cascada de
sealizacin.
Estas protenas reclutadas poseen dominios no catalticos altamente conservados SH2 (Src
homology 2 domain) o dominios PTB (phosphotyrosine binding). Los dominios SH2 se unen
especficamente a secuencias de aminocidos definidas por 1-6 residuos C-terminales a una
fosfotirosina. Por su parte, los dominios PTB reconocen secuencias de 3-5 aminocidos
N-terminales a una tirosina, fosforilada o no. Estas protenas pueden ser de dos tipos: i)
protenas adaptadoras, sin actividad cataltica, que pueden reclutar a otras protenas
transductoras, o ii) factores o enzimas directamente transductores/as que tras unirse al receptor
son fosforilados por ste, pasando de un estado inactivo a otro activo. Las protenas adaptadoras
poseen tambin dominios SH3 WW que reconocen motivos ricos en prolinas, permitiendo el
ensamblaje de complejos de protenas a travs de uniones SH2 y SH3322.
Adems, existen protenas de reclutamiento (docking proteins) con dominios seal dirigidos a
los fosfolpidos de la membrana celular (como el dominio PH, pleckstrin homology domains)
que permiten la translocacin a la membrana de protenas de sealizacin, dominios SH2 para
unirse a estas protenas y dominios PTB que se unen al receptor. Destacan las familias IRS y
FRS como docking proteins de los receptores IR (receptor de insulina) y FGFR.
103
Captulo 2. Tirosina Quinasas
Activacin de las protenas activadoras de GTPasa (GAP) que se unen directamente a los
RTKs e incrementan la velocidad de hidrlisis del GTP unido a Ras, inactivndolo.
104
Captulo 2. Tirosina Quinasas
Activacin de la fosfolipasa C- (PLC-) por unin directa de sus dominios SH2 al RTK.
Este enzima hidroliza el fosfatidilinositol 4,5-bisfosfato (PIP2) generando inositol 1,4,5-
trisfosfato (IP3) y 1,2-diacilglicerol (DAG). Tanto el IP3 como el DAG son potentes
mensajeros secundarios. El IP3 es un efector de canales de calcio localizados en la
membrana del retculo endo/sarcoplsmico que estimulan la liberacin de Ca2+. Este Ca2+
se une a la calmodulina, activando la familia de quinasas dependientes de calmodulina.
Adems, el DAG y Ca2+ activan la protena quinasa C (PKC). Adems de una serie de
respuestas intracelulares, como puede ser el reordenamiento del citoesqueleto mediado por
Ca2+, los efectos de DAG y Ca2+ se transducen en la activacin de ciertos factores de
transcripcin.
- Una de ellas es la serina/treonina quinasa PKB/Akt (PKB, por protein kinase B; y Akt,
por ser homloga de la oncoprotena v-Akt). La PKB/Akt activada fosforila a multitud
de protenas sustrato generando, entre otras, seales de supervivencia celular que
previenen la aparicin de apoptosis. Por una parte, inactiva caspasas (procaspasa 9),
suprime la expresin de genes proapoptticos e inhibe la formacin del complejo
apopttico BAD-Bcl2.
- En el receptor de insulina, la activacin de PI-3K conduce a la translocacin de los
transportadores de glucosa a la membrana celular.
- Interviene en la generacin de H2O2 inducida por factores de crecimiento. H2O2, entre
otras respuestas, inactiva a la fosfatasa PTP, que desfosforila la EGFR activada.
Finalmente, los factores de crecimiento inducen la transcripcin de genes tardos como los
de las ciclinas y las quinasas dependientes de ciclina (CDKs), que intervienen en la
progresin de las clulas desde la fase G1 del ciclo celular a la fase S.323
Por otra parte, las NRTKs, adems de estar integradas en los mecanismos iniciados por las
RTKs, intervienen en el funcionamiento del sistema inmunolgico. La familia Jak est asociada
a receptores de citoquinas (como el interfern ), cuya activacin conduce a la transcripcin de
genes especficos mediante el sistema JAK/STAT. La quinasa Lck, un miembro de la familia
Src, est constitutivamente asociada a los receptores CD4 y CD8 de los linfocitos T, que una
vez estimulados, transducen la seal a travs de la quinasas Lck y ZAP-70, que finalmente
deriva en la activacin transcripcional de genes de citoquinas que intervienen en la activacin de
las clulas T. Anlogamente, en la activacin de las clulas B intervienen las NRTKs Lyn y
Syk.
105
Captulo 2. Tirosina Quinasas
En la Tabla 2.1 se recogen las actividades ms representativas en que participan los tres
receptores de factores de crecimiento con los que se trabaja: EGFR, PDGFR y FGFR.
Tabla 2.1. Familias de receptores de factores de crecimiento estudiados en el trabajo, sus ligandos,
receptores y funciones representativas.
Las protena quinasas han surgido como dianas farmacolgicas en numerosas enfermedades,
bien porque se encuentran sobreexpresadas y/o muestran una disfuncin en un rgano o tejido
particulares, o por el papel que desempean en mecanismos del ciclo celular implicados en
distintas enfermedades.
Entre estas enfermedades, el cncer focaliza la mayor parte de estudios, no solo por su
predominancia en la poblacin occidental, sino tambin porque su estudio permite avanzar en el
conocimiento de las pautas de comportamiento de las clulas en organismos pluricelulares.
Las clulas cancerosas se caracterizan por una proliferacin celular incontrolada y porque
invaden y colonizan territorios normalmente reservados para otras clulas.327 En la mayor parte
de cnceres, las anomalas que presentan estas clulas se transmiten a su progenie gracias a que
son debidas a cambios genticos (alteraciones en la secuencia de DNA), aunque tambin pueden
tener un origen epigentico (cambios en la pauta de expresin gnica, sin que exista ningn
cambio en la secuencia de DNA).
El anlisis de las alteraciones genticas en clulas cancerosas ha revelado un gran nmero de
genes que codifican protenas implicadas en el control de la proliferacin celular. Por una parte,
genes cuyos productos ayudan a estimular la proliferacin celular, de manera que al mutar se
sobreexpresan o se vuelven hiperactivos, denominndose oncogenes (siendo el alelo normal un
proto-oncogn). Por otra, los genes que inhiben la proliferacin celular sufren mutaciones que
los inactivan, denominndose entonces genes supresores de tumores. Los primeros presentan un
fenotipo dominante, nicamente se requiere la activacin de una nica copia del proto-oncogn,
mientras que la mutacin de los genes supresores de tumores tienen un efecto recesivo, las dos
copias del gen en la clula deben estar inactivadas o delecionadas.
106
Captulo 2. Tirosina Quinasas
EGFR se utiliza como un marcador tumoral en numerosos tipos de cncer en los que se
encuentra sobreexpresado (colon, cabeza y cuello, pncreas, ovario, mama, rin, gliomas). Por
otra parte, se encuentran alteraciones en PDGF y su receptor en cnceres como el de pulmn,
prstata, renal, glioblastoma y la leucemia crnica monomieloctica. Adems, este PDGFR tiene
una gran importancia en la angiognesis tumoral.
Adems del cncer, los RTKs intervienen en distintas enfermedades asociadas con desrdenes
hiperproliferativos, migratorios, del desarrollo embrionario y enfermedades vasculares, tales
como arterosclerosis, la psoriasis, la artritis reumatoide, la retinopata diabtica, homeostasis del
fosfato, displasias esquelticas o fibrosis325,326. En la referencia [329] puede encontrarse una
recopilacin de las distintas enfermedades en las que estn implicadas las quinasas humanas.
Como se ha comentado, las RTKs consisten de una porcin extracelular, una hlice
transmembrana y una porcin cataltica.
107
Captulo 2. Tirosina Quinasas
L
Extracelular
Rico en Cys
Ig
EGF
Rico en Leu
Cadherina
Discoidina
Kringle
Tirosina
Quinasa
EGFR InsR PDGFR- Flt1 FGFR1 TrkA Ror1MuSK Met Axl Ret EphA1 Tie Ryk DDR1 Ros
ErbB2 IFGR1 PDGFR- KDRFGFR2 TrkB Ror2 Ron Eyk Tek DDR2
CSF1R Sea
ErbB3 IRR Flt4 FGFR3 TrkC Tyro SAM
Kit 3
ErbB4 FGFR4
Flk2 E`phB1
Nyk
Figura 2.3. Organizacin de dominios en RTKs. El dominio KID se muestra como una lnea negra
que divide el dominio tirosina quinasa. Adaptado de [330].
Los dominios quinasa comprenden entre 250 y 300 aminocidos, con un peso alrededor de
30kD. Se trata de un dominio muy similar entre serina/treonina quinasas y tirosina quinasas,
aunque existen diferencias a nivel de secuencia que caracterizan cada familia, de manera que
permiten distinguir si una secuencia putativa es de un tipo u otro.
A nivel de secuencia, Hanks331 estableci once subdominios conservados (I-XI) a partir del
alineamiento mltiple de quinasas, separados por regiones menos conservadas, donde se
encuentran gaps e insertos. As, el dominio KID de PDGFR, CSF1R y Kit aparece entre los
subdominios V y VI.
La arquitectura general del dominio quinasa es bilobular: con un lbulo N-terminal y un lbulo
C-terminal. El lbulo N-terminal comprende cinco lminas antiparalelas (1-5) y una hlice
(C), previa a la hlice C se encuentra otra hlice (B), aunque sta ltima no est tan
conservada entre quinasas. El lbulo C-terminal, ms grande que el anterior, est formado por
dos lminas (7, 8) y siete hlices (D, E, EF, F-I). Tambin se puede encontrar en
algunas quinasas otra lmina (9). El lbulo N-terminal est asociado a la unin del ATP,
mientras que el extremo C-terminal lo est con la catlisis y la unin del sustrato (vase Figura
2.4).
108
Captulo 2. Tirosina Quinasas
Tabla 2.2. Residuos conservados (notacin secuencial de PKA) en el dominio cataltico quinasa.
Adaptado de [332].
Nmero de
Residuo Situacin en la estructura
Funcin dominio de
PKA secundaria
Hanks
Gly50 Loop que ancla el -PO4 de ATP I Loop de unin del ATP entre 1 y 2
Glu52 Loop que ancla el -PO4 de ATP I Loop de unin del ATP entre 1 y 2
Gly55 Loop que ancla el -PO4 de ATP I Loop de unin del ATP entre 1 y 2
Val57 Alinea el sitio de unin de la adenina del ATP 2
Lys72 Forma un par inico con -PO4 y -PO4 de ATP II 3
Glu91 Forma un par inico con la Lys72 III C
Asp166 Base cataltica VIb Loop cataltico entre 6 y 7
Lys168 Interacciona con -PO4 de ATP VIb Loop cataltico entre 6 y 7
Asn171 Quela Mg2+ en PKA VIb Loop cataltico entre 6 y 7
Asp184 Quela Mg2+ en PKA VII Inicio del loop de activacin (tras 8)
Phe185 Inicio del loop de activacin (tras 8)
Gly186 Inicio del loop de activacin (tras 8)
Glu208 Forma un par inico con Arg280 VIII Extremo del loop P+1
Asp220 Estabiliza el loop cataltico IX F
Arg280 Forma un par inico con Glu208 XI Loop entre H y I
109
Captulo 2. Tirosina Quinasas
Loop de unin del nucletido (nucleotide-binding loop). Corresponde al sitio de unin del
ATP situado en la hendidura situada entre los dos lbulos, de manera que el nucletido
queda coordinado por los residuos de las lminas 1-2 del lbulo N-terminal. Se
encuentra un motivo de glicinas: Gly-X-Gly-X-X-Gly, tambin muy conservado entre
protenas que unen nucletidos. Adems, en muchas TKs, 14 residuos antes de la primera
Gly del motivo consenso, se encuentra un motivo WE que estabiliza la estructura en el
lbulo N-terminal y que parece demarcar el lmite entre el dominio quinasa y la regin
yuxtamembrana precedente. Tambin se encuentra, casi invariablemente, una valina
situada a dos posiciones del extremo carboxi del motivo Gly-X-Gly-X-X-Gly y que se
posiciona en la parte superior de la adenina del ATP.
Loop cataltico (catalytic loop): En el dominio VIb se encuentra el loop que interviene en
la transferencia de fosfato. De hecho, su secuencia permite determinar si se trata de una
serina/treonina quinasa o de una tirosina quinasa. En el primer caso, la secuencia
corresponde a Asp-Leu-Lys-Pro-Glu-Asn (como en el caso del PKA entre Asp166 y
Asn171), mientras que en las secuencias Asp-Leu-Arg-Ala-Ala-Asn o Asp-Leu-Ala-Ala-
Arg-Asn indican especificidad por tirosina en la fosforilacin.
La orientacin relativa de los dos lbulos muestra una considerable variabilidad entre protena
quinasas. La forma apo desfosforilada se encuentra en una conformacin ms abierta, que se
cierra tras la activacin. El mecanismo de autoinhibicin observado en estructuras
cristalogrficas no fosforiladas sugiere que el loop de activacin bloquea el sitio de unin del
ATP y/o el sitio de unin del sustrato, y que tras la autofosforilacin, dicho loop se estabiliza en
una conformacin no-inhibitoria, sufriendo un gran cambio conformacional.330
110
Captulo 2. Tirosina Quinasas
Se han desarrollado distintas estrategias para prevenir la activacin de los RTKs: desde
anticuerpos monoclonales que se unen selectivamente a su porcin extracelular (como por
ejemplo para el EGFR y VEGFR) bloqueando su unin con el ligando natural, hasta frmacos
que inhiben la actividad quinasa del receptor. En este apartado, se describen aquellos
compuestos diseados para interferir en el sitio de unin del ATP.
Actualmente, superado un escepticismo inicial, el sitio de unin del ATP se considera una diana
farmacolgica, a pesar de las dos desventajas asociadas a l: i) la necesidad de obtener una
potencia suficiente como para competir con la gran concentracin de ATP intracelular in vivo y
ii) la naturaleza ubicua del sitio de unin del ATP, con los problemas asociados de selectividad
que conlleva. Normalmente, los inhibidores estn dirigidos a la conformacin activa de la
protena, aunque resultan ms interesantes aquellos que se dirigen a la conformacin inactiva,
ya que es ms fcil conseguir especificidad para el sitio de unin del ATP en esta situacin.
De hecho, en 2004, veinte inhibidores se encontraban en fase clnica y tres haban sido
aprobados: Gleevec (STI-571, imatinib mesylate), dirigido contra c-Kit / PDGFR; gefitinib
(ZD1839, IRESSA), dirigido contra EGFR y erlotinib (CP358,774, Tarceva), dirigido contra
EGFR.334
Quinazolinas
HN Br O HN Cl HN
O N O O
N N O N
O
O N O N O N
Entre las diversas derivaciones destacan las sustituciones en las posiciones 3-, 4-, 6-, o 7-, (4, 6)
as como anlogos de quinazolinas tricclicos (5) (Figura 2.6).
Muchas de ellas son inhibidores del EGFR en el orden submicromolar y nanomolar, con un
buen perfil de selectividad. En la referencia [336] puede encontrarse una revisin del SAR de
estos compuestos frente a EGFR. Por otra parte, tambin se han diseado quinazolinas con
mayor selectividad hacia otras dianas como Raf, CSF-1R y VEGFR337.
111
Captulo 2. Tirosina Quinasas
3' 1
R 3' R
1
2' 2'
4' 4'
5' HN Br 5' HN Br
HN HN
6' 6'
4
6 N R
2
6 O N
N N
3 N N X R N N
2 N O
R 7 O 7 N H
X:CH
X:N
4 5 6 7
Estos inhibidores, son ATP-competitivos reversibles. Sin embargo, tambin se han desarrollado
una nueva clase de inhibidores irreversibles338 con potencia subnanomolar para los receptores
EGFR y erbB-2. stos, representados por el compuesto 7, contienen un aceptor de Michael en la
posicin 6- 7- del anillo de quinazolina, de manera que se unen irreversiblemente a una
cistena (Cys773) del sitio de unin del ATP en el EGFR, que es nica para esta familia de
quinasas, lo que les confiere una gran selectividad frente a otras quinasas.
Fenilaminopirimidinas
En este grupo se encuentra STI-571 o Gleevec (8) (Figura 2.7), que inhibe a v-Abl y PDGFR.
Aunque inicialmente se identificaron como inhibidores del receptor de PDGF y de PKC, la
selectividad por PDGFR se consigui mediante la introduccin del grupo metilo en la posicin
6-del fenilo. La potencia frente a v-Abl se obtuvo derivatizando los sustituyentes del fenilo.339
Tambin se han descrito 4,6-dianilinopirimidinas (9) como inhibidores de EGFR y
2-anilinopirimidinas (10) como inhibidores de Lck, Fyn, ZAP-70, Csk, EGFR y PKC.
H
N N O
H
N N N
N
H H O
N N N N N
O
N O HN
N
HO
O HN
N N
STI-571 (Gleevec)
v-Abl (IC50 = 38nM) NH2
EGFR (IC50 = 1nM) Fyn (IC50 = 68nM)
PDGFR (IC50 = 50nM)
8 9 10
Piridopirimidinas y pirimidopirimidinas
En un estudio inicial SAR realizado por Rewcastle et al340 se compararon estos cuatro scaffolds
segn su capacidad de inhibir el receptor de EGF, encontrndose que las series [3,4-d] (12) y
112
Captulo 2. Tirosina Quinasas
[4,3-d] (11) eran las ms activas, seguidas de [3,2-d] (14) y siendo los compuestos [2,3-d] (13)
los menos potentes, para los compuestos sintetizados.
Br NH Br NH Br NH Br NH
1 1
R N R
N N N N N
1 N 1
N 7 R N N N R N
11 12 13 14
O O
Cl
N N O N O
Cl N
H2N N N O H2N N N NH N N N NH
H
HN O HN O
15 16 17
PD166866 PD173074
FGFR (IC50 = 60nM) optimizacin de 16
De este modo, se han obtenido compuestos selectivos para FGFR variando los sustituyentes que
penden del grupo 6-fenilo (16) (Figura 2.9). Finalmente, este compuesto se optimiz mediante
la sustitucin de la cadena de la amina, incrementando su solubilidad (17). Otros estudios
recogen la optimizacin de las posiciones N-8 y C-6, lo que permiti la identificacin de un
inhibidor de PDGFR.347
Finalmente, del mismo modo que para las anilinoquinazolinas, las piridopirimidinas se han
derivatizado con aceptores de Michael para obtener inhibidores irreversibles, as, se han
preparado 6-acrilamido pirido[3,4-d]pirimidinas y 6-acrilamido pirido[3,2-d]pirimidinas.
113
Captulo 2. Tirosina Quinasas
Pirrolopirimidinas y pirrolo[2,3-b]piridinas
H H
N 7N N 7N
2 6 2 6 N
R1
N N
5 5
4 4 O
NH NH2
R1 = NHCOCH3 19
F
R1 = NHSO2CH(CH3)2 20
H2N N N
R1 = NHCONHC2H5 21 H
Cl R1 = OCH3 22
CGP 59326 RWJ 68354
EGFR (IC50 = 27nM) EGFR (IC50 = 1-3nM) p38 (IC50 = 9nM)
18 23
Por otro lado, se han identificado pirrolo[2,3-b]piridinas350, como el compuesto 23, como
inhibidores de la quinasa p38.
Pirazolopirimidinas y pirazolopiridinas
Pfizer identific en 1996 los compuestos PP1 (24) y PP2 (25) (Figura 2.11), representativos de
una serie de 4-aminopirazolo[3,4-d]pirimidinas, como inhibidores selectivos de las quinasas
Lck y FynT.351 Se estudiaron distintas sustituciones del anillo aromtico en el nitrgeno y en la
posicin C-3 del anillo de pirazol.
Cl Cl Cl
OH
PP1 PP2
Lck (IC50 = 5nM) Lck (IC50 = 4nM) EGFR (IC50 = 0.22M) EGFR (IC50 = 1nM)
FynT (IC50 = 6nM) FynT (IC50 = 5nM)
24 25 26 27
114
Captulo 2. Tirosina Quinasas
Indolin-2-onas
OH
O
O
OH
N
H
N N O
H H
O O 5 N
H
N N
H H 6
SU5416 SU5402
28 29 30
Purinas
Las purinas se han testado frente a un gran nmero de quinasas, especialmente las
serina/treonina quinasas y, dentro de ellas, para las quinasas dependientes de ciclina (CDKs). A
partir de las inicialmente descritas, olomoucina (31) y roscovitina (32), se han estudiado
anlogos por modificacin de las posiciones 2-, 6- y 9-, conduciendo a compuestos con mayor
potencia y selectividad dentro de esta familia, como el purvalanol B (33).
COOH
Cl
HN HN HN
6 6 6
1N
5
N7 1N
5
N7 1N
5
N7
8 8 8
HO N9 HO N9 HO
N 2 N 4 N 2 N 4 N 2 N 4 N9
H 3 H 3 H 3
31 32 33
115
Captulo 2. Tirosina Quinasas
H Cl
N
NH OH
N N
N S F
F
N N
N N
F N
N
H2N N
N N
H
N
F H
F
34 35 36 37
Por otra parte, Merck, a partir de estudios SAR ha identificado los compuestos 36 y 37 como
inhibidores potentes y selectivos de las quinasas p38 y Raf, respectivamente.356
4'
3'
2'
7 N
N N
6
N N O N
5 N MeO
4 4
38 39 40
Naftiridin-2(1H)-onas
116
Captulo 2. Tirosina Quinasas
Cl Cl
3 3
6N
2 2
Cl Cl
R1 7 1 N O R1 7 N N1 O
8
X
X = Me 41 43
X = H 42
El balanol (44) (Figura 2.17) es un producto natural aislado del hongo verticullium balanoides,
inhibidor especfico de serina/treonina quinasas, que apenas muestra actividad frente a tirosina
quinasas. Se han realizado diversas modificaciones sobre su estructura para incrementar su
actividad en ensayos celulares.
H
N O
OH OH O
O
O O OH
HO Cl
O
O
HO O N N
OH O
HN OH
HO
N O
H N
HN
117
Captulo 2. Tirosina Quinasas
Tal y como se ha ido comentando, el uso de la informacin estructural obtenida por difraccin
de rayos-X, junto con la modelizacin por homologa de dominios tirosina quinasa ha permitido
el diseo de inhibidores de quinasas. En este sentido, destaca tambin la contribucin de los
modelos farmacofricos y las bsquedas de similitud a compuestos activos ya conocidos.
118