Вы находитесь на странице: 1из 135

C.I.F. G: 59069740 Universitat Ramon Lull Fundaci Privada. Rgtre. Fund. Generalitat de Catalunya nm.

472 (28-02-90)

TESIS DOCTORAL

Ttulo Herramientas de cribado virtual aplicadas a inhibidores


de tirosina quinasas. Contribucin al desarrollo del
programa PRALINS para el diseo de quimiotecas
combinatorias.

Realizada por Obdulia Rabal Gracia

en el Centro Escola Tcnica Superior IQS

y en el Departamento Qumica Orgnica y Bioqumica

Dirigida por Dr. Jordi Teixid i Closa

C. Claravall, 1-3
08022 Barcelona
Tel. 936 022 200
Fax 936 022 249
E-mail: urlsc@sec.url.es
www.url.es
A mis padres
Agradecimientos

En primer lugar, quisiera agradecer al Dr. Jordi Teixid, director de esta tesis, el apoyo
prestado, tanto en el mbito computacional como en el personal, en el que no han faltado
nimos y amistad para seguir adelante. En plan ms materialista no puedo dejar de agradecer
la cantidad de medios que ha puesto siempre a mi disposicin, as como su ayuda en esas tareas
burocrticas de ltima hora (aunque reconocers que he ido progresando).

Este agradecimiento se extiende a todos los miembros del GEM, especialmente al Dr. Ignacio
Borrell por su colaboracin e inters mostrado y por permitirme realizar la tesis en este
proyecto. Asimismo, quisiera agradecer a varios profesores del IQS que a lo largo de la carrera
o el doctorado me han prestado su apoyo de modos diversos: Dr. Jos Javier Molins, Dr.
Santiago Nonell, Dra. Pepa Blanco, Dr. Xavier Toms y Dr. Alberto Barrera. Al Dr. Jordi
Cuadros, gracias por tu amistad y ayuda, especialmente en nuestro perodo de ocupacin de la
seccin de Estadstica.

A todos los miembros de TICS (Sergi, Joaqun, Javi y Susana) con los que hemos compartido
tantas comidas y buenos ratos. Especialmente, Sergi, tu trabajo, paciencia y ayuda con las
mquinas ha sido impresionante.

A todos los compaeros de la seccin que han ido pasando a lo largo de estos aos y que me
hicieron pasar buenos momentos. A Rosala: en el TFC te dije que pondra sin la cual este
proyecto no es el que es, bien, me mantengo, sin el previo de PRALINS no podra haber
aprendido a programar. Ya sabes que adems te agradezco multitud de favores y tu inestimable
amistad. A Oscar (El Rey) por transmitirme tanto optimismo, alegra y serenidad en tus
consejos, qu hueco dejaste cuando te fuiste! A Violeta por tu colaboracin en este trabajo y
por t amistad, ayudndome en los momentos difciles del tramo final de la tesis. A Roger por
su colaboracin, porque de todo se aprende. Asimismo, gracias a todos los compaeros de las
secciones de sntesis, fotoqumica y esteroides por animar los momentos en el IQS.

Al Dr. Gisbert Schneider por permitirme realizar una estancia en su grupo en Frankfurt. A todos
los amigos que all hice, que tan cariosamente me acogisteis y con los que tantas cervezas
bebimos: Teresa, Tina, Swetlana, Domingo, Karin, Philip, Carlos, Stephen, Lutz, Andreas,
Leyla, Micha, Michi, Norberty as hasta el final del grupo MODLAB.

A las de toda la vida: Teresa, Mara, Mepi, Yolanda y Sandra y a toda la gente del Moko
(vamos para 15 aos). A todos los amigos que he conocido en Barcelona, en especial a Nria
y Kike, ngeles, Csar, Mara, Dani, Marc y PereA la pandilla poltica de Pamplona.
Iigo, una suerte haberte conocido. Aunque esta tesis cada vez nos ha ido quitando ms tiempo,
espero devolvrtelo.

A toda mi familia, con mucho cario para mi abuela Irene. A Jorge y Fina, os agradezco lo
mucho que hicisteis por m en mis comienzos en Barcelona. A la familia de Iigo por el aprecio
y todas las atenciones que tenis para conmigo.

Antonio, aunque eres el hermano pequeo tus consejos y saber hacer me ayudan da a da, eso
por no hablar de las sesiones de risas y cachondeoYa que no pongo cita, imagina que est
escrita tu sugerencia de Clico electrnico.

A mis padres, Antonio y Obdulia, a los que dedico esta tesis por todo el esfuerzo que siempre
habis hecho por m y mi hermano.

Esta tesis se ha realizado gracias al apoyo econmico de la Generalitat de Catalunya mediante


una beca FI (2003FI00934) y una bolsa de viaje (2005BE00124). Tambin agradezco los
medios que el Instituto Qumico de Sarri ha puesto a mi disposicin.
Abreviaciones y acrnimos

Abreviaciones y acrnimos

ACD Available Chemical Directory


ADMET Absorcin, Distribucin, Metabolismo, Eliminacin y Toxicidad
AMBER Assisted Model Building with Energy Refinement
AMP-PNP Adenililimidodifosfato
BBB Blood brain barrier. Barrera hematoenceflica
BLAST Local Alignment Search Tools
BLOSUM Blocks Substitution Matrix
CATS Chemically Advanced Template Search
CDK Cyclin Dependent kinase. Quinasa dependiente de ciclina
C.I.D Cell-integral-diversity criterion
CG Conjugate Gradients. Gradiente conjugado
CMC Comprehensive Medicinal Chemistry
CoMFA Comparative Molecular Field Analysis
CONGEN CONformation Generator
CV Correlation-vector. Vector de correlacin
DAG 1,2-diacilglicerol
D.I Diversity integral criterion
ECL Extracellular Loop. Loop extracelular (GPCRs)
EGFR Epidermal Growth Factor Receptor. Receptor del factor de crecimiento epitelial
EP Evolutionary programming. Programacin evolutiva
ER Estrogen receptor. Receptor de estrgeno
Erk Extracellular signal-regulated kinase. Quinasa regulada por seales extracelulares
ES Evolution strategies. Estrategias evolutivas
FAST Fast Alignment
FEP Free Energy Perturbation
FGFR Fibroblast Growth Factor Receptor. Receptor del factor de crecimiento de fibroblastos
FR Fletcher-Reeves
GA Genetic algorithm. Algoritmo gentico
GAFF General Amber Force Field
GAP Protenas activadoras de GTPasa
GB Generalizad Born. Generalizado de Born
GP Genetic programming. Programacin gentica
GPCR G protein coupled receptor. Receptor acoplado a protena G
GRIND GRind INdependent Descriptors
HGFR Hepatocyte Growth Factor Receptor. Receptor del factor de crecimiento de hepatocitos
HS Hestene-Stiefel
HTS High-throughput screening
ICL Intracellular loop. Loop intracelular/citoplasmtico (GPCRs)
IF Interaction Fingerprint. Fingerprint de interaccin
IFbAP Interaction Fingerprint Based on Atom Pairs
Ig Inmunoglobulina
IP3 Inositol 1,4,5-trisfosfato
IR Insulin receptor. Receptor de insulina
JAK Janus kinase. Quinasa Janus
JNK c-Jun N-terminal kinase. Quinasa c-Jun N-terminal.
KID Kinase insert domain. Dominio inserto quinasa
LFDs Local feature densities
LGA Lamarckian genetic algorithm. Algoritmo gentico lamarckiano
LIE Linear Interaction Energy
LS Local Search. Bsqueda local
MAPK Mitogen-Activated Protein Kinase. Protena quinasa activada por mitgenos
MCR Multicomponent reaction. Reaccin multicomponente
M-CSF Macrophage colony-stimulating factor. Factor estimulador de formacin de colonias de
macrfagos
MD Molecular dynamics. Dinmica molecular
MDDR MACCS-II Drug Data Report
MDS Multidimensional scaling. Escalado multidimensional
Abreviaciones y acrnimos

MEP Molecular Electrostatic Potential. Potencial electrosttico molecular.


MIP Molecular Interaction Potential. Potencial de interaccin molecular.
MLR Multiple linear regression. Regresin lineal mltiple
MM Molecular mechanics. Mecnica molecular
MM-PBSA Molecular Mechanics Poisson-Boltzmann Surface Area
MM-GBSA Molecular Mechanics Generalized-Born Surface Area
MOE Molecular Operating Environment
MOGA MultiObjective Genetic Algorithm. Optimizacin multiobjetivo algoritmos genticos.
MOP Multiobjective Optimisation Problems. Problemas de optimizacin multiobjetivo
MTC Monte Carlo
MW Molecular weight. Peso molecular
NGFR Nerve Growth Factor Receptor. Receptor del factor de crecimiento neuronal
NNRTI Non-nucleoside reverse transcriptase inhibitor. Inhibidor no nuclesido de transcriptasa
reversa.
NPT Colectivo isotermo-isobrico
NR Newton-Raphson
NRTK Non-receptor tyrosine kinase. Tirosina quinasa no receptora
NVE Colectivo microcannico
NVT Colectivo cannico
PAM Accepted Point Mutation per 100 residues
PB Poisson-Boltzmann
PBC Periodic boundary conditions. Condiciones peridicas de contorno
PC Principal component. Componente principal
PCA Principal component analysis. Anlisis de componentes principales
PCH Polarity-Charge-Hydrophobicity
PCR Principal Component Regression. Regresin con componentes principales
pdf Probability density functions. Funciones de densidad de probabilidad
PDGFR Platelet-derived Growth Factor Receptor. Receptor del factor de crecimiento derivado
de las plaquetas
Perl Practical Extraction and Report Language
PI Predictive index
PIP2 Fosfatidilinositol 4,5-bisfosfato
PI-3K Fosfatidilinositol 3-quinasa
PK Polak-Riviere
PKA cAMP-dependent protein kinase. Protena quinasa dependiente de cAMP
PKB Protein kinase B. Protena quinasa B
PKC Protein kinase C. Protena quinasa C
PLC- Phospholipase C-. Fosfolipasa C-
PLS Partial Least Squares. Mnimos cuadrados parciales.
PPP Potencial Phamacophore Points. Puntos potenciales farmacofricos
PRALINS Program for Rational Analysis of Libraries in Silico
pSIFt Profile Structural Interaction Fingerprint
PTB Phosphotyrosine binding. Dominio de unin a fosfotirosinas.
PTK Protein tyrosine kinase. Protena tirosina quinasa
QM Quantum mechanics. Mecnica Cuntica
QSAR Quantitative Structure-Activity Relationships
RESP Restrained ElectroStatic Potencial
RMN Resonancia Magntica Nuclear
RT Reverse transcriptase. Transcriptasa reversa
RTK Receptor Tyrosine kinase. Receptor tirosina quinasa
SA Simulated Annealing
SAPK Stress-activated protein kinase. Protena quinasa activada por estrs
SAR Structureactivity relationship. Relacin estructura-actividad
SD Stepeest Descent
SIFt Structural Interaction Fingerprint. Fingerprint de interaccin estructural
SH2 Src homology 2 domain. Dominio de homologa Src tipo 2.
SQUID Sophisticated Quantification of Interaction Distributions
STAT Signal transducer and activator of transcription. Transductor de seal y activador de
transcripcin
SVL Scientific Vector Language
Abreviaciones y acrnimos

TCL Tool Command Language


TI Thermodynamic Integration. Integracin termodinmica
TM Transmembrane. Segmento transmembrana
vdW van der Waals
VEGFR Vascular endothelial Growth Factor Receptor. Receptor del factor de crecimiento
vascular endotelial
VS Virtual Screening. Cribado virtual
VTFM Variable Target Function Method
WDI World Drug Index
Sumario

Sumario

La aplicacin de mtodos de cribado virtual cobra cada vez ms importancia en el proceso de


descubrimiento de frmacos, complementando a las tcnicas de High-throughput screening con
el fin de facilitar y contribuir a la comprensin de los mecanismos bioqumicos de actuacin de
los frmacos, agilizar y reducir el coste del proceso.

En particular, el inters farmacolgico de la presente tesis es la inhibicin de receptores de


tirosina quinasas. Estos enzimas participan en mltiples procesos de sealizacin celular, por
lo que tanto la disfuncin de las mismas o su papel privilegiado en los mecanismos del ciclo
celular las convierten en diana farmacolgica de enfermedades como el cncer y otras
relacionadas con desrdenes hiperproliferativos, migratorios, del desarrollo embrionario y
enfermedades vasculares. Una de las estrategias de inhibicin ms usuales es el bloqueo del
sitio de unin del ATP a travs de molculas orgnicas como las piridopirimidinas, heterociclos
especialmente interesantes para el grupo de investigacin en el que se desarrolla este trabajo por
su amplia experiencia sinttica en dichos sistemas.

En la presente tesis se exploran y validan gran parte de las tcnicas de cribado virtual con el
objetivo de establecer una secuencia jerarquizada de filtros que permitan evaluar aquellos
compuestos candidatos a ser sintetizados. Los sucesivos pasos de filtrado incluyen la seleccin
de compuestos de una quimioteca virtual a partir de la diversidad o representatividad del
espacio qumico, la aplicacin de bsquedas de similitud y modelos farmacofricos
construidos a partir de inhibidores conocidos, un filtrado mediante docking o acoplamiento de
los inhibidores en la cavidad de unin de estas protenas y mtodos de prediccin de la
afinidad de unin de una serie de ligandos. La jerarqua de estas etapas se impone a partir de la
diferencia de recursos computacionales que requiere cada una de ellas, siendo stos cada vez
superiores. Los mtodos han sido validados retrospectivamente en bases de datos formadas por
compuestos activos recopilados de la bibliografa. Una vez validadas, han permitido la
caracterizacin prospectiva de los candidatos sintticos.

Se ha diseado un fingerprint de interaccin estructural protena-ligando basado en el


concepto de pares atmicos (IFbAP) destinado a facilitar el postprocesado de los resultados de
docking, aplicndose como filtro en un cribado virtual. Su capacidad para discriminar entre
compuestos activos e inactivos se analiza para tres dianas: el receptor de estrgeno, el receptor
del factor de crecimiento de fibroblastos y la transcriptasa reversa del HIV.

Paralelamente, se ha continuado con el desarrollo del programa PRALINS (Program for


Rational Analysis of Libraries in Silico), programa dirigido al diseo de quimiotecas
combinatorias virtuales que incorpora los principales criterios de seleccin basados en
diversidad. En el contexto de las quimiotecas combinatorias focalizadas, se propone un nuevo
mtodo (Direct), cuya capacidad de focalizacin se ha testado frente a los mtodos
tradicionales, tambin implementados en PRALINS. Asimismo se incorporan y analizan
mtodos de evaluacin de diversidad, sugirindose un mtodo (cell-integral-diversity criterion)
destinado a superar las desventajas de los mtodos tradicionales. Se incorporan los algoritmos
genticos en PRALINS como tcnica de optimizacin, tanto de un nico criterio de
diversidad/similitud como para realizar optimizaciones multiobjetivo.

En el mbito de otra lnea de investigacin del grupo dirigida hacia el desarrollo de inhibidores
del proceso de fusin del HIV, se estudia el modo de unin de dos antagonistas de CXCR4 y
CCR5, receptores celulares de la familia de las GPCRs implicados en dicha etapa del ciclo del
virus.
ndice

ndice

INTRODUCCIN 1

I.1. Pre-filtrado: filtros Drug-Likeness 4


I.2. Cribado virtual basado en ligandos (Ligand-Based VS) 5
I.3. Cribado virtual basado en Receptor (Structure-Based VS) 10
I.4. Combinacin de mtodos basados en estructura y en ligandos 17
I.5. Diversidad 18
I.6. Quimiotecas Combinatorias 19

OBJETIVOS 23

CAPTULO 1. FUNDAMENTOS TERICOS 25

1.1. Modelizacin Molecular 25


1.1.1. Mecnica Molecular 25
1.2. Minimizacin Energtica / Optimizacin Geometra 28
1.2.1. Mtodos no-derivativos o de orden cero 29
1.2.2. Mtodos derivativos de orden uno o mtodos del gradiente 29
1.2.3. Mtodos derivativos de orden dos o mtodos de Newton 31
1.3. Simulacin: Dinmica Molecular 31
1.3.1. Mtodos de Integracin 32
1.3.2. Intervalo de tiempo de integracin (Time Step) 33
1.3.3. Condiciones de la Dinmica 34
1.3.3.1. Escalado de la Temperatura 34
1.3.3.2. Escalado de la Presin 35
1.3.4. Lmites del Sistema (boundaries) 36
1.3.5. Interacciones de largo alcance 37
1.3.5.1. Mtodo de sumas de Ewald (Ewald Summation Method) 38
1.3.6. Modelos de solvente 40
1.3.6.1. Mtodos Empricos 40
1.3.6.2. Solvente Explcito 40
1.3.6.3. Solvente Implcito 41
1.3.6.3.1. Ecuacin de Poisson-Boltzmann 41
1.3.6.3.2. Modelo Generalizado de Born 43
1.3.7. Constraints y Restraints 44
1.4. Clculo de Energas Libres de Unin Protena-Ligando 45
1.4.1. Funciones de Scoring 45
1.4.1.1. Funcin de Scoring de AUTODOCK 45
1.4.1.2. Funcin de Scoring GOLDSCORE 47
1.4.1.3. Funcin de Scoring CHEMSCORE 48
1.4.2. Molecular Mechanics-Generalized Born Surface Area (MM-GBSA)
Molecular Mechanics-Poisson Boltzman Surface Area (MM-PBSA) 50
1.5. Modelizacin de Protenas por homologa 53
1.5.1. Bsqueda de estructuras y secuencias relacionadas
con la secuencia objetivo 53
1.5.2. Alineamiento de Secuencias 56
1.5.2.1. Alineamiento de Secuencias 56
ndice

1.5.2.2. Matrices de Sustitucin 59


1.5.3. Construccin del Modelo 61
1.5.3.1. Construccin de los loops ab initio 64
1.6. Descriptores Moleculares 65
1.6.1. Descriptores basados en ndices topolgicos 67
1.6.2. Descriptores de forma 69
1.6.3. Descriptores de propiedades fisicoqumicas 69
1.6.4. Descriptores count-based 72
1.6.5. Descriptores Farmacofricos basados en fragmentos 2D y 3D 72
1.7. Obtencin de Modelos Farmacofricos 77
1.7.1. Modelos Farmacofricos en MOE 77
1.7.2. SQUID. Sophisticated Quantification of Interaction Distributions 79
1.8. Tcnicas Estadsticas de Anlisis de Datos 81
1.9. Mtodos de Optimizacin Globales 83
1.9.1. Simulated Annealing 84
1.9.2. Algoritmos Evolutivos 84
1.9.2.1. Representacin y Codificacin de los cromosomas 85
1.9.2.2. Inicializacin de los individuos 86
1.9.2.3. Seleccin 86
1.9.2.4. Crossover y Mutacin 88
1.9.2.5. Replacement 88
1.9.2.6. Otros Algoritmos Evolutivos 89
1.9.3. Optimizacin Multiobjetivo 90
1.10. Diseo de Quimiotecas 90
1.10.1. Medidas de Similitud y Diversidad 90
1.10.2. Diseo de Quimiotecas Diversas:
Mtodos de seleccin de compuestos 92
1.10.2.1. Mtodos basados en Distancias 93
1.10.2.2. Mtodos de Clustering 94
1.10.2.3. Mtodos de Particin 96
1.10.3. Diseo de Quimiotecas Focalizadas:
Mtodos de seleccin de compuestos 97
1.10.4. Evaluacin y Comparacin de los mtodos de seleccin 98

CAPTULO 2. TIROSINA QUINASAS 101

2.1. Protena Tirosina Quinasas 101


2.2. Sealizacin Celular en Tirosina Quinasas 102
2.2.1. Activacin de los Receptores de Tirosina Quinasa 103
2.2.2. Mecanismos de Sealizacin Intracelular 104
2.3 Protena Tirosina Quinasas / Implicacin Teraputica 106
2.4. Caracterizacin Estructural de los Receptores de
Tirosina Quinasa: dominio Tirosina Quinasa 107
2.5. Inhibidores de Tirosina Quinasas 111

CAPTULO 3. DISEO DE UNA QUIMIOTECA DE ANLOGOS DE


PIRIDO[2,3-d]PIRIMIDINAS 119

3.1. Estrategia sinttica para la obtencin


de pirido[2,3-d]pirimidinas 119
ndice

3.2. Bsqueda de reactivos comerciales 120


3.2.1. Seleccin y filtrado de steres ,-insaturados 121
3.2.1.1. Bsqueda de steres ,-insaturados
directamente comerciales 121
3.2.1.2. Bsqueda de steres ,-insaturados sintetizables 122
3.2.1.3. Filtrado por eliminacin de fragmentos repetidos 124
3.2.1.4. Filtrado por viabilidad sinttica, toxicidad y
estabilidad 125
3.2.2. Seleccin y filtrado de guanidinas 127
3.2.2.1 Filtrado por viabilidad sinttica, toxicidad y
estabilidad 127
3.2.3. Comparacin de los restos R1 y R4 seleccionados
con los restos presentes en inhibidores de
tirosina quinasas descritos en la bibliografa 128

3.3. Enumeracin de la quimioteca 130


3.4. Optimizacin y descripcin de las quimiotecas 131
3.5. Seleccin de compuestos y anlisis de resultados 132
3.5.1. Eleccin de un marco de referencia 133
3.5.2. Evaluacin de las selecciones segn las cuatro
funciones objetivo 134
3.5.3. Selecciones con las cuatro funciones objetivo forzando
la inclusin de un fragmento "activo" 140
3.5.4. Seleccin Final de quimiotecas candidatas a sintetizarse 143

CAPTULO 4. CRIBADO POR MTODOS BASADOS EN LIGANDOS 147

4.1. Bases de Datos utilizadas en la validacin retrospectiva 147


4.2. Plantillas utilizadas en la generacin de los modelos farmacofricos 149
4.3. Alineamientos farmacofricos iniciales 150
4.4. Mtricas utilizadas para evaluar los hits 152
4.5. Modelos farmacofricos del MOE 153
4.5.1. MODEL2PDB y esquema PCH 153
4.5.2. MODEL3ALIGNED y esquema PCH 154
4.5.3. MODEL4ALIGNED y esquema PCH 156
4.5.4. MODEL4ALIGNED y esquema PPCH_ALL 158
4.5.5. Seleccin de un modelo final farmacofrico obtenido con MOE 162
4.6. Bsqueda de Similitud con descriptores CATS3D 164
4.7. Modelos SQUID 165
4.8. Comparacin del cribado retrospectivo segn los tres modelos 167
4.8.1. Factores de enriquecimiento 167
4.8.2. Anlisis de Diversidad de scaffolds en Base_ACTIV_1 169
4.8.3. Anlisis de Diversidad de scaffolds en Base_COBRA 171
4.9. Modificaciones introducidas en la aplicacin del modelo SQUID 172
4.9.1. Cambios en el esquema de binning 172
4.9.2. Influencia del Escalado de los descriptores CATS3D 173
4.9.3. Introduccin de Conservacin explcita de features 173
4.9.4. Modificacin del Sistema de Asignacin de Tipos Atmicos 175
4.9.5. Modificacin de los descriptores usados en la caracterizacin de
la base de datos: Conexin SQUID-SQUID 178
ndice

4.9.6. Modificacin de los descriptores usados en la caracterizacin de


la base de datos: SQUID-SQUID not scaled 180
4.10. Modelos Farmacofricos finales seleccionados 182
4.11. Modelo SQUID derivado de un nico compuesto 186
4.12. Influencia de considerar bases de datos
uniconformacionales o multiconformacionales 187
4.13. Aplicacin de la conexiones SQUID-SQUID y SQUID-SQUID
not scaled en otros casos de estudio 187
4.14. Aplicacin del modelo SQUID a un modelo farmacofrico
con mltiple asignacin de tipos 189
4.15. Filtrado de las quimiotecas BIB_Oxo, BIB_Amino y
BIB_Hidro 190

CAPTULO 5. CRIBADO POR DOCKING 195

5.1. Docking frente a FGFR 197


5.1.1. Preparacin de las estructuras cristalinas de FGFR 197
5.1.2. Procedimiento para la prediccin del modo de unin en FGFR:
estructuras nativas y cross-decoys 198
5.1.3. Resultados de la prediccin del modo de unin en FGFR
estructuras nativas y cross-decoys 199
5.1.4. Resultados del docking ciego en FGFR 204
5.1.5. Cribado virtual en FGFR 209
5.2. Docking frente a EGFR 217
5.2.1. Preparacin de las estructuras cristalinas de EGFR 217
5.2.2. Resultados de la prediccin del modo de unin en EGFR:
estructuras nativas y cross-decoys 219
5.2.3. Resultados del docking ciego en EGFR 220
5.2.4. Cribado virtual en EGFR 222
5.3. Docking frente a PDGFR 227
5.3.1 Modelizacin por homologa del dominio tirosina
quinasa de PDGFR 227
5.3.2. Prediccin del modo de unin para PD173074 en PDGFR 235
5.3.3. Resultados del docking ciego de PD173074 en PDGFR- 238
5.3.4. Cribado virtual en PDGFR- 239
5.4. Comparacin del cribado virtual ligand-based y structure-based 242
5.5. Filtrado prospectivo de las quimiotecas
BIB_Oxo, BIB_Amino y BIB_Hidro 244

CAPTULO 6. IMPLEMENTACIN DE UN FINGERPRINT DE


INTERACCIN 247

6.1. Descripcin del fingerprint propuesto: IFbAP 249


6.2. Sistemas de scoring considerados en el cribado virtual 251
6.3. Aplicacin al cribado virtual de antagonistas del
receptor de estrgeno 251
6.4. Aplicacin al cribado virtual de inhibidores de FGFR 255
6.5 Aplicacin al cribado virtual de inhibidores de la
transcriptasa reversa 258
ndice

CAPTULO 7. PREDICCIN DE LA AFINIDAD DE UNIN 265

7.1. Prediccin de afinidad frente FGFR 265


7.1.1. Procedimiento para el clculo de energas libres de unin 266
7.1.2. Resultados del clculo de energas libres de unin 270
7.2. Aplicacin de MM-PBSA en cribado virtual 274
7.2.1. Procedimiento para el cribado virtual 274
7.2.2. Resultados del cribado virtual con MM-GBSA 275

CAPTULO 8. PRALINS:
Program for Rational Analysis of Libraries in Silico 277

8.1. Implementacin de algoritmos genticos (GA) 277


8.1.1. Instrucciones de clculo en PRALINS con algoritmos genticos 280
8.2. Diseo de quimiotecas focalizadas 281
8.2.1. Instrucciones de clculo en PRALINS del mdulo de similitud 285
8.2.2. Anlisis de los mtodos de seleccin de quimiotecas
full array focalizadas 286
8.2.2.1. Enumeracin y descripcin de las quimiotecas de estudio 286
8.2.2.2.Quimiotecas combinatorias focalizadas entorno
a un nico lead 287
8.2.2.3. Quimiotecas combinatorias focalizadas entorno
a varios leads 292
8.2.2.4. Capacidad para identificar compuestos activos 294
8.3. Criterios para evaluar la diversidad 297
8.3.1. Anlisis de la eficacia y consistencia de los mtodos
de evaluacin de diversidad 299
8.3.1.1. Tamaos de seleccin analizados 299
8.3.1.2. Mtodos de seleccin aplicados 300
8.3.1.3. Condiciones de los mtodos de evaluacin 300
8.3.1.4. Medida de la consistencia de los mtodos de evaluacin 301
8.3.1.5. Resultados para las colecciones de diferente
cardinalidad (quimiotecas I y II) 301
8.3.1.6. Resultados de colecciones seleccionadas con distintos
mtodos (quimioteca III) 305
8.3.1.7.Cell-integral-diversity criterion en el diseo de quimiotecas 307
8.3.1.8. Coste computacional 309
8.3.2. Instrucciones para ejecutar en PRALINS evaluaciones
de diversidad 310
8.4. Optimizacin multiobjetivo con algoritmos genticos (MOGA) 311
8.4.1. Optimizacin multiobjetivo de diversidad y nmero de reactivos 313
8.4.2. Optimizacin multiobjetivo de varias propiedades 316
8.4.3. Instrucciones para ejecutar MOGA en PRALINS 317
8.5. Otras implementaciones 319
8.5.1. Ampliacin de los mtodos de clustering 319
8.5.2. Lectura de fingerprints procedentes de MOE 321
8.5.3. Mtricas en los mtodos de clasificacin 321
ndice

CAPTULO 9. ESTUDIO DE LOS CO-RECEPTORES CXCR4 y CCR5 323

9.1. Inhibidores antagonistas del co-receptor CXCR4 324


9.2. Inhibidores antagonistas del co-receptor CCR5 325
9.3. Datos bioqumicos de la interaccin de AMD3100 con CXCR4 326
9.4. Datos bioqumicos de la interaccin de TAK-779 con CCR5 329
9.5. Modelos de CXCR4 y CCR5 330
9.6. Estudio del sitio y modo de unin del AMD3100 en CXCR4 333
9.7. Estudio del sitio y modo de unin del TAK-779 en CCR5 337

CONCLUSIONES 341

ANEXO 345

BIBLIOGRAFA 353
Introduccin

Introduccin

En el proceso de descubrimiento de frmacos, el primer paso crtico es la identificacin de un


buen cabeza de serie o lead (lead discovery). Se considera un buen lead a aquellos que producen
una inhibicin del 50% de la actividad in vitro (IC50) a una concentracin alrededor de 10 M.
Una vez identificado dicho lead, comienza el proceso de lead optimization, cuyo objetivo es
mejorar su eficacia teraputica: incremento de su potencia frente a una diana o target
(normalmente la IC50 se rebaja a valores del rango de 1 a 10 nM), selectividad frente a dianas
relacionadas, farmacocintica, minimizacin de su toxicidad y efectos secundarios.1,2

Las tcnicas de High-throughput screening (HTS) se convierten, desde la dcada de los 90, en
la principal fuente de obtencin de nuevos leads. El HTS requiere una quimioteca de cientos de
miles de compuestos y un mtodo de ensayo de actividad.3 Adems, la introduccin de la
qumica combinatoria ha permitido que el tamao de estas quimiotecas se incremente al orden
de millones de compuestos. Por otra parte, la publicacin del genoma4 ampla el espectro de
dianas biolgicas susceptibles de ser moduladas por un frmaco. Todo ello conduce a que frente
a las rutas tradicionales empleadas en qumica mdica para el diseo de frmacos, aparezca la
posibilidad de optar por la estrategia de testar experimentalmente todos los posibles candidatos
frente a todas las posibles dianas.

Sin embargo, la realidad es que a pesar del uso de estas tcnicas a gran escala, la tasa de
descubrimiento de leads ha decado5 y pocos son los frmacos procedentes directamente de los
resultados de HTS.6 En un experimento de HTS, normalmente realizado en formato de dosis
nica-nico experimento, los compuestos que resultan positivos (HTS hits) son nuevamente
testados para confirmar actividad y estructura (debido a los problemas de pureza inherentes al
uso de qumica combinatoria). Esta etapa de identificacin de HTS hits tiene un xito inferior al
0.1%. De cada 2000 HTS hits, aproximadamente 1200 se confirman como activos reales (HTS
actives), ya que existe un gran nmero de falsos positivos que interfieren con los ensayos
biolgicos, de agregantes promiscuos y de interferencias causadas por los tintes y compuestos
fluorescentes utilizados. Cuando se identifica un gran nmero de HTS actives pertenecientes a
una misma familia qumica, se considera que se ha identificado una serie de leads. Cuando es
posible optimizar estos leads, se habla de drug candidate. Tpicamente, 1 de cada 10.000 HTS
actives alcanza este nivel y nicamente 1 de cada 10 drug candidates supera las pruebas clnicas
convirtindose en drug. En la Figura I.1 se detallan estas etapas junto con su factor de xito.7

Riesgo Incremento
Incrementado conocimiento
de fallo
HTS 106

HTS Hits 2103

HTS Actives 1.2103

Lead Series 5101-102

Drug Candidates 101

Drug
Incremento
error
experimental

Figura I.1. Tasa de xito y decaimiento en los protocolos de descubrimiento de frmacos.

1
Introduccin

Esta baja tasa de xito, junto con el coste de estas tcnicas, ha hecho que se replantee la
aportacin del HTS, perdiendo parte del protagonismo de la dcada pasada a la vez que las
tcnicas de diseo de frmacos asistido por ordenador cobran importancia.

Hansch y Leo8 desarrollan, durante la dcada de los 60, los primeros estudios de QSAR
(Quantitative Structure-Activity Relationships), aunque es durante los aos 80 cuando se
introduce el diseo racional en el proceso de diseo de frmacos. Esto coincide con el desarrollo
terico de tcnicas de modelizacin molecular y la aparicin de ordenadores personales. La
contribucin computacional en esta poca se basa principalmente en optimizar y refinar los
compuestos a partir de la informacin extrada de la estructura de complejos cristalinos con la
estructura del receptor diana.
Posteriormente, la introduccin del HTS hace que tambin en qumica computacional se
comience a trabajar a nivel de quimiotecas. Aparecen as, en 1997, las tcnicas de cribado
virtual o Virtual Screening (VS), con la finalidad de seleccionar/identificar aquellas molculas
biolgicamente activas frente a dianas particulares o dianas pertenecientes a una misma familia.
Ests tcnicas requieren inevitablemente que se conozca la actividad de algunos compuestos o
bien la estructura de la diana biolgica.
En los ltimos cinco aos, se ha incrementado el empleo de VS y, aunque sigue siendo menos
usado que HTS durante el proceso de lead discovery, se afirma que llegar a reemplazarlo
eventualmente. Con ello, cada vez se confa menos nicamente en la suerte o serendipity en el
descubrimiento de frmacos, aunque siempre hay excepciones como el caso del sildenafil
(Viagra).9

Ms que una alternativa, el VS supone un complemento al HTS y un criterio para la priorizacin


de la sntesis y la adquisicin de quimiotecas. Los posibles hits determinados por HTS son
reales, aunque por s solos, sin recurrir a biologa molecular, no contribuyen a ampliar el
conocimiento acerca del modo de interaccin con su diana farmacolgica. Por otra parte, el VS
propone potenciales hits que ni siquiera tienen porqu, a no ser que se consideren otras
restricciones, ser fcilmente accesibles sintticamente. Sin embargo, aporta informacin acerca
del modo de interaccin frmaco-diana. Adems, estas tcnicas son relativamente baratas
(ahorran la adquisicin de reactivos y robotizacin), rpidas y permiten considerar un nmero
de compuestos in silico del orden de billones, cifra prohibitiva experimentalmente. Tpicamente,
en una cascada de VS, una quimioteca virtual que contiene unas 106-1012 estructuras es
sucesivamente filtrada y reducida a una coleccin de unos 100-1000 candidatos.

En la Figura I.2, se muestra la estructura de una cascada de in silico screening con los diferentes
pasos de filtrado aplicados y la reduccin de compuestos que conlleva cada uno de ellos. La
aplicacin secuencial de cada una de las tcnicas se basa en el nivel de requerimientos
computacionales que utiliza cada uno de los pasos y en la complejidad de la informacin
aportada como entrada para cada uno de ellos. En el transcurso de la introduccin se describen
cada uno de estos pasos.

2
Introduccin

Preparacin de datos
1.E+06
Generacin de estructuras
Anlisis conformacional

1.E+05

1.E+04
Pre-cribado:

1.E+03 Lipinski
Drug-likeness Bsqueda
de similitud
(2D/3D) Bsqueda
1.E+02
con
Lead farmacforos
hopping
1.E+01 Docking
Postprocesado de la lista de hits
Clustering y evaluacin
1.E+00

Identificacin de hits Descubrimiento de lead

Figura I.2. Esquema de una cascada de cribado virtual. Adaptado de [10].

Las tcnicas de seleccin de compuestos derivadas de cribado virtual se clasifican


tradicionalmente en dos grandes grupos, dependiendo de cmo extraen la informacin que
requieren. Aquellas que se basan en la estructura de inhibidores ya determinados se las
denomina mtodos indirectos o basados en la estructura del ligando (Ligand-Based Virtual
Screening), mientras que los mtodos que utilizan la estructura del receptor se denominan
directos o basados en la estructura del receptor (Structure-Based Receptor-Based Virtual
Screening).
Dentro de las aproximaciones basadas en ligandos se encuentran las bsquedas de similitud a
compuestos activos, la obtencin de modelos farmacofricos y el QSAR. Por otra parte, el
docking, que modela el acoplamiento entre protena y ligando desde el punto de vista estructural
y energtico, y el diseo de novo (de novo design) corresponden a mtodos directos.

La principal restriccin de los mtodos de VS es que, como se ha comentado, necesitan algn


tipo de informacin previa acerca de los factores responsables de la actividad del frmaco. Sin
embargo, cada vez se dispone de un mayor nmero de compuestos activos frente a familias de
protenas, se determinan secuencias de genes ligadas a determinadas protenas y se incrementa
el nmero de estructuras de protenas resueltas experimentalmente, por rayos-X o por
resonancia magntica nuclear (RMN).
Adems, desde un punto de vista terico, se sigue avanzando en la comprensin de las
interacciones protena-ligando, aunque todava los mtodos no se encuentran lo suficientemente
desarrollados. Bsicamente, el problema reside en la implementacin de modelos fsicos vlidos
para analizar en un tiempo asequible cientos de miles de posibles compuestos.

Finalmente, los ensayos de VS se pueden realizar tanto de manera prospectiva como


retrospectiva. En este ltimo caso, se construye una base de datos que contiene compuestos
activos y estos se diluyen en una base de datos con presuntos inactivos. Este tipo de ensayo se
realiza para ajustar los distintos parmetros requeridos en los mtodos y en estudios de
validacin de los mismos. Uno de los principales problemas es que la inactividad de los
compuestos se presume, ya que normalmente no se tienen datos de actividad que confirmen
dicha inactividad frente a la diana biolgica particular. Por otra parte, el ensayo prospectivo est
dirigido al descubrimiento real de nuevos leads.

3
Introduccin

I.1. Pre-filtrado: filtros Drug-Likeness

En el primer paso de una cascada de VS, se utilizan filtros generales, inespecficos de la diana
farmacolgica, para eliminar aquellas estructuras que posean propiedades de no-frmaco. Es
decir, consideran si la molcula est dentro de los estndares de relevancia biolgica en cuanto a
los grupos funcionales que presenta y sus propiedades fsicas (Drug-Likeness). As, se habla y
distingue entre compuestos drug-like y los non-druglike. Sin embargo, estos criterios no son del
todo objetivos, de modo que no todos los frmacos actuales satisfacen completamente estos
criterios.

Los diversos filtros se establecen a partir del anlisis estadstico de bases de datos que incluyen
frmacos: Comprehensive Medicinal Chemistry (CMC)11, MACCS-II Drug Data Report
(MDDR)12, World Drug Index (WDI)13; y otras bases de las que se extraen supuestos no
frmacos, entre la que destaca el Available Chemical Directory (ACD)14.

Entre los diversos filtros establecidos, destacan15

i) Establecer mrgenes de propiedades. La regla de los cinco de Lipinski16, se


considera uno de los primeros pasos del VS para detectar molculas con una pobre
absorcin (Figura I.3). Filtra las molculas en funcin de su peso molecular
(500g/mol), su lipofilia, medida en funcin del coeficiente de particin octanol-
agua (LogP) (5) y el nmero de dadores (5) y aceptores (10) de puente de
hidrgeno. Se considera que un compuesto que no satisfaga dos o ms de estos
criterios, tiene una baja probabilidad de convertirse en un buen frmaco. Adems,
normalmente esta regla se extiende con la condicin de que el nmero de enlaces
rotables sea inferior a 10. Sin embargo, se ha encontrado que los mrgenes de
Lipinski son demasiado estrictos y normalmente se aplican valores de corte algo
superiores, principalmente en lo referente al peso molecular y a la lipofilia. Otros
estudios, como el realizado por Oprea, establecen mrgenes de variabilidad de stos
y otros descriptores.17

ii) Basados en la presencia de grupos funcionales caractersticos de frmacos


establecidos, se asigna a cada molcula un score o puntuacin por la presencia de
ellos.18

iii) Filtros que eliminan grupos funcionales txicos o demasiado inestables, como los
incluidos en el programa REOS (Rapid Elimination of Swill).

iv) Otros estimadores ms sofisticados, utilizan, rboles de decisin19, redes


neuronales19,20 y algoritmos genticos21 para clasificar los compuestos de bases de
datos como drug-like o no. Sin embargo, estos mtodos tienen la desventaja de que
estn muy influenciados por la base de datos utilizada, por lo que es difcil extraer
reglas generales tiles para la discriminacin.

La inclusin de la prediccin de propiedades ADMET (Absorcin, Distribucin, Metabolismo,


Eliminacin y Toxicidad), como son la capacidad de atravesar la barrera hematoenceflica
(BBB), prediccin del metabolismo mediado por el citocromo P450, unin a la albmina,
solubilidad en agua y en DMSO..., son factores que cada vez se incluyen ms en las etapas
previas de VS, en un intento de optimizar simultneamente la potencia y la farmacocintica.22

4
Introduccin

PM logP acc don

Poca penetracin en Buena penetracin Unin con Agua


la membrana celular en la membrana
Dificultad en el transporte en
por transporte
la bicapa lipdica
pasivo, requiriendo
transporte activo

Baja solubilidad acuosa, mal transporte en el cuerpo


logP Tendencia a ser sustratos de P450 (eliminacin del frmaco
antes de alcanzar el rgano diana)

Figura I.3. Influencia de las propiedades determinadas en las reglas de Lipinski en la absorcin.

I.2. Cribado virtual basado en ligandos (Ligand-Based VS)

La aproximacin ligand-based se justifica a partir del principio de similitud de Maggiora


(similarity-property principle), que postula que molculas estructuralmente relacionadas
deberan mostrar actividades biolgicas similares.23 Pese a que este criterio permanece no
demostrado y existen puntos crticos24, 25, como el hecho de que a veces pequeos cambios
estructurales conducen a un gran cambio en la actividad del compuesto o que molculas
similares a veces muestren modos de unin diferentes, es uno de los criterios centrales en la
qumica mdica.

La bsqueda de similitud y diversidad en quimiotecas virtuales, el QSAR y el 3D-QSAR parten


del principio de similitud de Maggiora. Estos mtodos se han mostrado de gran utilidad cuando
no se dispone, o se prescinde, de la informacin contenida en la estructura del receptor. Dado su
bajo coste computacional, frente a los mtodos basados en el receptor, se utilizan en los estadios
iniciales de las cascadas de VS.

Similitud

La bsqueda de similitud se aplica para disear y seleccionar las denominadas quimiotecas


focalizadas (focused libraries). Este tipo de quimiotecas estn orientadas hacia una diana
farmacofrica, una clase estructural o un farmacforo conocido. El diseo de las quimiotecas es
cada vez ms focalizado a medida se avanza en las etapas de descubrimiento de frmacos,
cobrando gran importancia en la fase de optimizacin de un lead.

El procedimiento bsico para buscar similitud parte de una o varias estructuras diana (focus
compounds) y su descripcin por uno o ms descriptores estructurales, junto con la de los
compuestos candidatos contenidos en la quimioteca virtual.26,27 As, los dos factores que
participan en una bsqueda por similitud son los descriptores utilizados, con su correspondiente
peso asignado, y la mtrica empleada para establecer la comparacin entre pares de molculas.

5
Introduccin

Muchos de los descriptores usados en un cribado por similitud proceden de las bsquedas de
subestructura (substructure searching) en bases de datos. Sin embargo, este tipo de bsquedas
nicamente permiten decidir si la subestructura requerida (por ejemplo, un anillo bencnico) se
encuentra contenida o no en las estructuras de los compuestos a testar, resultando en una
particin binaria del espacio, a no ser que se incluyan otros parmetros. En la bsqueda de
similitud, se calcula una medida de similitud entre la estructura diana y cada uno de los
compuestos presentes en la base de datos, por lo que posteriormente se pueden ordenar por
similitud decreciente. Los primeros de la lista (nearest neighbours) se convierten en los
candidatos seleccionados por el VS.

Tradicionalmente, los descriptores utilizados para caracterizar quimiotecas virtuales han sido
clasificados como 1D, que nicamente especifican el tipo atmico; 2D, que incluyen
informacin topolgica, es decir, la conectividad de la molcula y 3D, cuando contemplan la
estructura tridimensional de la molcula.28 Hay alrededor de tres mil descriptores posibles de
naturaleza diferente: nmero de distintos tipos atmicos, fisicoqumicos: con informacin de las
caractersticas estricas, lipfilas y electrnicas de la molcula tales como la superficie accesible
al solvente, el logaritmo del coeficiente de particin octanol-agua, energas HOMO y LUMO,
momento dipolar; ndices topolgicos: calculados a partir de grafos y que codifican
informacin como las estructuras cclicas, anillos, orden de enlace; descriptores basados en
fragmentos 2D : pares atmicos agrupados segn tipo de tomo y enlace, relaciones geomtricas
entre puntos farmacofricos, bsqueda de grupos funcionales determinados y fragmentos 2D
especficos...; y los basados en fragmentos 3D, que en muchos casos contienen la misma
definicin que los correspondientes 2D, aunque en este caso las distancias se miden en el
espacio Eucldeo en lugar de tratarse de distancias topolgicas.

Otro punto a considerar es la codificacin de los descriptores. Aunque normalmente, en los


paquetes de software cada uno de los posibles tipos se encuentra codificado de una manera
particular, la naturaleza y la codificacin de cada descriptor son problemas independientes, ya
que normalmente es posible codificar un descriptor determinado de diversas maneras.

Los descriptores fisicoqumicos e ndices topolgicos suelen codificarse en vectores de


dimensin constante de valores reales, conocidos como dataprints.

Otro tipo de codificacin, muy usada con los descriptores basados en fragmentos 2D y 3D, se
basa en cadenas de bits de dimensin constante, en las que se indica la ausencia (0) o presencia
(1) de una determinada caracterstica, denominados huellas digitales o fingerprints. Tambin se
pueden usar cada uno de los bits para representar un posible valor de entre un rango de los
valores permitidos para variables discretas con varias posibilidades, como el nmero de
ocurrencias, o identificar cada bit con un rango de valores que puede adoptar un descriptor
continuo (binning).
A su vez, existen tres tipos de construccin de fingerprints: i) directos, ii) las llaves estructurales
(structural keys) o iii) hashed fingerprints.29

Las llaves estructurales, originalmente desarrolladas para la bsqueda de subestructuras, utilizan


un diccionario de fragmentos para asignar cada uno de los bits a un posible fragmento, de
manera que se codifica su ausencia o presencia. El principal problema es que la informacin
recopilada en la llave estructural est limitada por el tamao y tipo de los fragmentos contenidos
en el diccionario, por lo que la elaboracin de dicho diccionario es la parte clave. Las MACCS
keys, un subconjunto del set MDL Information Systems, son de las ms usadas de este tipo.30

Para superar esta dependencia y la falta de generalizacin, se crearon los hashed fingerprints
para codificar todo tipo de fragmentos o motivos (patterns). En lugar de asignar un bit a cada
fragmento, se utiliza un algoritmo pseudoaleatorio para codificar cada fragmento, reconocido a
partir de un recorrido comprendido entre uno y un nmero predefinido de tomos conectados en
una molcula, en un entero que se traslada a una cadena de bits de tamao predefinido.

6
Introduccin

Aunque se reduce la precisin, ya que diferentes fragmentos pueden redundar en un mismo


entero, son fingerprints ms generalizables. Un ejemplo de este tipo de codificacin es el
desarrollado por Daylight Chemical Information Systems Inc. (Daylight)31 y Tripos Inc.
(Unity).32

Otro tipo de codificacin similar a los fingerprints es la basada en vectores de correlacin (CV,
correlation-vector). Este tipo de codificacin, introducida por Broto y Moreau a mediados de
los '8033, genera vectores numricos de dimensin fija a partir de diferentes caractersticas
moleculares (puntos farmacofricos o propiedades fisicoqumicas). Los CVs corresponden a
histogramas o correlogramas, donde cada columna corresponde a un valor de un rango de
distancias entre pares de puntos farmacofricos (descriptores CATS2D y CATS3D, Chemically
Advanced Template Search34), entre pares de nodos correspondientes a un campo de interaccin
molecular (descriptores GRIND, Grind Independent Descriptors35) o entre pares de descriptores
fisicoqumicos (electronegatividades, polarizabilidades atmicas y cargas parciales)36.
La principal ventaja de este tipo de codificacin es que los descriptores generados no requieren
el alineamiento explcito de las molculas para ser comparadas (alignment-free), lo cual agiliza
los clculos, principalmente si se compara con la obtencin de modelos farmacofricos (vase
abajo). Adems, tambin hay que tener en cuenta que la superposicin de molculas, en el modo
en que se supone que actan sobre el receptor, no es trivial. En la Figura I.4 se esquematiza el
proceso de derivacin de fingeprints farmacofricos y su correspondiente correlograma.

Figura I.4. Esquema de derivacin de fingerprints, correlograma y bsqueda de similitud en una


base de datos a partir del correlograma obtenido para la molcula diana (focus).

Referente a la medida de similitud, pese a que se han propuesto y comparado diferentes


coeficientes de similitud y distancia26, no existe un criterio unitario ni una definicin exacta de
similitud. As, las diferentes mtricas se comportan mejor o peor en funcin del conjunto de
descriptores utilizado y de las molculas a comparar. Esta falta de consenso se traslada tambin
a los descriptores. Existen diferentes estudios dirigidos a establecer una combinacin
descriptores/coeficiente ptima para la bsqueda de similitud29 o criterios para la validacin de
dichos descriptores.37

Esta falta de definicin de similitud y su medida, es otro de los puntos controvertidos del
principio de Maggiora, ya que la lectura "molculas similares" ha de trasladarse apropiadamente
a "molculas representadas qumicamente de manera similar", cosa no trivial.

Diversos programas comerciales que calculan descriptores moleculares son: MOE38, Cerius2-
Descriptor+39, DRAGON40, Molecular Modeling Pro41 y ChemOffice/ChemSAR 42.

7
Introduccin

Existen aplicaciones prospectivas donde el cribado virtual basado en similitud ha identificado


leads, en este caso mediante los descriptores farmacofricos CATS, para bloqueadores de canal
de calcio43, antagonistas del receptor purinrgico (A2A)44 e inhibidores de la quinasa Glicgeno
Sintasa 3 (GSK-3)45.

Obtencin de Farmacforos

Cuando se dispone de una serie de compuestos activos, la identificacin de modelos


farmacofricos es otra de las tcnicas estndar para el diseo de quimiotecas focalizadas.

La derivacin de modelos farmacofricos parte de la aproximacin del activo anlogo (Active


Analog Aproach), cuyo objetivo primario es la identificacin del ordenamiento tridimensional
comn de los sitios de interaccin claves con un receptor a partir de un conjunto accesible de
conformaciones de un grupo de ligandos activos.46

Usualmente, el proceso para derivar un modelo farmacofrico parte del alineamiento de estas
molculas activas para superponer e identificar todos los grupos farmacofricos conservados
entre ellas y as obtener la configuracin espacial de las caractersticas qumicas clave,
responsables de la interaccin con el receptor. Los grupos farmacofricos comnmente
utilizados son tomos con cargas positiva y negativa, dadores y aceptores de puente de
hidrgeno y tomos con carcter hidrofbico.

Una vez se obtiene dicho modelo, se puede utilizar para buscar en bases de datos otras
molculas que contengan el mismo farmacforo, para explicar relaciones de estructura-actividad
o como punto de partida para el diseo de nuevas molculas potencialmente activas.

Uno de los problemas asociados a la construccin del modelo farmacofrico, es el tratamiento


de la flexibilidad molecular de los activos de partida (plantillas) y su superposicin. En este
sentido, aparte de la generacin manual de hiptesis (pharmacophoric queries), como la
implementada en el programa MOE38, se han desarrollado programas para derivar
automticamente hiptesis, basados en superposiciones y alineamientos mltiples (DISCO47,
CATALYST48, GRASP49, ALADDIN50). Sin embargo, no seleccionan una nica mejor
propuesta, sino que sigue siendo necesaria la intervencin del usuario. Estos programas difieren
entre s en los algoritmos usados para el alineamiento y en el tratamiento de la flexibilidad
molecular.

Otro punto interesante es el de la conservacin y tolerancia de grupos farmacofricos.


Tradicionalmente, los mtodos de identificacin obligan a que todas, o un nmero definido por
el usuario, de las caractersticas farmacofricas est presente en todas o parte de las molculas
alineadas. La incorporacin de una estrategia para relajar la tolerancia se contempla como un
modo de introducir el concepto de lgica difusa (fuzziness) en la generacin de modelos
farmacofricos.

En un segundo paso, durante el cribado en bases de datos, la necesidad de alinear las molculas
frente a la hiptesis farmacofrica seleccionada, supone otra desventaja de las tcnicas
tradicionales de obtencin de farmacforos.

Recientemente, el grupo del profesor Schneider ha desarrollado la metodologa SQUID


(Sophisticated Quantification of Interaction Distributions)51. sta, permite establecer un nexo
entre los modelos farmacofricos tradicionales y el VS basado en bsqueda de similitud con
descriptores farmacofricos codificados como vectores de correlacin. Las principales ventajas
de la metodologa SQUID son i) la inclusin de informacin difusa (fuzzy) sobre la
conservacin y la tolerancia en un conjunto de molculas activas y ii) la codificacin de la
informacin en descriptores independientes de alineamiento, aumentando as la eficacia del VS.
En el apartado 1.7.2 se detalla en profundidad esta metodologa.

8
Introduccin

El VS basado en modelos farmacofricos es uno de los mtodos que con ms xito ha


descubierto leads para diferentes dianas biolgicas.52-54 Destaca el uso masivo del programa
CATALYST48, comercializado por Accelrys, y que adems de incorporar el mdulo HipHop
para derivar modelos farmacofricos, contiene el mdulo HypoGen, que utiliza datos
cuantitativos de actividad para establecer la hiptesis farmacofrica.

Figura I.5. Programas que integran el clculo de farmacforos. De izquierda a derecha:


CATALYST y Sybyl.

QSAR y 3D-QSAR

Las relaciones estructura-actividad permiten relacionar cuantitativamente los cambios


estructurales de una serie de compuestos con los cambios en la actividad. Actualmente, se
utilizan mltiples descriptores de la estructura qumica combinados con la aplicacin de tcnicas
de optimizacin lineales y no lineales (algoritmos genticos, redes neuronales) para derivar
modelos.

El 3D-QSAR utiliza descriptores espaciales y tcnicas de anlisis multivariante partial least


squares (PLS). Se utilizan los descriptores de campo molecular, basados en describir las
interacciones receptor-ligando a travs de potenciales de interaccin molecular (Molecular
Interaction Potential, MIP). Los MIP se calculan a partir de una malla o grid que engloba todos
los compuestos alineados sobre un mismo marco de referencia, y donde en cada punto se sitan
distintos grupos qumicos o sondas. Cuando se mide la interaccin entre una sonda protn y la
funcin de onda de la molcula, se habla del potencial electrosttico molecular (Molecular
Electrostatic Potential, MEP).
Los mtodos ms usados son el CoMFA55 (Comparative Molecular Field Analysis) y
GRID56/GOLPE57, que se diferencian principalmente en los MIP que derivan. CoMFA utiliza un
MIP estrico y otro electrosttico, mientras que en GRID/GOLPE se puede calcular el MIP de
distintas sondas qumicas implementadas en el programa GRID.

9
Introduccin

I.3. Cribado virtual basado en Receptor (Structure-Based VS)

La idea de disear compuestos a partir de la complementariedad con la estructura del receptor


surge a mediados de los 7058,59 y se generaliza en los 80, como respuesta a la cantidad de
estructuras cristalinas de complejos y protenas resueltas disponibles gracias a los avances en la
cristalizacin de protenas, la difraccin de rayos-X y la resonancia magntica nuclear (RMN).
El Protein Data Bank60, creado en 1977, alberga en la actualidad algo ms de 34400 estructuras,
aunque muchas de ellas corresponden a diversas formas cristalinas de una misma
macromolcula, con lo que el nmero de plegamientos diferentes es mucho menor.

35000
Crecimiento anual del nmero de estructuras

30000

Total
25000
Anual

20000
Nmero

15000

10000

5000

0
2006 2001 1996 1991 1986 1981 1976

Ao
Figura I.6. Crecimiento del nmero de estructuras depositadas en el Protein Data Bank. Adaptado
de [60].

La estructura del receptor se usa para explorar el espacio qumico identificando ligandos de
bases de datos de compuestos orgnicos, mediante tcnicas de docking o bien para disear
compuestos de novo que encajen en el sitio de unin de la protena.61

Docking

Una quimioteca de compuestos orgnicos se posiciona en el sitio de unin y se evala la


actividad potencial de estos compuestos a partir de la energa de interaccin protena-ligando.
Aquellos ligandos con mayor actividad calculada son candidatos a sntesis o pueden comprarse.
Este tipo de aproximacin es bastante frecuente cuando se dispone de la estructura resuelta de la
protena o bien de un modelo de la misma construido por homologa. As, se han identificado
ligandos para ms de 50 receptores, tanto de estructura conocida62-67 como a partir de modelos
tericos 68-69. Otro de los usos establecidos del docking es la identificacin del modo de unin,
es decir, la orientacin y conformacin que el ligando adopta en la cavidad de la protena, y,
menos frecuentemente, se utiliza para identificar el sitio de unin (blind docking)70.

Un protocolo de docking se caracteriza tradicionalmente por dos aspectos: el docking en s


mismo, es decir, el mtodo seguido para muestrear el espacio conformacional del complejo
ligando-receptor, y la funcin de scoring utilizada para evaluar la afinidad de la interaccin
ligando-macromolcula.71
Existen diferentes implementaciones de algoritmos para encontrar configuraciones protena-
ligando (denominadas poses) prximas a la conformacin nativa del complejo cristalizado (una
RMSD inferior a 2 es el criterio de aceptacin de una pose particular)72.

10
Introduccin

Actualmente, todos los algoritmos modernos de docking modelan el ligando como flexible,
dejando de lado las aproximaciones ms primitivas en las que el ligando se consideraba rgido
(docking rgido).

Los mtodos ms comunes son: fast shape matching (DOCK73, EUDOCK74, LIGANDFIT75),
construccin incremental del ligando en la cavidad de la protena (FLEXX76,
HAMMERHEAD77), bsquedas tab (PRO_LEADS78, SFDOCK79), algoritmos genticos
(GOLD80, AUTODOCK3.081, GAMBLER82), algoritmos genticos acoplados a bsqueda local
o Lamarckianos (AUTODOCK3.0), programacin evolutiva83, simulated annealing
(AUTODOCK2.484, GLIDE85), mtodos de Monte Carlo (MCDOCK86, QXP87, ICM-DOCK88)
y geometra de distancias (DOCKIT89). Tambin existen combinaciones de estos mtodos.

Los mtodos fast shape matching, como el implementado en DOCK, caracterizan el sitio activo
del receptor mediante esferas, cuyos centros se ajustan a los centros del ligando (tomos
pesados o esferas) sobre la base de una comparacin de las distancias internas ligando-ligando y
receptor-receptor (Figura I.7). Los mtodos de construccin incremental del ligando utilizan en
muchos casos, como HAMMERHEAD, una caracterizacin del sitio activo similar a la de los
mtodos fast shape matching. En este caso, acoplan progresivamente fragmentos del ligando
que contengan como mnimo dos enlaces rotables, explorando para cada uno de ellos las
conformaciones posibles. Los mtodos que utilizan algoritmos heursticos de optimizacin
parten de una o varias conformaciones iniciales, modificando los grados de libertad de rotacin
y traslacin segn las particularidades de cada algoritmo. Estos mtodos se discuten en trminos
generales en el apartado 1.9.

N
N
O
O O
O
O

O O
O O N
O O O
N
O O
O O
O
O
O O

O O O
O O
O
O O
O O
O

Generacin de esferas en el sitio del Ajuste de los centros del ligando y Orientacin final del ligando en el
receptor el receptor receptor

Figura I.7. Esquema del mtodo de muestreo en docking de los mtodos fast shape matching
(DOCK).

El docking es la parte que requiere ms tiempo computacional, por lo que los algoritmos que
tardan ms de tres minutos por ligando por procesador, se consideran demasiado lentos para ser
utilizados en VS.

La parte ms conflictiva es la funcin de scoring para predecir la afinidad de la unin protena


(o cualquier otra macromolcula)ligando. Las funciones tradicionalmente aplicadas se
clasifican en:90

11
Introduccin

i) Basadas en campos de fuerza (Force field-Based): a partir de mecnica molecular,


aproximan la energa libre de unin a partir de la suma de interacciones
electrostticas y de van der Waals. Frecuentemente, incluyen tambin trminos
empricos que incluyan la entropa y solvatacin. Destacan las funciones DOCK73 y
CHARMm91.

ii) Empricas (Empirical): estiman la energa libre de unin sumando trminos de


interaccin derivados de la contribucin ponderada de parmetros estructurales
(nmero de puentes de hidrgeno, interacciones inicas, contactos apolares,
entropa,). Los pesos de cada parmetro se obtienen por ajuste a constantes de
unin experimentales de un conjunto de complejos protena-ligando. Las ms
conocidas son LUDI92, CHEMSCORE93, SCORE94, FRESNO95, FLEXX76, PLP83,
AUTODOCK81 Y GOLDSCORE80.

iii) Knowledge-Based: representan la afinidad como suma de interacciones de pares de


tomos protena-ligando. Estos potenciales se derivan a partir de complejos de
estructuras conocidas del Protein Data Bank, donde las distribuciones de
probabilidad de distancias interatmicas entre diferentes pares de tipos de tomo
protena-ligando se convierten, asumiendo distribuciones energticas tipo
Boltzmann, en funciones de potencial. La energa libre de interaccin se calcula
sumando las contribuciones de los pares de tomos dentro de una cierta distancia.
Destacan PMF96, DrugScore97 SMOG98, BLEEP99 y SMoG2001100.

Las funciones empricas son las ms usadas en los programas de diseo de frmacos, aunque no
hay ninguna funcin superior al resto, ya que diferentes funciones se comportan mejor para
determinados complejos protena-ligando. De hecho, debido a la falta de fiabilidad general,
normalmente se utiliza una combinacin de funciones (consensus scoring)82. Con ello, se
combinan varias funciones y solo aquellas conformaciones (poses) que reciben altos scores por
dos o ms funciones de scoring son consideradas favorables.

A pesar de que, por fundamento terico, el docking es uno de los filtros ms precisos de VS,
existen tres grandes problemas asociados a l101,102 :

i) El gran nmero de posibles ligandos y sus posibles orientaciones y conformaciones


exceden la capacidad computacional.

ii) La flexibilidad se introduce totalmente nicamente en el tratamiento del ligando,


mientras que el receptor se considera rgido en la mayor parte de casos. El
tratamiento flexible del receptor tiene un coste computacional todava demasiado
alto, por lo que se usan aproximaciones como el introducir movilidad en las cadenas
laterales de algunos aminocidos a partir de libreras de rotmeros (GOLD), uso en
simulaciones paralelas de distintos confrmeros de la protena o la construccin de
una geometra difusa que engloba distintas conformaciones (mdulo FlexE de
FlexX103, AUTODOCK104). Sin embargo, numerosas protenas muestran fenmenos
de induccin (induced-fit effects) de las cadenas laterales y cambian de forma y
estructura del solvente tras la unin del ligando.

iii) El clculo de la afinidad protena-ligando no es, ni muchos menos, exacto,


principalmente en lo referente al clculo de energas de solvatacin y a la
consideracin de cambios en la entropa.

Pese a la reduccin del espacio conformacional protena-ligando muestreado al considerar el


receptor rgido, se asume que los algoritmos de docking funcionan adecuadamente en esta parte
del docking105, siendo la funcin de scoring la parte ms dbil.

12
Introduccin

Uno de los problemas de que adolece el VS con docking, es la gran cantidad de falsos positivos
identificados debido a errores en la medida de afinidad. Se ha comprobado, que las tcnicas de
consensus scoring reducen notablemente esta cifra, tanto en ensayos de VS como en la
deteccin del modo de unin nativo.

Estos falsos positivos proceden en gran parte de ligandos promiscuos (frequent hitters o
promiscuos binders), y suponen un problema recurrente tanto en el VS como en HTS. Estos
compuestos se detectan como hits en diferentes resultados de VS y ensayos biolgicos dirigidos
contra un amplio margen de dianas farmacolgicas. Esto sucede por dos razones: 1) la actividad
del compuesto no es especfica de la diana o 2) el compuesto altera el ensayo o el mtodo de
deteccin. En cualquier caso, estas molculas no suelen ser vlidas como puntos iniciales de los
programas de optimizacin de leads.106

Diseo de novo Diseo de novo


Docking Crecimiento secuencial Unin de fragmentos

O O O

N N N
N N
O

O O

N N
N N
O O

N
N
O

Figura I.8. Esquema de docking, diseo de novo por crecimiento secuencial y por unin de
fragmentos (de izquierda a derecha).

Diseo de novo

Estas tcnicas permiten disear inhibidores/moduladores from scratch a partir del sitio de
unin en la diana o del farmacforo, es decir, de informacin de la ordenacin espacial de
puntos de interaccin receptor-ligando relevantes (Figura I.8).
De hecho, los programas de docking se pueden utilizar a este propsito si se acoplan con un
generador de estructuras, aunque se han desarrollado programas especializados para construir
los ligandos dentro del sitio de unin por combinacin o ensamblaje de tomos y fragmentos
moleculares que se adecuen a los sitos de interaccin encontrados.107

13
Introduccin

La generacin de un conjunto suficientemente diverso, uno de los problemas originales de estos


mtodos, no supone actualmente una dificultad, aunque s lo es el considerar la accesibilidad
sinttica de los ligandos propuestos.
En funcin de qu se ensambla se distinguen dos aproximaciones: basadas en tomos (atom-
based methods), que construyen una molcula tomo a tomo, y en fragmentos (fragment-
based), que utilizan bases de datos de conectores predefinidos (building blocks), conectados por
un esquema sinttico virtual.
Adems, se clasifican en funcin de cmo es el proceso de ensamblaje en: construccin
incremental del ligando (incremental-growth) y construct-and-score. En el primer caso, se
aaden y modifican los fragmentos/tomos, calculando el score intermedio, hasta construir la
molcula final. En la segunda opcin, directamente se construye la molcula completa y se
evala la afinidad.108

Al igual que en los mtodos de docking, las funciones de scoring ms comunes son las
empricas y las knowledge-based.

Entre los programas ms usados destacan LUDI109, BUILDER110, CAVEAT111 y SPROUT112.


En la referencia [106] se recoge un compendio del software destinado a diseo de novo.

Clculo de la Afinidad de Unin

El clculo de energas libres de unin aparece a comienzos de los 80, basado en simulaciones
de mecnica molecular con dinmica molecular y mtodos de Monte Carlo.113-115 Los dos
grandes mtodos: el de perturbacin de energa libre (Free Energy Perturbation, FEP) e
Integracin Termodinmica (Thermodynamic Integration, TI), se presentaron como
posibilidades fciles y fiables. Se basan en que los cambios de energa libre relacionados con
pequeas perturbaciones de un sistema molecular se pueden determinar a partir de una
simulacin. As, estos mtodos realizan un tratamiento riguroso de todos los grados de libertad
de complejos ligando-protena, incluyendo modelos de solvatacin adecuados. A partir del ciclo
termodinmico de la Figura I.9, se calcula la diferencia de energa libre entre dos procesos
(unin de dos ligandos distintos, X e Y a la protena P) a partir de introducir
mutaciones/perturbaciones que transforman el ligando X en Y. As, la necesidad de calcular las
ramas horizontales del ciclo se sustituye por la de calcular las ramas verticales del ciclo, es
decir, la transformacin de X e Y en entorno acuoso y en la protena. Durante la mutacin
gradual, se generan especies qumicas inexistentes.

GX
P + X P X

GF GC
GY
P + Y P Y

Figura I.9. Ciclo Termodinmico considerado en el mtodo FEP. Adaptado de [2].

Hasta los 90, no se dispona, de manera generalizada, de la capacidad de clculo para realizar la
prediccin de manera correcta. Actualmente, tambin es demasiado costoso
computacionalmente para la aplicacin al clculo de miles de compuestos en experimentos de
VS, a lo hay que sumarle el hecho de tener que calcular sobre estructuras inexistentes y
restringirlo a ligandos muy similares, por lo que han quedado relegadas del mundo del VS.116

14
Introduccin

En el otro extremo, se sitan las funciones de scoring aplicadas en los mtodos de docking.
Como se ha comentado, estas funciones son demasiado simples en su evaluacin, ya que estn
diseadas para el tratamiento de miles de compuestos.

En un intento de combinar precisin y rapidez, recientemente se han desarrollado varias


aproximaciones. Destacan el mtodo LIE117 (Linear Interaction Energy) y el mtodo MM-
PBSA118 (Molecular Mechanics Poisson-Boltzmann Surface Area).
El mtodo LIE asume que la energa libre de unin de un ligando a un receptor es la
combinacin lineal de unas energas ponderadas de interaccin electrosttica y de van der
Waals. Los pesos asignados a cada trmino son parmetros empricos.
En MM-PBSA, la energa libre de un sistema se evala a partir de la combinacin de mecnica
molecular, una estimacin de la energa electrosttica mediante Poisson-Boltzmann, un trmino
de energa de solvatacin calculado a partir del rea de superficie accesible y un trmino
entrpico. Ms detalles de este clculo aparecen en el apartado 1.4.2.

Al igual que FEP y TI, la evaluacin se realiza sobre un conjunto de conformaciones o


snapshots obtenidos con dinmica molecular. Las funciones de scoring utilizadas en docking
realizan el clculo a partir de una nica conformacin o pose. En este sentido, MM-PBSA y LIE
requieren ms tiempo de clculo que stas, aunque son ms asequibles que FEP y TI.

En las primeras aplicaciones publicadas, estos mtodos se han aplicado para el clculo de
energas libres de unin de un reducido conjunto de molculas (oscilando en torno a 10-20
molculas), para las que el modo de unin est bien establecido a partir de estructuras
cristalogrficas de complejos o bien para extraer conclusiones estructurales de conformaciones
preferentes e isomera.119-124
Sin embargo, recientemente se ha validado el uso de MM-PBSA en VS.125 En lugar de realizar
una dinmica molecular, se evala una nica conformacin del complejo protena-ligando
mediante MM-PBSA. Esta aproximacin, aunque controvertida con conclusiones de otros
autores121, deja la puerta abierta a la inclusin de estas tcnicas en VS.

Modelizacin de Protenas

Como se ha comentado, para utilizar mtodos de VS directos, cuando no se dispone de una


estructura resuelta de la protena, se pueden utilizar modelos tericos, normalmente obtenidos
por modelizacin por homologa (Comparative Modeling, Homology Modeling).

La diferencia entre el nmero de secuencias de protena conocidas y el nmero de estructura


resueltas es cada vez mayor, ya que la secuenciacin crece a un ritmo exponencial y la
velocidad de determinacin estructural no se incrementa a este ritmo. De hecho, aunque se
pudiera resolver la estructura de todas estas protenas, se ha estimado que el tiempo necesario
para ello sera de unos quinientos aos.126 Sin embargo, el nmero de plegamientos estructurales
que una protena adopta es limitado127, y se prev que en menos de diez aos se tendr una
estructura resuelta, como mnimo, representante de la mayor parte de tipos de plegamiento.128

En la modelizacin por homologa, la construccin del modelo tridimensional de la protena de


estructura desconocida se basa en una o ms protenas relacionadas de estructura conocida
(plantilla). Esta aproximacin se fundamenta en el hecho de que un pequeo cambio en la
secuencia de una protena, normalmente resulta en un pequeo cambio en su estructura. As, la
condicin para modelar por homologa es que exista suficiente similitud (entorno al 30-40% de
similitud de secuencia se considera el lmite inferior129) entre la secuencia diana y la(s)
secuencia(s) de la plantilla(s). Actualmente, esta tcnica es el mejor mtodo de prediccin de
modelos, ya que es el nico que puede predecir estructuras con una exactitud comparable a la
obtenida para estructuras a baja resolucin con rayos-X.130

15
Introduccin

Quizs el programa de uso ms general es MODELLER131, tanto en su versin gratuita


acadmica, como en su distribucin comercial en el paquete INSIGHT132. Adems, existen
varios servidores Web, en los que nicamente es necesario enviar la secuencia de la protena
diana y la estructura de la(s) plantilla(s), como son el servidor SWISS-MODEL133,
CPHmodels134 y WHAT IF135, por citar algunos.

Los otros dos grandes mtodos de prediccin, ab initio y por reconocimiento de plegamiento, se
utilizan principalmente para la descripcin y prediccin de fenmenos estructurales de las
protenas, ya que todava estn en desarrollo.

Los mtodos ab initio136 predicen la estructura 3D a partir nicamente de su secuencia, lo que


equivale a conocer el mecanismo de plegamiento de las protenas. Parten de la conformacin
extendida de un pptido, reducen los grados de libertad de la protena, mediante los
denominados modelos de complejidad reducida (reduced complexity models) y utilizan
funciones energticas, normalmente derivadas a partir de bases de datos (knowledge-based) para
evaluar cada una de las geometras obtenidas. Estos mtodos se implementan para la
modelizacin de loops posterior a la homologa, como es el caso del MODELLER, aunque
tambin existen programas ntegros ab initio, como el servidor ROSETTA.137

Finalmente, los mtodos de reconocimiento de plegamiento o Threading se basan en el hecho de


que las protenas generalmente adoptan plegamientos similares a pesar de que no haya una
similitud significativa de secuencia o funcional. Destaca el programa THREADER138 que ajusta
la estructura primaria a plegamientos contenidos en una base de datos y la evala mediante
funciones desarrolladas estadsticamente. (Figura I.10).

Secuencia:

Threading Modelizacin por homologa

Alineamiento

Construccin a
Reconocimiento partir de los
plegamiento en patrones/plantilla
una base de
datos

Modelo final

Figura I.10. Esquema de los mtodos de modelizacin por homologa y threading.

16
Introduccin

Definicin del Sitio de Unin

Los mtodos de docking estn optimizados para encontrar el modo de unin, pero no estn
dirigidos, en principio, a determinar el sitio de unin.
Cuando se dispone del receptor complejado con diversos ligandos, la definicin del sitio de
unin es fcil, a partir de los residuos comprendidos dentro de una distancia umbral (cutoff)
desde el ligando. Sin embargo, cuando nicamente se dispone de la estructura tridimensional de
la apoprotena (sin ligandos), conviene disponer de informacin como la funcin de la protena
o la derivada de experimentos de mutagnesis dirigida.

Existen programas que intentan identificar cavidades en la superficie de la protena mediante


algoritmos denominados flood-filling. Bsicamente, rellenan el espacio que no est ocupado por
la protena con puntos y eliminan aquellos que no seran borrados al deslizar una esfera de un
determinado radio por la superficie de la protena.139 Adems, se han desarrollado otros mtodos
para priorizar la localizacin del sitio de unin cuando ste no es una cavidad.140

I.4. Combinacin de mtodos basados en estructura y en ligandos

A menudo se combinan ambas aproximaciones, la basada en el receptor y la basada en ligandos,


de manera que se intentan superar las limitaciones particulares de cada uno de ellos. No
nicamente a travs de la comparacin/complementacin de los resultados obtenidos por cada
uno de ellos, sino tambin incorporando la informacin procedente de uno en la metodologa del
otro.

Una posibilidad es la de introducir informacin en el docking acerca del modo de unin al


receptor, extrada de complejos co-cristalizados con otros ligandos, de la cavidad de la protena,
de tomos prueba o de grupos funcionales. En estos casos se habla de docking dirigido
directamente (direct guided-docking).141 Normalmente, se puede aceptar que el modo de unin
se conserva entre distintos ligandos, aunque no siempre esta afirmacin se cumple, como se ver
en ciertos casos en este trabajo. Esto permite reducir en gran parte la bsqueda conformacional
y eliminar aquellos ligandos para los que la unin sera fsicamente imposible (por ejemplo, si
se sabe que la interaccin se establece a travs de un aceptor de puente de hidrgeno, se puede
prescindir de intentar realizar el docking de una molcula que carezca de grupos aceptores). La
introduccin de restricciones de interaccin se ha mostrado til en el VS de los receptores
acoplados a la protena G (GPCR), una familia particularmente complicada ya que, a excepcin
de la rodopsina bovina, no se dispone de la estructura resuelta de ellos, por lo que se trabaja
sobre modelos construidos por homologa.142

Por otra parte, se pueden reconocer modelos farmacofricos por complementariedad a la


estructura tridimensional del sitio activo de un receptor, especialmente si se dispone de
complejos ligando-protena co-cristalizados. Tras el anlisis del sitio activo, se genera un mapa
de interaccin de grupos farmacofricos deseables (dadores de puente de hidrgeno, aceptores
de puente de hidrgeno y sitios lipoflicos) que el ligando debera satisfacer. Con dicho mapa de
interaccin, se generan varias hiptesis para cribar una quimioteca virtual. Este procedimiento,
ha sido integrado en el mdulo SBF (Structure-Based Focusing) del programa Cerius2.143 Wang
y colaboradores identificaron inhibidores de la proteasa del HIV-1 mediante farmacforos
basados en la estructura del receptor.144

17
Introduccin

En otros casos, se utilizan perfiles de interaccin protena-inhibidor para realizar la bsqueda en


bases de datos. Las mejores configuraciones obtenidas por docking de todas las molculas de la
base de datos en la estructura de un receptor se trasladan a un fingerprint de interaccin
estructural (Structural Interaction Fingerprint, SIFt).
Por otra parte, a partir de un conjunto de complejos receptor-inhibidor, se genera un perfil de
interaccin, que codifica la probabilidad de encontrar una determinada interaccin en una
determinada posicin (profile structural interaction fingerprint, pSIFt). Finalmente, se ordenan
los compuestos por similitud decreciente entre los SIFt y los pSIFt.145

I.5. Diversidad

Hasta este punto, la exposicin se ha centrado en la estrategia del cribado virtual hacia el diseo
de quimiotecas focalizadas a una diana farmacolgica en particular. Sin embargo, otra
alternativa del diseo de quimiotecas es la seleccin de un conjunto basndose en la diversidad
de los compuestos que la componen, de manera que el diseo final sea representativo de la
quimioteca inicial total, disminuyndose la probabilidad de que existan regiones inexploradas.

Este criterio de diversidad se suele aplicar a quimiotecas generales de compuestos con el fin de
identificar un mayor nmero de scaffolds diferentes, por lo que se aplica en las etapas iniciales
de descubrimiento de hits. Estas quimiotecas (diversity library o random library) estn
orientadas a ser testadas frente a un amplio rango de dianas biolgicas. Este tipo de cribado va
particularmente unido a la qumica combinatoria: ante la posibilidad de sintetizar en paralelo
miles de compuestos, es necesaria una seleccin racional de stos o bien de los reactivos que
aportarn un determinado sustituyente en una determinada posicin de manera que el
subconjunto escogido maximice la variabilidad de las propiedades moleculares de los
productos. Estas selecciones de carcter ms general, no contemplan informacin estructural de
los inhibidores conocidos, por lo que son de utilidad para la identificacin de posibles hits
cuando no se dispone de la informacin requerida en los mtodos descritos anteriormente.

Ms all de la identificacin de nuevos hits, la competitividad y la presin por explorar, tan


pronto como sea posible, grandes regiones de espacio qumico cuantificadas en trminos de
diversidad qumica, motivan tambin la aplicacin de este enfoque a la hora de seleccionar
posibles candidatos a ser sintetizados o a complementar los catlogos disponibles en una
empresa.

La seleccin de grupos de compuestos diversos con la intencin de cubrir un mayor espacio


qumico de actividad y as descubrir islas de actividad, cobr ms importancia que el diseo
focalizado en los primeros tiempos de introduccin de la qumica combinatoria. Sin embargo,
no se cumplieron las expectativas de identificacin de nuevos hits, por lo que se comenz a
complementar el criterio de diversidad con la optimizacin de requisitos estructurales, ganando
cada vez ms importancia el diseo focalizado. Algunas empresas utilizan aproximaciones
mixtas en las que se selecciona un pequeo conjunto de compuestos basndose en diversidad y
una vez analizados y establecidas las tendencias, se realiza un diseo focalizado para la
seleccin de nuevos compuestos.146

La diversidad o disimilitud es el complemento de la similitud, por lo que las medidas de


diversidad se efectan sobre el espacio qumico definido sobre los mismos tipos de descriptores
y mtricas que los utilizados en las bsquedas de similitud.

Para seleccionar un conjunto diverso de molculas, representativo de todo el espacio qumico,


existen a grosso modo tres grandes aproximaciones: i) basada en anlisis de conglomerados o
clusters, ii) mtodos de particin (partition methods) y iii) los mtodos basados en distancias o
disimilitud (dissimilarity-based methods) (Figura I.11).147, 148

18
Introduccin

i) En el las tcnicas de clustering, las molculas se agrupan de manera que aquellas


pertenecientes a un mismo cluster compartan un alto grado de similitud entre s y
sean distantes de las situadas en otros clusters. Seleccionando molculas
pertenecientes a cada uno de los grupos, se obtiene la mxima representatividad del
espacio qumico. Por otra parte, si se desea focalizar la seleccin a un compuesto, se
escogen aquellas molculas incluidas en el cluster de dicho compuesto.

ii) Los mtodos de particin tambin clasifican el espacio qumico para posteriormente
seleccionar un candidato de cada grupo, pero en este caso lo hacen a partir de celdas
(bins) generadas por divisin recursiva de los rangos de todas las propiedades que
describen el espacio qumico. Este tipo de aproximacin es mucho ms rpida y
requiere menos recursos de memoria que los mtodos de clustering, por lo que se
aplican en quimiotecas de compuestos de tamao medio y grande.

iii) Finalmente, en los mtodos basados en distancias, los compuestos se escogen,


normalmente mediante algoritmos heursticos, de manera que sean lo ms
disimilares a los ya seleccionados.

Figura I.11. Esquema de selecciones basadas en clustering, bins y mtodos basados en distancia, de
izquierda a derecha.

I.6. Quimiotecas Combinatorias

La seleccin de compuestos, tanto en versin focalizada como diversa, se puede aplicar a bases
de datos generales, como las colecciones propias de una empresa o catlogos pblicos como el
ACD, Available Chemicals Directory, o a quimiotecas virtuales combinatorias, es decir, donde
se han generado todas las posibles combinaciones de productos a partir de un nmero de
reactivos, tal y como se obtendran sintticamente por qumica combinatoria (Figura I.12).

Previo a la seleccin en estas quimiotecas virtuales, stas se tienen que construir. Para ello, se
tiene que considerar la eleccin de una qumica accesible, es decir, la eleccin del espacio
qumico de inters. Desde un punto de vista sinttico, las reacciones multicomponente (MCR)
permiten la combinacin de tres o ms puntos de diversidad, con lo que se facilita la
construccin de quimiotecas combinatorias grandes con una amplia variedad de funcionalidades
qumicas.

19
Introduccin

Los reactivos se extraen de catlogos de casas comerciales o de bases de datos generales como
el ACD y son sometidos a filtros similares a los aplicados en las etapas de pre-filtrado de
productos del VS. Adems, se incluyen factores como el precio, la accesibilidad comercial de
dichos reactivos y las posibles interferencias que puedan generar en la reaccin qumica
establecida. Dada la falta de bases de datos que recojan aquellos reactivos no aptos para una
determinada reaccin, este ltimo criterio se suele ms bien realizar basndose en intuicin y
conocimientos sintticos que con el uso de filtros automatizados.149

O
2
O O R
1 OH
R O R
2
HS
+ OH + OH R
1 N O
H NH2 R
3

S
3
R

Figura I.12. Esquema de una quimioteca combinatoria con tres puntos de variacin. La combinacin
de N1 aldehdos con N2 aminocidos y N3 tioles genera una quimioteca de N1 N2 N3 productos.

Tanto en bases de datos generales como en quimiotecas combinatorias, se puede aplicar una
seleccin cherry picking o sparse array, esto es, seleccionando n productos de los N totales de
manera que cumplan el criterio de diversidad o similitud requeridos, pero sin imponer una
restriccin combinatoria sobre los reactivos de los que proceden, en el caso de trabajar sobre
quimiotecas combinatorias. Este tipo de seleccin, presenta, aunque no necesariamente, el
inconveniente de que se incrementa el nmero de reactivos necesarios y con ello el coste. El
nmero mnimo de reactivos necesarios para sintetizar n productos en una reaccin
k-componente es kn1/k. El nmero mximo corresponde a kn, al que se tiende en el diseo
cherry picking. Adems, en este diseo se generan problemas en la robotizacin de la sntesis
combinatoria.150

En las quimiotecas combinatorias, adems, pueden aplicarse otras dos estrategias. La primera de
ellas, basada en reactivos (reagent-based), selecciona directamente un conjunto de reactivos de
cada uno de los puntos de variacin disponibles, basndose en lo que Gillet bautiz como
hiptesis de diversidad (diversity hypothesis).150 Dicha hiptesis asume que si es posible
identificar un conjunto de reactivos de mxima diversidad, entonces su uso resultar en la
generacin de una quimioteca combinatoria de productos diversos. As, supone que las
propiedades derivadas de los reactivos son transferibles, para ciertos descriptores, a los
productos. Con ello, el conjunto seleccionado es combinatorio, evitndose los inconvenientes de
la seleccin cherry picking. Al prescindir de la construccin virtual o enumeracin de todos los
productos de la quimioteca, es menos costosa computacionalmente, pero se ha demostrado que
esta simplificacin es menos eficaz en la seleccin de conjuntos diversos que la aproximacin
desarrollada posteriormente, la basada en productos (product-based).151,152

El diseo product-based full array, se ide para superar las desventajas de los otros dos
formatos comentados: prdida de representatividad de los productos (reagent-based) y formato
no combinatorio del conjunto escogido (cherry picking). La seleccin se realiza sobre el espacio
de los productos, pero de manera que sean la combinacin de un subconjunto de reactivos. En
este caso, el nmero de reactivos requeridos tiende al valor mnimo de kn1/k.

En la Figura I.13, se esquematizan las tres alternativas en la seleccin de un conjunto de 16


compuestos de una quimioteca combinatoria de 49 productos, resultado de la reaccin de 4 x
con 4 y reactivos. Se destaca la diferencia en la necesidad de enumeracin: seleccin (product-
based) seleccin-enumeracin (reagent-based) y la naturaleza combinatoria: (full array) o no
(cherry picking) del conjunto seleccionado (en rojo).

20
Introduccin

Seleccin reactivos X1 Y2 Enumeracin (sntesis virtual) X1Y2 X1Y3 X1Y4 X1Y7 Reagent-based
X3 Y3 X3Y2 X3Y3 X3Y4 X3Y7
X4 Y4 X4Y2 X4Y3 X4Y4 X4Y7 Full array
X5 Y7 X5Y2 X5Y3 X5Y4 X5Y7

X1 Y1
X2 Y2
X1Y1 X1Y2 X1Y3 X1Y4 X1Y5 X1Y6 X1Y7
X3 Y3
X4 Y4
X2Y1 X2Y2 X2Y3 X2Y4 X2Y5 X2Y6 X2Y7 Product-based
X3Y1 X3Y2 X3Y3 X3Y4 X3Y5 X3Y6 X3Y7
X5 Y5 Full array
X4Y1 X4Y2 X4Y3 X4Y4 X4Y5 X4Y6 X4Y7
X6 Y6
X5Y1 X5Y2 X5Y3 X5Y4 X5Y5 X5Y6 X5Y7
X7 Y7
X1Y1 X1Y2 X1Y3 X1Y4 X1Y5 X1Y6 X1Y7 X6Y1 X6Y2 X6Y3 X6Y4 X6Y5 X6Y6 X6Y7
X2Y1 X2Y2 X2Y3 X2Y4 X2Y5 X2Y6 X2Y7 X7Y1 X7Y2 X7Y3 X7Y4 X7Y5 X7Y6 X7Y7
X3Y1 X3Y2 X3Y3 X3Y4 X3Y5 X3Y6 X3Y7 Seleccin
X4Y1 X4Y2 X4Y3 X4Y4 X4Y5 X4Y6 X4Y7 productos
X5Y1 X5Y2 X5Y3 X5Y4 X5Y5 X5Y6 X5Y7
X6Y1 X6Y2 X6Y3 X6Y4 X6Y5 X6Y6 X6Y7
Enumeracin X7Y1 X7Y2 X7Y3 X7Y4 X7Y5 X7Y6 X7Y7 X1Y1 X1Y2 X1Y3 X1Y4 X1Y5 X1Y6 X1Y7
(sntesis virtual) X2Y1 X2Y2 X2Y3 X2Y4 X2Y5 X2Y6 X2Y7 Product-based
X3Y1 X3Y2 X3Y3 X3Y4 X3Y5 X3Y6 X3Y7
X4Y1 X4Y2 X4Y3 X4Y4 X4Y5 X4Y6 X4Y7 Cherry picking
X5Y1 X5Y2 X5Y3 X5Y4 X5Y5 X5Y6 X5Y7
X6Y1 X6Y2 X6Y3 X6Y4 X6Y5 X6Y6 X6Y7
X7Y1 X7Y2 X7Y3 X7Y4 X7Y5 X7Y6 X7Y7

Figura I.13. Esquema de selecciones basadas en reactivos (reagent-based) frente a las basadas en
productos (product-based) y de selecciones cherry picking frente a full array.

La seleccin full array es un problema combinatorio, tipo NP-completo. Las posibilidades de


seleccin para una quimioteca con k puntos de variacin que presentan Ni reactivos, para la que
k
Ni
se desea escoger ni reactivos vienen dadas por n
i =1 i
. As, para una quimioteca con 4 pasos

o puntos de variacin con 10 reactivos asequibles en cada uno de ellos, para los que se desea
escoger 3 reactivos, el nmero de selecciones posibles es de 108. La naturaleza combinatoria de
las selecciones cherry picking es mucho mayor, ya que las posibilidades de seleccin de n
N
productos de un total de N corresponden al nmero combinatorio . Comparativamente, en
n
el caso de la seleccin anterior de 81(3^4) reactivos de un total de 10000 (10^4), el nmero de
selecciones posibles es de 10203. Mientras que la mayora de mtodos cherry picking tienen un
carcter determinista, la naturaleza de la restriccin combinatoria obliga al uso de tcnicas de
optimizacin.

En la ltima dcada, han surgido una variedad de referencias que proponen distintos algoritmos
de optimizacin, tanto heursticos: algoritmos genticos (programas SELECT153, GALOPED154,
HARPick155)156-159 y simulated annealing160,161 como aproximaciones ms deterministas162-164.
Destacan aquellas que eliminan la necesidad de construir/enumerar toda la quimioteca de
compuestos, ya que de manera iterativa seleccionan subconjuntos de reactivos a partir de los
cuales generan productos hasta encontrar el ptimo.163
Adems, existen diferentes paquetes integrados dirigidos a la construccin y seleccin de
quimiotecas combinatorias: el mdulo CombiChem de Cerius239, el paquete Sybyl165 y MOE38,
son algunos ejemplos.

En particular, en el Grupo de Ingeniera Molecular, GEM, en el IQS, se est desarrollando el


programa PRALINS (Program for Rational Analysis of Libraries in Silico). En este programa,
iniciado por R. Pascual, se han implementado y adaptado una gran parte de las metodologas de
seleccin y algoritmos de optimizacin de quimiotecas diversas, tanto en formato cherry picking
como full array.166

Otra de las direcciones hacia las que ha evolucionado el diseo de quimiotecas virtuales ha sido
hacia la seleccin de compuestos combinando mltiples criterios como diversidad/similitud,
coste, propiedades ADMET, etc149,167 (selecciones multiobjetivo).

21
Objetivos

Objetivos

El presente trabajo se encuentra enmarcado en la lnea de investigacin del Grupo de Ingeniera


Molecular, GEM, en el IQS, dirigida hacia el diseo, sntesis y evaluacin de inhibidores
potenciales de tirosina quinasas, particularmente el receptor del factor de crecimiento epitelial
(EGFR), el receptor del factor de crecimiento de fibroblastos (FGFR) y el receptor del factor de
crecimiento derivado de plaquetas (PDGFR). En el marco de esta lnea y en el contexto del
diseo molecular, el objetivo principal es establecer y validar un protocolo de evaluacin de
compuestos con potencial actividad inhibidora de tirosina quinasas que permita priorizar los
candidatos a ser sintetizados. Dicho protocolo incluye varias de las estrategias expuestas en la
introduccin, jerarquizadas en funcin de su requerimiento computacional. stas son:

Diseo y seleccin de quimiotecas combinatorias basadas en criterios de diversidad.

Aplicacin de filtros ligand-based: bsquedas de similitud y farmacforos.

Aplicacin de filtros structure-based basados en docking.

Implementacin de un nuevo fingerprint de interaccin estructural como herramienta en el


postprocesado de docking y aplicable como filtro en un cribado virtual.

Evaluacin de la afinidad de unin de una serie de inhibidores de tirosina quinasas


mediante MM-GBSA/MM-PBSA. Aplicacin de esta metodologa en el cribado virtual.

Paralelamente, se contina desarrollando el programa PRALINS. Por un lado, dado el creciente


inters hacia el diseo de quimiotecas focalizadas, se exploran e implementan diversas
estrategias de seleccin en formato full array. Asimismo, se revisan los criterios de evaluacin
de diversidad y se habilita la posibilidad de realizar selecciones multiobjetivo basadas en
algoritmos genticos.

Finalmente, se estudia el modo de unin de antagonistas de los receptores CXCR4 y CCR5, co-
receptores implicados en la entrada del virus del HIV a las clulas.

23
Captulo 1. Fundamentos tericos

Captulo 1.

Fundamentos tericos

1.1. Modelizacin Molecular

Los modelos tericos empleados en la qumica computacional para estudiar la estructura y


reactividad de las molculas, se distinguen tpicamente en modelos cunticos, basados en
mecnica cuntica (QM) y modelos clsicos derivados de mecnica molecular (MM).

En la qumica cuntica, la distribucin electrnica se incluye explcitamente mediante su


codificacin en la funcin de onda (), relacionada con la energa (E) a travs de la
ecuacin de Schrdinger independiente del tiempo:

H ( r ) = E ( r ) [1.1]

Donde el operador hamiltoniano (H) incluye la energa cintica y potencial de ncleos y


electrones. Para resolver esta ecuacin, es necesario introducir diversas aproximaciones
(Born-Oppenheimer, combinacin linear de orbitales atmicos). No contemplan ningn
tipo de parametrizacin emprica externa, por lo que tambin se conocen como mtodos
ab initio.

Los mtodos semiempricos, en los que s hay una parametrizacin emprica para la
descripcin de los electrones internos (core) mientras que los electrones externos se
caracterizan mediante funciones de onda cunticas.

Los mtodos de mecnica molecular consideran la molcula como un conjunto de esferas


(tomos) conectados mediante muelles (enlaces), cuyo movimiento se puede describir por
las leyes de la fsica clsica a travs de funciones de energa potencial. La simplificacin
ms importante de estas funciones de energa potencial es que slo consideran los ncleos
de los tomos y no existe un tratamiento explcito de los electrones (stos estn
considerados implcitamente en los enlaces). El tratamiento de tomos y enlaces se define
con los campos de fuerza o force field, en el que se incluyen los parmetros y ecuaciones
que los describen.

Por otra parte, se han desarrollado tambin modelos mixtos (QM/MM) que tratan el sistema
parcialmente de forma cuntica y clsica.

Aunque los modelos cunticos son ms precisos, su elevado coste computacional los restringe a
molculas con un nmero de tomos del orden de decenas, resultando inviable el tratamiento
cuntico total de macromolculas. Por otra parte, su uso es obligado en el estudio de reacciones
que impliquen la ruptura y formacin de enlaces. Asimismo, la modelizacin de los compuestos
de quimiotecas virtuales se realiza bsicamente en el entorno de la mecnica clsica, aunque
existen aplicaciones de descriptores mecanocunticos a quimiotecas con un nmero limitado de
compuestos.168

Otro tipo de sistemas lo componen los mtodos basados en reglas o rule-based systems que
permiten obtener una estructura tridimensional razonable para compuestos orgnicos a partir de
la informacin topolgica de las molculas, expresada mediante una tabla de conexiones.

25
Captulo 1. Fundamentos tericos

Para ello, utilizan bases de datos tabuladas para las longitudes de enlace, ngulos,
conformaciones de anillos a la par que extienden al mximo los fragmentos acclicos. Destacan
los programas CONCORD169 y CORINA170. El objetivo de estos programas es el de acelerar al
mximo la generacin de estructuras tridimensionales de compuestos en bases de datos.

1.1.1. Mecnica Molecular

El force field define los parmetros usados en la descripcin de los tomos y enlaces y el
tratamiento matemtico que los relaciona. As, en primer lugar asigna a cada tomo (bola) un
tipo (atom type) en funcin de su hibridacin, carga y tomos a los que est unido. A cada uno
de los tipos atmicos les corresponde un grupo de parmetros: constantes de fuerza, datos
atmicos (radios atmicos, carga, masa) y valores estructurales de equilibrio. Estos
parmetros se suelen obtener a partir de valores experimentales o bien se derivan de clculos
mecanocunticos.
Finalmente, cada force field define una ecuacin de energa potencial, de manera que la energa
de una molcula en una conformacin determinada se calcula a partir de la que tendran
idealmente las partes que la constituyen. As, la energa es relativa a un estado de referencia y se
calcula como la suma de los diferentes trminos que indican la penalizacin por el alejamiento
de la idealidad de las distancias de enlace, ngulo, torsiones

Aunque la ecuacin matemtica vara entre distintos force fields, de manera general se incluyen
los siguientes trminos:

Interacciones no enlazantes: intervienen tomos no unidos de manera directa por enlaces.


Comprenden los trminos electrostticos y de interacciones de van der Waals.

- La interaccin electrosttica se calcula segn la ley de Coulomb, a partir de las


cargas parciales (partial charges) asignadas a cada tomo, en las que se
aproxima el efecto de la distribucin electrnica. Existen diversos mtodos de
clculo de cargas parciales: desde una aproximacin topolgica basada en los
tomos y en cmo estn unidos, como las cargas Gasteiger-Marsili171, al mtodo
RESP (Restrained ElectroStatic Potencial)172 que ajusta a cada uno de los
tomos la distribucin del potencial electrosttico molecular, calculado a nivel
ab initio (HF/6-31G*). El mtodo RESP, aunque ms caro computacionalmente
que las aproximaciones topolgicas, es ms refinado desde un punto de vista
terico. Recientemente, se ha desarrollado el mtodo AM1-BCC173, con el
objetivo de reproducir la precisin del mtodo RESP a la par que disminuir el
tiempo de clculo. Del anlisis de la distribucin de cargas en el hamiltoniano
AM1 se realizan correcciones aditivas sobre el enlace (additive bond charge
corrections, BCCs).

- Las interacciones de van der Waals vienen tradicionalmente dadas por el


potencial electrosttico de Lennard-Jones 12-6 (vase ecuacin [1.2]), aunque
tambin se pueden formular con otros exponentes en el coeficiente de la
interaccin repulsiva, como 9 o 10, la decimosegunda potencia se prefiere por la
facilidad de clculo (el cuadrado de la sexta potencia).

Interacciones enlazantes: intervienen tomos unidos por enlaces qumicos. Se trata de los
trminos de estiramiento de enlace, doblamiento de ngulos, ngulos diedros y ngulos
impropios (en sistemas planares de cuatro tomos, en los que uno de ellos en posicin
central est unido al resto). Adems, se pueden incluir trminos de interacciones cruzadas
que reflejan el acoplamiento entre las coordenadas internas: acoplamientos ngulo-enlace,
ngulo-ngulo, enlace-enlace

26
Captulo 1. Fundamentos tericos

En la Figura 1.1 se esquematizan los principales trminos junto con la representacin


grfica de la ecuacin que los representa. La vibracin de los enlaces y ngulos se modela
a partir de un potencial harmnico cuadrtico, como en el caso de los muelles. Las
torsiones (propias e impropias) se representan mediante funciones peridicas, ya que la
rotacin atraviesa barreras peridicas. Finalmente, los trminos no enlazantes son
funciones de potencia inversa de la distancia.

Figura 1.1. Modelo y representacin grfica de los trminos habituales en un force field.

Existe una gran variedad de force fields creados en funcin de los grupos de molculas
empleados como referencia en la parametrizacin y a los que va destinado. Desde los aplicados
a molculas orgnicas pequeas y medianas (MM2174, MM3175, MM4176, TRIPOS177,
MMFF94178, UFF179, GAFF180) a los dirigidos a macromolculas (AMBER181, CHARMM182,
GROMOS183, OPLS184). En la referencia [185] se puede encontrar una revisin de los distintos
force fields aplicados a protenas.

En el presente trabajo, se ha empleado bsicamente los force fields AMBER, GAFF y


MMFF94, por lo que se detallan sus correspondientes funciones.

La ecuacin [1.2] corresponde al force field AMBER, donde los dos primeros trminos
penalizan el alejamiento de los enlaces y ngulo de su valor de equilibrio (ro y o,
respectivamente) mediante un potencial harmnico simple (con constantes de fuerza kr y k,
respectivamente). El potencial de torsin se representa mediante una serie de Fourier truncada,
donde Vn es el potencial en el mximo, n es la periodicidad y o es la fase. Los trminos no
enlazantes se calculan segn las ecuaciones tradicionales comentadas.

E pot = k (r r )
r o
2
+ k ( ) o
2
+
Vn
[1 + cos(n o )] +
enlaces ngulos diedros 2
[1.2]
Aij Bij qi q j
r12 r 6 + 4 rij
ij
no enlazantes ij
no enlazantes
van der Waals electrostticas

La ecuacin del force field AMBER original186 incluye tambin trminos de interaccin por
puente de hidrgeno que se han eliminado en posteriores versiones implementadas en las
versiones 7 y 8 del programa AMBER187.

En dicho programa, a partir de la versin 7, se ha implementado tambin el force field GAFF


(General Amber Force Field)180, diseado para ser compatible con el force field AMBER,
dirigido a protenas y cidos nucleicos. GAFF contiene parmetros para la mayor parte de
molculas orgnicas tpicas en qumica mdica, compuestas por hidrgeno, carbono, nitrgeno,
oxgeno, azufre, fsforo y halgenos.

27
Captulo 1. Fundamentos tericos

Finalmente, el force field MMFF94, desarrollado en Merck, est dirigido a un amplio rango de
sistemas qumicos de inters farmacolgico.

kr 7
E= 143.9325 2 (r r )
enlaces
o
2
1 2 (r ro ) + (r ro ) 2 +
3
k
0.043844 ( o ) [1 0.4 ( o )]
ngulos 2 +
143.9325 k [1 + cos( o )]
ngulos

2.5121 [k (r ro ) + kr ' (r ' r 'o )] ( o ) +


ki 2
ngulos enlaces
r
centros
0.043844
2
i +
no lineales tricoordenados

0.5 [V (1 + cos ) + V
diedros
1 2 (1 cos 2 ) + V3 (1 + cos 3 )] +

1.07 r * 7 1.12 r *7 332.071 qi q j



2 +
r + 1 0.7 r * r + 0.12 r * no enlazantes r (rij + )
ij 7 7 n
no enlazantes
van der Waals electrostticas

[1.3]

La ecuacin [1.3] corresponde a la funcin de energa potencial del force field MMFF94. Se
observa cmo es ms compleja en la definicin de los trminos que la del AMBER. En general,
los force field derivados para macromolculas son los ms sencillos en cuanto a la complejidad
de las funciones y no suelen incluir trminos de interacciones cruzadas, como la del force field
MMFF94 (trmino ngulos-enlaces no lineales).
Los trminos de estiramiento del enlace y torsin de ngulos se modelan en este caso con una
expansin hasta el cuarto orden de la curva de Morse, que se ajusta mejor al modelo de la curva
de energa potencial de un enlace que la de la ley de Hooke. El trmino de torsin de diedros
contiene tres trminos, a diferencia de AMBER; cada uno de los cuales est dirigido a la
explicacin de un efecto fsico (por ejemplo, el segundo trmino, refleja el carcter de doble
enlace para explicar efectos de conjugacin en alquenos). Halgren, autor del force field, propuso
la forma que adopta la interaccin de van der Waals en un intento de mejorar, principalmente, el
trmino de las interacciones repulsivas (r-12) de la ecuacin tradicional de Lennard-Jones.
Finalmente, las interacciones electrostticas contienen en este caso una constante de buffering
electrosttico () y n adopta valores de 1 o 2.

Para disminuir el nmero de grados de libertad de los sistemas moleculares, se utilizan


frecuentemente modelos united-atom, en los que los hidrgenos no polares se omiten y los
parmetros de interacciones no enlazantes de los tomos a los que est unido se consideran
implcitamente en los tomos a los que est unido. En el tratamiento de biomolculas esto
permite reducir el esfuerzo computacional. La funcin emprica de AUTODOCK incluye un
modelo united-atom en el tratamiento de la protena.

1.2. Minimizacin Energtica / Optimizacin Geometra

Una vez introducido el modelo terico de aproximacin a las molculas, se describen los
mtodos que permiten buscar las soluciones a la ecuacin de la energa potencial en funcin de
las coordenadas atmicas, espacio conocido como superficie de energa potencial. Dentro de
esta superficie, son especialmente interesantes los estados estacionarios, en los que la derivada
de la energa respecto a las coordenadas (fuerzas) es nula. Particularmente, los mnimos
energticos corresponden a estados estables del sistema. As, hablar de optimizacin de

28
Captulo 1. Fundamentos tericos

geometra para encontrar esta estructura estable es equivalente a hablar de minimizacin


energtica.

Tanto en este caso particular, como en cualquier otro problema de optimizacin, para moverse
por el espacio de bsqueda se pueden adoptar dos posturas diferentes: explorar (generando
puntos en zonas del espacio que previamente no tienen porqu haber sido visitadas) o explotar
(explorando tambin, pero en la cercana de soluciones ya existentes, sacndoles todo el partido
posible). La mayor parte de los algoritmos de bsqueda tratan de establecer un equilibrio entre
explotacin y exploracin, aunque muchos de ellos se inclinan hacia una mayor exploracin
(aleatoriedad) o explotacin (determinismo). As, en general, los mtodos de bsqueda se
dividen, a grandes rasgos, en mtodos globales y locales. Los mtodos globales tratan de
encontrar el mnimo global de un problema, mientras que los locales se concentran en la
vecindad de la solucin generada inicialmente, por lo que no tienen ninguna garanta de que el
mnimo encontrado sea global.

Los problemas de minimizacin energtica se suelen abordar con mtodos de bsqueda local,
por lo que se describen brevemente en este apartado188. Los mtodos de bsqueda global,
empleados en otras aplicaciones de la qumica computacional (seleccin de compuestos en
quimiotecas virtuales combinatorias, anlisis conformacional aplicado en las bsquedas
farmacofricas y docking, superposicin de compuestos) se describen en el apartado 1.9.

Dentro de los mtodos de bsqueda local, para variables continuas, son muy comunes los
mtodos de descenso, de manera que encuentran el mnimo ms prximo al punto inicial. Se
distinguen en funcin del orden de la derivada.

1.2.1. Mtodos no-derivativos o de orden cero

nicamente utilizan valores de la propia funcin. Requieren mucho coste computacional, por lo
que suelen aplicarse en combinacin con otros mtodos de optimizacin ms eficientes. As, en
la optimizacin geomtrica, son tiles al inicio, cuando se parte de una configuracin muy
energtica. El ms popular es el mtodo simplex. Se genera un simplex, una figura de M+1
vrtices interconectados, donde M es la dimensionalidad del problema (funcin de energa). El
sistema inicial corresponde a uno de estos vrtices, y el resto de vrtices se construyen, por
ejemplo, imponiendo un incremento a cada una de las variables (coordenadas) de la funcin. El
simplex se mueve sobre la superficie de la energa potencial mediante una serie de reglas
(reflexin, expansin, contraccin de los vrtices), de manera que se asegura que puede explorar
la totalidad de la superficie de energa.188

1.2.2. Mtodos derivativos de orden uno o mtodos del gradiente

Adems de los valores de la propia funcin, utilizan su primera derivada (gradiente). Son menos
robustos que los anteriores, pero ms eficientes y con mayor tasa de convergencia. Son los ms
empleados en mecnica molecular.

Estos mtodos iteran la ecuacin [1.4]:


xi +1 = xi li Si [1.4]

donde xi+1 es la nueva posicin en el paso i+1, xi es la posicin previa, li es el tamao de paso y
Si es la direccin de este paso. Los diferentes algoritmos varan en cmo definen esta direccin
y este paso. La iteracin se repite hasta que la variacin en la funcin es menor a un
determinado valor umbral.

29
Captulo 1. Fundamentos tericos

La longitud del paso se puede determinar con un algoritmo de bsqueda lineal o mediante la
aproximacin de paso arbitrario.

La bsqueda lineal localiza el mnimo a lo largo de una direccin especificada (una lnea
en un espacio multidimensional). Para ello, frecuentemente, se ajustan de manera iterativa
funciones polinmicas sobre un conjunto de puntos de la direccin de descenso y se
resuelve el mnimo analticamente. El gradiente en el punto mnimo de la lnea de
bsqueda es perpendicular a la direccin previa, por lo que el gradiente en la siguiente
direccin es ortogonal a la direccin previa.

En la aproximacin del paso arbitrario, el valor del paso tiene un valor predefinido que se
incrementa o reduce durante el proceso segn si el valor de la funcin se reduce o
incrementa, respectivamente. Este ltimo procedimiento, aunque menos riguroso, suele
requerir ms pasos para alcanzar el mnimo, pero frecuentemente requiere menos
evaluaciones de la funcin.

Segn el modo de escoger la direccin de descenso, destacan:

Steepest Descent (SD) / Direccin del mximo gradiente: La direccin de descenso (Si)
corresponde al gradiente (gi) negativo de la funcin en el punto (ecuacin [1.5]).

Si = g i g i [1.5]

En la optimizacin geomtrica, corresponde a la direccin paralela a la fuerza, con lo que


son las mayores fuerzas interatmicas las que determinan la direccin. As, se trata de un
buen mtodo para eliminar rpidamente los peores impedimentos estricos en una
conformacin inicial. Sin embargo, en las cercanas del mnimo necesita realizar muchos
pasos, ya que al avanzar en direcciones ortogonales a la previa, oscila mucho,
reintroduciendo errores ya corregidos en movimientos previos.

Conjugate Gradients (CG) / Gradiente Conjugado: La direccin de bsqueda se establece a


partir del gradiente actual y del gradiente del paso anterior (ecuacin [1.6]). El conjunto de
direcciones generado no es ortogonal y se evita el comportamiento oscilatorio en las
cercanas del mnimo, convergiendo ms rpido que SD.

Si = g i + i Si 1 [1.6]

En funcin de la relacin entre gradientes (i) se distinguen las diferentes


implementaciones del mtodo: Fletcher-Reeves (FR, ecuacin [1.7]), Polak-Riviere (PK,
ecuacin [1.8]) y Hestene-Stiefel (HS, ecuacin [1.9]):

g iT g i
i = [1.7]
g iT1 g i1

g iT ( g i g i 1 )
i = [1.8]
g iT1 g i 1

giT ( g i g i 1 )
i = T [1.9]
Si 1 ( g i g i 1)

30
Captulo 1. Fundamentos tericos

Generalmente se trabaja con esquemas de minimizacin, en los que se utilizan combinaciones


de estos algoritmos. As, lo ms comn es comenzar con una minimizacin con SD (para
eliminar rpidamente los peores impedimentos estricos) y continuar con CG (para converger
rpidamente en un mnimo).

1.2.3. Mtodos derivativos de orden dos o mtodos de Newton

Utilizan las primeras y segundas derivadas de la funcin. El mtodo Newton-Raphson (NR) es


el ms simple de ellos. En este caso, se itera la ecuacin [1.10], derivada de una expansin en
una serie de Taylor en el punto:

xi +1 = xi H i1 ( xi ) g i ( xi ) [1.10]

Donde H i1 ( x) es la matriz Hessiana inversa. El clculo de la inversa de esta matriz hace que el
mtodo Newton-Raphson requiera ms tiempo computacional, por lo que se suele aplicar a
sistemas con menos de cien tomos. Adems, esta matriz ha de ser definida positiva para
impedir que el mtodo se dirija a puntos silla donde la energa se maximiza.

Este ajuste a un modelo cuadrtico es ms exacto en el mnimo de la funcin, donde la


aproximacin harmnica se cumple. Lejos del mnimo la aproximacin harmnica es pobre, por
lo que la minimizacin puede volverse inestable. Por ello, NR se aplica normalmente en las
cercanas del mnimo, donde previamente se han utilizado mtodos ms robustos como el
mtodo simplex o Steepest Descent.

Los mtodos Quasi-Newton, para disminuir el tiempo de clculo de la matriz hessiana,


construyen gradualmente la inversa de la hessiana en iteraciones sucesivas a partir de los valores
de la funcin y su gradiente en los puntos previo y nuevo.

1.3. Simulacin: Dinmica Molecular

La minimizacin energtica no es un mtodo apropiado para explorar un gran nmero de


estructuras de baja energa de macromolculas. Adems de obtener modelos tridimensionales,
se aplica como paso previo a los estudios de simulacin, como la dinmica molecular. Las
simulaciones permiten generar un conjunto de configuraciones representativas de sistemas de
los que extraer propiedades estructurales y termodinmicas.

La dinmica molecular189,190 (MD) permite adems estudiar el comportamiento del sistema en


funcin del tiempo, al simular la dinmica del mismo mediante la integracin de las ecuaciones
de Newton del movimiento para cada tomo. Es un mtodo determinista ya que el estado del
sistema en un tiempo posterior se puede predecir invariablemente a partir de su estado actual. Al
conjunto de estados accesibles a una molcula se le denomina espacio de fase (Phase Space). Se
trata de un espacio 6N-dimensional, ya que el estado de un sistema de N tomos queda definido
al especificar las 3N coordenadas atmicas y los 3N momentos.

La trayectoria, secuencia de estados resultante en dinmica molecular, se obtiene por


integracin de la ecuacin [1.11] de la segunda ley de Newton:

2 xi Fx
= i
[1.11]
t 2 mi

31
Captulo 1. Fundamentos tericos

Donde mi es la masa de la partcula, xi es la coordenada y Fxi es la fuerza aplicada sobre la


partcula en esta direccin. En las funciones de energa potencial la fuerza entre dos tomos o
molculas cambia continuamente con su separacin. Dada esta naturaleza continua, la
resolucin del problema no puede hacerse analticamente y la integracin de las ecuaciones
[1.12] y [1.13] se realiza mediante un mtodo de diferencias finitas.

t2
p (t )
ri (t2 ) = ri (t1 ) + dt [1.12]
t1
m
t2

p (t2 ) = p (t1 ) + m a (t )dt [1.13]


t1

1.3.1. Mtodos de Integracin

Las integrales de las ecuaciones [1.12] y [1.13] se descomponen como suma de pequeas
etapas, cada una correspondiente a un pequeo intervalo de tiempo t (tpicamente,
comprendido entre 1 y 10 femtosegundos). En cada paso, se calculan las fuerzas sobre los
tomos, asumindose que son constantes durante este intervalo de tiempo, y se combinan con
las posiciones y velocidades actuales para generar el nuevo estado. Una vez se han movido los
tomos a las nuevas posiciones, se actualizan las fuerzas que actan sobre cada tomo y as
hasta generar toda la trayectoria.

Uno de los ms conocidos es el algoritmo de Verlet191. Su idea bsica es escribir dos


aproximaciones en serie de Taylor truncadas en el tercer orden para las posiciones del paso
nuevo (t+t, ecuacin [1.14]) y el previo (t-t ecuacin [1.15]):

r (t + t )= r(t ) + v(t )t + (1 2)a (t )t 2 + (1 6)b(t )t 3 + O(t 4 ) [1.14]


r (t t )= r(t ) v(t )t + (1 2)a (t )t (1 6)b(t )t + O(t )
2 3 4
[1.15]

Donde v es la velocidad, a la aceleracin y b la tercera derivada de las coordenadas respecto al


tiempo. Al sumar las dos expresiones se obtiene:

r (t + t )= 2 r(t ) r (t t ) + a (t )t 2 + O(t 4 ) [1.16]

donde la aceleracin se obtiene mediante la ecuacin [1.17], a partir de la derivada de la funcin


de energa potencial respecto a las coordenadas:

a(t ) = (1 m)V (r (t )) [1.17]

Se trata de un algoritmo exacto (el error de truncacin del algoritmo es del orden de t4),
estable, de fcil implementacin y con un coste computacional modesto, lo que explica su gran
popularidad en las simulaciones de dinmica molecular.

Su principal problema es que las velocidades no se generan directamente, y aunque no son


necesarias para obtener la trayectoria, s lo son para calcular la energa cintica (K) del sistema.
Se pueden calcular a tiempo t (ecuacin [1.18]) o a mitad del intervalo de tiempo, t+1/2t,
(ecuacin [1.19]):

r (t + t ) r (t t )
v(t ) = [1.18]
2 t

32
Captulo 1. Fundamentos tericos

1 r (t + t ) r (t )
v(t + t ) = [1.19]
2 t

Sin embargo, el error asociado a esta expresin es del orden de t2, en lugar de t4. Otro
problema es que para inicializar el algoritmo se necesita una alternativa para obtener las
posiciones del paso previo (r(-t)). Una posibilidad es realizar la aproximacin en serie de
Taylor truncado tras el primer paso (ecuacin [1.20]):

r ( t ) = r (0) t v(t ) [1.20]

Para superar estas dificultades, se han desarrollado variantes del algoritmo de Verlet que
generan exactamente la misma trayectoria, aunque difieren en las variables almacenadas en
memoria (posicin en paso actual y previo, aceleracin en paso actual para Verlet) y los tiempos
para los que se calculan.

El algoritmo Leapfrog192, implementado en el mdulo SANDER del programa AMBER, calcula


explcitamente las velocidades a la mitad del intervalo de tiempo mediante la ecuacin [1.21]:

1 1
v(t + t )= v(t t ) + t a (t ) [1.21]
2 2

y a partir de ellas calcula la posicin en el siguiente intervalo de tiempo (ecuacin [1.22]):

1
r (t + t )= r (t ) + t v(t + t ) [1.22]
2

Las velocidades a tiempo t se calculan con la ecuacin [1.23]:

1 1 1
v(t )= v(t + t ) + v(t t ) [1.23]
2 2 2

Una de sus desventajas es que las velocidades y posiciones no estn sincronizadas, por lo que no
se posible calcular la energa cintica (velocidades) al mismo tiempo que la energa potencial
(coordenadas), aunque se mantiene la conservacin de la energa incluso a intervalos de tiempo
mayores.

Existen otros algoritmos de integracin como el velocity Verlet193, que obtiene todas las
magnitudes sincronizadas aunque con mayor coste de memoria. El predictor-corrector de
Gear194 y mtodos de Runge-Kutta calculan las velocidades y coordenadas con mayor precisin
(utiliza un truncamiento de la serie de Taylor a mayor orden) aunque con mayor coste
computacional y requisitos de memoria.

1.3.2. Intervalo de tiempo de integracin (Time Step)

El intervalo de tiempo de integracin (time step) se establece como un compromiso entre


simular la trayectoria correcta y cubrir adecuadamente el espacio de fase.
Por una parte interesa tener valores pequeos de time step, cuanto ms pequeo ms se parece la
trayectoria de la simulacin al resultado de la integracin analtica, sin embargo esto conlleva el
aumento considerable del coste computacional o la reduccin del espacio de fase muestreado.
Con time steps grandes los tomos pueden colapsar, ocupando las mismas coordenadas

33
Captulo 1. Fundamentos tericos

espaciales, se producen violaciones en la conservacin de la energa total y del momento lineal


o fallos del programa por desbordamiento numrico.

Normalmente, se asume que el lmite superior del time step es aquel que permite simular bien el
movimiento ms rpido del sistema (la vibracin de un enlace de un tomo de hidrgeno, del
orden de 10 fs). As, tpicamente el time step es de 1 fs, al menos un orden de magnitud ms
pequeo que dicho movimiento. Cuando se trabaja a temperaturas por encima de 300 K, el time
step se suele reducir ya que las energas cinticas son superiores y los tomos recorren ms
distancia entre dos evaluaciones de fuerza, pudiendo generar solapamientos de alta energa entre
tomos.

Una posible solucin para incrementar este valor es el de eliminar del sistema aquellos grados
de libertad de mayor frecuencia como lo son los estiramientos de enlace, ya que tienen un efecto
mnimo en el comportamiento general del sistema. Para ello, se congelan dichas frecuencias
al imponer constraints sobre estos enlaces (algoritmo SHAKE195), permitiendo trabajar con time
steps de 2 fs.

1.3.3. Condiciones de la Dinmica

Siguiendo la hiptesis ergdica, las simulaciones calculan las propiedades macroscpicas como
promedio de un conjunto de microestados denominado colectivo (ensemble). Las dinmicas
moleculares normalmente se realizan bajo condiciones de nmero constante de partculas (N),
volumen (V) y energa (E), conocido como colectivo microcannico (microcanonical o constant
NVE ensemble). Sin embargo, se pueden realizar bajo otros colectivos: cannico (canonical
ensemble, NVT) con nmero de tomos, volumen y temperatura constantes o el isotermo-
isobrico (isothermal-isobaric ensemble, NPT). Los resultados de propiedades macroscpicas
derivadas de mecnica estadstica y obtenidos en un colectivo pueden ser transformados a otro
colectivo, aunque estrictamente esto es correcto en el lmite de un sistema infinitamente grande.

El primer paso en una dinmica parte de establecer el estado inicial. La conformacin inicial
puede extraerse de datos experimentales o de modelos tericos obtenidos con minimizacin
energtica. Las velocidades iniciales de los tomos se asignan aleatoriamente de forma que
sigan una distribucin Maxwell-Boltzmann a la temperatura de inters.

En la fase de equilibrado se monitorizan diversas propiedades (energa cintica, potencial y


total, temperatura, presin) hasta que se estabilizan. Una vez en equilibrio, es en la etapa de
produccin en la que se muestrea el espacio de fases y se calculan las propiedades
macroscpicas.

1.3.3.1. Escalado de la Temperatura

Las dinmicas se realizan a una temperatura determinada. La etapa de produccin suele


realizarse en colectivo NVE, en el que la temperatura es una variable, pero antes de ello, se
suele llevar al sistema a la temperatura de inters, bajo un colectivo NVT, en el que se realiza un
re-escalado de la misma para asegurar su constancia.
La temperatura del sistema est relacionada con la energa cintica promedio mediante la
ecuacin [1.24]:

3
= N kB T [1.24]
2

34
Captulo 1. Fundamentos tericos

Una manera sencilla de mantener la temperatura constante es multiplicar las velocidades tras
cada paso de integracin por un factor que relaciona la temperatura actual (Ta) con la
requerida (Tr), ecuacin [1.25]:

= Tr Ta [1.25]

Sin embargo, el factor de escalado ms comn procede de acoplar el sistema a un bao


calefactor externo fijado a la temperatura de inters, conocido como algoritmo de Berendsen196
o weak-coupling (ecuacin [1.26]):

t Tbao
= 1 + 1 [1.26]
T (t )

Un mayor valor de la constante de acoplamiento , permite un acoplamiento dbil entre el bao


y el sistema, por lo que se permite fluctuar al sistema entorno a la temperatura objetivo. Estos
dos algoritmos nicamente aseguran que la energa cintica total es apropiada a la temperatura
de trabajo, pero no que la temperatura est igualmente distribuida entre todas las partes de la
molcula, por lo que la aproximacin no es estrictamente cannica. En condiciones de solvente
explcito (vase apartado 1.3.6.2), las colisiones entre tomos pueden ayudar a mantener una
distribucin apropiada de la temperatura entre solvente y soluto, aunque tambin se puede llegar
a una situacin en la que la temperatura del soluto sea inferior a la del solvente (hot solvent,
cold solute).

Adems del algoritmo de Berendsen, AMBER incorpora tambin el esquema de acoplamiento


de Andersen o stochastic collisions197, en el que a una partcula, aleatoriamente seleccionada
cada un cierto nmero de pasos, se le reasigna una velocidad aleatoria que cumpla la
distribucin de Maxwell-Boltzmann a la temperatura deseada. En el perodo entre colisiones el
colectivo es microcannico, con energa constante, de manera que si la tasa de colisiones es
muy baja, el sistema no se comporta realmente como cannico. Si la tasa es excesivamente alta,
se reduce la rapidez de muestreo del espacio de fases.
Este tipo de escalado es aconsejable para dinmicas realizadas en condiciones de solvente
implcito (vase apartado 1.3.6.3).

1.3.3.2. Escalado de la Presin

Cuando se aplican condiciones peridicas de contorno (vase apartado 1.3.4), es necesario


ajustar la densidad del sistema durante el proceso de equilibrado, para terminar de empaquetar
correctamente el solvente alrededor del soluto en los lmites de la caja peridica y evitar la
posible formacin de huecos de vaco generados por agregacin de molculas de solvente en
condiciones de volumen constante.
Para ello, primero se equilibra la temperatura del sistema a volumen constante (colectivo NVT)
y despus se contina con una dinmica a presin constante.

En una simulacin en condiciones NVE, la presin flucta mucho ms (varios cientos de bares)
que el resto de magnitudes debido a que est relacionada con el virial, que se obtiene como el
producto de las posiciones y la derivada de la funcin de energa potencial. Este producto
( rij (rij ) / rij ) cambia ms rpidamente con la posicin de lo que lo hace la energa interna.
Sin embargo, el valor promedio a lo largo de muchos pasos puede ser prximo a la presin
objetivo.

Del mismo modo que un sistema macroscpico, una simulacin en el colectivo NPT isotermo-
isobrico mantiene la presin constante cambiando el volumen. La fluctuacin en el volumen
est relacionado con la compresibilidad isoterma (), segn la ecuacin [1.27]:

35
Captulo 1. Fundamentos tericos

1 V
= [1.27]
V P T

El algoritmo de acoplamiento de la presin utilizado en AMBER es del tipo weak-coupling,


anlogo al de la bao calefactor de Berendsen196. Se aplica un bao de presin que mantiene
la presin constante mediante reescalado del volumen de la caja peridica con un factor
(ecuacin [1.28]):

t
=1 ( Pbao P (t )) [1.28]
P

Donde P es la constante de acoplamiento del bao. Reescalar el volumen con un factor es


equivalente a reescalar cada una de las coordenadas atmicas multiplicndolas por un factor 1/3
(ecuacin [1.29]):

r 'i = 1 / 3 ri [1.29]

Esta expresin puede aplicarse isotrpicamente (aconsejado para solutos disueltos en agua) o
anisotrpicamente (en sistemas anisotrpicos como simulaciones de membranas, en los que las
tensiones superficiales difieren con la direccin).

1.3.4. Lmites del Sistema (boundaries)

Los sistemas simulados en dinmica molecular, de miles y decenas de miles de tomos, son
relativamente pequeos a escala macroscpica, por lo que un elevado porcentaje de los tomos
se encuentra rodeado de vaco. Esto genera efectos frontera (boundary effects), es decir,
desviaciones del comportamiento de los tomos en los lmites del sistema respecto a los que se
encuentran en el centro, que en el caso lmite conducen a la evaporacin del sistema.

Existen dos alternativas posibles para afrontar este problema:

El uso de condiciones peridicas de contorno (periodic boundary conditions, PBC) en las


que se simula un sistema infinito al generar rplicas de la celda del sistema en todas las
direcciones (Figura 1.2). En un sistema tridimensional, cada celda tendr 26 celdas
vecinas. Las coordenadas de las partculas en las celdas imagen se obtienen
sumando/restando mltiplos enteros de los lados de la caja y de manera que si una
partcula de la celda abandona la celda durante la simulacin, sta es reemplazada por una
partcula imagen que penetra por el otro lado. Existen diferentes geometras de celda:
cbica, octaedro truncado, prisma hexagonal, dodecaedro rmbico, cuyo tamao puede ser
fijado por el usuario. El mdulo SANDER de AMBER est adaptado para el tratamiento
de todas estas celdas, aunque en los mdulos de generacin (XLEAP) y anlisis (PTRAJ)
nicamente hay implementadas dos geometras de celda: paraleppedo rectangular y
octaedro truncado.

36
Captulo 1. Fundamentos tericos

Figura 1.2. Condiciones peridicas de contorno.

Stochastic boundary conditions que imponen restricciones al movimiento de los tomos


ms externos, como generar un muro repulsivo o restringir las posiciones de dichos
tomos mediante potenciales harmnicos.

Estos ltimos mtodos son ms difciles de implementar que las simulaciones peridicas y
pueden conducir a resultados anmalos, por lo que las simulaciones peridicas PBC siguen
siendo el modo ms seguro y tradicionalmente recurrido en dinmica molecular.

La eleccin de tratamiento de los lmites va ligada al tipo de solvente aplicado, por lo que se
retoma este tema en el apartado 1.3.6, donde se detallan los dos esquemas aplicados en el
presente trabajo.

1.3.5. Interacciones de largo alcance

En principio, en un sistema de N tomos habra que calcular N2 interacciones no enlazantes


entre todos los pares de tomos. En el caso de las interacciones de corto alcance como van der
Waals, el potencial de Lennard-Jones decae muy rpidamente con la distancia (r-6), por lo que
no se justifica el clculo de dicha interaccin para pares de tomos alejados.
En minimizacin y dinmica molecular, se puede establecer un valor umbral (cutoff) por encima
del cual no se calculan las interacciones no enlazantes. ste suele adoptar valores comprendidos
entre 8 y 12 .
En el caso de simulaciones peridicas, el cutoff de las interacciones no enlazantes tiene que ser
menor que la mitad de la longitud del lado ms corto de la caja, aplicndose el modelo de
minimum image convention. As, cada tomo nicamente ve como mucho una nica imagen
de cada tomo del sistema.

En la aplicacin de cutoffs se utilizan listas de vecinos no enlazados (non-bonded neighbour


list), en las que se almacenan, para cada tomo, todos los tomos potencialmente vecinos (los
situados a una distancia inferior al cutoff + tomos que ligeramente sobrepasan esta distancia y
que podran interaccionar por debajo del cutoff en pasos sucesivos). Esta lista se actualiza con
una determinada frecuencia a lo largo de la dinmica, de manera constante cada 10-20 pasos o
mediante un algoritmo automatizado.

Para eliminar las discontinuidades introducidas por el cutoff en la funcin de energa potencial y
en las fuerzas en la regin de corte, se pueden aplicar shifted potentials switching functions.
En las primeras, se desplaza la funcin de potencial al restrsele un trmino constante
(alternativamente tambin uno lineal). El problema es que al modificar este potencial, las
propiedades macroscpicas no son directamente calculables. Las switching functions son

37
Captulo 1. Fundamentos tericos

funciones polinmicas de la distancia que multiplican a la funcin de energa potencial,


suavizando tambin el gradiente en la regin del cutoff.

Sin embargo, la aplicacin de cutoffs resulta inapropiada para el tratamiento de interacciones de


largo alcance como las electrostticas, que decaen con la inversa de la distancia. Especialmente
en sistemas peridicos, aquellas interacciones que decaen no ms rpido que r-n, donde n es la
dimensionalidad del sistema, resultan problemticas, ya que su rango de interaccin es
frecuentemente superior que la mitad del tamao de la celda. As, se han desarrollado diferentes
aproximaciones para el tratamiento de las interacciones de largo alcance: tratamientos del
campo de reaccin (reaction fields), mtodo de los multipolos (cell multipole method) y el
mtodo de las sumas de Ewald. ste ltimo es el que est implementado en AMBER en el
tratamiento de sistemas peridicos, por lo que se describe brevemente.

1.3.5.1. Mtodo de sumas de Ewald (Ewald Summation Method)

En este mtodo198, una partcula electrosttica interacciona no solo con las partculas en la celda
de simulacin, sino tambin con sus imgenes en un sistema peridico infinito de celdas, segn
la expresin de Coulomb correspondiente de la ecuacin [1.30]:

1 N 1 N qi q j
=
4 o n = 0 i =1 J = I +1 rij + n
[1.30]

Donde N es el nmero de cargas contenido en cada celda, qi y qj son dichas cargas, rij la
distancia que las separa y n corresponde a los vectores de una red peridica n=(nxLx, nyLy,
nzLz), siendo L la longitud de cada dimensin de la celda.
La suma de la ecuacin [1.30] es condicionalmente convergente (su resultado depende del orden
en que los trminos son sumados) y tiene una convergencia lenta.

El mtodo de sumas de Ewald, cuyo modelo matemtico se muestra en la ecuacin [1.31],


convierte la suma en dos series, cada una de las cuales converge mucho ms rpidamente:

1 f (r ) 1 f (r )
= + [1.31]
r r r

De este modo, divide la interaccin culmbica en un trmino de corto alcance y otro de largo
alcance.

La primera suma, realizada en el espacio real, equivale fsicamente a rodear cada carga puntual
en el sistema por una distribucin neutralizante de cargas de igual magnitud y signo contrario.
Esta distribucin es tpicamente una gaussiana. Este trmino converge rpidamente y es
responsable de las interacciones de corto alcance.
El segundo trmino compensa la distribucin neutralizante del primer trmino, mediante una
distribucin imaginaria de cargas de signo opuesto a las del espacio real. Esta suma se realiza en
el espacio recproco y tambin converge mucho ms rpidamente que la suma original. Se trata
de una serie que vara muy suavemente con la distancia, por lo que puede aplicarse su
transformada de Fourier mediante un nmero de vectores recprocos. En la Figura 1.3 se
esquematizan las dos distribuciones de carga utilizadas en el mtodo de sumas de Ewald.

38
Captulo 1. Fundamentos tericos

Figura 1.3. Distribuciones de carga en el espacio real y recproco respecto al sistema original
utilizadas en el mtodo de sumas de Ewald.

La ecuacin [1.32] muestra la energa potencial final obtenida por el mtodo de sumas de
Ewald, donde el primer y segundo trminos corresponden a las sumas en el espacio directo y
recproco, respectivamente

N 1 N qi q j erfc ( r ij + n )
= 4 +
i =1 j = i +1 n = 0
o rij + n
1 qi q j 4 2 k2

k 0 L
3

4 o k 2
exp(
4 2
) cos( K rij ) [1.32]

N
qk2 2 N
qk
2



k =1 4 o
+ 3
3L

k =1 4 o
rk

Donde erfc es la funcin de error complementario (ecuacin [1.33]):


2
erfc ( x) = exp(t
2
) dt [1.33]
x

y K son los vectores recprocos dados por K = 2n L , y L es la dimensin de la celda.


La amplitud de la gaussiana viene determinada por el valor de . Se escoge de manera que sea
lo suficientemente grande para que muchos de los trminos en la serie del espacio real sean
despreciables por encima de un determinado cutoff y lo suficientemente pequea para que se
reduzcan el nmero de trminos en el espacio recproco.
El tercer trmino de la ecuacin [1.32] se aade para eliminar la interaccin de cada gaussiana
consigo misma realizada en la suma en el espacio real. El ltimo trmino se aade si el entorno
es vaco (con o=1).

La ecuacin [1.32] es la manera ms exacta de incluir todos los efectos de fuerzas de largo
alcance, aunque es computacionalmente cara de implementar. Formalmente es del orden de
O(N2), aunque puede reducirse a O(N3/2) si se ajusta adecuadamente la anchura de la gaussiana
(), el nmero de vectores K y el truncamiento de las interacciones de los pares en el espacio
directo.

Para acelerar la solucin del mtodo de sumas de Ewald, se han diseado diversas
aproximaciones basadas en mallas (particle mesh-based approaches). Todas ellas utilizan una
transformada rpida de Fourier (FFT) para calcular la suma en el espacio recproco, para lo cual
hay que discretizar los valores. Para discretizar los valores, en lugar de trabajar con una
densidad de cargas continua, se aproxima a un modelo de cargas distribuidas en una malla
construida sobre el espacio cartesiano sobre el que se realiza la dinmica molecular. A partir de
la distribucin de cargas en la malla, se obtiene el potencial debido a las distribuciones

39
Captulo 1. Fundamentos tericos

gaussianas en los puntos de la malla, que vuelven a interpolarse para generar el potencial en las
posiciones de las partculas. En este caso, el algoritmo es de orden O(Nlog(N)).
En particular, AMBER, para el tratamiento de las interacciones electrostticas de largo alcance
en PBC, utiliza el denominado particle-mesh Ewald method (PME) desarrollado por Darden199.
Este mtodo difiere de otros particle-mesh en que la interpolacin la realiza mediante ajuste de
splines.

Las gaussianas de la suma directa se calculan como en la suma de Ewald: por encima de un
valor cutoff no se calculan y utilizan tambin una lista de vecinos como las expuestas
anteriormente.

1.3.6. Modelos de solvente

Las primeras simulaciones de protenas y complejos de protenas-ligandos ignoraban todas las


molculas de solvente debido a la limitacin computacional. As, trabajaban in vacuo,
considerando el sistema biolgico en fase gas. Este tipo de simulaciones es problemtica, ya que
en los lmites del sistema se tiende a minimizar la superficie y las molculas pequeas adoptan
conformaciones ms compactas debido a que las interacciones no enlazantes intramoleculares
son ms favorables.

Actualmente, existen diferentes modelos para el tratamiento del solvente en sistemas biolgicos.
En este trabajo, nicamente se han considerado sistemas biolgicos en los que el solvente es el
agua, sin tratar en ningn caso la descripcin de membranas biolgicas. En un entorno polar
como el agua, la contribucin principal a la solvatacin procede de las interacciones
electrostticas entre soluto y solvente.200 La elevada polarizabilidad del agua, la gran diferencia
entre la constante dielctrica del agua y las protenas y la incertidumbre en la localizacin y
magnitud de las cargas parciales, hacen que el trmino electrosttico de la funcin de potencial
sea uno de los ms difciles de representar. Se citan los mtodos empleados en el presente
trabajo:

1.3.6.1. Mtodos Empricos

Los mtodos empricos tratan el solvente a un coste computacional muy bajo, para simular el
apantallamiento que produce el campo de reaccin del solvente en las interacciones
electrostticas entre tomos de la molcula. Para solventes homogneos y disoluciones muy
diluidas, este efecto puede representarse mediante la constante dielctrica (=80, para el caso
del agua). Sin embargo, en sistemas biolgicos la constante dielctrica efectiva depende de la
distancia (r) entre grupos cargados, que suele modelarse con dependencia lineal (ecuacin
[1.34]):

r = EPS r [1.34]

Donde EPS es un factor constante con valores generalmente comprendidos entre 1 y 4.5. En
otros casos se utiliza una dependencia exponencial o sigmoidea con la distancia.
Estos mtodos se aplicaron ampliamente en las primeras dinmicas moleculares y se siguen
utilizando en los programas de docking. Actualmente, la implementacin de modelos implcitos
para el solvente, que aportan informacin acerca de la solvatacin de cada elemento individual
del sistema, est reemplazando su uso en dinmica molecular.

1.3.6.2. Solvente Explcito

La inclusin de solvente de forma explcita, de manera que se trata a nivel atmico, es una de
las formas ms exactas, pero tambin ms costosas computacionalmente.

40
Captulo 1. Fundamentos tericos

En la mayor parte de los casos, se tratan en condiciones peridicas de contorno (PBC): la


molcula de soluto se sita en el centro de la celda y el espacio vaco en ella se rellena con
molculas de solvente. En este caso, AMBER realiza el tratamiento de las interacciones de largo
alcance con el mtodo de sumas de Ewald.

Otra forma de solvatar explcitamente consiste en rodear la molcula con una capa (cap) de
molculas de solvente y sin tratamiento de condiciones peridicas de contorno. En este caso, el
nmero de molculas de agua requeridas es menor que en PBC, por lo que resulta ms asequible
computacionalmente que la solvatacin explcita peridica. Para prevenir la evaporacin de las
aguas en el lmite solvente-vaco, se aplican stochastic boundary conditions mediante la
restriccin de un potencial harmnico.
En la versin de AMBER 8187 se ha implementado un modelo alternativo de solvatacin para el
tratamiento de esta capa de aguas respecto a versiones anteriores de AMBER. As, se incluye
una correccin para el campo de reaccin de las aguas que estn situadas tras la capa (cap),
calculado mediante el mtodo de diferencias finitas de Poisson-Boltzmann.201 No se trata de un
modelo de solvatacin implcito, como los que se presentan posteriormente, ya que no trata la
generalidad del sistema mediante este modelo.
Las regiones interiores al radio de la capa de aguas (soluto+solvente explcito) se detallan a
nivel atmico y el resto se trata como un medio continuo. Se destaca que en versiones anteriores
de AMBER, se permita la inclusin de una cap de aguas que solvatase parcialmente el sistema
(normalmente la regin activa). En AMBER 8187, ya que modela como un continuo todo aquello
ms all del radio de la capa, la esfera de aguas ha de englobar a todo el soluto.

1.3.6.3. Solvente Implcito

La descripcin exacta del entorno acuoso puede resultar computacionalmente cara: la


solvatacin explcita de una protena de tamao medio requiere miles de molculas de agua.
Actualmente, la alternativa de reemplazar estas aguas discretas por un sistema virtual de
aguas est cobrando gran popularidad. As, se modela un medio infinito continuo con las
propiedades dielctricas e hidrofbicas del agua. Se trata de los modelos de solvente implcito,
basados en la teora clsica de Poisson-Boltzmann (PB). En ellos, el soluto se detalla a nivel
atmico, mientras que las molculas de solvente y posibles electrolitos, se tratan como un
continuo sin estructura, caracterizado por una constante dielctrica del solvente (s). En el
interior de la cavidad del soluto, la constante dielctrica toma valores caractersticos de
protenas (int=2-8) o 1.

Aparte del coste computacional ms reducido, estos modelos implcitos presentan una serie de
ventajas frente a la representacin explcita del agua como evitar el equilibrado del sistema
(temperatura y presin); el soluto puede explorar ms rpidamente el espacio de fases debido a
la ausencia de viscosidad asociada a los modelos explcitos; se modela la solvatacin en un
volumen infinito, evitndose artefactos del sistema peridico y se facilita la estimacin de
energas de estructuras solvatadas.
Sin embargo, por otra parte se pierde tambin la posibilidad de analizar interacciones
estructurales soluto-solvente, como la formacin de puentes de hidrgeno.

1.3.6.3.1. Ecuacin de Poisson-Boltzmann

La ecuacin de Poisson resuelve el potencial electrosttico ((r)) generado por una distribucin
de cargas moleculares ((r)) dentro de un medio con una determinada constante dielctrica
((r)). Si adems se considera la presencia de iones, la distribucin de los mismos se incluye en
la ecuacin de Poisson mediante una distribucin de Boltzmann, resultando en la ecuacin de
Poisson-Boltzmann (PB). Para simplificar, nicamente se muestra la ecuacin linearizada de
PB, adecuada para el tratamiento en soluciones con una fuerza inica baja. Otras formulaciones
de esta ecuacin se pueden encontrar en las referencias [200,202]:

41
Captulo 1. Fundamentos tericos

(r ) (r ) ' (r ) = 4 (r ) [1.35]

La constante dielctrica es dependiente de la distancia ((r)): equivale a la del agua en zonas


alejadas del soluto y desciende rpidamente con la distancia en las zonas lmite soluto-solvente.
El parmetro (), inverso de la longitud de Debye-Hckel, adopta valores de 0.1-1 en
condiciones fisiolgicas. Una vez se calcula el potencial ((r)), la contribucin electrosttica a
la energa de solvatacin viene dada por:

1
Gelec = qi ( (ri ) solv (ri ) vaco )
2 i
[1.36]

Donde qi es la carga parcial del tomo en la posicin ri que genera la densidad molecular y
((r)vaco) es el potencial electrosttico calculado para la misma distribucin de cargas pero en
ausencia de lmites dielctricos (en vaco, en el que se utiliza una dielctrica de 1 tanto en la
cavidad del soluto como fuera de ella).

La ecuacin de Poisson-Boltzmann no es de fcil resolucin para los sistemas de inters, por lo


que se tienen que aplicar mtodos nmericos. Entre ellos, el mtodo de diferencias finitas en
una malla (finite-difference method, FDPB) es el ms usual. Este mtodo se ha implementado en
diversos programas como DELPHI203, MEAD204 y UHBD205 y en la versin de AMBER8187.

En el mtodo FDPB, se superpone una malla de puntos sobre el soluto y el solvente,


asignndose a cada punto de la grid los valores de potencial electrosttico, densidad de carga,
constante dielctrica y fuerza inica (Figura 1.4). Cada una de las cargas parciales se distribuye
sobre los ocho puntos de la malla que la rodean mediante una ecuacin trilineal.

Figura 1.4. Esquema de la malla utilizada en el


programa DELPHI para resolver la ecuacin de Poisson-
Boltzmann mediante el mtodo de diferencias finitas.
Extrado de [206].

El potencial en cada punto de la malla (o) se obtiene segn la ecuacin [1.37]:

6
qo
i i + 4
h
o = i =1
6
[1.37]

i =1
i + N o ' h 2 2

Donde el sumatorio i se realiza sobre los seis puntos de la grid que rodean al punto con carga qo,
de manera que el potencial en cada punto afecta y es afectado por sus vecinos. Esto se traduce
en una resolucin del sistema de manera iterativa, hasta que alcanza convergencia. El valor h
corresponde a la arista del cubo, se calcula a partir de la fuerza inica y N adopta el valor de
0 cuando la fuerza inica es nula, 1 para la ecuacin lineal o es equivalente a la expansin en
serie ( 1 + o2 6 + o4 120 + ...) para la ecuacin no lineal.

42
Captulo 1. Fundamentos tericos

Uno de los puntos de variacin entre implementaciones es la aplicacin de un modelo


dielctrico para definir el lmite de constantes dielctricas entre el agua y soluto, que puede
coincidir con la superficie molecular o la superficie accesible (Richards surface, van der Waals
surface o la superficie gaussiana de exclusin de solvente).

Adems, se tienen que asignar potenciales en los lmites de la superficie de la malla, en


condiciones no-peridicas (tcnicas de focalizacin, focusing).
Las cargas atmicas y los radios de van der Waals, utilizados para calcular la superficie
accesible, se extraen de parmetros del force field, aunque tambin existen parametrizaciones
especiales para resolver la ecuacin de PB (como el set PARSE desarrollado por Sitkoff 207).

En aplicaciones en dinmica molecular, la ecuacin de Poisson-Boltzmann tiene que ser resuelta


cada vez que la conformacin de la protena cambia, por lo que no resulta factible su uso en
dinmica. Sin embargo, como se ha comentado, los autores de AMBER han desarrollado una
resolucin de dicha ecuacin201 para el tratamiento del campo de reaccin de una capa de aguas,
utilizado en este trabajo.
As, la ecuacin de Poisson-Boltzmann se ha aplicado tradicionalmente en el clculo de
propiedades electrostticas de configuraciones estticas: clculo del potencial electrosttico,
potenciales redox de solvatacin, desplazamientos conformacionales inducidos por el solvente,
flexibilidad de protenas) y en la determinacin del pKa de grupos en protenas.
En este trabajo, se aplica dicha ecuacin para resolver el trmino de energa de interaccin
electrosttica correspondiente a la solvatacin, aplicado al mtodo MM-PBSA descrito en el
apartado 1.4.2. Para ello, se ha usado la resolucin implementada en AMBER8.

1.3.6.3.2. Modelo Generalizado de Born

El mtodo analtico generalizado de Born (GB) supone otra alternativa para el clculo del
trmino electrosttico de la energa libre de solvatacin. Debido a su menor coste
computacional, comparado con PB, esta metodologa se ha convertido en un mtodo bastante
popular en dinmica molecular, para el reemplazo del solvente explcito.

A cada tomo de la molcula le corresponde una esfera de radio i con carga qi centrada en el
ncleo. En el interior del tomo, se asume un material dielctrico de constante 1. La molcula
est envuelta de un solvente de alta permitividad dielctrica (80 para el agua a 300K). La
energa libre electrosttica se determina a partir de la solvatacin individual de Born para cada
tomo, corregida por la perturbacin del resto de tomos, segn la ecuacin [1.38]:

1 1 N N qi q j
Gelec = 1 [1.38]
2 i=1 j =1 f GB (rij , Ri , R j )

Donde rij es la distancia entre cargas, y Ri y Rj son los denominados radios de Born (effective
Born radii).

Uno de los algoritmos ms comunes para fGB es la funcin desarrollada por Still y
colaboradores208 (ecuacin [1.39]):

[ ]
1
f GB = rij2 + Ri R j exp( rij2 4 Ri R j ) 2
[1.39]

Uno de los parmetros ms importantes es el valor de los radios de Born, ya que no son
propiedades atmicas intrnsecas, sino que dependen de la conformacin del soluto, por lo que
se han de recalcular tras cada cambio conformacional. Reflejan el grado de enterramiento de un
tomo en el interior del soluto: para un tomo cercano a la superficie, los radios de Born son
ms pequeos, pudiendo igualarse al radio de van der Waals para aquellos tomos de cadena

43
Captulo 1. Fundamentos tericos

laterales totalmente expuestas al solvente. El clculo de estos radios se deriva de los radios de
van der Waals implementados en el force field o de valores experimentales.

A partir de este modelo, se han generado diversas modificaciones que afectan a la forma de la
funcin fGB y/o al modo en que se calculan los radios efectivos. En este sentido, cada vez se
tiende a obtener funciones analticas ms rpidas, transferibles y que funcionen bien en sistemas
biolgicos.

AMBER8 dispone del modelo de pares de Hawkins-Cramer-Trular (GBHTC)209 y de un nuevo


modelo desarrollado por Onufriev-Bashfor-Case (GBOBC)210. ste ltimo, ha sido diseado para
calcular el radio efectivo de tomos enterrado en macromolculas, para los que el modelo
GBHTC los subestima. El modelo GBOBC es el utilizado en el mtodo MM-GBSA (vase
apartado 1.4.2) para calcular la energa electrosttica de solvatacin.

1.3.7. Constraints y Restraints

En el apartado 1.3.2, se ha comentado la posibilidad de aplicar constricciones o constraints,


como las aplicadas por el algoritmo SHAKE195 o restricciones (restraints) en una dinmica.
Mientras que las primeras congelan unas coordenadas internas especficas, forzando al sistema a
que cumpla una restriccin determinada, las restricciones son funciones que penalizan la
desviacin de las coordenadas respecto a un valor deseado, por lo que se permite el movimiento
dentro de un margen.

El algoritmo SHAKE, ampliamente usado en dinmica molecular, se aplic inicialmente para


establecer enlaces rgidos, basado en el esquema de integracin de Verlet. Consta bsicamente
de dos etapas: i) inicialmente se permite el movimiento de todos los tomos del sistema, sin
imponer constraints segn el algoritmo de integracin y ii) en un segundo paso la desviacin de
cada longitud de enlace se utiliza para calcular la constraint correspondiente que corrige dicho
enlace (ecuacin [1.40]). Dado que la correccin de un enlace puede afectar al resto, se resuelve
de manera iterativa. As, una vez corregidos todos los enlaces, se compara aquella distancia con
la mayor desviacin, si sta supera una tolerancia determinada (10-4-10-8), el proceso se repite
hasta cumplir la convergencia.

ij (dij2 dij' 2 )
Gij 2 o '
dijo [1.40]
2t d d ij ij

La constraint (Gij) tiene la forma de la ecuacin [1.40], donde ij corresponde a la masa


reducida entre dos tomos, dijo y dij y son los vectores de enlace inicial e intermedio y dij es la
distancia de enlace impuesta por la constraint.
Los ngulos se incorporan a este esquema a partir de una constraint de distancia adicional: en
un modelo triatmico como el agua, se impone que los dos tomos en los dos extremos estn a
una determinada distancia. Sin embargo, normalmente se trabaja nicamente con constraints
impuestas a las distancias, ya que la congelacin de enlaces reduce la exploracin del espacio
conformacional.

Junto con la aplicacin del algoritmo SHAKE para la congelacin de la vibracin de los enlaces,
las constraints se aplican en dinmica molecular cuando slo resulta de inters el
comportamiento de una parte del sistema, como el sitio activo.

Las restraints tienen la forma de una ecuacin harmnica (ecuacin [1.41]), en el que k
corresponde a la constante de fuerza y Rij representa la posicin de las conformacin de partida
para el par ij restringido.

44
Captulo 1. Fundamentos tericos

E = k ( Rij Rij INICIAL ) 2 [1.41]

Adems de restringir el sistema de manera general a las coordenadas cartesianas en las que se
encuentra, se puede restringir parmetros particulares como la distancia, ngulo y diedros. Estas
ltimas restricciones estn dirigidas a la introduccin de datos experimentales obtenidos por
RMN en el refinado de los modelos obtenidos.

1.4. Clculo de Energas Libres de Unin Protena-Ligando

En esta seccin se describen los mtodos y funciones utilizadas en este trabajo para evaluar la
afinidad protena-ligando. Como se ha introducido, por una parte se encuentran las funciones de
scoring aplicadas en docking, con simplificaciones en su formulacin, y por otra los mtodos
propiamente dedicados a calcular la energa libre de interaccin.

1.4.1. Funciones de Scoring

Las funciones de scoring utilizadas en este trabajo para el VS con docking son todas empricas.
Se trabaja con los programas AUTODOCK81 y GOLD80, ste ltimo incorpora las funciones
GOLDSCORE80 y CHEMSCORE93.

Estos mtodos utilizan la aproximacin de una master equation (ecuacin [1.42]), formulada
por Ajay y Murcko211, que asume el carcter aditivo de los componentes de la energa libre:

G = Gvdw + G puenteH + Gelec + Gconform + Gtor + Gsol [1.42]

Donde los cuatro primeros trminos corresponden a los trminos tpicos de mecnica molecular
que consideran la interaccin de van der Waals, formacin de puentes de hidrgeno, interaccin
electrosttica y desviaciones de la geometra covalente, respectivamente. Gtor modela la
traslacin y rotacin globales y Gsol incluye la desolvatacin tras la unin del ligando y el
efecto hidrofbico.

1.4.1.1. Funcin de Scoring de AUTODOCK

La master equation de AUTODOCK 3.0, basada en el ciclo termodinmico de Wesson y


Eisenberg (Figura 1.5), consta de cinco trminos (ecuacin [1.43])81:

A B
G = Gvdw 12ij 6ij +

i , j rij rij
C D
G puenteH E (t ) 12ij 10ij + E puenteH +
r rij
i, j ij
q q
Gelec i j +
i , j ( rij ) rij

Gtor N tor +
rij2
Gsol Si V j exp( )
iC , j 2 2
[1.43]

45
Captulo 1. Fundamentos tericos

Estado inicial i Estado final f

Gvaco f-i
Fase gas

Gsi Gsf

Gagua f-i
Fase acuosa

Figura 1.5. Esquema del ciclo termodinmico de Wesson y Eisenberg.

Los coeficientes (G) se determinaron empricamente, por regresin lineal sobre un conjunto de
30 complejos protena-ligando depositados en el Protein Data Bank cuya constante de
inhibicin (Ki) es conocida.
Las contribuciones en fase gas corresponden al potencial 12-6 de Lennard-Jones, a un potencial
12-10 para los puentes de hidrgeno, que tiene en cuenta la dependencia angular del enlace
mediante el trmino E(t), y al potencial electrosttico de Coulomb, considerando una constante
dielctrica dependiente de la distancia de tipo sigmoideo ((r)). El cuarto trmino corresponde a
la contribucin entrpica desfavorable de unin del ligando, proporcional al nmero de enlaces
sp3 en el ligando, Ntor. Finalmente, el trmino de desolvatacin se calcula mediante una variante
del mtodo de Souten et al212 basado en ocupaciones atmicas, en este caso restringido a los
carbonos alifticos y aromticos del ligando. Para cada uno de estos tomos, se evala el
porcentaje de volumen alrededor de este tomo que est ocupado por tomos de la protena y se
pondera con el parmetro de solvatacin atmica de dicho tomo, obtenindose la energa de
desolvatacin. Adems, se aade la constante EpuenteH en el trmino de puentes de hidrgeno,
para modelar la desolvatacin de los tomos polares.
Las sumas se realizan para todos los pares de tomos del ligando (i) y los tomos de la protena
(j) as como para todos los pares de tomos en el ligando que estn separados por tres o ms
enlaces.
La energa de interaccin intramolecular del ligando no se incluye en el clculo de la energa
libre de unin, pero s se considera en la energa total de la conformacin, que es la funcin
objetivo que dirige el proceso de bsqueda del docking.

Para evaluar rpidamente la energa, se precalculan potenciales de afinidad atmica para cada
tipo de tomo presentes en el ligando. La protena se sita en una malla o grid tridimensional y
se coloca un tomo sonda en cada punto de la malla, calculndose dicho mapa de afinidad,
donde cada punto de la malla almacena as la energa experimentada por la sonda debida a todos
los tomos en la macromolcula. El potencial electrosttico se obtiene tpicamente mediante una
sonda de carga puntual +1, aunque tambin se puede calcular por resolucin de la ecuacin de
Poisson-Boltzmann, segn se describe en el apartado 1.3.6.3.1. La energa de cada
conformacin del ligando se calcula por interpolacin trilineal de los valores de afinidad de los
ocho puntos de la malla que rodean a cada tomo en el sustrato.

46
Captulo 1. Fundamentos tericos

1.4.1.2. Funcin de Scoring GOLDSCORE

GOLDSCORE80,213, ecuacin [1.44], incluye tres trminos principales: la energa de


contribucin de puentes de hidrgeno entre ligando y protena (external H-bond, Shb_ext), la
energa de van der Waals protena-ligando (external vdW, Svdw_ext) y la energa interna del
ligando (internal strain, Svdw_int). Opcionalmente, se puede incluir tambin la energa por puentes
de hidrgeno intramolecular (Shb_int).

GOLD Fitness = S hb _ ext + S vdw _ ext + Svdw_int + S hb_int [1.44]

Las caractersticas de los tomos (aceptor o dador de puente de hidrgeno, carcter hidrofbico)
se extraen a partir de la asignacin de los tipos atmicos (normalmente los usados en Sybyl165),
basados en la correcta conectividad de la molcula. A diferencia de AUTODOCK, no utiliza
cargas parciales o formales. As, deduce si un tomo est cargado contando el orden de enlace
de los enlaces que forma y comparando el resultado con la valencia normal del tomo.

El trmino external H-bond resulta de la suma de todas las energas de enlace de puente de
hidrgeno encontradas de todas las posibles combinaciones entre tomos dadores de
puente de hidrgeno del ligando y aceptores de la protena y las combinaciones entre
aceptores del ligando y dadores de puente de hidrgeno de la protena. La contribucin de
un determinado par depende de: i) los tipos atmicos del aceptor y dador, que determinan
la energa mxima ideal del par en el caso de una geometra de puente de hidrgeno ideal y
ii) la ponderacin que atena este valor mximo dependiendo del grado de distorsin
respecto a la geometra ideal. Este peso (w) consiste de dos trminos, uno que incluye la
desviacin de distancia (dist_wt) y otro para la desviacin del ngulo (angulo_wt),
ecuacin [1.45]:

w = dist _ wt angulo _ wt [1.45]

Inicialmente, las energas mximas del par (Epar) se derivaron mediante clculos en fase
gas sobre modelos utilizando un modelo de cargas Mulliken. Para incluir la desolvatacin,
esta energa se calcula como la suma de las energas optimizadas para el par aceptor-dador
(EDA) y entre aguas (EWW) menos las energas sumadas de los enlaces dador-agua (EDW)
y aceptor-agua (EAW).
Posteriormente, se introduce un modelo ms simplista, sin perder precisin en el clculo.
En ste, los pares de puente de hidrgeno entre iones tienen un valor de -10 kcal/mol, para
pares neutros es de -2 or -4 kcal/mol y de -6 kcal/mol cuando slo una de los grupos que
interaccionan est cargado.
La geometra ideal DA corresponde a una distancia de 2.9 y un ngulo de 0 180
grados. La penalizacin de la distancia (dist_wt) se incrementa linealmente con el
alejamiento de la distancia del valor ideal y la penalizacin del ngulo (angulo_wt) se
asigna en funcin de la naturaleza del aceptor del grupo.

El trmino de energa de van der Waals entre protena y ligando resulta de la suma de las
contribuciones de cada par ij, segn un potencial 8-4, ecuacin [1.46]:

A B
Eij = [1.46]
rij8 rij4

Adems del potencial ms suave 8-4 que el tpico 12-6, se aplica tambin un cutoff de
manera que a distancias muy cortas la energa nicamente se incrementa linealmente. De
este modo se permiten interacciones no enlazantes a distancias relativamente cortas, para
compensar que no se introduce flexibilidad en la protena.

47
Captulo 1. Fundamentos tericos

Este trmino se multiplica por un factor (1.375) para incrementar la importancia de las
interacciones hidrofbicas.

El trmino de energa interna del ligando se estima a partir de las funciones de van der
Waals y contribuciones torsionales incluidas en el force field TRIPOS177. Finalmente, el
trmino de energa de puente de hidrgeno intramolecular del ligando se calcula del mismo
modo que el trmino externo correspondiente.

La validacin de esta funcin se realiz sobre una base de datos de 100 complejos, aunque no se
aplicaron tcnicas de regresin lineal de prediccin de energas de unin experimentales para
entrenarla. As, esta funcin ha sido optimizada para la prediccin del modo de unin de
ligandos ms que para la prediccin de afinidades de unin. Sin embargo, sta ltima se puede
calcular a partir de los trminos de contribuciones externas, segn la ecuacin [1.47]:

G = S hb _ ext + 1.375 Svdw _ ext [1.47]

1.4.1.3. Funcin de Scoring CHEMSCORE

A diferencia de GOLDSCORE, CHEMSCORE fue derivada especialmente por Eldridge et al214


para la prediccin de la afinidad de la unin protena-ligando, parametrizndose por regresin
lineal en un conjunto de 82 complejos protena-ligando de constante de inhibicin conocida e
implementndose incialmente en el programa PRO_LEADS78.

La master equation original (ecuacin [1.48]), contiene cinco trminos:

Gbinding _ original = Go +
G puenteH f (rDA , r1 , r2 ) f ( DA , 1 , 2 ) +
DA

Gmetal f (rMA , rm,1 , rm, 2 ) +


MA

Glipo f (rLL , rl ,1 , rl , 2 ) +
LL

Grot H rot
[1.48]

Los coeficientes (G) resultan de la regresin lineal, donde Go corresponde a una lnea de base
independiente del ligando.
El segundo trmino, correspondiente a las interacciones de puentes de hidrgeno, se computa
para cada combinacin dador(D)-aceptor(A) mediante dos funciones dependientes de la
distancia y del ngulo, respectivamente, que evalan la desviacin de dichos parmetros (rDA,
DA) respecto a un valor ideal y un valor mximo. El tercer trmino modela las interacciones
de coordinacin entre cada par establecido metal(M)-aceptor(A) y el cuarto computa las
interacciones lipoflicas (LL) de todos los pares de tomos lipfilos entre protena y ligando. De
nuevo, evalan la desviacin de la distancia del par (rMA,rLL) respecto a un valor ideal (rm,1 , rl,1)
y mximo (rm,2 , rl,2). En los tres casos, se definen como funciones en bloque como la de la
ecuacin [1.49]:

48
Captulo 1. Fundamentos tericos

1 si x < xideal

x xideal
B( x, xideal , xmax ) = 1 si xideal x xmax [1.49]
xideal xmax
0 si x > xmax

El ltimo trmino, Hrot, modela la prdida de entropa conformacional por restriccin de los
enlaces rotables del ligando tras la unin.

La implementacin de CHEMSCORE en el programa GOLD contiene mejoras en el cmputo


de cada uno de los trminos respecto a la funcin original.
As, en GOLD las funciones en bloque se obtienen mediante gaussianas (ecuaciones [1.50] y
[1.51]), para suavizar el efecto en los extremos de los rangos de distancias:

B( x u, x ideal , xmax ) g (u , )du


B' ( x, xideal , xmax , ) =

[1.50]
g (u, )du

g (u , ) = exp( u 2 2 2 ) [1.51]

Adems, se incluye un trmino que penaliza los contactos entre protena-ligando con
impedimento estrico (Eimped) y la energa interna del ligando (Eint), en un esquema similar al de
la implementacin de la funcin CHEMSCORE original en PRO_LEADS78. Se incorpora
tambin un trmino para el tratamiento de interacciones covalentes protena-ligando, en los
casos en que se produzca una unin covalente, (Ecov), resultando en la ecuacin final [1.52]:

Gbinding _ ChemScore _ GOLD = Gbinding _ original + Eimped + Eint + Ecov [1.52]

El trmino Eimped se calcula para todos los pares de tomos distintos de hidrgeno entre protena
y ligando segn la ecuacin [1.53], donde r es la distancia del par y rimped es la distancia a la que
colapsa el par. Cuando r>rimped es nula.

Eimped = imped (r , rimped )

(20 G puenteH ) (rimped r ) rimped pares donor aceptor



imped (r , rimped ) = (20 Gmetal ) (rimped r ) rimped pares metal aceptor [1.53]

1 + 4 (rimped r ) / rimped resto de pares

El trmino Eint corresponde a la suma del trmino rotacional y de impedimento estrico entre
tomos del ligando unidos al menos cuatro enlaces. Finalmente, el trmino de interaccin
covalente contiene una parte torsional y una parte de acoplamiento enlace-ngulo, calculado
sobre las torsiones (CB) y enlaces (BA) que participan en la interaccin covalente segn la
ecuacin [1.54]:

Ecov = tors ( CB ) + Ccov k BA ( BA o , BA ) 2 [1.54]


CB BA

49
Captulo 1. Fundamentos tericos

En este trabajo se utilizan las versiones 2.1 y 3.0 de GOLD. Se destaca que esta ltima versin,
a diferencia de las anteriores, s considera los tomos de carbono como dadores de puente de
hidrgeno en interacciones CHO en la funcin de CHEMSCORE215, interacciones que se ha
demostrado contribuyen a la estabilidad de diferentes complejos protena-ligando216, como las
tirosina quinasas. Una validacin ms reciente de GOLD215 se realiz sobre una base de datos
de 224 complejos.

1.4.2. Molecular Mechanics-Generalized Born Surface Area (MM-GBSA)


Molecular Mechanics-Poisson Boltzman Surface Area (MM-PBSA)

Este mtodo fue desarrollado por Srinivassan y Kollman en 1998. Est basado en mecnica
estadstica, conteniendo los distintos trminos fisicoqumicos que intervienen en el proceso de
unin de un ligando a una protena, fenmeno esquematizado en la Figura 1.6.

Figura 1.6. Esquema de unin de un ligando y protena, con el desordenamiento de aguas que
producen el efecto hidrofbico.

Inicialmente, la protena y el ligando se hayan solvatados por molculas de agua. Tras la unin,
las interacciones intermoleculares no enlazantes (suponiendo que no hay unin covalente),
estabilizan el complejo. El cambio entrpico asociado al proceso es debido a la reduccin de
libertad conformacional del ligando (supone una reduccin de entropa) y por el denominado
efecto hidrofbico producido por el desordenamiento de las molculas de agua, inicialmente
ordenadas en torno al ligando y receptor, contribuyendo positivamente al cambio entrpico.
Termodinmicamente, corresponde a la ecuacin [1.55], donde las interacciones
intermoleculares establecen la variacin entlpica.

Gbinding = H TS [1.55]

De manera similar al mtodo FEP (vase Introduccin), el mtodo MM-PBSA/GBSA utiliza un


ciclo termodinmico para calcular Gbinding. Este ciclo, esquematizado en la Figura 1.7, calcula
la energa de unin a partir de las energas de solvatacin de cada una de las especies qumicas
implicadas (GsolvL, GsolvP, GsolvLP) y de la energa libre de formacin del complejo en fase gas
Ggas, ecuacin [1.56]:

50
Captulo 1. Fundamentos tericos

Gbinding
L aq + P aq L-P aq

-GsolvL -GsolvP -GsolvLP

Ggas
L gas + P gas L-P gas
Figura 1.7. Ciclo termodinmico para el clculo de la energa de unin ProtenaLigando.

Gbinding = Ggas Gsolv


L
Gsolv
P
+ Gsolv
LP
[1.56]
= H gas TS G L
PB / GBSA GP
PB / GBSA + G LP
PB / GBSA [1.57]

donde:

H gas Egas = Einternal + Eelectros + Evdw [1.58]


GPBSA / GBSA = GPB / GB + GSA [1.59]
GPB / GB = GPB
LP
/ GB (GPB / GB + GPB / GB )
L P
[1.60]
GSA = GSA
LP
(GSA
L
+ GSA
P
) [1.61]

Ggas puede escribirse como la suma de la variacin entlpica (Hgas) y entrpica (-TSgas)
(ecuacin [1.57]). A su vez, la entalpa puede escribirse como la energa del potencial en fase
gas que adopta la ecuacin del force field (Egas), donde Einternal representa el potencial de las
interacciones de enlace (ngulos, diedros...), Eelectros corresponde a la variacin en las
interacciones electrostticas y Evdw a las interacciones de van der Waals en fase gaseosa. El
trmino de energa interna (Einternal) se desprecia al asumirse que la energa intramolecular del
ligando no vara significativamente tras la unin, de manera que se facilita el clculo de energas
de unin absolutas y relativas. La variacin entrpica se puede calcular con diferentes
aproximaciones.

La energa de solvatacin de un compuesto viene dada por la contribucin electrosttica, las


interacciones de van der Waals y el trmino de cavitacin (debido a la formacin de la cavidad
en el solvente para albergar al soluto), ecuacin [1.62]:

Gsolv = Gele + Gvdw + Gcav [1.62]

En solvente polares como el agua, la contribucin de las fuerzas dispersiva-repulsivas es


moderada, inferior al trmino de energa de cavitacin. Estos dos trminos, referidos como
contribuciones no polares, se estiman conjuntamente (GSA).
El trmino electrosttico supone la contribucin ms importante, debido a la fuerza de las
interacciones soluto-solvente. Este trmino no solo incluye estas interacciones, sino tambin el
trabajo necesario para generar el campo de reaccin del solvente inducido por la distribucin de
cargas del soluto. Gele equivale a la mitad de la energa de interaccin soluto-solvente. Esta
contribucin electrosttica se evala a partir de modelos continuos del solvente (vase apartado
1.3.6.3): bien a partir de la resolucin de la ecuacin de Poisson-Boltzmann mediante el mtodo
de diferencias finitas (GPB, y el mtodo se denomina MM-PBSA) o mediante un modelo
Generalizado de Born (GGB, MM-GBSA). En teora, los resultados obtenidos por MM-GBSA

51
Captulo 1. Fundamentos tericos

MM-PBSA son similares116, aunque el modelo generalizado de Born es ms rpido. En


resumen, la ecuacin [1.56] puede reformularse como [1.57], a partir de la ecuacin [1.59].

En versiones de AMBER anteriores a la 8, hay que recurrir a programas como DELPHI, UHB o
MEAD para la resolucin de PB, destacando el uso masivo de DELPHI. A partir de AMBER8,
se incorpora un mtodo de resolucin de PB. Por otro lado, el modelo GB se resuelve a partir de
los implementados en AMBER.

El trmino de interacciones no-polares es proporcional a la superficie accesible al solvente


(solvent accesible surface area, SA), que describe el rea sobre la cual se produce contacto
ligandoprotena, segn la ecuacin [1.63]:

GSA = SA + [1.63]

La superficie accesible se determina a partir de la posicin del centro de una sonda esfrica (que
representa una molcula de solvente, de radio 1.4 ) que rueda sobre la superficie de van der
Waals de la protena. Incrementando el valor de los radios de van der Waals por el radio de la
sonda, se obtienen los radios denominados expandidos (expanded atom radii). En la Figura 1.8
se esquematiza este proceso:

Figura 1.8. Representacin de la superficie accesible de una molcula. Extrado de [217].

AMBER8 contempla dos posibilidades para el clculo de SA, i) con el programa molsurf de
Beroza que implementa el algoritmo de Connolly218 o bien ii) con el modelo de combinaciones
lineales de solapamientos entre pares (Linear Combinations of Pairwise Overlaps, LCPO)219. En
este trabajo, nicamente se utiliza el primer modelo.
Los valores de los parmetros de tensin superficial, y , dependen de la parametrizacin de
los radios utilizada para calcular la superficie, ligada al modelo de clculo de interaccin
electrosttica, segn se muestra en la Tabla 1.1.

Tabla 1.1. Constantes para el clculo de GSA en funcin de la parametrizacin de los radios.

(kcal/2) (kcal/mol)

Radios Parse
0.00542 0.92
(Poisson-Boltzmann, DELPHI)

Radios optimizados de AMBER8


0.00500 0.00
(Poisson-Boltzmann, AMBER)

Radios mbondi2 (AMBER8)


0.00720 0.00
Generalizado de Born

52
Captulo 1. Fundamentos tericos

Una caracterstica del mtodo MM-PBSA/MM-GBSA es que no utiliza parmetros empricos,


por lo que puede aplicarse directamente en la estimacin de las energas de unin. En este
sentido, es ms verstil que el mtodo LIE citado en la introduccin.

La evaluacin de cada uno de los trminos que intervienen en la ecuacin [1.57] se toma como
el valor promedio de una serie de snapshots (fotos) de las estructuras tomadas de la
trayectoria de una dinmica molecular realizada en solvente explcito. Se quiere puntualizar que
los modelos implcitos de solvente se aplican nicamente sobre estas estructuras individuales.

Existen dos protocolos posibles para aplicar el mtodo MM-PBSA/GBSA: i) todos los
snapshots para ligando, protena y complejo se extraen de una nica simulacin del complejo y
ii) los snapshots del complejo se extraen de una dinmica del complejo, los de la protena, de
una dinmica de la protena y los snapshots del ligando, de una dinmica sobre l.
La primera opcin asume que la trayectoria que adoptan la protena y el ligando en el complejo
es de energa libre equivalente a la que adoptaran en una trayectoria por separado. Requiere
menos simulaciones, lo que la ha convertido en una alternativa muy generalizada116,122,220,221 a la
par que se sugiere que se trata de una aproximacin suficientemente correcta. Sin embargo,
otros estudios 121,222 inciden en que se debera tomar con ms precaucin cuando se aplica a
protenas cuya flexibilidad y estructura varan de forma significativa tras la unin del ligando.

1.5. Modelizacin de Protenas por homologa

Como se ha introducido, la modelizacin por homologa de protenas se aplica cuando la


protena diana (target) comparte un alto grado de similitud secuencial con otras protenas cuya
estructura est resuelta, sirviendo estas ltimas de plantilla (template). As, el primer paso
consiste en la bsqueda y seleccin de estas plantillas. Una vez alineadas la secuencia diana
frente a la secuencia de las plantillas, se construye el modelo, cuya validez se evala a partir de
criterios estructurales (por ejemplo, mapas de Ramachandran) y datos experimentales, como los
procedentes de experimentos de mutagnesis dirigida, receptores quimricos o informacin del
acoplamiento de alguno de sus ligandos.

1.5.1. Bsqueda de estructuras y secuencias relacionadas con la secuencia objetivo

Generalmente, se utilizan mtodos que comparan la secuencia de la protena objetivo con las
secuencias recopiladas en una base de datos. Destacan los paquetes BLAST223 (Basic Local
Alignment Search Tools) y FASTA224 (Fast Alignment). Ambos contienen una serie de
programas basados en los algoritmos con sus mismos nombres y accesibles a travs de
servidores Web. Se trata de algoritmos de alineamiento heursticos, no garantizan encontrar el
mejor alineamiento entre la secuencia y las secuencias de la base de datos, ya que priorizan la
rapidez del clculo frente a otros algoritmos ms exactos. Deben presentar un balance entre
sensibilidad, es decir la capacidad de detectar el mximo nmero de verdaderos positivos y
especificidad, de manera que se rechacen el mximo nmero posible de falsos positivos. La
significancia de las secuencias encontradas se establece a partir de una serie de parmetros
estadsticos, expresados mediante valores de corte. El concepto de alineamiento y la base de
estos algoritmos se describen en el apartado 1.5.2.

Respecto a las bases de datos, estos programas estn directamente conectados a aquellas ms
importantes, tanto de protenas como de cidos nucleicos. En el caso de protenas, estas bases de
datos pueden contener entradas para la translacin de genes, secuencias de protenas y/o
protenas con estructura tridimensional publicada y bases de datos de patentes.

53
Captulo 1. Fundamentos tericos

El Brookhaven Protein Data Bank60, que contiene nicamente estructuras resueltas de protenas
por rayos-X o RMN, supone la referencia para la seleccin de plantillas en modelizacin por
homologa. Inicialmente, contena tambin modelos tericos, pero desde julio de 2002 stos se
encuentran depositados de forma separada de las estructuras experimentales. Sin embargo, la
bsqueda de secuencias relacionadas con la diana cuya estructura no ha sido resuelta puede
resultar tambin de inters para determinar la familia o subfamilia de la protena diana, el grado
de conservacin de residuos, etc. En este caso, se suele recurrir a bases de datos como SWISS-
PROT225, en la que se indexan todas las protenas secuenciadas y que contiene mltiples
referencias a otras bases de datos. En la Tabla 1.2 se recoge un compendio de las ms
conocidas, utilizadas en este trabajo.

La referencia [231] es una revisin donde se compila informacin acerca de la mayor parte de
estas bases de datos.

Una vez se ha buscado en las bases de datos, se debe revisar individualmente cada plantilla, no
solo para asegurar una buena significancia estadstica, sino tambin para seleccionar aquellas
ms apropiadas segn factores como pertenencia a una misma subfamilia, que compartan un
mismo entorno (solvente, ligandos, pH), la calidad de la resolucin de la estructura, etc.
Tampoco se trata de seleccionar una nica plantilla, ya que el uso de varias de ellas
generalmente incrementa la calidad del modelo.

Los receptores acoplados a protenas G (GPCRs) son una de las familias para las que ms se
recurre a la modelizacin por homologa, debido a su importancia como dianas teraputicas y a
la dificultad de su cristalizacin. nicamente se dispone de la estructura resuelta por rayos-X de
la rodopsina bovina por Palczewski232 en el ao 2000.

Figura 1.9. Ejemplo de bsqueda de estructura en el Protein Data Bank mediante BLAST.

54
Captulo 1. Fundamentos tericos

Tabla 1.2. Bases de datos de secuencias.


CENTRO DE MANTENIMIENTO
BASE DATOS DESCRIPCIN
ACCESO

SWISS- Secuencias de protenas. Mltiples referencias Universidad Ginebra (1986)


PROT225 a otras bases de datos. No redundante Swiss Institute of Bioinformatics (SIB)//
(problema de esto es que no todas las European Bioinformatics Institute(EBI)
secuencias aparecen). http://us.expasy.org/sprot/

TrEMBL225 Suplemento de SWISS-PROT, contiene Universidad Ginebra (1986)


translaciones de las secuencias de nucleotidos Swiss Institute of Bioinformatics (SIB)//
de la base EMBL. European Bioinformatics Institute(EBI)
http://us.expasy.org/sprot/

PIR226 Secuencias de aminocidos. Intenta ser una Margaret Dayhoff (1984).


Protein mezcla entre una base de datos completa y no Protein Identification Resource
Sequence redundante, as est organizada en cuatro http://pir.georgetown.edu/pirwww/
Database (PSD) secciones:
- PIR1: no redundante, slo contiene una
entrada por protena.
- PIR2+PIR3+PIR4: redundante, es muy
completa, pero acepta incluso entradas no
clasificadas o aceptadas.

PDB60 Informacin sobre estructuras resueltas Brookhaven National Laboratory


Protein (NMR, rayos-X), los modelos tericos estn http://www.rcsb.org/pdb/
Data Bank en otro dominio desde julio 2002.
En principio no redundante, slo se mantiene
la mejor determinacin, pero se encuentran
mltiples estructuras para una molcula,
debido a resoluciones parciales, inclusiones de
cofactores

nr223 Mezcla de las anteriores (PDB, PIR y National Center for Biotechnology
non-redundant SwissProt, translaciones de GenBank). Se Information (NCBI)
utiliza por defecto para las bsquedas con http://www.ncbi.nlm.nih.gov/
BLAST. Las entradas con secuencias
absolutamente idnticas se han fusionado.

OWL227 No redundante, compuesta bsicamente a Bleasby (1990). University of Manchester


partir de SWISS-PROT y PIR. Bioinformatics Education and Research
(UMBER)
http://umber.sbs.man.ac.uk/dbbrowser/OWL/

UniProt Unin de UniProtKB/Swiss-Prot, UniProtKB Apweiler (2003)


Knowledgebase /TrEMBL y PIR-PSD. Se propone como una Swiss Institute of Bioinformatics (SIB) //
(Universal de las bases de datos que indexan ms European Bioinformatics Institute(EBI)
Protein informacin para cada entrada, con bajo nivel http://www.ebi.ac.uk/swissprot/access.html
Resource)228 de redundancia.

GPCRDB229 Contiene informacin (secuencia, alinea- Horn (1998). Center for Molecular
mientos, filogenia ...) sobre las GPCRs and Biomolecular Informatics
http://www.gpcr.org/7tm/

Protein Kinase Contiene informacin (secuencia, estructuras University of California. 1997


Resource230 alineamientos, filogenia...) sobre las Protena San Diego SuperComputer Center at UCSD
Quinasas. http://www.kinasenet.org/pkr/Welcome.do

55
Captulo 1. Fundamentos tericos

1.5.2. Alineamiento de Secuencias

El alineamiento es una de las herramientas ms importantes de la bioinformtica, utilizado en


numerosas tareas: reconstruccin de cadenas de DNA largas a partir de solapamientos de
fragmentos, comparacin de secuencias para encontrar similitudes o elementos estructurales
caractersticos, bsqueda en bases de datos, etc.

El modelo ms simple para trabajar con alineamientos parte del concepto de Edit distance entre
dos secuencias, como el mnimo nmero de operaciones (inserciones, deleciones y
sustituciones) necesarias para transformar una secuencia en otra. En general, la Edit Distance, se
evala a partir de una funcin w, que describe los costes de todas estas operaciones, de forma
que el coste de un alineamiento de dos secuencias S y T es la suma de los costes de cada
operacin. El alineamiento ptimo ser aquel que muestre el mnimo coste entre todos los
posibles alineamientos.
Existen diferentes modelos para esta funcin w: Hamming Distance, Levenshtein Distance o
Unit Cost Model y los modelos basados en matrices de sustitucin. stos ltimos son los ms
sofisticados, ya que consideran el significado biolgico de las sustituciones.
Adems de las sustituciones, las eliminaciones e inserciones generan indels (aminocidos de
una secuencia se alinean frente a espacios en blanco) en alguna de las secuencias. Cada serie de
espacios consecutivos en el alineamiento define un gap, caracterizado por su longitud. Cada gap
se entiende como una unidad, ya que ayuda a la bsqueda de mayor significado biolgico (en un
nico evento mutacional pueden aparecen inserciones/deleciones de una subsecuencia). Existen
muchas maneras de evaluar los gaps (gap penalty models), pero en general se penaliza de
manera diferente la abertura de un nuevo gap en el alineamiento (gap opening penalty) y el
hecho de extenderlo (gap extensin penalty).

Cuando se realiza una bsqueda en base de datos o se realiza el alineamiento particular de un


conjunto de secuencias, los parmetros que lo definen son bsicamente: el algoritmo y tipo de
alineamiento, la matriz de sustitucin empleada y el modelo de penalizacin de los gaps.

1.5.2.1. Alineamiento de Secuencias

Se han desarrollado numerosos algoritmos de alineamiento, en funcin del tipo de alineamiento


que se pretende realizar:

Alineamientos globales: de pares de protenas con longitud similar a lo largo de ella,


generalmente relacionadas por un ancestro comn. El algoritmo por excelencia es el de
Needleman-Wunsch233, de programacin dinmica permite encontrar el alineamiento
ptimo sin tener que enumerar explcitamente todas las posibilidades. En las
modificaciones actuales del mismo se permite la introduccin de gaps.
Se construye una matriz de M N, donde M representa a los aminocidos de la protena A
y N a los aminocidos de la protena B. Cada elemento Hij de esta matriz corresponde a un
score ptimo del alineamiento de dos subsecuencias (1i, para A y 1j, para B) de forma
que (1iM, 1jN). El algoritmo avanza desde el elemento superior-izquierdo hasta el
elemento inferior-derecho de la matriz (en la versin original es al contrario). El valor
asignado a cada elemento de la matriz se obtiene segn la ecuacin [1.64]:

H i1, j 1 + wAi ,B j

H i, j = max H i1, j + wAi , [1.64]

H i , j 1 + w ,B j

Donde wAi,Bj corresponde al score de alineamiento de los aminocidos procedentes de cada


protena (segn la matriz de sustitucin) y wAi, y w,Bj corresponden a la penalizacin por

56
Captulo 1. Fundamentos tericos

alineamiento de un aminocido frente a un gap. Se introduce una fila y una columna H0,0
con un espacio y unas condiciones base:
i j
H i.0 = wAk , ; H 0, j = w ,B j [1.65]
k =0 k =0

Una vez asignado el valor del ltimo elemento (HM,N), ste representa el valor del score
global del alineamiento. El alineamiento final se determina recorriendo en sentido
contrario la matriz y escogiendo los elementos de la matriz con valores mayores. El
trazado de subndices indica el alineamiento final resultante.

Alineamientos locales: a partir de dos secuencias de protenas, se intenta encontrar las


subsecuencias de mxima similitud entre ellas, ya que es muy frecuente que dos protenas
nicamente muestren similitud en regiones locales. El ms utilizado es el de Smith-
Waterman234, que tambin es de programacin dinmica. En lugar de mirar cada secuencia
en su globalidad, compara segmentos de todas las longitudes posibles y escoge cualquiera
que maximice la medida de similitud. Corresponde esencialmente al algoritmo de
Needleman-Wunsch, aunque se aade un cero y se modifican las condiciones de partida
para la fila y columna adicionales, para evitar que se obtengan similitudes negativas
(ecuaciones [1.66] y [1.67]):

H i 1, j 1 + wAi , B j

H i 1, j + wAi ,
H i, j = max [1.66]
H i , j 1 + w , B j

0
H i.0 = 0 ; H 0, j = 0 i, j [1.67]

El par de segmentos con mxima similitud lo determina el recorrido inverso desde el


elemento de la matriz con mayor valor Hi,j hasta llegar a un elemento con valor nulo. A
partir del segundo mximo valor de Hi,j se deriva el siguiente par de segmentos y as
sucesivamente.

Alineamientos de final libre (Ends free Alignment) de pares de protenas. El caso ms


comn es cuando una secuencia es relativamente corta respecto a otra y se intenta
encontrar aquella subunidad de la otra que mejor alinea con la primera. Este algoritmo
puede obtenerse rpidamente a partir del algoritmo de Needleman-Wunsch, ya que
principalmente supone el permitir introducir un nmero de indels necesarios en una
secuencia sin que tengan ningn tipo de penalizacin.

Alineamientos mltiples de miembros de una familia de protenas. Un alineamiento


mltiple es ms fiable que uno de un par de secuencias, ya que es ms sencillo detectar
tendencias y evitar posibles artefactos. Este es el punto que presenta mayor variedad de
teoras acerca de cmo implementarse. Por una parte, la ampliacin del algoritmo de
Needleman-Wunsch a N secuencias, aunque posible, en la prctica se ha adaptado
nicamente para el alineamiento de un mximo de tres secuencias.
Una de las aproximaciones ms comunes es realizar una aproximacin de clusters
jerrquicos. En principio, se generan todos los alineamientos de parejas posibles y stos se
agrupan segn un anlisis de clusters jerrquicos. Conforme se asciende por el
dendrograma, se realizan alineamientos de alineamientos previos frente a pares y
alineamientos previos. Para evaluar el valor de la sustitucin en este caso, se utilizan
matrices dependientes de la distancia (profiles) obtenidas promediando los valores de
sustitucin de todos los aminocidos en una posicin determinada.

57
Captulo 1. Fundamentos tericos

En este trabajo se ha utilizado el mdulo de alineamiento del programa MOE38. ste


realiza los alineamientos mltiples en cuatro niveles (Figura 1.10): i) Inicialmente, estima
un primer alineamiento a partir de un esquema en rbol. Para ello, precalcula todos los
alineamientos de parejas posibles, y comienza a agruparlos sucesivamente segn el que
tenga un mayor score. ii) Sobre este alineamiento inicial, se aplican realineamientos
Round-robin (planificacin por turno aleatorio), en los que cada cadena es sucesivamente
extrada del alineamiento total y realineada de nuevo frente a las restantes. iii) Dado que
este segundo paso es dependiente del orden de realineamiento de las secuencias, se aplican
una serie de realineamientos aleatorios en los que se parte el global en dos grupos y stos
dos se vuelven a realinear. Si el resultado mejora, se acepta este nuevo alineamiento, de lo
contrario se rechaza. iv) Finalmente, en un cuarto paso, se puede incluir la estructura de las
protenas para las que se tienen coordenadas (en este caso, las plantillas), de manera que
stas se realinean. Para ello, se genera una matriz de similitud basada en las coordenadas
relativas del esqueleto de carbonos alfa obtenidas por superposicin de las mismas. El
realineamiento se repite hasta no se mejora la RMSD de la superposicin. Entonces, se
introduce el bloque de cadenas alineadas por estructura, tratndose a partir de entonces
como una nica unidad, con el resto de protenas sin estructura y se repiten los pasos desde
i) hasta iii).

Secuencias Esquema en rbol


iniciales Todos los posibles
pares de secuencias
Alineamiento
inicial

Round-Robin
Realineamiento de
cada una de las Alineamiento basado en la
secuencias en el superposicin estructural
alineamiento de los carbonos alfa

Realineamiento aleatorio
de grupos de secuencias

Figura 1.10. Esquema del algoritmo de alineamiento mltiple disponible en MOE.

Alineamientos Heursticos Corresponden a los mtodos para realizar bsquedas en bases


de datos, cuyo objetivo no es la bsqueda del alineamiento ptimo entre secuencias, sino la
identificacin de secuencias similares en un intervalo de tiempo razonable y buena
sensibilidad.

58
Captulo 1. Fundamentos tericos

FASTA se basa en la identificacin de un motivo de palabras (word) conservados entre el


par de secuencias para localizar los posibles puntos de similitud antes de realizar una
bsqueda optimizada. Estas palabras son de una determinada longitud (ktup), normalmente
de valor igual a dos para el caso de protenas, aunque puede ser fijado por el usuario. As
en un primer paso identifica pares de identidades (ktup=2) entre dos secuencias (diana y
una secuencia procedente de la base de datos) mediante una tabla de bsqueda. A
continuacin, se unen los pares presentes en una misma diagonal de la matriz de
secuencias, se evala su similitud mediante una matriz de sustitucin (PAM250) y se
seleccionan las diez mejores regiones locales, que no tienen porqu pertenecer a la misma
diagonal. Cada una de estas regiones corresponde a un alineamiento parcial sin gaps que se
evala de nuevo mediante la matriz PAM250 (scores denominados init1). Aquellas
regiones con init1 superior a un determinado valor cutoff se unen, permitiendo la
introduccin de gaps entre ellos, calculndose de nuevo un score total inicial (initn)
mediante la suma de los init1 individuales menos una penalizacin (20) por cada gap
introducido. Se construye un alineamiento ptimo mediante el algoritmo Needleman-
Wunch-Sellers considerando nicamente el segmento comprendido a 32 residuos de la
mejor regin inicial (opt score). Finalmente, se ordenan todas las secuencias contenidas en
la base de datos en funcin de los scores iniciales u optimizados y aquellas N mejores se
alinean mediante un algoritmo de optimizacin (Needleman-Wunch-Sellers o Smith-
Waterman).

BLAST utiliza tambin palabras (words), en este caso de longitud de tres, identificando
aquellas con un score, evaluado con una matriz de sustitucin, superior a un determinado
valor frontera (T). Cada hit se extiende en ambas direcciones una determinada distancia (X)
para ver si se pueden unir en un alineamiento mayor (maximal segment pair, MSP), que
son de nuevo reevaluados. El programa devuelve el conjunto de alineamientos locales que
excede un determinado score (S). La versin Gapped-BLAST introdujo adems la opcin
de contemplar gaps en los MSPs. El valor de S se establece mediante anlisis estadstico
basado en la probabilidad de que un aminocido se encuentre en una posicin
aleatoriamente y en la distribucin Poisson que siguen los scores obtenidos en los MSPs.
Se obtiene un valor de significancia p, que corresponde a la probabilidad de que un
determinado segmento se identifique fortuitamente. Su fuerte fundamento estadstico, que
le permite asignar cuantitativamente una significancia del resultado, junto con su mayor
rapidez, ha convertido a BLAST en uno de los mtodos ms usados en la bsqueda de
secuencias en bases de datos.

1.5.2.2. Matrices de Sustitucin

Tal y como se ha comentado previamente, los elementos de cada matriz especifican el coste a
asignar a una comparacin entre dos aminocidos. Las ms conocidas son:

Matriz de Identidad: H ij = 1, i = j; H ij = 0, i j

Matriz de cdigo gentico (Genetic Code Matrix): El score est basado en el mnimo
nmero de cambios en nucletidos necesarios para convertir un aminocido en otro (por
ejemplo: de Met a Tyr se necesitan que las 3 posiciones de codon varen para permitir la
mutacin).

Matrices de similitud fisicoqumica: Se intenta cuantificar propiedades fisicoqumicas de


los aminocidos y arbitrariamente asignar costes basados en las similitudes de los residuos
segn estas caractersticas.

Matrices log odds: incluyen informacin de sustituciones para obtener el alineamiento


que mejor refleje la historia evolutiva. El valor log odds, Sij corresponde a la proporcin

59
Captulo 1. Fundamentos tericos

entre la probabilidad de que dos aminocidos i y j se alineen por descendencia y la


probabilidad de que lo hagan por casualidad (ecuacin [1.68]). El valor qij corresponde a la
frecuencia observada en secuencias conocidas en las que se alinearon los aminocidos (i y
j) y pi y pj corresponden a las frecuencias observadas de los aminocidos en un conjunto de
secuencias.

qij
Sij = log [1.68]
pi p j

El uso de estas matrices proporciona una prediccin de la fiabilidad del alineamiento.


Dentro de las matrices log odds, las dos series ms comunes son:

Matrices PAM (Accepted Point Mutation per 100 residues)235. Denominadas tambin
Dayhoff (ya que fueron creadas por Magaret Dayhoff) o MDM (Mutation data Matrix).
Las probabilidades de cambio de un aminocido en otro se derivan a partir de
alineamientos globales de secuencias pertenecientes a una familia de protenas
relacionadas y al menos un 85% idnticas. A partir de ellas, se construye una matriz
normalizada en valores que expresan la probabilidad de que un aminocido de cada 100
sufra una mutacin (PAM-1). El resto de matrices de la serie, para distancias evolutivas
ms grandes, se extrapola a partir de las de menor distancia. As, si se suponen N
mutaciones independientes, se multiplica la PAM-1 por s misma N veces, obtenindose
las PAM160, PAM250... Existen otras matrices desarrolladas por otros grupos, que han
seguido esta metodologa o la han mejorado al utilizar otras bases de datos con ms
ejemplos. Jones y Thornton236 derivaron las matrices PET91 a partir de 2621 familias de
secuencias extradas de SWISS-PROT, aunque es equivalente a una actualizacin de la
PAM120. Gonnet et al237 desarrollan la matriz GONNET, derivada por un proceso
iterativo de alineamiento y refinamiento de la propia matriz. Sin embargo, parece que
no se incrementa la habilidad del sistema para encontrar miembros de la mayora de
familias de protenas238.

Matrices BLOSUM (Blocks Substitution Matrix)238. Creadas por Henikoff. Las


probabilidades de sustitucin se han derivado a partir de un conjunto de unos 2000
motivos conservados (blocks) encontrados en una base de datos de unas 500 protenas
relacionadas. Se trata de alineamientos locales, en los que no se han introducido gaps.
Para asignar la probabilidad, se generan clusters de protenas, de manera que todos
aquellos motivos que presentan un 60% de identidad se agrupan en uno para evaluar las
probabilidades de mutacin y de all se deriva la correspondiente BLOSUM60. Todas
las matrices se calculan directamente, no se utilizan extrapolaciones. A medida se
incrementa el porcentaje de identidad del cluster, la habilidad para diferenciar un
alineamiento correcto de un alineamiento fortuito (entropa relativa) tambin se
incrementa. Sin embargo, tambin se desva el resultado, ya que se focaliza ms la
probabilidad en aquella protena ms probable. Por ello, la BLOSUM62 representa un
compromiso bastante ptimo entre la capacidad de diferenciacin y la focalizacin del
resultado.

Las matrices PAM son ms sensibles para alineamientos de secuencias con homlogos
relacionados evolutivamente. Dentro de ellas, la matriz aconsejada depende del tipo de
alineamiento a realizar: para una bsqueda en base de datos (BLAST/FASTA) se aconseja
la PAM120 y para alineamientos de dos secuencias la PAM200. Otra posibilidad es la de
utilizar combinaciones de ellas. Por ejemplo, para alinear dos secuencias, utilizar la PAM80
y PAM250 conjuntamente o bien la PAM120 y PAM320239. La serie de matrices BLOSUM
generalmente es mejor que la serie PAM para la bsqueda de similitudes locales240, ya que
es posible encontrar alineamientos entre protenas divergentes ms en acuerdo con su

60
Captulo 1. Fundamentos tericos

estructura tridimensional que la correspondiente PAM. La equivalencia entre una serie y


otra es:
PAM100 BLOSUM90
PAM120 BLOSUM80
PAM160 BLOSUM60
PAM200 BLOSUM52
PAM250 BLOSUM45

Como regla, se mantiene:


- Las PAMs menores (PAM120) y BLOSUMs altas (BLOSUM80) se utilizan
principalmente para alineamientos locales de regiones conservadas de alta similitud.
(Hard matrices).
- Las PAMS mayores (PAM250) y BLOSUM menores (BLOSUM45) encuentran
alineamientos entre regiones ms largas y menos conservadas. (Soft matrices).

Respecto a los modelos de penalizacin de gaps, todava no se ha desarrollado una teora


estadstica completa acerca de los gaps en los alineamientos, por lo que los mejores costes para
los gaps se han de determinar empricamente para cada matriz y caso particular, aunque, en
general, la penalizacin para abrir un gap es mayor que la de extenderlo.

1.5.3. Construccin del Modelo

Uno de los mtodos para construir el modelo 3D por homologa es el de modelizacin por
satisfaccin de restricciones espaciales (modeling by satisfaction of spatial restraints), que es el
que implementa el programa MODELLER131 utilizado en este proyecto. El proceso seguido por
MODELLER para modelar la estructura tridimensional parte de la generacin de un primer
modelo crudo obtenido por transferencia de coordenadas entre todos los tomos equivalentes en
el alineamiento de la secuencia diana y la protenas plantilla e interpolacin del resto de
coordenadas indefinidas. Los mtodos de modelizacin implementan una funcin potencial
(score) que pretende ser equivalente a una funcin de energa (funcin de pseudoenerga), de
manera que el valor mnimo de la misma corresponda con la conformacin ms probable de la
protena. La funcin pseudoenergtica o funcin objetivo del MODELLER resulta de considerar
una serie de restricciones, de manera que el mejor modelo sea aquel que viole el mmino
nmero de ellas. Una vez se obtiene un modelo, es usual modelar ab initio los loops, en cuyo
caso las coordenadas iniciales del primer modelo se obtienen aleatoriamente y no por
transferencia de las coordenadas de las plantillas presentes en el alineamiento, aplicndose
posteriormente una optimizacin de dichos loops segn las restricciones calculadas para dicho
segmento.

Estas restricciones son principalmente de dos tipos:

Estereoqumicas: se calculan con mtodos de mcanica molecular, derivadas a partir del


force field CHARMM-22241. No estn basadas en el alineamiento, ya que dependen
nicamente del tipo de tomo y/o residuo. Incluyen los trminos de enlace, ngulo, ngulo
diedro y ngulos diedros impropios, que restringen la planaridad del enlace peptdico, los
anillos de las cadenas laterales y los centros quirales y pro-quirales. Tambin se incluyen
los trminos de interacciones no enlazantes, calculadas a partir de listas dinmicas de
tomos vecinos, como las interacciones de van der Waals segn un potencial de Lennard-
Jones, solapamiento de esferas e interacciones electrostticas de Coulomb. Adems, se
pueden incorporar restricciones para forzar conformaciones de hlice alfa, lminas beta y
puentes de hidrgeno entre pares de lminas beta.

61
Captulo 1. Fundamentos tericos

Derivadas por homologa: se obtienen a partir de las protenas relacionadas


estructuralmente presentes en el alineamiento e incluyen la distancia entre carbonos alfa, la
distancia N-O, los ngulos de la cadena principal (, , ) y los ngulos de las cadenas
laterales (i).

Las restricciones se expresan como funciones de densidad de probabilidad (pdfs, p(x)) para la
propiedad restringida (x). La probabilidad finita de que una propiedad x adopte un valor
comprendido entre x1 y x2 se obtiene segn la ecuacin [1.69]:

x2
p ( x1 x x2 ) = p ( x )dx [1.69]
x1

por lo que es necesario establecer la funcin de probabilidad que mejor defina cada propiedad.
La forma general de esta funcin de probabilidad corresponde a la ecuacin [1.70], que indica
que la probabilidad condicional de la propiedad x viene determinado por los valores conocidos
que adoptan otras propiedades (a,b,c ...):

p( x / a, b,....., c ) [1.70]

Estas propiedades (a,b,c ...), listadas en la Tabla 1.3, se establecieron empricamente por
correlacin de caractersticas estructurales en una base de datos con 17 familias de protenas
respresentativas de las diferentes clases estructurales (clase , clase , clase +, clase /),
alineadas estructuralmente242. La combinacin es emprica, no tienen porqu tener un sentido
fsico, de forma que se ajustan las propiedades para definir cules de ellas tienen un significado
estadstico en el valor que adopta x.

Tabla 1.3. Propiedades (a,b,c..) utilizadas para derivar las probabilidades condicionales de la
propiedad x.

Tipo de residuo (aminocido)


ngulos diedros de la cadena principal ( ,)
Clase de estructura secundaria de este residuo
Clase de conformacin de la cadena principal de este residuo
Contenido fraccional de los residuos que adoptan una determinada conformacin de cadena principal
ngulos diedros de la cadena lateral (1 , 2, 3, 4)
Clase de conformacin de los ngulos diedros
Accesibilidad de solvente de este residuo
Diferencia de vecindad de residuos entre dos residuos equivalentes en dos protenas
Valor medio de la diferencia de vecindad entre dos protenas
Identidad de secuencia relativa entre dos protenas
Diferencia entre las distancias C - C entre residuos equivalentes en dos protenas
Valor medio del factor de temperatura isotrpico de un residuo
Resolucin de la estructura por rayos-X
Distancia media de un par de residuos intramoleculares a un gap en el alineamiento

Esta funcin de probabilidad verdadera se calcula mediante la aproximacin mostrada en la


ecuacin [1.71], donde Wx,a,b,c.... es la frecuencia relativa de ocurrencia de un valor x de la
propiedad espacial a restringir (x) en unas ciertas condiciones de valores de las propiedades
a,b,c..., calculada a partir de la base de datos.

p ( x / a, b,..., c) Wx , a , b ,...c f ( x, a, b,...c, q ) [1.71]

La funcin analtica f se construye de forma que se ajuste lo mejor posible a la tabla de valores
de W :

62
Captulo 1. Fundamentos tericos

rms = [W f ( x, a, b..., c, q )]
2
x , a , b ,...c [1.72]
x , a , b ...c

donde q adopta el valor que minimiza la funcin anterior, ajustada por mnimos cuadrados. La
forma normal de estas funciones f es la de una gaussiana, aunque existen otras posibilidades
como splines cbicos, que pueden ser seleccionadas por el usuario para restricciones especiales.

De este modo, se obtienen las diferentes funciones de densidad de base (basis pdf), ya que
permiten modelar una caracterstica particular de la secuencia objetivo a partir de una nica
secuencia homloga de estructura conocida. Para modelar las caractersticas a partir de varias
estructuras homlogas, estas basis pdf se combinan en lo que se denominan funciones de
probabilidad de parmetros o feature pdfs. Por ejemplo, en el caso de querer obtener la funcin
de densidad para la distancia entre carbonos alfa (C-C) en una determinada protena de
estructura desconocida a partir de dos protenas de estructura conocida (A y B), se debe
combinar la funcin de probabilidad de base que describe la distancia d entre los C de los
residuos equivalentes en el alineamiento de la protena A y la funcin de probabilidad de base de
la distancia equivalente d de la protena B. Adems, se deben tener en cuenta las restricciones
estereoqumicas, por ejemplo, el criterio de van der Waals (distancia superior a la suma de los
radios). En la Figura 1.11 se esquematiza el concepto.

Figura 1.11. Derivacin de una feature


pdf. Extrado de [131].
La lnea contnua corresponde a la feature pdf
del parmetro distancia C-C (pD(d))
resultante de la suma de las basis pdfs (lneas
discontnuas) correspondientes a cada una de
las plantillas (p1d(d) y p2d(d)).

Finalmente, se combinan todas las feature pdfs de los parmetros en una nica funcin de
probabilidad molecular, molecular pdf. Se asume que los diferentes parmetros son
independientes (aunque es errneo, porque por ejemplo, el valor de un ngulo viene muy
influenciado por el valor del ngulo ), de forma que la molecular pdf (P) es el producto de las
feature pdfs [pF(fi)], ecuacin [1.73]:

P = p F ( fi ) [1.73]
i

La molecular pdf expresa la probabilidad de ocurrencia de cualquier combinacin de estos


parmetros simultneamente, a mayor valor de dicha probabilidad, mayor probabilidad de la
estructura tridimensional. La optimizacin de este valor no se realiza sobre la funcin P, sino
sobre su logaritmo neperiano, denominado funcin objetivo (F), ecuacin [1.74], debido a que
es ms asequible computacionalmente transformar el productorio en un sumatorio.

F = ln P = g( f , a, b, c...) [1.74]

63
Captulo 1. Fundamentos tericos

F
o [1.75]
f ( x, y, z)

As, el objetivo de maximizar P se convierte en el de minimizar F. Esta funcin F se deriva en


funcin de los parmetros (f), que a su vez se expresan en funcin de las coordenadas
cartesianas (ecuacin [1.75]). Se expresa en kcal/mol, aunque no sea estrictamente correcto, al
tratarse de una funcin de pseudoenerga.

Para optimizar dicha funcin, se aplica en primer lugar el Variable Target Function Method
(VTFM) que consiste en una serie de minimizaciones de la funcin anterior realizadas con
gradiente conjugado. La particularidad de dicho mtodo es que parte de unas restricciones
locales, de manera que en cada ciclo de minimizacin se introducen ms y ms restricciones
de mayor alcance, hasta llegar a la verdadera molecular pdf, que incorpora todas las
restricciones. Para ello, utiliza un schedule (plan) de n ciclos, en el que se indica la amplitud del
rango de residuos sobre los que acta cada ciclo de la optimizacin junto con los factores de
escalado de la desviacin estndar de cada restriccin (esto permite debilitar la importancia de
ciertas restricciones frente a otras al aumentar la desviacin, la restriccin es ms potente y una
violacin mayor es ms probable). En la librera del MODELLER existen siete schedules
diferentes, dependiendo de la exhaustividad con que se pretenda optimizar. Posteriormente, se
realiza un simulated annealing con dinmica molecular.

1.5.3.1. Construccin de los loops ab initio

El problema de la modelizacin de los loops se puede considerar como un problema reducido de


plegamiento de protenas. La conformacin correcta de un segmento dado de una cadena
polipeptdica tiene que ser calculado principalmente a partir de la secuencia de la propia cadena
ya que, por ejemplo, segmentos de ms de nueve residuos a veces tienen una conformacin
totalmente diferente en diversas protenas.243 Por lo tanto, la conformacin de un segmento dado
viene tambin influenciado el resto de la protena o la estructura central que une el loop.

En general los mtodos de modelizacin de loops se basan en los mtodos ab initio de


bsqueda en una base de datos. Sin embargo, este ltimo presenta bastantes dificultades, como
es el hecho de que slo los segmentos de siete residuos o menos tienen representantes para cada
una de las conformaciones que el segmento puede adoptar.244
En este proyecto se ha utilizado la rutina de construccin de loops implementada en el programa
MODELLER136, por lo que se describe brevemente.

Como se ha comentado, una vez obtenido un modelo, se pueden construir de manera


independiente los loops, seleccionndose una serie de segmentos de residuos (loops) sobre los
que se repite el proceso anterior con algunas modificaciones:

Sobre los tomos seleccionados como loops, se generan las restricciones que actan sobre
ellos. La diferencia es que en este caso se calculan todas las restricciones (incluidas las de
los ngulos , , y ) a partir de una librera y no como derivadas de homologa con
una plantilla (como es el caso de la modelizacin estndar por homologa). A partir de
ellas, se construye la funcin de pseudoenerga (F) que es del mismo tipo que la
anteriormente descrita (ecuacin [1.76]).

64
Captulo 1. Fundamentos tericos

F= k (b b)
enlaces
b
2
+ k ( )
angulos
2
+ k b cos(n + ) + k ( )
diedros impropios
i
2

ln p ( / R) ln p (
diedros
s
residuos
R) ln p
residuos
m ( , R ) + [E (a, a' , d , ) + S (r , r ' , d )]
atomos
i

cadena enlazados
lateral nounidos

[1.76]

b = longitud enlace R = tipo de residuo


= ngulo enlace = factor de escalado que aparece en el
schedule de la optimizacin
= ngulo diedro a, a = tipo de tomos en el par
, , = ngulos de la cadena principal d = distancia entre tomos
= ngulos de la cadena lateral i = diferencia entre ndice de residuo en la secuencia
= ngulo diedro impropio r, r = radios atmicos van der Waals

Los cuatro primeros trminos corresponden a la ecuacin del force field CHARMM182 para
las distancias de enlace, ngulos, ngulos diedros y ngulos impropios (la parametrizacin
de las constantes de fuerza (ki), valores en el punto de equilibrio, fase y periodicidad de los
ngulos diedros tambin se han extrado de la versin CHARMM-22241).
Los tres trminos siguientes de la ecuacin [1.76] se extraen estadsticamente, de forma
similar a lo explicado anteriormente, segn la preferencia de cada residuo hacia un valor
para los ngulos de la cadena principal y cadena lateral (, , i).
El trmino energtico de interacciones no enlazantes tambin est derivado
estadsticamente, a partir de un potencial medio de fuerza dependiente de la distancia para
pares de tomos en protenas245 (esta funcin de score es del tipo de las usadas en mtodos
ab initio, derivadas aplicando el teorema de Boltzmann).

Una vez construidas las restricciones, se borran todas las coordenadas de dichos tomos
del modelo de partida, de manera que se construyen aleatoriamente sus coordenadas de tal
modo que los extremos N-terminal y C-terminal de cada segmento del loop constituyan el
punto de anclaje, desde el cual hacer la bsqueda del espacio conformacional del loop.

El conjunto de la optimizacin se realiza en dos partes: primero, se optimiza como si los


tomos del loop no sintieran el entorno (dado que en la lista de interacciones de no
enlace slo se incluyen aquellos tomos que pertenecen al loop) y a continuacin se
optimiza en el contexto de toda la protena (en la lista de interacciones se incluyen aquellos
tomos que forman pares con tomos del loop, los situados a una distancia inferior a un
cutoff de 4 ).

1.6. Descriptores Moleculares

En una de las primeras publicaciones de estudios QSAR, realizada por Crum Brown y Frazer246
en 1868, los autores relacionan la accin fisiolgica () como una funcin de la constitucin
qumica (C), segn la ecuacin [1.77]:

= f (C ) [1.77]

Actualmente, el principal escollo en obtener una definicin precisa de la funcin f reside en la


caracterizacin de los cambios en la estructura qumica que producen una determinada
respuesta. La informacin estructural y propiedades fisicoqumicas se representan

65
Captulo 1. Fundamentos tericos

numricamente en descriptores que codifican a las molculas. A pesar de la investigacin


terica y experimental en este campo, no existe acuerdo acerca de aquel conjunto de
descriptores ptimo, y dado que diferentes descriptores codifican distinta informacin, la
estrategia consiste en aplicar aquellos ms relevantes segn la particularidad del caso de estudio.
Los descriptores pueden ser tanto tericos como experimentales, resultado de la cuantificacin
de una propiedad o de un procedimiento matemtico y lgico que caracterice a una molcula.

Aunque en la introduccin se han presentado en el apartado de bsquedas de similitud, los


descriptores se utilizan en una amplia variedad de tareas, destacando las tcnicas QSAR y
prediccin de propiedades, clasificacin de compuestos, diseo de quimiotecas diversas,
bsquedas de estructuras en bases de datos e interpretacin de reactividad qumica y
bioqumica.

En el clculo y seleccin de descriptores existe bsicamente un compromiso entre su eficacia y


la eficiencia. La eficacia se entiende como la bondad de un descriptor en trminos de diferenciar
entre molculas diferentes, mientras que la eficiencia hace referencia a la velocidad de clculo
asociada al descriptor. En este sentido, en el anlisis de diversidad/similitud aplicado a
quimiotecas con gran nmero de productos, descriptores como los basados en campos o los
derivados de mecnica cuntica no son eficientes por su elevado coste computacional.

Tambin se han introducido ya dos de los criterios ms tpicos segn los cuales se clasifican los
descriptores: el tipo de representacin qumica requerida (1D, 2D, 3D) y el tipo de
codificacin matemtica. Adems, se pueden clasificar en funcin de:

La invariabilidad de sus propiedades, es decir, su capacidad para rendir un valor


independiente de caractersticas particulares de la representacin del compuesto. Estas
propiedades son la invariabilidad qumica (tipos de tomos o enlaces), invariabilidad
translacional y rotacional (en funcin del marco de referencia espacial) y la conformacin
de la representacin geomtrica. Los descriptores 3D que presentan invariabilidad
translacional y rotacional son particularmente tiles, ya que no requieren el alineamiento
previo de las molculas, por lo que se ahorra tiempo de clculo y se evitan problemas
asociados con el alineamiento.

Su degeneracin o capacidad de evitar asignar valores idnticos a compuestos distintos.

El tipo de propiedad que describen (estricas, electrnicas, lipoflicas, de forma,


descriptores farmacofricos).

En cualquier caso, no existe un nico esquema de clasificacin de los descriptores, aunque entre
las propuestas ms aceptadas destacan la de Todeschini28, cuyo handbook se ha convertido en
una de las referencias bsicas del campo de descriptores. Diferentes esquemas pueden
encontrarse tambin en las referencias [26] y [247].

En el presente trabajo se utilizan una gran variedad de descriptores, principalmente en el diseo


de quimiotecas diversas. En estos casos, se suele incluir un gran nmero de descriptores no
correlacionados ya que, al no estar dirigidas hacia una nica diana particular, no se contemplan
consideraciones especficas, sino todo lo contrario, se desea cubrir un amplio margen de
propiedades ante distintas dianas. En este caso, se calculan los descriptores del programa MOE
versin 2004.03 que incluye unos 200 descriptores, presentados de forma general en las
siguientes secciones. En posteriores versiones de MOE, se ha ampliado este conjunto de
descriptores, principalmente con descriptores mecanocunticos.
Por otra parte, en las bsquedas de similitud se han calculado descriptores farmacofricos
basados en fragmentos 2D y 3D. Dado que se ha profundidazo ms en su fundamento y
aplicacin, se describirn ms detalladamente que los anteriores.

66
Captulo 1. Fundamentos tericos

1.6.1. Descriptores basados en ndices topolgicos

Se basan nicamente en la estructura 2D o topologa de la molcula, derivados


matemticamente del grafo estructural de la molcula. Se distinguen ndices topoestructurales
(que codifican slo la informacin de adyacencia y distancia), ndices topoqumicos (que
adems incluyen propiedades qumicas de los tomos implicados) y los basados en teora de la
informacin. En general, estos ndices contienen informacin relacionada con la forma
molecular, el grado de ramificacin, tamao molecular y la flexibilidad estructural. Entre los
ms conocidos destacan los ndices de conectividad molecular, propuestos por Randic256 y
desarrollados en profundidad por Hall y Kier258-259. Son rpidos de calcular y se ha comprobado
que correlacionan con un amplio rango de propiedades biolgicas.

En la Tabla 1.4 se recogen aquellos utilizados en este trabajo, junto con la palabra clave incluida
en MOE para ellos.

Tabla 1.4. ndices topolgicos utilizados en el trabajo.

NDICES TOPOESTRUCTURALES

ndice de Zagreb248 Zagreb = i2


(Zagreb) i
249-251 1
ndice de Wiener
(weinerPath)
W=
2
d i j
ij

Nmero de Polaridad de Wiener249 1


(weinerPol) 2
d
i j
ij ; sobre d ij = 3

A ( A 1) 2 2 ( A 1) ( A 2) 2
1
= ; =
(1P) 2 ( 2P ) 2
ndices de forma de Kier252 de orden uno, dos y tres ( A 3) ( A 2) 2
3
= ; si A es par, (A>3)
(Kier1,Kier2,Kier3) (3P ) 2
( A 1) ( A 2) 2
3
= ; si A es impar (A>3)
(3P) 2

( )
ndice de Balaban253,254 B 1
J= i j 2 ; C = B A + 1
(balabanJ) C +1 b b
Dimetro Topolgico D = max i
(diameter) i

Radio Topolgico R = min i


(radius) i

ndice de Petitjean255 DR
I2 = 0 I2 1
(petitjean) R

NDICES TOPOQUMICOS

0
= i1 2 ; 1 = ( i j ) 1 2 ;
ndices de Conectividad256, 257 de orden cero, uno y i enlaces
dos 2 path
(chi0,chi1) 2
= (k =1
i j k ) k 1 2

ndices de Conectividad de valencia258,259 de orden


cero, uno y dos
0
v = ( iv )1 2 ; 1 v = ( iv vj )1 2 ;
i i
(chi0v,chi1v)

67
Captulo 1. Fundamentos tericos

2 path
2
v = (
k =1
i j k ) k1 2

( A + ) ( A + 1) 2
=
1
;
(1P + ) 2
( A + 1) ( A + 2) 2
ndices de Forma de Kier260 modificados
2
=
( 2P + ) 2
( A + 3) ( A + 2) 2
(KierA1,KierA2,KierA3) 3
= ; si A es par, (A>3)
(3P + ) 2
( A + 1) ( A + 2) 2
3
= ; si A es impar (A>3)
(3P + ) 2
ndice de Flexibilidad Molecular de Kier261 2
1

(KierFlex)
=
A

NDICES TOPOLGICOS BASADOS EN LA TEORA DE LA INFORMACIN

Contenido de Informacin de un sistema con n


G
elementos I C = ng log 2 ng
(a_IC) g =1

G
Contenido medio de informacin I = n log 2 n ng log 2 ng
g =1

ndice de Contenido medio de informacin de 2B 2B 2B 2B


I adj = log 2 1 log 2 1
V E
igualdad de adyacencia
(VAdjEq) A A A A
ndice de Contenido medio de informacin de
1 1
I adj = 2 B log 2 = 1 + log 2 B
V M
magnitud de adyacencia
(VAdjMa) 2B 2B
ndice de Contenido medio de informacin de D
2g f 2g f
I D = log 2
V E
igualdad de distancia
g =1 A ( A 1) A ( A 1)
(VDistEq)
ndice de Contenido medio de informacin de D
g g
I D = g f log 2
V M
magnitud de distancia
g =1 W W
(VDistMa)
ndice de Contenido medio de informacin de 2N2 2N 2N 2N
I adj = log 22 1 22 log 2 1 22
E E

igualdad de adyacencia de arista B2 B B B


ndice de Contenido medio de informacin de
I adj = 1 + log N 2
E M
magnitud de adyacencia de arista
D
2g f 2g f
ndice de Contenido medio de informacin de I D = log 2
E E

g =1 B ( B 1) B ( B 1)
igualdad de distancia de arista
D
g g
I D = g f log 2 E ;
E M
E
ndice de Contenido medio de informacin de g =1 W W
magnitud de distancia de arista 1 B B E
E
W = dij ndice de Wiener de aristas
2 i =1 j =1
ndice de Informacin total de la composicin Ag Ag
atmica
I ACT = Ah g
A h
log 2
Ah
G
ndice de Informacin o Entropa de Shanon ICr = = p g log 2 p g
(a_ICM) g =1

ICr
ndice de contenido de Informacin Estructural SICr =
log 2 A

68
Captulo 1. Fundamentos tericos

ICr
BICr =
B *
log 2 b
ndice de contenido de Informacin de enlace
b =1
ndice de Informacin complementario CICr = log 2 A ICr

Las distintas definiciones corresponden a:


i: grado de vrtice del tomo i (nmero de tomos pesados adyacentes al tomo). dij: distancia o nmero
de aristas del camino ms corto entre dos tomos. A: nmero de vrtices. B: nmero de enlaces. C:
nmero de anillos independientes y no solapados. mP: nmero de trayectorias, caminos sin tomos
repetidos de orden m que se definen segn el nmero de aristas implicadas. i: suma de los elementos de
la fila i de la matriz de distancias, que contiene las distancias entre todos los pares de vrtices de un
grafo.i: excentricidad atmica, valor mximo de la fila i de la matriz de distancias. v: grado de vrtice
de valencia, definido como el nmero de electrones de valencia menos el nmero de tomos de hidrgeno
enlazados. : mide la relacin entre el radio de covalencia del tomo i relativo al radio del carbono en
configuracin sp3. G: nmero de clases de equivalencia g en el sistema a partir de la definicin de tipos de
relacin de elementos del conjunto. ng: nmero de elementos de la clase g. pg: probabilidad de seleccionar
aleatoriamente un elemento de la clase g (pg=ng/n). gf: nmero de distancias iguales en la submatriz
triangular de distancias. N2: nmero de trayectorias de orden dos. Ah: nmero total de tomos, incluyendo
hidrgenos. Ag: nmero de tomos pertenecientes al mismo elemento qumico. b : orden del enlace b.
*

1.6.2. Descriptores de forma

Tabla 1.5. Descriptores de Forma.

Nmero de condicin inverso (menor valor propio/mayor valor


Globuralidad propio) de la matriz de covarianza de las coordenadas atmicas.
(glob) Un valor de uno corresponde a una esfera perfecta y un valor de 0
a una molcula mono- o bidimensional.
A

Momento de Inercia Principal


I= m r
i =1
i i
2
;
(pmi) mi (masa atmica), ri (distancia del tomo i al eje)

A A
Radio de Giro r i
2
m r i i
2

(rgyr) Rg1 = ; Rg 2 =
i =1 i =1
A MW
Raz cuadrada del primer, segundo y tercer valor propio mayor de
Primera, Segunda y Tercera
la matriz de covarianza de coordenadas atmicas. Equivalente a la
Dimensin Standard
desviacin estndar a lo largo de los ejes de componentes
(std_dim1,std_dim2,std_dim3)
principales.
rea de la superficie de van der Waals. Se puede calcular segn
Superficie Molecular
una representacin polidrica para cada tomo (VSA) o mediante
(VSA)
una tabla de conexiones (vdw_area)
Volumen molecular de van der Volumen delimitado por la superficie molecular. Se puede
Waals calcular mediante una aproximacin en mallas (vol) o una
(VMVDW) aproximacin mediante una tabla de conexiones (vdw_vol).

1.6.3. Descriptores de propiedades fisicoqumicas

Estos descriptores son los ms aplicados en tcnicas QSAR. Se clasifican tambin


tradicionalmente en varias categoras, segn describan propiedades hidrofbicas, estricas y
efectos electrnicos. Adems, se incluyen tambin los descriptores mecanocunticos (energas
del HOMO y el LUMO, entalpa de formacin, potencial de ionizacin, energa electrnica,

69
Captulo 1. Fundamentos tericos

energa de solvatacin) o propiedades estructurales (peso molecular, nmero de enlaces


rotables, nmero de centros quirales). En la Tabla 1.6 se detallan aquellos utilizados en este
trabajo, junto con la palabra clave incluida en MOE para ellos.

Tabla 1.6. Descriptores de propiedades fisicoqumicas.

Peso Molecular Descriptor 0D, reflejo del tamao molecular y tipo de tomos
(Weight) constituyentes del compuesto.
Descriptor electrnico 3D, codifica el desplazamiento respecto al
Momento Dipolar
centro de gravedad de densidad de cargas parciales positivas y
(Dipole)
negativas. Es el ejemplo ms simple de un descriptor libre de
(AM1_dipole, MNDO_dipole,
alineamiento, ya que no depende de la orientacin absoluta en el
PM3_dipole)
espacio.
Descriptor electrnico. La polarizabilidad atmica (i)
corresponde a la relacin entre el momento dipolar inducido en
Suma de Polarizabilidades atmicas
un tomo y el campo elctrico inductor. La suma de
(apol)
polarizabilidades atmicas es una buena aproximacin a la
polarizabilidad molecular.
A A
bpol bpol = i j donde i es la polarizabilidad atmica
i =1 j > i

Densidad Relacin tener el peso y el volumen molecular (VMVDW)


(density dens) Dependiendo del mtodo de clculo de VMVDW, MOE distingue
dos densidades: i) density, con vdw_vol y ii) dens con vol
Es el descriptor ms recurrido para efectos hidrofbicos, junto
con el parmetro de hidrofobicidad desarrollado por Hansch.
Existen varios modelos para calcularlo, normalmente por modelos
Logaritmo del Coeficiente de
fragmentales, donde se adicionan contribuciones atmicas,
Particin Octanol/Agua.
definidas para cada tipo de tomo e hibridacin.
(SlogP logP(o/w))
MOE dispone del mtodo de Ghose-Crippen262,263 (SlogP) y de un
modelo lineal basado en tipos atmicos ajustado sobre 1847
molculas (logP(o/w))264.
Descriptor estrico, definido por la ecuacin de Lorentz-Lorenz:
n 2 1 MW
MR = 2 siendo n el ndice de refraccin.
Refractividad Molecular(MR) n +2 d
(SMR mr) MR es una propiedad aditiva-constitutiva, por lo que se puede
calcular mediante modelos aditivos de contribucin atmica de
Ghose-Crippen (SMR262) o a partir de un modelo lineal de once
descriptores sobre 1947 molculas (mr265)
Energa del HOMO
Medida de la nucleofilia de un compuesto (reactividad).
(AM1_HOMO)
Energa del LUMO
Medida de la electrofilia de un compuesto (reactividad).
(AM1_LUMO)
Energa total y electrnica de la
molcula Calculada en distintos Hamiltonianos (MNDO, PM3, AM1) con
(AM1_E, MNDO_E, PM3_E) el programa MOPAC267.
(AM1_Eele,MNDO_Eele,PM3_Eele)
Medida de la estabilidad trmica de un compuesto. Calculada en
Entalpa de Formacin
distintos Hamiltonianos (MNDO, PM3, AM1) en el programa
(AM1_HF, MNDO_HF, PM3_HF)
MOPAC267.
Medida de la estabilidad trmica de un compuesto. Calculada en
Potencial de Ionizacin
distintos Hamiltonianos (MNDO, PM3, AM1) en el programa
(AM1_IP, MNDO_IP,PM3_IP)
MOPAC267.
FCharge Carga total de la molcula (suma de cargas parciales)
Superficie molecular Accesible Descriptor 3D, corresponde a la superfice accesible al agua
(ASA) calculada mediante una esfera-sonda de 1.4 .
rea de la superficie Polar Descriptor 2D, se calcula a partir de contribuciones de grupo,
(TPSA) segn la parametrizacin de Ertl et al.267
Descriptores derivados de la Energa Desde la propia energa potencial segn el force field (E) a

70
Captulo 1. Fundamentos tericos

Potencial o Force Field trminos de ella (E_ang, E_ele, E_nb, E_sol, E_str, E_vdw,
E_tor, E_stb).
En MOE, se pueden utilizar las cargas parciales calculadas
previamente (serie Q_*) o calcularse mediante el mtodo PEOE
(Partial Equalization of Orbital Electronegativities) de
Gasteiger170 (serie de descriptores PEOE_*), basado nicamente
Descriptores de Carga Parcial en topologa.
Estos descriptores comprenden la suma de cargas parciales
positivas (Q_PC+, PEOE_PC+), de cargas parciales negativas
(Q_PC-, PEOE_PC-) y sus correspondientes valores relativos
(Q_RPC+, PEOE_RPC+, Q_RPC-, PEOE_RPC-).

DESCRIPTORES DE CARGA PARCIAL Y REA DE SUPERFICIE

Combinan la informacin electrnica y de forma. Dentro de MOE, se diferencian dos subconjuntos


dependiendo de cmo cuantifiquen la forma de cada tomo: i) para cada tomo se cuantifica, una
superficie de van der Waals (i) segn una tabla de conexiones (descripcin 2D, serie *_VSA_*) o ii) se
calcula el rea de la superficie molecular accesible (SAi) a partir de una esfera-sonda de 1.4
(descripcin 3D, serie *_ASA_*)268.

Q_VSA_POS rea positiva total de la superficie de van der Waals. Suma de


PEOE_VSA_POS todos los i cuya carga parcial qi>0.
Q_VSA_NEG rea negativa total de la superficie de van der Waals. Suma de
PEOE_VSA_NEG todos los i cuya carga parcial qi<0.
Q_VSA_PPOS rea positiva polar total de la superficie de van der Waals. Suma
PEOE_VSA_PPOS de todos los i cuya carga parcial qi > 0.2
Q_VSA_PNEG rea negativa polar total de la superficie de van der Waals. Suma
PEOE_VSA_PNEG de todos los i cuya carga parcial qi < -0.2
Q_VSA_HYD rea hidrofbica total de la superficie de van der Waals. Suma de
PEOE_VSA_HYD todos los i cuya carga parcial absoluta |qi| 0.2
Q_VSA_POL rea polar total de la superficie de van der Waals. Suma de todos
PEOE_VSA_POL los i cuya carga parcial absoluta |qi| > 0.2
Q_VSA_FPOS rea positiva fraccional de la superficie de van der Waals.
PEOE_VSA_FPOS Relacin entre *_VSA_POS y VSA.
Q_VSA_FNEG rea negativa fraccional de la superficie de van der Waals.
PEOE_VSA_FNEG Relacin entre *_VSA_NEG y VSA.
Q_VSA_FPPOS rea positiva polar fraccional de la superficie de van der Waals.
PEOE_VSA_FPPOS Relacin entre *_VSA_PPOS y VSA.
Q_VSA_FPNEG rea negativa polar fraccional de la superficie de van der Waals.
PEOE_VSA_FPNEG Relacin entre *_VSA_PNEG y VSA.
Q_VSA_FHYD rea hidrofbica fraccional de la superficie de van der Waals.
PEOE_VSA_FHYD Relacin entre *_VSA_HYD y VSA
Q_VSA_FPOL rea polar fraccional de la superficie de van der Waals. Relacin
PEOE_VSA_FPOL entre *_VSA_POL y VSA
Superficie accesible al agua de todos los tomos con carga parcial
ASA+
positiva. Suma de todos los SAi cuya carga parcial qi>0.
Superficie accesible al agua de todos los tomos con carga parcial
ASA-
negativa. Suma de todos los SAi cuya carga parcial qi<0.
Superficie accesible al agua de todos los tomos hidrofbicos.
ASA_H
Suma de todos los SAi cuya carga parcial |qi|<0.2
Superficie accesible al agua de todos los tomos polares. Suma de
ASA_P
todos los SAi cuya carga parcial |qi|0.2
DASA Valor absoluto de la diferencia entre ASA+ y ASA-
Superficie accesible al agua ponderada por la carga parcial
CASA+
positiva. Producto de ASA+ por la mxima carga positiva268.
Superficie accesible al agua ponderada por la carga parcial
CASA-
negativa. Producto de ASA- por la mxima carga negativa268.
DCASA Valor absoluto de la diferencia entre CASA+ y CASA-268.
FASA+ ASA+ fraccional: ASA+ / ASA

71
Captulo 1. Fundamentos tericos

FASA- ASA- fraccional: ASA- / ASA


FCASA+ CASA+ fraccional: CASA+ / ASA
FCASA- CASA- fraccional: CASA- / ASA
FASA_H ASA_H fraccional: ASA_H/ ASA
FASA_P ASA_P fraccional: ASA_P / ASA

Adems, para una determinada propiedad aditiva-constitutiva, se pueden obtener los


descriptores denominados Subdivided Surface Areas. Para cada tomo, se calcula una superficie
de van der Waals aproximada (i), segn una tabla de conectividades (descriptores 2D). El
rango de una propiedad fisicoqumica (SlogP, SMR, cargas parciales) se divide en distintos bins
que comprenden un rango de valores y se cuenta la contribucin de i de todos aquellos tomos
cuya contribucin atmica a la propiedad en cuestin se encuentre dentro de este rango. As, en
MOE se definen las series: SlogP_VSA (SlogP distribuido en diez bins), SMR_VSA (SMR
dividido en ocho bins) y PEOE_VSA (cargas parciales partidas en catorce bins).

1.6.4. Descriptores count-based

Simplemente cuentan instancias de los building blocks bsicos de molculas como tomos,
enlaces o anillos. Son muy rpidos de calcular, pero no son muy apropiados para discriminar
correctamente entre molculas, por lo que su uso no es muy comn, excepto aquellos
relacionados con propiedades fisicoqumicas o farmacofricas (nmero de enlaces rotables o de
aceptores/dadores de puente de hidrgeno). En la Tabla 1.7 se muestran aquellos ms relevantes
implementados en MOE.

Tabla 1.7. Descriptores count-based.

Indicador de la presencia de grupos reactivos, basados en el


Reactive
conjunto propuesto por Oprea17.
b_count Nmero de enlaces
b_rotN Nmero de enlaces rotables
b_rotR Fraccin de enlaces rotables
Nmero de enlaces rotables simples (no forma parte de un anillo y
b_1rotR
no es conjugado)
b_1rotR Fraccin de enlaces rotables simples
b_ar Nmero de enlaces aromticos
b_single Nmero de enlaces simples.
b_doble Nmero de enlaces dobles
b_triple Nmero de enlaces triples
Nmero de aceptores de puente de hidrgeno (incluyendo tomos
a_acc
que actan tanto como aceptores o dadores, -OH).
a_acid Nmero de tomos acdicos
a_base Nmero de tomos bsicos
Nmero de dadores de puente de hidrgeno (incluyendo tomos
a_don
que actan tanto como aceptores o dadores, -OH).
a_hyd Nmero de tomos hidrofbicos

1.6.5. Descriptores Farmacofricos basados en fragmentos 2D y 3D

El origen de los descriptores o fingerprints farmacofricos se encuentra en las bsquedas de


subestructuras en un espacio bidimensional. As, las dos primeras aplicaciones de bsquedas de
similitud aparecieron a mediados de los 80269,270, donde se introduce el concepto de pares
atmicos o atom pairs, definidos a partir de un par de tipos atmicos y la distancia entre ellos,
definida a partir del mnimo recorrido en el grafo.

72
Captulo 1. Fundamentos tericos

En un principio, el tipo atmico se define a partir del elemento atmico, el nmero de enlaces
con tomos pesados y el nmero de enlaces . Esta definicin de tipo atmico se amplia en
sucesivos trabajos de modo que no sea tan restrictiva y especfica. Adems del concepto de
pares atmicos, otros fragmentos 2D tpicos de subestructuras son: el tomo aumentado
(augmented Atom), la secuencia atmica (atom sequence), la secuencia de anillo (ring sequence)
y la torsin topolgica (topological torsion).

Posteriormente, se ampla el concepto de fragmento 2D a su correspondiente equivalente


tridimensional, diferencindose entre aquellos fingerprints basados en distancias o en ngulos.

Mtodos basados en distancias:

En 1991, Pepperrell et al271 desarrollan un mtodo basado en la distribucin de distancias


entre pares de tomos. Se realiza una particin en rangos de la distancia, obtenindose
distintos bins, y cada una de las posibles distancias en una molcula contribuye con un
valor de uno al bin que incluye esta distancia. La distribucin de frecuencias resultante se
utiliza para describir la molcula.

O
4.9 Figura 1.12. Ejemplo de asignacin de un atom
N
pair a un binning scheme en funcin de la distancia
O N
medida.

bin 2 bin 3 bin 4 bin 5 bin 6 bin 7 bin 8


3.3 4.0 4.7 5.4 6.1 6.8 7.5

En 1992, Bemis y Kuntz272 describen tambin un mtodo basado en distribucin de


distancias ampliando el concepto a tripletes de tomos. A partir de la estructura
tridimensional del compuesto, se construye la matriz de distancias interatmicas y se
analizan cada una de las combinaciones de tres tomos posibles. Para cada triplete,
caracterizado por distancias entre s de n1, n2 y n3 se calcula el valor del permetro del
correspondiente tringulo segn la ecuacin [1.78], asignndose este valor a un bin de una
distribucin compuesta por 64 celdas.

P = n12 + n22 + n32 [1.78]

Las distribuciones se comparan entre s mediante el coeficiente de Tanimoto. Esta


codificacin de la distancia, se ampla posteriormente a combinaciones de dos tomos y
cuatro tomos273.
Posteriormente, Nilakantan274 utiliza tambin las tres distancias interatmicas (n1, n2 y n3)
para cada conjunto posible de tres tomos pesados (tripletes), y segn las ecuaciones [1.79]
y [1.80] calculan un valor entero que caracteriza al triplete. La comparacin de cdigos
entre molculas la realiza mediante el coeficiente de Dice y un coeficiente de asimetra.

n1 n2 n3 [1.79]
n1 + 1000 n2 + 1000000n3 [1.80]

Mtodos basados en ngulos:

Bath273 propone dos tipos de medidas basadas en ngulos a partir de la torsin de cuatro
tomos: A-B-C-D (Figura 1.13). En la primera de ellas, BNB measure, se consideran todas

73
Captulo 1. Fundamentos tericos

aquellas posibles torsiones del tipo A-BC-D en las que los pares A-B y C-D estn
enlazados, pero no los tomos B-C. El ndice se establece a partir de la media aritmtica de
los ngulos ABC y BDC (n1), el valor absoluto de la torsin (n2) y la distancia interatmica
B-C (n3), segn la ecuacin [1.81]:

n1 + 180 n2 + 180 2 n3 [1.81]

De manera anloga a los mtodos basados en distancias, se generan todos los posibles
ndices de todos los fragmentos BNB de una molcula referencia y su distribucin se
compara, mediante el coeficiente de Tanimoto, con la del resto de molculas de la base de
datos.
La otra medida, denominada NBN measure, considera todas las posibles torsiones del tipo
AB-CD, en la que nicamente est enlazado el par B-C. El cdigo en este caso se
establece a partir del valor del ngulo diedro (n1) y la suma de las aristas de los tringulos
formados por ABC (n2) y ACD (n3), redondeados a su entero ms prximo, segn la
ecuacin [1.82]:

n1 + 10 n2 + 1000 n3 [1.82]

De nuevo, para cada molcula se obtiene la distribucin de cdigos de cada uno de los
posibles fragmentos NBN.

A n3
n1 = 0.5 (torsin ABC + torsin n2
BNB measure
B C BCD)
n2 = torsin ABCD
n3 = BC
D

n1
A D n1 = torsin ABCD
n2 = 0.5 (AB +AD + BD) NBN measure
n3 = 0.5 (AC +AD + CD)
B C

Figura 1.13. Descripcin de los fragmentos BNB y NBN. Adaptado de [273].

El siguiente paso en el desarrollo de fingerprints farmacofricos consisti en la ampliacin de la


definicin de tipo de tomo segn su dependencia a una clase. Estas clases, se establecen a
partir de criterios fisicoqumicos o farmacofricos.

Good y Kuntz275 proponen la reduccin del nmero de puntos posibles trabajando con cinco
tipos atmicos en lugar de todos los tomos constituyentes de la molcula. Construyen tripletes
de estos tomos, con las distancias medidas en el espacio Eucldeo y donde cada triplete queda
caracterizado por: i) el permetro del tringulo formado por los tres tomos, almacenado en una
particin de 4 bytes y ii) la desviacin de este tringulo respecto a un tringulo equiltero,
cuantificada en trminos de la relacin del rea del tringulo obtenido con el rea mxima de un
tringulo equiltero. Esta relacin se reas se parte en un espacio de 10 bytes. Los cinco tipos
atmicos generan un total de 35 posibles tripletes, de forma que el espacio de almacenamiento
total por molcula es de 1400 bytes (10435).

Sheridan276 introduce en el ao 1996 lo que define como binding property pair, en el que cada
tomo se clasifica segn siete posibles tipos: catin, anin, dador de puente de hidrgeno,
aceptor de puente de hidrgeno, polar, hidrofbico u otro. A partir de ellos, se establecen los
pares atmicos medidos en distancia Eucldea.

74
Captulo 1. Fundamentos tericos

El rango de distancias se particiona en bins e incluye la ponderacin de la contribucin de cada


distancia de un par atmico a cada bin en funcin de su cercana al centro de los bins vecinos.
As, un par atmico puede ocupar ms de un bin. Por ejemplo, para una particin con un bin1
centrado en 4.1 y otro bin2 centrado en 4.9 , un par atmico con distancia 4.7 contribuir
con 0.25 al bin1 y con 0.75 al bin2.

Similarmente, el grupo de Abbot laboratorios29 desarrolla dos descriptores basados en puntos


potenciales farmacofricos (potencial phamacophore point, PPP): PPP-pairs y PPP-triangles.
Definen cinco tipos atmicos segn el programa 3D-FEATURES: dadores y aceptores de
puente de hidrgeno, tomos positiva y negativamente cargados y tomos hidrofbicos.
El descriptor PPP-pairs codifica la informacin de las distancias Eucldeas contenidas en todos
los posibles pares de PPPs segn tres esquemas:

Una cadena de bits se divide en secciones segn los valores de mnimo, mximo y
anchura definidos por el usuario.

Se permite el solapamiento de los bins: cada bin viene codificado por dos bits. En el
primer bin se asigna un uno si la distancia medida corresponde al rango de valores que
codifica. En el segundo bit del bin se coloca un uno si la distancia no cae en los lmites
del bin, si lo hace, entonces se coloca el uno en el segundo bit del bin contiguo. El
solapamiento se especifica segn un porcentaje de la anchura del bin.

En lugar de utilizar una particin en bins equifrecuentes, la anchura de stos se deduce


de la distribucin de frecuencias de distancias interatmicas en una base de datos. As,
se define la posicin de un bit en un bin segn la ecuacin [1.83]:

Distancia_PPP 3
Nmero_Bin = (int) 5 tan 1 + 6 [1.83]
2

El descriptor PPP-triangles codifica todas las combinaciones de tripletes entre PPPs presentes
en una molcula. Cada una de las 35 posibles combinaciones se coloca en un bit de una cadena
segn su distancia Eucldea. La particin en bins se realiza segn un valor mnimo (2 ),
mximo (15 ) y con una anchura de bin de 1 . Debido al elevado nmero de bits necesario
para codificar cada molcula, la codificacin se realiza en forma de hashed fingerprint, (vase
Introduccin) reducindose el almacenamiento en memoria.

Otra aproximacin basada en tripletes de puntos farmacofricos 3D es la propuesta por


Pickett277 en el mdulo ChemDiverse. En este caso, se definen 6 PPPs (aceptor/dador de puente
de hidrgeno, tomos cidos y bsicos, centros aromticos e hidrofbicos). La particin de
distancias en bins comprende seis rangos: 2-4.5, 4.5-7, 7-10, 10-14, 14-19 y de 19-24 . Estos
descriptores se aplican en el diseo de quimiotecas diversas.

El programa PharmPrint278 calcula tambin fingerprints farmacofricos basados en tripletes


segn el esquema de particin en distancias presentado por Pickett, aunque incorpora dos
restricciones para reducir el nmero de combinaciones posibles: i) la regla del tringulo, de
manera que la longitud de cada lado de un tringulo no supere la suma de las longitudes de las
otras dos aristas y ii) elimina aquellos farmacforos redundantes por simetra. Se describe su
aplicacin hacia el diseo focalizado de quimiotecas.

Finalmente, en 1999 Mason y colaboradores279 introducen un fingerprint basado en 4 puntos,


dirigido a ampliar la resolucin de los descriptores farmacofricos y permitiendo la inclusin de
la quiralidad. Consideran siete features farmacofricas (aceptores/dadores de puente de
hidrgeno, centros cidos, centros bsicos, regiones hidrofbicas, centros aromticos y una
caracterizacin extra). Esta caracterizacin es flexible, permitiendo la definicin de puntos

75
Captulo 1. Fundamentos tericos

especiales diseados especficamente para codificar subestructuras privilegiadas sobre dianas


particulares. Permite tambin la generacin de fingerprints complementarios al sitio activo de
una protena. Incorporan dos esquemas de particin de distancias en siete o diez rangos, cuyos
tamaos se fijan segn un porcentaje fijo de variacin a partir del centro del rango (15%), de
manera que distancias mayores se correspondan a rangos de valores superiores.

En la Figura 1.14 se esquematizan los farmacforos basados en dos, tres y cuatro puntos.
Mientras que un par atmico queda caracterizado por una distancia, un triplete necesita tres
distancias y el tetraedro, seis. El elevado nmero de combinaciones posibles en los tetraedros,
generando cadenas de bits con gran requerimiento de memoria, conduce a que el esquema de
particin de distancias incluya menos rangos.

2 puntos (Atom pairs) 3 puntos (Triplets) 4 puntos (Tetrahedron)

N N N

N N N N N N N N N
N N N N N N
O O O O O O

Figura 1.14. Representacin de fingerprints farmacofricos basados en dos, tres y cuatro puntos.

En el ao 2000, Tripos280 fusiona todas las combinaciones de tupletes en un fingerprint


mltiple, codificado mediante mapas de bit y permitiendo as un almacenamiento ms eficiente.

Desarrollos posteriores, como el del mtodo ToPD281 (total pharmacophore diversity) calculan
las distancias entre pares de tomos basados en la feature farmacofrica y la forma, calculada a
partir de todos los tomos pesados presentes en una molcula. La caracterizacin farmacofrica
no se realiza nicamente midiendo las distancias entre PPPs, sino que se determinan las
distancias de cada uno de los PPPs al resto de tomos pesados de la molcula. De este modo, se
muestrea la posicin relativa de todos los PPPs sobre la forma global de la molcula. En este
caso, la codificacin no es binaria, sino que se generan representaciones para cada una de las
caractersticas que posteriormente son descritas segn parmetros estadsticos.

Finalmente, Hovarth282 incluye el concepto de fuzziness (difusin) en los denominados Fuzzy


Bipolar Pharmacophore Autocorrelograms (FBPA). Se trata de vectores de nmeros reales, en
lugar de fingerprints binarios, que se ha mostrado muestran un buen comportamiento de
vecindad estructural-biolgica.

Los descriptores fingerprint farmacofricos usados en este trabajo son los CATS (Chemically
Advanced Template Search) desarrollados por Schneider et al43, en un primer momento
introducidos como descriptores 2D (CATS2D) y extrapolados a 3D (CATS3D) en versiones
posteriores283.
La versin original considera cinco tipos de tomos generalizados: dador de puente de
hidrgeno (D), aceptor de puente de hidrgeno (A), tomo cargado positivamente (P), tomo
cargado negativamente (N) y centros lipoflicos (L). La distancia se mide como el nmero de
enlaces a lo largo del camino ms corto que conecta dos nodos del grafo (CATS2D). En total,
estas distancias estn clasificadas en 10 particiones (de un mnimo de 0 enlaces a un mximo de
9 enlaces), por lo que el nmero de bits necesarios o dimensin del fingerprint corresponde a
150 (15 combinaciones de pares 10 distancias de binning). Cada una de las 15 posibles
combinaciones de pares (DD, DA, DP, DN, DL, AA, AP, AN, AL, PP, PN, PL, NN, NL, LL) se

76
Captulo 1. Fundamentos tericos

escala en funcin de las ocurrencias totales del par correspondiente. En la Figura I.4 de la
Introduccin se esquematiza el proceso de derivacin tpica de los CATS. El vector de
correlacin obtenido (CV) corresponde a la ecuacin [1.84]:

A B
1 1
CVdTP =
A+ B
2
i =1 j =1
TP
ij , d [1.84]

Donde i y j son los tomos, d es el rango de distancias, TP corresponden a los tipos de tomos
del par de tomos i y j, A y B son el nmero total de tomos del tipo de los tomos i y j,
respectivamente, y ijTP, d es la delta de Kronecker, que se evala a uno para todos los pares de
tomos de los tipos TP en el rango de distancia d. Los pares de tomos con uno mismo no se
consideran, as como tampoco aquellos tomos que no corresponden a ninguno de los tipos
atmicos. Cada uno de los bins se encuentra escalado segn la ocurrencia del nmero de tipos
farmacofricos (A+B)-1. Finalmente, una vez obtenidos todos los bins del CV, stos se
normalizan entre cero y uno. Estos descriptores se encuentran implementados en el programa
speedcats.

CATS3D283 expresa la distancia como distancia geomtrica Eucldea entre los dos tomos. La
asignacin de los tipos generalizados de tomos se puede realizar mediante la funcin
PATTY_Type de MOE, basada en el esquema propuesto por Bush y Sheridan284, o mediante la
funcin ph4_aType285, tambin implementada en MOE. En el primer caso283, se consideran siete
tipos generalizados de tomos (catinico, aninico, polar, aceptor, dador, hidrofbico u otros),
mientras que la funcin ph4_aType, utilizada en el presente trabajo, define seis tipos de tomos:
aceptor, dador, polar, catinico, aninico e hidrofbico. As, en el primer caso el nmero de
combinaciones de pares es de 28 y en el segundo, de 21. Las distancias se reparten en 20 bins
equiespaciados [0,20] , conduciendo a un CV de dimensin 560 (PATTY) o de 420
(ph4_aType).

Como se ha introducido, los descriptores CATS se han aplicado con xito en diferentes procesos
de virtual screening.

1.7. Obtencin de Modelos Farmacofricos

Los dos mtodos utilizados para derivar modelos farmacofricos son: el mdulo de
farmacforos implementado en MOE versin 2004.03 y el modelo SQUID (Sophisticated
Quantification of Interaction Distributions)51.

1.7.1. Modelos Farmacofricos en MOE

La herramienta implementada en MOE para la derivacin de farmacforos supone una de las


aproximaciones ms sencillas para la generacin de hiptesis, ya que la generacin del modelo
es manual. As, no se muestrean automticamente y de manera exhaustiva todas las posibles
combinaciones/alineamientos de las caractersticas farmacofricas, como otros programas ms
especializados realizan (Catalyst, GASP, DISCO)287, sino que MOE opera a partir de un
alineamiento inicial introducido previamente, el cual permanece rgido. La versin MOE
2005.06, posterior a la realizacin de esta parte del trabajo, incorpora de forma automatizada la
flexibilidad conformacional en la formulacin de la hiptesis.

Tanto las molculas sobre las que se genera la hiptesis farmacofrica como las de la base de
datos de bsqueda se caracterizan segn un esquema farmacofrico, que incluye el modo de

77
Captulo 1. Fundamentos tericos

anotacin de los ligandos, es decir, aquellos puntos en el espacio donde se indica la


ausencia/presencia de una determinada caracterstica o feature farmacofrica. Los esquemas
farmacofricos disponibles en MOE, descritos segn el motivo Polarity-Charge-
Hydrophobicity (PCH), son:

PCH: Caracteriza puntos de ligando, tomos dadores y aceptores de puente de hidrgeno,


cationes, aniones, reas hidrfobas y centros aromticos. Es el usado en MOE por defecto.

PCH_ALL: Similar a PCH, en este caso los tomos hidrofbicos no aromticos se


caracterizan individualmente (un punto por tomo), en lugar de agruparse en un rea, como
en el esquema PCH.

PCHD: Incluye el esquema PCH y adicionalmente genera site points, que representan la
posicin hipottica de tomos complementarios en un receptor, determinados a partir de la
posicin de los tomos pesados en el ligando. As, tiene puntos putativos proyectados a
partir de dadores y aceptores de puente de hidrgeno y centros aromticos.

PPCH: Diferencia entre aceptores dadores de puente de hidrgeno planares (sp2) o no (sp3)
y entre reas hidrofbicas planares o no.

PPCH_All: De forma anloga a PCH_ALL, es un esquema derivado de PPCH en el que


los tomos hidrofbicos se anotan individualmente y no por agrupacin, como en PPCH.

El proceso para generar la hiptesis o query parte de un conjunto de ligandos alineados. Este
alineamiento inicial se puede obtener por superposicin de las estructuras cristalogrficas de los
ligandos en el sitio activo de la protena, mediante algoritmos de alineamiento flexible, como el
algoritmo MOE-FlexAlign287 o incluso, a partir de los resultados de un docking en la protena
diana.
La hiptesis incluye restricciones acerca de una feature farmacofrica que un punto en el
espacio debe satisfacer, dentro de un radio de tolerancia. Esta feature puede corresponder a un
nico punto de anotacin del ligando (por ejemplo, que el tomo sea dador) o etiquetarse con
una asignacin mltiple como combinacin lgica de varios (por ejemplo, dador o aceptor).
Adems, varias restricciones de este tipo se pueden agrupar de manera que se fuerce el
cumplimiento de todas ellas por parte de una determinada molcula. MOE permite tambin la
inclusin de restricciones sobre la forma de la molcula mediante la definicin de volmenes.
stos pueden ser excluyentes (el interior del volumen no puede contener ningn tomo con una
determinada caracterstica), incluyentes (se obliga a que en su interior se encuentre al menos un
tomo con una caracterstica) o exteriores (fuera del volumen definido, no se sita ningn tomo
que satisfaga una determinada expresin).
A partir del alineamiento, el usuario define las restricciones de la query, ajustando las
posiciones, radios de los puntos potenciales farmacofricos, sus combinaciones y,
adicionalmente, volmenes. La herramienta Pharmacophore Consensus sugiere restricciones
farmacofricas, a travs de todos los tomos con una anotacin equivalente, superpuestos en el
espacio dentro de una tolerancia y comunes a un determinado porcentaje de las molculas
presentes en el alineamiento.

Una vez formulado el modelo farmacofrico, la bsqueda se realiza sobre una base de datos
multiconformacional previamente calculada, ya que no se generan conformaciones durante la
bsqueda, sino que cada una de las entradas de la base de datos se superpone de forma rgida
sobre la hiptesis. Entonces, se realiza el emparejamiento exhaustivo de todos los puntos de
anotacin del ligando con los puntos potenciales farmacofricos (PPPs) del modelo. Se
introduce cierta nocin de conservacin de stos al permitirse, opcionalmente, que ciertas
restricciones no se satisfagan por parte de la molcula en cuestin. El resultado de la bsqueda
refleja el cuadrado promedio de las distancias (RMSD) de la superposicin entre los PPPs de la

78
Captulo 1. Fundamentos tericos

hiptesis y los puntos del ligando emparejados con ellos, por lo que puede ordenarse la base de
datos en funcin de esta RMSD.

1.7.2. SQUID. Sophisticated Quantification of Interaction Distributions

Tal y como se ha introducido, el objetivo del desarrollo del mtodo SQUID51 fue doble: por una
parte, incluir informacin difusa (fuzzy) sobre la conservacin y tolerancia de las
caractersticas (features) farmacofricas en el conjunto de molculas activas sobre las que se
deriva el modelo y por otra, evitar el alineamiento de las molculas de la base de datos sobre el
modelo farmacforo obtenido.

SQUID agrupa las features farmacofricas presentes en el alineamiento inicial de molculas en


puntos potenciales farmacofricos (PPPs), expresados en la forma de funciones de densidad de
probabilidad gaussianas. Cada uno de estos PPPs contiene informacin de i) el tipo
farmacofrico de los tomos, ii) su posicin en el espacio, iii) la desviacin estndar en la
posicin desde el centro del PPP de todos aquellos tomos pertenecientes a un PPP, lo que
equivale al radio del PPP y iv) el grado de conservacin de un PPP particular en todas las
molculas presentes en el alineamiento.

En la Figura 1.15 se esquematiza el proceso de derivacin de un modelo farmacforo SQUID,


que se detalla a continuacin. Se parte de un alineamiento inicial de las molculas activas,
tambin fijo como en el apartado anterior, es decir, no se realizan sucesivas optimizaciones de
la superposicin de estas molculas.
El primer paso consiste en la anotacin de los tomos de los ligandos segn su tipo
farmacofrico. SQUID ha sido implementado51 en lenguaje SVL (Scientific Vector Language)
en el programa MOE. As, la asignacin de tipos atmicos se realiza mediante los esquemas
farmacofricos implementados en MOE. Inicialmente, se utiliza con este fin la funcin
ph4_aType, la misma que la utilizada en los descriptores CATS3D, que define seis tipos:
catinico, aninico, polar, hidrofbico, dador y aceptor de puente de hidrgeno.

Seguidamente, se generan los PPPs por agrupamiento de aquellos tomos prximos en el


espacio que comparten tipo farmacofrico. Para ello, se calculan las denominadas local feature
densities (LFDs) para cada tomo k de tipo farmacofrico t, segn la ecuacin [1.85]:

D (tomokt , tomoit )
LFD (tomokt ) = max 0 , 1 2 [1.85]
i rc

donde i recorre todos los tomos del tipo t presentes en el alineamiento, D2 corresponde a la
distancia Eucldea entre dos tomos k e i, y rc es el radio del cluster o cluster radius. Este
cluster radius es el parmetro que determina la resolucin del modelo, ya que indica el nivel de
agrupamiento en clusters de las features para generar los PPPs, y tiene que ser fijado emprica e
independientemente en cada caso particular de estudio. Todos aquellos tomos pertenecientes a
un tipo farmacofrico particular situados dentro de una esfera de radio rc se agrupan alrededor
de aquel que presenta una LFD mxima.
La posicin central del PPP resultante corresponde al centro geomtrico de todos los tomos
que comparten cluster. La desviacin estndar () se establece a partir de la distancia mediana
de todos los tomos del cluster al centro del PPP, con un valor mnimo de 0.5. Esta desviacin
caracteriza la anchura de la distribucin de los tomos representados por un PPP y en las
ilustraciones grficas de los modelos farmacforos SQUID, equivale al radio de los PPPs.
Finalmente, la conservacin de cada PPP se pondera mediante el peso (w), calculado segn la
ecuacin [1.86]:

79
Captulo 1. Fundamentos tericos

m
1 # tomos de la moleculai del PPPk
w (PPP) = min , [1.86]
i =1 m # tomos del PPPk

donde m representa el nmero de molculas en el modelo. Cuando un PPP representa el mismo


nmero de tomos de todas las molculas del alineamiento, el peso adopta el valor mximo de
uno. El mnimo (m-1) corresponde a PPPs que consisten nicamente de tomos presentes en una
de las molculas.

Figura 1.15. Esquema de derivacin de un modelo SQUID. Extrado de [51].

Una vez obtenido el modelo farmacofrico, ste se codifica en un vector de correlacin (CV)
para realizarse el VS en una base de datos. El modelo SQUID resultante se encapsula en un
vector de dimensin de 420 bits, resultante de la combinacin de los 21 pares atmicos (TP) y
un esquema de particin de las distancias (d) en 20 rangos equiespaciados [0,20] . La
contribucin a cada uno de los bits del CV se obtiene segn la ecuacin [1.87]:

1 1 TP w p wq (
1 D2 ( p, q ) centred ) 2 )
CVdTP = pq 2 ( + ) 2
# pairs (TP ) p =1 q =1 2
exp
( p + q ) 2
[1.87]
p q

donde p y q se refieren a los PPPs de un tipo farmacofrico T y P, respectivamente. d es el


rango de distancias, wp y wq son los pesos de los PPPs p y q, p y q son sus desviaciones
estndar, centred es el centro del rango de distancias d, D2(p,q) es la distancia Eucldea entre los
dos PPPs p y q, pqTP
es la delta de Kronecker, que se evala como 1 para todos los pares de
PPPs del tipo TP cuya distancia est comprendida en el rango d. Los sumatorios recorren todos
los PPPs de un determinado tipo farmacofrico y el factor de 0.5 evita la duplicacin en la
cuenta de los pares.
De manera similar a CATS (apartado 1.6.5), el valor de cada bin se escala segn el nmero de
pares TP presentes en el modelo y el CV final obtenido se normaliza entre cero y uno.

En la bsqueda de similitud, este CV-SQUID se compara con los CV-CATS3D calculados para
cada una de las molculas contenidas en una base de datos. El uso de estos vectores de
correlacin, libres de alineamiento, evita la superposicin de todas las molculas frente al

80
Captulo 1. Fundamentos tericos

modelo farmacofrico, ahorrndose tiempo de clculo. La similitud se calcula segn el ndice de


la ecuacin [1.88], desarrollado especficamente en este mtodo para permitir la comparacin de
las gaussianas obtenidas en el CV-SQUID frente a los picos de los CV-CATS3D.

(a b )
i i
S (a, b) = i =1
n
[1.88]
1 + ((1 ai )bi )
i =1

Donde ai y bi corresponden al bin i del vector de correlacin CV-SQUID y CV-CATS3D,


respectivamente. Los sumatorios se extienden a lo largo de la dimensin n de estos CV (n=420).

Durante el cribado virtual, se utilizan pesos adicionales (feature-type weights) que ponderan la
importancia de cada uno de los tipos farmacofricos generalizados en el CV. Estos pesos se
establecen particularmente para cada caso de estudio, ajustndose empricamente sobre un
subconjunto de molculas de la base de datos, lo que supone una desventaja de esta
metodologa.

SQUID ha sido validado tanto retrospectivamente frente a ligandos de la ciclooxigenasa 2


(COX-2) y de la trombina51, como prospectivamente, en la identificacin de nuevos inhibidores
de la interaccin Tat-TAR RNA52.

1.8. Tcnicas Estadsticas de Anlisis de Datos

Los datos qumicos son normalmente multidimensionales, definindose un objeto a partir de


varios componentes de datos. Por ejemplo, en el caso de las molculas stas se caracterizan a
travs de una gran variedad de descriptores.
En general, una vez se calcula un conjunto de descriptores stos no pueden utilizarse
directamente para generar un modelo, ya que deben solventarse tres tipos de problemas: i) existe
una gran correlacin entre las variables, de manera que diferentes descriptores codifican el
mismo aspecto estructural, ii) puede existir descriptores que no aporten informacin relevante al
modelo y iii) el nmero de descriptores es demasiado elevado como para ser tratable
computacionalmente y no es representable. Con ello, resulta difcil extraer interrelaciones y
asociaciones entre estas variables y los objetos de estudio.
Para evaluar la calidad de un conjunto de descriptores normalmente se analizan dos medidas
estadsticas: la varianza y la correlacin entre ellos. La varianza permite ver el grado de
variacin de un descriptor a lo largo del conjunto de datos, de manera que si esta es muy baja, el
descriptor aporta muy poca informacin al conjunto. La correlacin entre descriptores aporta
informacin del grado de redundancia interna. Descriptores independientes presentan un
coeficiente de correlacin nulo, denominndose ortogonales. Se establece que el coeficiente de
correlacin entre dos descriptores no debe ser superior a 0.6, aunque se acepta trabajar en un
margen de 0.4 a 0.9.

As, se realiza un pre-procesado del conjunto de descriptores reducindose la dimensionalidad


del problema y obtenindose un conjunto reducido de descriptores con una mayor densidad de
informacin relacionada con la propiedad objetivo (actividad biolgica). Este procesado implica
tambin un autoescalado de los datos, de manera que descriptores con mayor orden de magnitud
no tengan ms peso en el anlisis.

Entre los mtodos de reduccin de dimensionalidad destacan diferentes mtodos basados en el


aprendizaje (Machine Learning Methods)288: desde algoritmos genticos (GA) que automatizan

81
Captulo 1. Fundamentos tericos

el proceso de seleccin de descriptores a mtodos que transforman los descriptores, generndose


un conjunto reducido. Entre ellos, destacan el anlisis de componentes principales (PCA) y
mtodos de regresin como el Partial Least Squares regression o Projection to Latent
Structures (PLS), la regresin lineal mltiple (MLR) y la regresin con componentes principales
(PCR).

Los mtodos de regresin (PLS, MLR, PCR) establecen un modelo predictivo de una o ms
variables dependientes (actividad) en funcin de la variables independientes (descriptores), por
lo que son ampliamente usados en QSAR (especialmente PLS).

En este trabajo se utilizan tcnicas de anlisis de datos dirigidas hacia la reduccin de la


dimensionalidad del problema en quimiotecas combinatorias, y no hacia la regresin de
modelos. El PCA es una de las tcnicas estndar, aunque otras como el anlisis factorial y otras
tcnicas no lineales son tambin comunes en el anlisis de datos y la visualizacin.

Anlisis de componentes principales (PCA). Se reduce un conjunto de datos parcialmente


correlacionados en un nmero de nuevas variables ortogonales, los componentes
principales, con prdida mnima en la contribucin a la variacin. Los componentes
principales se establecen como combinacin lineal de las variables originales: se aproxima
la matriz de los datos X, de dimensin n (nmero de objetos, molculas) m (nmero de
variables, descriptores) mediante dos matrices ms reducidas: la matriz de los scores T (n
objetos d variables) y la matriz de los loadings P (d objetos y m variables) segn la
ecuacin [1.89]:

X = TPT [1.89]

La matriz de los loadings contiene los coeficientes de la combinacin lineal, indicando qu


variables influencian el modelo y cmo stas estn correlacionadas. La matriz de scores
recoge la proyeccin de los objetos en el espacio de las componentes principales.
Normalmente, antes de realizar un PCA los datos se procesan mediante centrado en la
media y escalado.

Geomtricamente, al representar en un espacio m-dimensional los n objetos, el primer


componente principal (PC1) corresponde al vector que representa la mxima varianza
dentro de los datos, el segundo componente principal (PC2) es ortogonal al primero y con
la siguiente mxima varianza, y as sucesivamente. Estas direcciones ortogonales
corresponden a los vectores propios de la matriz XTX y sus valores propios (m)
corresponden a la varianza asociada a cada uno de ellos.

En la mayor parte de los casos, con 3 a 5 componentes principales (PCs) se explica la


mayor parte de la varianza de los datos, de manera que la representacin tridimensional de
los tres primeros componentes principales suelen cubrir el 60-80% de la varianza. En el
diseo de quimiotecas virtuales se suelen considerar las componentes principales que
cubren el 90-95% de varianza.

La principal ventaja del anlisis de componentes principales es que no asume


distribuciones de probabilidad de las variables originales, aunque es muy sensible a puntos
extremos y datos pobremente distribuidos.

Anlisis factorial. Las variables originales (X) se describen como combinaciones lineales
de un conjunto menor de factores comunes (CFs), que contienen la varianza comn a
varios descriptores (communality). La varianza individual de cada una de los descriptores
(uniqueness) se estima mediante una funcin de error (E), ecuacin [1.90]:

82
Captulo 1. Fundamentos tericos

X = CF V + E [1.90]

Tanto PCA como el anlisis factorial asumen una constriccin lineal del espacio de entrada, por
lo que se comportan mal en espacios altamente dimensionales no lineales. En espacios no
lineales, se pueden aplicar tcnicas como el escalado multidimensional, los mapas no lineales de
Sammon o los mapas de Kohonen, basados en redes neuronales.289

Escalado multidimensional (MDS). Esta tcnica permite visualizar objetos a partir de su


matriz de similitud o disimilitud. En un conjunto de n objetos representados en un espacio
m-multidimensional, la distancia dij entre los objetos i y j viene dada por la ecuacin
[1.91]:

m
d ij2 = ( xi , k x j , k ) 2 [1.91]
k =1

El objetivo es encontrar unas coordenadas en un espacio reducido (normalmente 2D o 3D)


tal que la nueva distancia ij entre el par de objetos i y j se aproxime a la distancia dij en el
espacio m-multidimensional. El ajuste de nuevas coordenadas se realiza de forma iterativa
con algoritmos de minimizacin hasta que se satisface con una cierta tolerancia el criterio
de Kruskal, ecuacin [1.92]:

( d
i< j
ij ij )2
S= [1.92]
i< j
2
ij

Normalmente, las proyecciones en un espacio tridimensional pueden cubrir hasta un 80%


de la varianza de los datos. Los mapas no lineales, como la proyeccin de Sammon,
tambin aproximan relaciones geomtricas en un grfico bi- o tridimensional.

1.9. Mtodos de Optimizacin Globales

Los mtodos de bsqueda global tratan de escaparse de los mnimos locales, explorando con
ms eficiencia el espacio de bsqueda. Generalmente, aaden algn componente aleatorio a la
bsqueda, de forma que, si se encuentra un mnimo local, se salte a otro punto del espacio de
bsqueda, donde pueda haber otro mnimo, posiblemente global. En este caso se habla de
mtodos de optimizacin heursticos o estocsticos, aunque tambin existen mtodos globales
deterministas, con un elevado coste computacional asociado debido a su exhaustividad.

Como se ha mencionado, los algoritmos heursticos se emplean en diversos campos de la


qumica: desde la optimizacin de geometras de conformaciones de pequeas molculas en
procesos de docking, la superposicin de compuestos, la elaboracin de modelos para la
prediccin de propiedades o actividades biolgicas, el diseo de molculas de novo, el anlisis
de la interaccin protena-ligando, la seleccin de descriptores o la seleccin de compuestos en
quimiotecas combinatorias.290 Dentro de la variedad de algoritmos de optimizacin estocsticos,
en la mayor parte de aplicaciones se incorporan los mtodos de Simulated Annealing (SA) o
bien los algoritmos evolutivos, aunque tambin se han implementado otros algoritmos como las
bsquedas Tab en programas de docking.

Este tipo de algoritmos opera muy bien en los problemas de optimizacin combinatoria en los
que el conjunto de soluciones posibles es discreto o susceptible de discretizarse. Estos

83
Captulo 1. Fundamentos tericos

problemas son normalmente del tipo NP-completo (NP-complete, non-deterministic polynomial


time) ya que no existe un algoritmo general que pueda determinar la solucin global en un orden
de tiempo computacional polinmico con el tamao del problema, O(nk). Los problemas de
optimizacin combinatoria normalmente se formulan en un espacio discreto, es decir, todas o
algunas de las variables de la funcin objetivo se restringen a asumir nicamente valores
discretos como enteros, aunque tanto los algoritmos evolutivos como el Simulated Annealing
son aplicables a optimizaciones continuas globales.

1.9.1. Simulated Annealing

Estas tcnicas se basan en la analoga fsica con la tcnica de annealing en la que un material se
calienta a elevadas temperatura y posteriormente se enfra de manera lenta y controlada para
incrementar el tamao de sus cristales y reducir sus defectos, alcanzndose una estructura
cristalina de mnima energa. El calor permite que los tomos abandonen su posicin inicial, un
mnimo local de energa interna, y muestren de forma aleatoria estados de mayor energa. El
enfriamiento lento permite que se incrementen las posibilidades de encontrar configuraciones
con menor energa interna que la inicial.

Anlogamente, cada paso del algoritmo de SA reemplaza la solucin actual e por otra solucin
aleatoria prxima e, escogida segn una probabilidad que depende de la diferencia entre los
valores de la funcin en los dos puntos y un parmetro global de control T (denominado
temperatura por correspondencia con el smil), que se reduce gradualmente durante el proceso.
La probabilidad de transicin se ajusta de manera que a altas temperaturas, las soluciones
aleatorias se acepten fcilmente (el algoritmo se mueve uphill), reducindose la probabilidad
de aceptacin conforme disminuye la temperatura (sentido downhill). En la formulacin
original291, esta probabilidad de transicin P(e,e',T) se define segn la ecuacin [1.93],
siguiendo el criterio de Metropolis implementado en las tcnicas de Monte Carlo, a su vez
basado en la distribucin de energas de Boltzmann.

1 si f (e' ) < f (e)



P( f (e), f (e' ), T ) = f (e) f (e' ) [1.93]
exp si f (e' ) f (e)
T

Otro parmetro a considerar es el esquema de annealing que determina el modo de actualizacin


de la temperatura a partir de un valor inicial elevado y su valor mnimo final. As, los
parmetros que deben definirse en la implementacin de SA son un generador aleatorio de
estados vecinos para el espacio de soluciones definido, una funcin de probabilidad de
transicin (aunque normalmente se mantiene la presentada en la ecuacin [1.93]) y el esquema
de annealing.
Se puede demostrar que para un problema finito, la probabilidad de que un SA determine la
solucin ptima global se aproxima a uno a medida que se incrementa la duracin del proceso
de annealing. Sin embargo, este tiempo terico es demasiado grande, por lo que se suelen
aproximar esquemas de annealing ms asequibles.

1.9.2. Algoritmos Evolutivos

Estos mtodos mimetizan las estrategias evolutivas de la naturaleza: las poblaciones se


desarrollan tras muchas generaciones siguiendo el principio de supervivencia de los individuos
mejor adaptados al medio. El proceso de bsqueda adaptada se basa en una poblacin de
soluciones candidatas sobre el que sucesivas iteraciones conllevan una seleccin competitiva
que elimina aquellas soluciones con un menor valor de la funcin objetivo o fitness function.
Aquellas soluciones mejor adaptadas, con mayor valor de la funcin de fitness, se recombinan

84
Captulo 1. Fundamentos tericos

con otras soluciones generndose una nueva poblacin, continundose el proceso hasta que se
encuentra una solucin ptima.

Dentro de los algoritmos evolutivos, se distinguen la programacin evolutiva (EP), las


estrategias evolutivas (ES), la programacin gentica (GP) y los algoritmos genticos (GA),
siendo stos ltimos los ms populares, desarrollados en 1970 por Holland.292

En la Figura 1.16 se muestra un esquema del funcionamiento de un algoritmo gentico. En un


primer paso, se inicializa una poblacin de soluciones, codificadas en cromosomas artificiales.
Para cada uno de estos cromosomas, se evala su funcin objetivo o de fitness y se seleccionan
aquellos que sern emparejados para la reproduccin. Sobre estos cromosomas seleccionados se
aplican los operadores de recombinacin o crossover y mutacin, rindiendo una nueva
generacin de cromosomas.

Inicializacin de la poblacin
Mximo nmero
Evaluacin del fitness para de generaciones
cada cromosoma Terminacin
fitness adecuado

Seleccin de cromosomas
para emparejamiento

Crossover / Mutacin sobre


los cromosomas
seleccionados

Nueva generacin de
cromosomas

Figura 1.16. Esquema de un algoritmo gentico.

1.9.2.1. Representacin y Codificacin de los cromosomas

El primer paso en la aplicacin de un GA parte de decidir cmo representar las posibles


soluciones para un problema determinado. Normalmente, los cromosomas se codifican
mediante cadenas (strings) que pueden contener valores binarios, valores enteros o incluso
valores reales en coma flotante. Cada uno de los cromosomas se divide en genes (representando
cada una de las variables de la funcin objetivo) que a su vez agrupan varios alelos
(relacionados con los posibles valores que puede adoptar una variable concreta). La
representacin en datos binarios, inicialmente introducida, es la ms sencilla e interpretable. La
codificacin del problema es directa en algunas aplicaciones, de manera que los parmetros
iniciales de la funcin (conocido como fenotipo) se trasladan directamente al cromosoma
(conocido como genotipo). Sin embargo, en la mayor parte de casos es necesario implementar
un sistema de descodificacin del genotipo en fenotipo. As, cada uno de los miembros de una
poblacin queda caracterizado por su cromosoma (genotipo), el cromosoma descodificado
(fenotipo) y el valor de la funcin objetivo asociado a esta solucin.

85
Captulo 1. Fundamentos tericos

1.9.2.2. Inicializacin de los individuos

La poblacin o nmero de cromosomas es un parmetro del algoritmo, definido por el usuario y


dependiente de la naturaleza del problema, que normalmente permanece constante durante la
optimizacin. Usualmente, la poblacin inicial se genera de forma aleatoria, cubriendo el mayor
espacio de soluciones posibles, aunque tambin se puede inicializar desvindola hacia reas del
espacio con elevada probabilidad de encontrar soluciones ptimas.

1.9.2.3. Seleccin

La seleccin determina qu individuos se escogen para el apareamiento y cuanta descendencia


produce cada uno de ellos. Se basa en una probabilidad establecida segn el valor de fitness fi de
cada uno de los individuos, los mejor adaptados tienen mayor probabilidad de reproduccin. La
presin selectiva hace referencia a la probabilidad de que el mejor individuo sea seleccionado en
comparacin a la probabilidad promedio de seleccin de todos los individuos de la poblacin.
En la ecuacin [1.94] se muestra esta probabilidad de seleccin:

fi
pseleci = [1.94]
f
Sin embargo, la aplicacin de este mtodo sobre la funcin de fitness cruda conlleva dos
problemas: i) la existencia de superindividuos seleccionados muy frecuentemente deriva en
convergencia hacia su genoma, perdindose diversidad en la poblacin con lo que el algoritmo
no progresa y la solucin final es muy pobre y ii) conforme progresa el algoritmo, las
diferencias entre los valores de fitness se reducen. De este modo, la probabilidad asociada a las
mejores soluciones es casi la misma que la del resto de individuos, con lo que la progresin del
algoritmo se transforma en un proceso aleatorio.
Los mtodos de seleccin son mayoritariamente estocsticos, diseados de manera que tambin
se incluyan individuos con un peor valor de fitness. De todos modos, esto no es suficiente para
superar los problemas mencionados, por lo que se adoptan dos estrategias de acondicionamiento
de la funcin de fitness:

Escalado de la funcin de fitness (Proportional Fitness Assignment)


Los ms comunes son un escalado lineal (ecuacin [1.95]), la truncacin en sigma ()
segn la desviacin estndar de los valores de fitness de la poblacin y su valor promedio
(ecuacin [1.96]) y un escalado en funcin potencial (ecuacin [1.97]):

f '= a f + b [1.95]

f '= f ( f c ) [1.96]

f '= f k [1.97]

Los coeficientes a y b de la funcin de escalado se pueden ajustar en varias formas, aunque


normalmente se establecen de manera que el valor mximo de la funcin escalada sea 1.2 o
2 veces el promedio de la funcin escalada.
Adems, el acondicionamiento de la funcin de fitness es tambin necesario cuando se
trata de problemas de minimizacin (el sentido del GA es siempre hacia la maximizacin
de un valor de fitness) y cuando se trabaja con valores de fitness negativos. El problema de
la conversin minimizacin-maximizacin se solventa mediante la transformacin
mostrada en la ecuacin [1.98]:

86
Captulo 1. Fundamentos tericos

f ' ( x)= Cmax f ( x) si f ( x) < Cmax


[1.98]
0 en otros casos

donde Cmax se establece como el mayor valor de f(x) en la poblacin actual.


Para el problema de los valores negativos se aplica la conversin de la ecuacin [1.99]:

f ' ( x)= Cmin + f ( x) si f ( x) + Cmin > 0


[1.99]
0 en otros casos

donde Cmin corresponde al valor absoluto del peor valor de f(x) en la poblacin actual.

Ordenacin de los valores de fitness (Rank-based Fitness Assignment)


La poblacin se ordena en funcin del valor de la funcin de fitness de manera que el valor
de adaptacin asignado a cada individuo depende nicamente de su posicin en el rango de
individuos y no de su valor de fitness real. El valor de fitness asignado a un individuo en
una posicin (position) se puede calcular de forma lineal (ecuacin [1.100]) o no-lineal
(ecuacin [1.101]):

f ' ( position) = 2 SP + 2 ( SP 1) ( position 1) /(GA _ population 1) [1.100]

GA _ population X ( position 1)
f ' ( position) = GA _ population
[1.101]
X
i =1
( i 1)

donde GA_population corresponde al nmero total de individuos de la poblacin, SP


corresponde a la presin selectiva fijada (para lineal entre 1 y 2 y para no lineal entre 1 y
GA_population-2), y X es el resultado de una ecuacin polinmica.

Una vez acondicionado el valor de la funcin objetivo, ste se introduce en el operador


seleccin, aplicndose tantas veces como sea necesario hasta obtener la generacin filial. Entre
los distintos mtodos destacan:

Roulette Wheel selection o Stochastic Sampling With Replacement: un segmento unitario


se divide en tantas regiones como individuos de tamao proporcional a su valor de fitness
acondicionado y un nmero al azar determina qu segmento/individuo es seleccionado.
(Figura 1.17).

Tournament selection escoge aleatoriamente un conjunto de individuos de la poblacin y el


mejor individuo entre ellos es seleccionado.

Stochastic Remainder Selection Without Replacement se obtiene el nmero esperado de


copias de un individuo como la relacin entre su valor de fitness y el valor promedio de la
poblacin. Este valor se trunca en el entero ms prximo, determinando que el individuo
sea seleccionado exactamente este nmero de veces y una parte fraccional, que es tratada
como una probabilidad de que sea seleccionado. As, un individuo con un nmero de
copias esperado de 1.5 ser seleccionado seguramente 1 vez y otra vez con probabilidad de
0.5.

87
Captulo 1. Fundamentos tericos

1.9.2.4. Crossover y Mutacin

Se distinguen mtodos de crossover que pueden ser aplicados tanto a variables binarias como
reales y aquellos mtodos que quedan restringidos a cromosomas codificados en valores reales.
En los primeros, se encuentra el uniform crossover, en el que cada elemento del cromosoma hijo
generado es elegido aleatoriamente de cada uno de los padres, el single-point crossover en el
que previo a un punto de corte el cromosoma descendiente procede de uno de los padres y a
partir de este punto del otro de los padres o el multi-point crossover, anlogo al anterior,
incluyendo varios puntos de corte (Figura 1.17). La probabilidad de que un par de cromosomas
seleccionados se recombinen viene dada por la tasa de crossover, parmetro impuesto por el
usuario.

Tras la recombinacin, los cromosomas descendientes sufren mutacin con una probabilidad
establecida por la tasa de mutacin. La mutacin consiste en el cambio de valor de un alelo
aleatorio: de 0 a 1 o viceversa en cromosomas binarios, adoptando un valor comprendido en un
rango para un cromosoma entero o adicionndole un valor aleatorio pequeo en cromosomas en
coma flotante.

Single-point crossover

fitness
10 5
Two-point crossover

3 5

Roulette wheel selection Uniform crossover

Figura 1.17. Esquema del mtodo de seleccin Roulette Wheel selection y de tres mtodos de
crossover para variables binarias.

1.9.2.5. Replacement

Una vez se dispone de una nueva generacin de individuos hijos y se ha evaluado su funcin de
fitness, se distinguen dos modelos en funcin de cmo se realiza el reemplazo de la generacin
anterior de padres (Figura 1.18):

En el modelo generacional (generational replacement) una generacin paternal produce


una generacin completa filial, de manera que la generacin paternal es condicional o
incondicionalmente reemplazada por sus hijos.

En el modelo steady-state, en cuanto se genera un cromosoma hijo, ste es condicional o


incondicionalmente insertado en la generacin paterna, sustituyendo al peor de los padres,
de manera que el material gentico del hijo est disponible inmediatamente para
influenciar la produccin del siguiente hijo. Como se ha mencionado, normalmente el
reemplazo se realiza de manera que el nmero total de cromosomas resultantes se mantiene
constante durante la optimizacin.

88
Captulo 1. Fundamentos tericos

El trmino reemplazamiento incondicional hace referencia a que la sustitucin de los padres por
parte de los hijos se produce siempre, independientemente del valor de funcin de fitness que
estos presentan, comparativamente frente a los padres. De este modo, la conservacin de las
soluciones ptimas no se asegura del todo, ya que stas, si bien seleccionadas frecuentemente,
pueden perderse durante el crossover y la mutacin y ser sustituidas por los nuevos hijos. Por
ello, se suelen imponer esquemas condicionales de reemplazo ms efectivos, en los que los hijos
nicamente se insertan en la poblacin si suponen una mejora de los miembros existentes de la
poblacin. Adems, se pueden aplicar tcnicas de elitismo en los que un determinado nmero de
individuos son insertados incondicionalmente en las siguientes generaciones, aunque tambin
participan en los eventos reproductivos.

Seleccin
Generacin Generacin Modelo Generacional
Crossover
X X+1
Mutacin

Seleccin
Poblacin Crossover Modelo steady-state
Mutacin

Figura 1.18. Modelo generacional vs modelo steady-state

Otro problema potencial asociado a los algoritmos genticos es la deriva gnica o especiacin,
de manera que el proceso se desva hacia reas del espacio de bsqueda donde residen
agrupaciones de individuos muy prximas, dejando reas del espacio de bsqueda inexploradas.
Para reducir este fenmeno, se pueden aplicar tcnicas de niching. La primera solucin
encontrada se posiciona en el centro de un hipervolumen o niche. Si las siguientes soluciones
caen dentro de un radio de distancias definido prximas a un niche, su valor de fitness es
penalizado, de manera que se limita el crecimiento incontrolado de especies particulares dentro
de una poblacin.
Los island models mantienen un nmero de subpoblaciones separadas e introducen el operador
migracin cada cierto nmero de generaciones, permitiendo el intercambio de material gentico
entre ellas. Este tipo de modelos, adems de mantener la diversidad de las especies, constituye
una estrategia til en la paralelizacin de los algoritmos genticos.

1.9.2.6. Otros Algoritmos Evolutivos

La descripcin anterior corresponde a los algoritmos genticos. El resto de algoritmos


evolutivos, aunque similares en espritu, difieren en los detalles de su implementacin y
naturaleza del problema de aplicacin, ya que estn dirigidos principalmente a la optimizacin
global de variables contnuas, ms que a problemas combinatorios enteros.

En la programacin evolutiva (EP), los miembros de una poblacin se contemplan como partes
de especies especficas ms que miembros de una misma especie, por lo que no existe proceso
de recombinacin y el nico operador es la mutacin. El mtodo de seleccin tpico es (+),
en el que los padres generan hijos, y entre estos 2 individuos se seleccionan
probabilsticamente los individuos que pasan a la siguiente generacin. La codificacin tpica
del cromosoma suele ser en valores reales.

89
Captulo 1. Fundamentos tericos

Las estrategias evolutivas (EG), muy similares a EP, operan con vectores de nmeros reales
sobre los que el operador primario es la mutacin. sta, se aplica adicionando un valor aleatorio
de una distribucin gaussiana cuya desviacin estndar se adapta durante la optimizacin, por lo
que se conocen como procesos autoadaptados.

La programacin gentica (GP), fuertemente desarrollada a partir del ao 2000, es una


metodologa inspirada en la evolucin biolgica para encontrar aquellos programas que mejor
realizan una determinada tarea.

1.9.3. Optimizacin Multiobjetivo

En muchos problemas se presentan simultneamente varios criterios o parmetros a optimizar


que no pueden o no deben combinarse en un nico valor objetivo ya que normalmente estn en
conflicto entre s. Estos casos se denominan problemas de optimizacin multiobjetivo o
multicriterio (Multiobjective Optimisation Problems, MOP). El concepto de ptimo no es
evidente en estos casos ya que debe respetarse la integridad de cada uno de los criterios por
separado. La nocin de ptimo ms aceptada en estos casos es la propuesta inicialmente por
Edgeworth y generalizada por Pareto en 1896.293 Un ptimo de Pareto o solucin no dominante
es aquella en la que una mejora en uno de los criterios resulta en un deterioro en uno o ms de
los restantes criterios, comparadas frente al resto de soluciones en la poblacin. As, una
solucin domina a otra si es equivalente o superior en todos los criterios u objetivos y,
estrictamente, si es al menos superior en uno de los objetivos.
Dentro de los distintos algoritmos heursticos de optimizacin, es en los algoritmos evolutivos
donde la MOP se ha implementado principalmente, y dentro de estos, en los algoritmos
genticos (MOGA, MultiObjective Genetic Algorithm).
En general, se pueden considerar dos grandes estrategias de afrontar la MOP en GA: i) aquellas
que jerarquizan la poblacin en funcin de la dominancia de los individuos, segn el criterio de
Pareto (Pareto ranking), buscando un conjunto de soluciones no dominantes y ii) algoritmos que
no incorporan el concepto de ptimo de Pareto, sino que optimizan un nico objetivo global
resultado de la combinacin lineal ponderada de los distintos objetivos.

La primera aplicacin del Pareto ranking en quimioinformtica se encuentra en la superposicin


flexible de estructuras 3D294. Posteriormente, se introduce en el diseo de quimiotecas
combinatorias159, 167, 295, 296, en la derivacin de modelos QSAR297, en la evolucin de molculas
de tamao medio298 y en la obtencin de mltiples hiptesis farmacofricas299.

1.10. Diseo de Quimiotecas

1.10.1. Medidas de Similitud y Diversidad

La implementacin de un mtodo de seleccin requiere tanto la especificacin de los


descriptores moleculares como la de las medidas de similitud intermolecular. Muchos de estos
mtodos parten de las tcnicas usadas para la bsqueda y agrupacin de bases de datos.

Algunos coeficientes son medidas de la distancia o disimilitud entre molculas (presentando un


valor de 0 para objetos idnticos) mientras que otros miden directamente la similitud (adquieren
un valor mximo para objetos idnticos). Adems, en la mayor parte de casos el coeficiente
adopta valores comprendidos entre 0 y 1 o puede ser normalizado a este rango, por lo que se
pueden transformar en su coeficiente complementario por sustraccin de la unidad.

Para que un determinado coeficiente sea considerado mtrica debe satisfacer las siguientes
condiciones: i) sus valores deben ser cero o positivos y la distancia de un objeto consigo mismo

90
Captulo 1. Fundamentos tericos

tiene que ser cero, ii) tiene que ser simtrico, iii) debe cumplir la desigualdad triangular y iv) la
distancia entre dos objetos no idnticos tiene que ser superior a cero. Se denominan coeficientes
pseudomtricos a aquellos que presentan tres de estas propiedades y coeficientes no-mtricos a
aquellos que no cumplen la tercera propiedad.26,27

En la Tabla 1.8 se presentan los coeficientes ms comunes en quimioinformtica usados en este


trabajo. En la referencia [300] puede encontrarse una recopilacin ms amplia.

Los vectores XA y XB corresponden a la descripcin de las molculas A y B a travs de n


atributos, pudiendo ser stos valores reales o binarios. En el caso de descriptores binarios se
definen los valores a, b y c segn la ecuacin [1.102], donde a y b corresponden al nmero total
de bits puestos a uno en cada una de las molculas y c al nmero de bits comunes y puestos a
uno en ambas molculas:

n n n
a = xiA b = xiB c = xiA xiB [1.102]
i =1 i =1 i =1

Tabla 1.8. Descripciones de Mtricas de distancia (DAB) y coeficientes de similitud (SAB).

Variables Continuas Variables binarias


Distancia n
Manhattan, DA, B = xiA xiB D A , B = a + b 2c
City-Block, i =1 Rango de n a 0
Hamming Rango de a 0

12
n 2
Distancia DA, B = ( xiA xiB ) DA, B = (a + b 2c)1 2
Eucldea i =1 Rango de n a 0
Rango de a 0

n n n n

Coeficiente de
Tanimoto o
S A, B = xiA xiB xiA2 + xiB2 xiA xiB S A, B = c ( a + b c )
Jaccard i =1 i =1 i =1 i =1 Rango de 0 a 1
Rango de 0.333 a 1

12
n n n

= xiA xiB xiA2 xiB2 S A, B = c (a b)1 2
Coeficiente
del coseno u S A, B
Ochiai i =1 i =1 i =1 Rango de 0 a 1
Rango de -1 a +1

n n n

Coeficiente de
Dice o
S A, B = 2 xiA xiB xiA2 + xiB2 S A , B = 2 c ( a + b)
Czekanowski i =1 i =1 i =1 Rango de 0 a 1
Rango de -1 a +1

En cada aplicacin, la eleccin del coeficiente va ligada al conjunto de descriptores utilizado.


As, tpicamente se trabaja con la distancia Eucldea en variables reales continuas y con el
coeficiente de tanimoto en variables binarias.
En la mayor parte de bsquedas de similitud en VS y en el diseo de quimiotecas focalizadas y
diversas se emplean este tipo de medidas. Sin embargo, se han desarrollado otras medidas como
coeficientes de correlacin entre variables y medidas probabilsticas basadas en la ocurrencia de
propiedades en bases de datos.

En los mtodos de seleccin basados en clusters y mtodos de particin, se evalua la diversidad


en funcin de la fraccin de clusters o celdas/bins que alcanzan un determinado nivel de
ocupacin. Este grado de recubrimiento se puede evaluar de distintas formas:

91
Captulo 1. Fundamentos tericos

Espacio o cell-based Fraction: #Bins ocupados / # Bins totales de la particin [1.103]


# bins _ ocupados
Fraccin de poblacin: n
i =1
i N [1.104]

Cell-based Chi2: (n n
i
i ) promedio [1.105]

Cell-based Entropy: (n log n )i i [1.106]


i

ni ni
Cell-based Density: ( log ) [1.107]
i n promedio n promedio
Donde ni corresponde al nmero de compuestos presentes en el bin i, N es el nmero total de
compuestos totales de la quimioteca y npromedio es el nmero promedio de compuestos por celda.
Los criterios introducidos por cell-based fueron implementados en el programa Cerius2 por
Jamois y Hassan152. En su implementacin original, PRALINS dispone de los dos primeros
criterios.166

1.10.2. Diseo de Quimiotecas Diversas: Mtodos de seleccin de compuestos

Estos mtodos se pueden aplicar tanto a la seleccin de un conjunto de reactivos incluidos en un


catlogo comercial para luego ser aplicados a sntesis combinatoria (aproximacin reagent-
based), a la seleccin de compuestos individuales de una base de datos (cherry picking
selection) o a la seleccin de una quimioteca combinatoria de productos en formato full array
(aproximacin product-based, vase Introduccin).

La divisin de las distintas metodologas en tres grupos (distancias, clusters y mtodos basados
en particiones) expuesta en la introduccin no es estricta en el sentido de que diferentes autores
han propuesto distintos modelos de clasificacin.

Por una parte, Willet301 y Prez148 dividen los mtodos de seleccin de compuestos en cuatro
grupos: los tres anteriores y una clasificacin adicional reservada para las aproximaciones
basadas en mtodos de optimizacin. stas abordan el problema de la seleccin como un
problema de optimizacin combinatoria, incluyendo algunos algoritmos de seleccin cherry
picking que requieren el uso de tcnicas heursticas y la adaptacin de los tres mtodos
anteriores en la seleccin de compuestos en formato full array. Tambin se incluyen en este
cuarto subgrupo los mtodos basados en el diseo de experiencias, como el D-Optimal Design.

Otra clasificacin alternativa es la propuesta por Pearlman302 en mtodos cell-based y distance-


based. La primera corresponde a los mtodos de particin y la segunda incluye el resto de
mtodos, fundamentndose en que los mtodos de clustering miden la distancia intermolecular
para crear los clusters.

Pascual303 distingue tambin dos grupos: los basados en distancias y los basados en tcnicas de
clasificacin del espacio, incluyendo en este ltimo los mtodos de clustering y los de particin,
ya que el ndice de diversidad determinado en ambos casos es equivalente (ecuaciones [1.103]-
[1.107]).

En los siguientes apartados se describen de manera general estos mtodos, haciendo hincapi en
los implementados en la versin original de PRALINS y en el mdulo CombiChem de Cerius2,
empleados en este trabajo. En las referencias [301] y [303] puede encontrarse una recopilacin
histrica de la incorporacin de estas metodologas al diseo de quimiotecas diversas.

92
Captulo 1. Fundamentos tericos

1.10.2.1. Mtodos basados en Distancias

El objetivo de estos mtodos es la identificacin de aquel subconjunto de las n molculas ms


diversas pertenecientes a una base de datos con N compuestos (donde tpicamente n<<N). La
diversidad se establece en trminos de disimilitudes intermoleculares entre compuestos. Los
algoritmos ms tpicos son los de mxima disimilitud (maximum dissimilarity) y los de esferas
de exclusin (sphere exclusion).

El algoritmo bsico de mxima disimilitud es el propuesto por Kennard y Stone en 1969, y


aplicado a la seleccin de compuestos por Lajineess y Bawden. El subconjunto n se inicializa
transfiriendo un compuesto de la base de datos. A partir de all, los restantes compuestos
aadidos hasta obtener un tamao n se escogen de forma que sean lo ms disimilares a los ya
presentes. El compuesto inicial puede ser escogido aleatoriamente, puede corresponder al ms
disimilar de la base de datos o puede ser un compuesto prximo al centro de la base de datos.
Por ejemplo, en la correspondiente implementacin de este algoritmo en el programa MOE se
escoge invariablemente el primer compuesto de la base de datos. Por otra parte, la disimilitud se
define siguiendo tpicamente el criterio MaxMin que maximiza la mnima distancia
intermolecular en el conjunto (ecuacin [1.108]) o el criterio MaxSum, que maximiza la suma
de distancias de cada compuesto con los restantes (ecuacin [1.109]):


max min d i , j [1.108]
i j ; j n
n
max d i , j [1.109]
j =1

Una variante del mtodo MaxSum maximiza la suma de distancias de cada compuesto con un
centroide, molcula ficticia situada en el centro del conjunto seleccionado, permitiendo reducir
el orden de tiempo de O(n2N) a O(nN)304.

Este formato bsico no garantiza que se obtenga el subconjunto ptimo, ya que es un proceso
altamente dependiente del punto inicial. Por ello, se introducen posteriormente estas
definiciones de disimilitud en combinacin con algoritmos de optimizacin globales como los
algoritmos genticos150, Simulated Annealing305 o mtodos de Monte Carlo306.
Adems, se incorporan diferentes definiciones de disimilitud, como el criterio MaxMin
promediado, tambin implementado en la versin original de PRALINS (ecuacin [1.110]):

N
DMaxMin _ P = min d i , j [1.110]
i j ;c n
i =1

o las funciones Product (ecuacin [1.111]) y PowerSum (ecuacin [1.112]), introducidas por
Hassan306 e incluidas en el mdulo CombiChem de Cerius2:


[ ]
1
max Di2, j 0.5n ( n1) [1.111]

0.5 n (n 1)
max [1.112]
1 Di , j
2

Estos mtodos de mxima disimilitud, aplicados inicialmente en selecciones cherry picking son
extrapolados en 1997 a la seleccin de subbibiotecas full array en combinacin con algoritmos
genticos150, 153 o Simulated Annealing155.

93
Captulo 1. Fundamentos tericos

Por otra parte, en los mtodos basados en esferas de exclusin a partir de una molcula inicial
seleccionada, aleatoriamente o de manera que sea central a la quimioteca, se genera una
hiperesfera de un determinado radio. Los restantes compuestos comprendidos a una distancia de
este compuesto inferior al radio de la esfera son excludos. El siguiente compuesto aadido
puede ser aquel ms disimilar al seleccionado o un compuesto aleatorio, variando segn la
implementacin particular. El proceso se repite hasta completar el tamao n307. Otras variantes
de este algoritmo, como la implementada en PRALINS, corresponden a mtodos de clustering,
ya que generan agrupaciones de compuestos al incorporarlos a esferas previas si su distancia es
inferior al radio o generan nuevas esferas que se convierten en centros de nuevas agrupaciones.

1.10.2.2. Mtodos de Clustering

El clustering es un proceso que divide un grupo de objetos en grupos o clusters de objetos, de


manera que stos muestran un alto grado de similitud intra-cluster y de disimilitud inter-
cluster308. De este modo, seleccionando un compuesto perteneciente a cada cluster se obtiene
una muestra representativa de todo el conjunto.

Entre los mtodos de clustering se aplican mayoritariamente aquellos que no producen


solapamiento, es decir, cada molcula es asignada a un nico cluster. Dentro de ellos, se
distinguen los mtodos jerrquicos y los no jerrquicos. Los mtodos jerrquicos iteran
sucesivamente en dos posibles sentidos: a partir de un cluster inicial que comprende toda la base
de datos ste se divide progresivamente (jerrquicos divisivos) o bien a partir de clusters
formados por compuestos individuales (singletons) stos se fusionan produciendo clusters ms
grandes que terminan englobando a todo el conjunto (jerrquicos aglomerativos).

En la versin aglomerativa, se parte del clculo de una matriz de similitud intermolecular entre
todos los pares de compuestos, cada uno de los cuales constituye un singleton. El par de
compuestos ms similares se fusiona en un cluster formando un nico nuevo punto (cluster o
singleton) para el que se calcula su similitud a todos los dems puntos de la base de datos,
actualizndose la matriz de similitud. Los distintos mtodos difieren en el modo en que se
define cul es el par ms similar y cmo este par es fusionado para generar un nuevo cluster. En
el algoritmo single linkage se selecciona la distancia ms corta entre las molculas.
Alternativamente, cuando se emplea la distancia ms larga entre objetos, se denomina complete
linkage. Finalmente, si se utiliza la distancia promedio, el mtodo corresponde al average
linkage.

As, la matriz de interdistancias se actualiza segn la frmula de Lance-Williams309 (ecuacin


[1.113]), cuyas constantes (Tabla 1.9) distinguen el mtodo particular en cuestin. La versin
original de PRALINS dispone de los mtodos single linkage, median linkage, complete linkage
y centroid linkage. En este trabajo, se implementan las variantes Group Average y Ward
(apartado 8.5.1).

d k ,(i , j ) = d k ,i + d k , j + d i , j + d k ,i d k , j [1.113]

94
Captulo 1. Fundamentos tericos

Tabla 1.9. Constantes de la frmula de Lance-Williams para las distintas variantes de clustering
jerrquico aglomerativo. Las variables i, j son los clusters que se fusionan en el nuevo cluster k y ni, nj, nk
corresponden al nmero de compuestos en los clusters i, j, k respectivamente.


Complete linkage
0.5 0.5 0 0.5
(Furthest Neighbour)

Median linkage 0.5 0.5 -0.25 0

Single linkage
0.5 0.5 0 -0.5
(Nearest Neighbour)

ni nj ni n j
Centroid 0
ni + n j ni + n j (ni + n j ) 2

Average linkage
0.5 0.5 0 0
(unweighted)

Average linkage ni nj
(weighted) o 0 0
Group Average ni + n j ni + n j

ni + nk n j + nk nk
Ward 0
ni + n j + nk ni + n j + nk ni + n j + nk

Dado que el objetivo es seleccionar un compuesto representativo de cada cluster, el proceso de


fusin se repite hasta obtener un nmero de clusters igual al tamao de la seleccin n.

Estas tcnicas presentan una complejidad O(N2) en tiempo y espacio de memoria para la
creacin de la matriz de interdistancias y orden O(N3) en tiempo de realizacin del clustering,
por lo que su aplicacin est limitada a bases de datos de decenas de miles de compuestos.

Por otra parte, los mtodos de clustering no jerrquicos exigen menos demanda computacional
que los jerrquicos. Dentro de la variedad de algoritmos posibles, destacan los mtodos single-
pass, los de relocation y los de nearest-neighbour:

Single-pass: son sencillos de implementar y muy rpidos. En una nica vuelta sobre la base
de datos asignan los compuestos a clusters y segn una tolerancia de similitud deciden si
se asigna el siguiente compuesto a un cluster existente o se utiliza para generar un nuevo
cluster.

Relocation: asignan los compuestos a un nmero de clusters semilla e iterativamente


reasignan los compuestos a otros clusters durante un nmero de iteraciones o hasta que
ningn compuesto migra de un cluster a otro. Dentro de ellos, destaca el mtodo K-means,
tambin implementado en PRALINS. El problema principal que presentan es que son muy
propensos a detectar ptimos locales y no es generalmente posible determinar si realmente
se ha alcanzado una clasificacin ptima. En estos mtodos, el usuario determina el
nmero de clusters iniciales.

Nearest-neighbour: como su nombre indica, agrupan aquellas molculas vecinas al entorno


de cada compuesto. El ms extendido es el algoritmo de Jarvis-Patrick, que identifica los K
compuestos ms prximos para cada compuesto N de la base de datos. Una vez se ha
construido esta lista para todos los compuestos, dos molculas se agrupan en un cluster si
ellas son vecinas recprocamente y adicionalmente, si comparten en comn un nmero

95
Captulo 1. Fundamentos tericos

mnimo de vecinos Kmin (similarity threshold). Este valor de Kmin es el que determina
principalmente la particin. El proceso de agrupar los pares se repite hasta que no se
identifica un nuevo par a agrupar. Este algoritmo presenta la desventaja de que identifica
un gran nmero de clusters compuestos de muy pocas molculas o singletons y tambin la
imposibilidad de especificar a priori el nmero de clusters finales requeridos. Tambin se
encuentra implementado en la versin original de PRALINS.

En general, las tcnicas de clustering son apropiadas para el tratamiento de datos con elevada
dimensionalidad, aunque quedan bastante restringidos a su aplicacin en bases de datos de
tamao medio. Otra ventaja es que realizan una particin natural de los datos, aunque la adicin
de nuevos compuestos obliga a repetir la clasificacin de nuevo.

1.10.2.3. Mtodos de Particin

Para cada una de las propiedades o descriptores que definen el espacio qumico se subdivide su
rango en subrangos cuyo producto combinatorio define un conjunto de celdas hipercbicas o
bins. Cada molcula se asigna a aquella celda que comprende el rango de propiedades que
presenta dicha molcula. Las distintas tcnicas difieren en el criterio seguido para definir el
rango.

PRALINS dispone del algoritmo de Optimum Binning que iterativamente divide en dos aquel
rango o segmento con un mayor intervalo de valores hasta que se obtiene un nmero de celdas
ocupadas equivalente o superior al tamao de seleccin deseado. En caso de que sea superior, se
retiene la particin previa de manera que el nmero de celdas ocupadas no supere el nmero de
molculas a seleccionar. De este modo, los bins o celdas tienden a presentar lados iguales.

La particin Optimum Binning se encuentra tambin implementada en el mdulo CombiChem


de Cerius2, que presenta adems otros esquemas de particin como son: Binning Uniforme,
donde cada una de las dimensiones se divide en un nmero determinado de particiones de igual
tamao o se establece el tamao del segmento para todos los subrangos posibles de una
propiedad; Binning basado en la desviacin estndar: cada eje de propiedades se divide en tres
intervalos segn un nmero n de desviaciones estndar: i) desde el mnimo a la media menos n
desviaciones estndar, ii) desde el punto anterior a la media ms n desviaciones estndar y iii)
desde el punto anterior hasta el mximo del valor de la propiedad del eje; Binning ponderado
por la poblacin: la divisin del eje en un nmero especfico de bins se realiza de manera que
todos los bins resultantes estn igualmente poblados. Alternativamente, tambin se permite la
generacin manual de un binning.

Este tipo de mtodos son particularmente tiles para comparar bases de datos diferentes,
siempre que se trabaje sobre el mismo conjunto de descriptores y para identificar agujeros de
diversidad (celdas no ocupadas). Adems, la adicin de nuevos compuestos no fuerza la
repeticin de la particin, por lo que se aplican en la complementacin de quimiotecas con
quimiotecas externas. Su ltima ventaja reside en su baja complejidad de clculo, del orden de
O(N), lo que los convierte en mtodos accesibles a quimiotecas del orden de centenares de miles
de compuestos.
Por el contrario, quedan restringidos a espacios qumicos de baja dimensionalidad, dada la
explosin combinatoria del nmero de celdas generadas en espacios de alta dimensin. Adems,
la arbitrariedad en la definicin de los lmites de las celdas provoca efectos frontera (edge
effects) ya que dos compuestos muy cercanos pueden quedar incluidos en distintas celdas,
tratndose entonces como compuestos disimilares. Este fenmeno se recoge en este trabajo en el
captulo 8.

Tanto en el caso de los mtodos de clustering como en los de particin, en el caso de realizar
una seleccin sparse o cherry picking basada en diversidad, se escoge un producto representante
de cada uno de los clusters o bins.

96
Captulo 1. Fundamentos tericos

En el caso de las selecciones full array es necesario acoplar un algoritmo de optimizacin global
que escoja aquel subconjunto combinatorio que maximize alguno de los criterios
implementados en las ecuaciones [1.103]-[1.107]. La versin original de PRALINS dispone de
los mtodos de Monte Carlo y Simulated Annealing y tambin el algoritmo de Local Search
para tal fin.

1.10.3. Diseo de Quimiotecas Focalizadas: Mtodos de seleccin de compuestos

En el diseo focalizado, el objetivo es maximizar la similitud del subconjunto de compuestos


seleccionados C frente a un compuesto activo o lead o a una familia de ellos. Esta similitud se
define normalmente como la distancia promedio de un compuesto a su lead ms prximo162,
ecuacin [1.114]:

1 n F
S (C ) = min (d ij ) [1.114]
n i=1 j =1

siendo n es la cardinalidad del conjunto C, F es el nmero de leads y dij es la distancia entre el


compuesto i de la base de datos y el lead j. Normalmente, se trabaja focalizando a un nico
lead, como en las bsquedas de similitud mediante fingerprints farmacofricos.

As en un diseo sparse o cherry picking, simplemente se evalan las distancias, se ordena la


base de datos y se escoge aquel subconjunto que maximiza la similitud. Alternativamente, se
puede realizar una clasificacin del conjunto segn mtodos de clustering y escoger aquellos
compuestos pertenecientes al cluster de molculas activas.

Sin embargo, en las selecciones sobre quimiotecas combinatorias en formato full array es
necesario imponer un algoritmo de optimizacin que identifique aquellos productos
combinatorios que minimizen dicho criterio. Como en el caso de las selecciones diversas, los
ms aplicados corresponden a algoritmos genticos y a Simulated Annealing.

De hecho, las primeras implementaciones de procesos heursticos en selecciones full array


proceden del diseo focalizado y se generalizan posteriormente al diseo diverso. En 1995,
Sheridan156 y Weber157 publican sendas aplicaciones de los algoritmos genticos en las que la
codificacin del problema se realiza segn valores enteros. Posteriormente, en 1997, Brown y
Martin presentan el programa GALOPED, que difiere en la codificacin en valores binarios154.
Las implicaciones asociadas a ambas codificaciones se discuten en el apartado 8.1, donde se
describe la implementacin de GA en PRALINS. Sheridan utiliza inicialmente156 descriptores
farmacofricos basados en atom pairs y en 1999 amplia el estudio a los valores de scoring
obtenidos segn diversas funciones158.

Zheng et al en el programa Focus-2D, incorporan las tcnicas de SA en el diseo de


quimiotecas combinatorias focalizadas, analizando las frecuencia de aparicin de los distintos
building blocks en el conjunto seleccionado para identificar a los candidatos ms probables160.
Tanto SA como GA son adaptados en el programa Cerius2 por Jamois161 para realizar
optimizaciones on the fly, evitando la enumeracin y descripcin de toda la quimioteca,
especialmente til en el caso de quimiotecas con centenas de millones de compuestos.

Previamente, en el ao 2000, Agrafiotis y Lobanov desarrollan dos algorimos con una mayor
componente determinista. El primero de ellos, definido como ultrafast greedy algorithm162
comienza con una seleccin aleatoria full array y de manera secuencial para cada punto de
diversidad, selecciona aquellos reactivos que maximizan la funcin objetivo. Para cada punto de
diversidad, construyen tantas quimiotecas como reactivos disponibles para este punto,
combinando la estructura correspondiente con el resto de listas de reactivos seleccionadas para

97
Captulo 1. Fundamentos tericos

el resto de puntos de diversidad. Una vez que el proceso se ha repetido para todos los puntos de
diversidad, se termina el ciclo y la similitud de la seleccin full array se compara con el valor
del ciclo previo. Si se mejora el resultado, el algoritmo contina, de lo contrario, termina. Los
autores concluyen que el algoritmo presenta una mejor convergencia que las tcnicas heursticas
de optimizacin, alcanzando los mismos valores. El tiempo de preprocesado escala linealmente
con el tamao de la quimioteca virtual, mientras que el tiempo de refinado escala linealmente
con el nmero total de reactivos disponibles.

El otro algoritmo desarrollado por Agrafiotis163 est diseado para evitar la enumeracin y
descripcin de toda la quimioteca, rindiendo una solucin ptima o quasi ptima en un orden de
tiempo razonable. Para ello, selecciona una fraccin aleatoria sparse de productos de la
quimioteca. stos se enumeran y describen, ordenndose por similitud decreciente a la
estructura objetivo. Aquellos que presentan mayor similitud se deconvolucionan en sus building
blocks, denominados reactivos preferenciales (preferred reagents). Estos reactivos
preferenciales se combinan posteriormente, produciendo una quimioteca full array de
productos, sobre la que, una vez enumerada y descrita, se evalua la similitud. La seleccin final
se establece sobre aquellos compuestos con una mayor similitud al compuesto lead. Debido a su
naturaleza estocstica en la seleccin de compuestos aleatoria inicial, el proceso se repite varias
veces, combinndose los resultados por consenso.

El programa PLUMS310 genera selecciones combinatorias focalizadas imponiendo una serie de


restricciones en ciertas propiedades (reglas de Lipinski, satisfaccin de un modelo
farmacofrico). Inicialmente clasifica todas las molculas de la quimioteca virtual en virtual
hits, aquellas que satisfacen las restricciones, y no virtual hits. Seguidamente, genera una
quimioteca full array por combinacin de los monmeros presentes en los virtual hits. La
funcin objetivo a optimizar se construye como un balance ponderado de eficiencia y
efectividad. En cada iteracin, se elimina el peor monmero, es decir, aquel que eliminado
permite la obtencin de una seleccin de menor tamao con un mejor valor de la funcin. El
proceso contina hasta que se eliminan todos los monmeros desfavorables.

Finalmente, en el ao 2003, Young311 presenta un algoritmo alternante (Alternanting algorithm)


destinado hacia el diseo de quimiotecas combinatorias focalizadas y generales. Partiendo de
una seleccin full array aleatoria del tamao y configuracin deseados, analiza sucesivamente
cada uno de los puntos de diversidad. As, para el punto i, con un nmero de reactivos
seleccionados aleatoriamente ni, se aade el mejor de los reactivos disponibles no presentes en
la lista de seleccionados y se elimina el peor del nuevo conjunto ni+1. A continuacin, salta al
siguiente punto de diversidad j y una vez recorridos todos, si el resultado mejora el inicial por
encima de una tolerancia, se retoma el proceso. De lo contrario, el algoritmo se detiene.
Anlogamente al algoritmo de Lobanov163, debido al carcter estocstico del proceso, el clculo
se repite varias veces, reteniendo el mejor de los resultados.

1.10.4. Evaluacin y Comparacin de los mtodos de seleccin

Como se ha comentado, las tcnicas computacionales se evalan en trminos de su efectividad y


eficiencia. La eficiencia computacional de los distintos mtodos se ha comentado brevemente,
ms detalles se pueden encontrar en las referencias [301] y [303].

Respecto a la efectividad, el primer criterio de evaluacin de la efectividad de los distintos


mtodos del diseo de quimiotecas generales o diversas es la comparacin de los resultados
obtenidos frente a los alcanzados mediante selecciones aleatorias. En este sentido, pese a que los
primeros anlisis indicaron que no existan diferencias en la distribucin de los compuestos
seleccionados por ambas aproximaciones, posteriormente un mayor nmero de estudios
concluyeron que las selecciones racionalizadas son una mejor aproximacin que las aleatorias29,
150, 306
.

98
Captulo 1. Fundamentos tericos

Dado que el diseo diverso est dirigido a la identificacin de compuestos activos frente a
varias dianas, algunos de estos estudios, partiendo de bases de datos con varias clases de
actividad biolgica, comparan el grado de recubrimiento de cada una de las clases segn una
seleccin diversa con el obtenido aleatoriamente. En el estudio de Brown y Martin29, se
comparan distintos mtodos de clustering en funcin de su capacidad para agrupar los
compuestos activos en un mismo cluster y separarlos de de los inactivos, identificando as el
active cluster subset. Concluyen que el mtodo de clustering de Ward es superior al resto de
mtodos de clustering testados.

Otro criterio utilizado para evaluar la efectividad de los distintos algoritmos frente a un diseo
aleatorio y compararlos entre s es el basado en medir el grado de diversidad en el espacio de
propiedades alcanzado en cada uno de ellos, es decir, hasta qu punto la seleccin queda
extendida en el espacio qumico. En este sentido, es necesario disponer de mtodos que
permitan comparar bases de datos, evaluando el recubrimiento alcanzado por ambas de manera
independiente al mtodo de seleccin aplicado y en un mismo marco de referencia.

Como se ha mencionado, los mtodos de particin son especialmente adecuados para la


comparacin de bases de datos ya que son independientes de los datos incluidos, por lo que es
uno de los criterios ms ampliamente seguidos312, 313. Si se comparan dos subconjuntos de una
misma base de datos, una particin establecida segn mtodos de clustering es igualmente
vlida para el anlisis.

Otros mtodos, como el del centroide, facilitan la expresin de la diversidad como suma de las
distancias intermoleculares incluidas en una quimioteca. La combinacin de los centroides de
dos bases de datos rinde una medida cuantitativa del cambido en diversidad resultante de la
fusin de las dos bases de datos.314

El diversity integral criterion difunde un determinado nmero de puntos aleatorios en el espacio


qumico definido por las dos bases de datos comparadas (Figura 1.19). La diversidad de cada
quimioteca se establece como la suma de las distancias para cada punto y su molcula ms
prxima. Aquella quimioteca con un menor ndice de diversidad est ms extendida en el
espacio qumico. Esta tcnica, se encuentra implementada en el mdulo CombiChem de
Cerius2.39

Figura 1.19. Representacin del diversity integral criterion. Para las dos selecciones A (azul) y B
(rojo) se extienden puntos aleatorios exclusivamente en el espacio qumico definido por ambas
(cuadrados negros) y se cuantifica la distancia de cada uno de ellos al compuesto ms cercano de cada
seleccin. La quimioteca total se representa por los puntos grises.

99
Captulo 2. Tirosina Quinasas

Captulo 2.

Tirosina Quinasas

2.1. Protena Tirosina Quinasas

El inters farmacolgico de esta tesis es la inhibicin de receptores tirosina quinasas. En este


captulo se describe el papel que estos receptores juegan en los mecanismos de sealizacin
intracelular, su inters teraputico, su caracterizacin estructural y los diferentes mecanismos de
inhibicin desarrollados.

Uno de los mecanismos fundamentales por los que las clulas eucariotas se comunican es
mediante la unin de ligandos a la superficie de receptores celulares que actan directamente
como enzimas o estn asociados a enzimas. Entre ellos, la mayor parte corresponden a protena
quinasas: tirosina quinasas o serina/treonina quinasas, que fosforilan determinados residuos de
tirosina, serina o treonina de protenas seal intracelulares o bien estn asociados a protenas
que tienen actividad tirosina quinasa.

La importancia de la fosforilacin de protenas en la regulacin de la vida celular eucaritica se


refleja en el hecho de que en un 2% de los genes eucariotas se encuentran dominios con
actividad quinasa.315 As, las protena quinasas se han convertido en el segundo grupo de dianas
farmacolgicas, tras los receptores acoplados a protenas G (GPCRs), cubriendo el 20-30% de
los proyectos de descubrimiento de frmacos en muchas compaas farmaceticas.316

El quinoma humano contiene 518 protenas quinasa, de las cuales 478 pertenecen a una nica
superfamilia cuyos dominios catalticos estn relacionados en secuencia. stos se pueden
agrupar en 7 grupos, 20 familias y subfamilias, con creciente similitud de secuencia y funcin
bioqumica.317 Las protena tirosina quinasas (PTKs) forman un nico grupo, correspondiendo
los seis restantes a serina/treonina quinasas. Adems, se han secuenciado 40 quinasas atpicas
que no comparten similitud secuencial con el resto, pero cuya actividad enzimtica y/o
plegamiento estructural es conocido o previsto similar al de una protena quinasa. El rbol del
quinoma humano se encuentra accesible a travs de diferentes servidores web como son el
Protein Kinase Resource230 , Cell Signaling Technology, Inc318 y Evolutionary Bioinformatics
and Sugen, Inc319. Esta clasificacin rebasa la previamente utilizada, propuesta por Hanks y
Quinn en el ao 1991320.

En la Figura 2.1 se muestra el rbol filogentico del quinoma humano correspondiente al grupo
de las protena tirosina quinasas (PTKs), en el que se ha centrado el trabajo. La reaccin
especfica catalizada por las PTKs es la transferencia del fosfato del ATP al grupo hidroxilo de
la tirosina de la protena diana. Las PTKs se diferencian tradicionalmente en dos subgrupos:

Los receptores tirosina quinasa (RTKs): son glicoprotenas transmembrana que se activan
por la unin de sus ligandos y transducen la seal extracelular al citoplasma mediante
autofosforilacin y posterior fosforilacin de protenas intracelulares. Esta familia incluye
los receptores de insulina y muchos receptores de factores de crecimiento como el factor
de crecimiento epitelial (EGF), los factores de crecimiento de los fibroblastos (FGF), el
factor de crecimiento derivado de las plaquetas (PDGF), el factor de crecimiento vascular
endotelial (VEGF), el factor de crecimiento de los hepatocitos (HGF), el factor de
crecimiento neuronal (NGF) y el factor estimulador de la formacin de colonias de
macrfagos (M-CSF). Estos receptores se componen de un dominio extracelular,
implicado en la unin del ligando y la dimerizacin del receptor (vase abajo), un nico

101
Captulo 2. Tirosina Quinasas

dominio transmembrana y un dominio citoplasmtico que contiene el dominio cataltico


tirosina quinasa, as como diversas secuencias reguladoras.

La familia de tirosina quinasas no receptoras (NRTKs): componentes integrales de las


cascadas de sealizacin iniciadas por las RTKs y otros receptores de la superficie celular
como las GPCRs y los receptores del sistema inmunolgico. La mayor parte se localizan
en el citoplasma, aunque algunas se encuentran ancladas en la membrana celular. Se
incluyen la familia Src, la familia Janus (Jaks) y otras como Tec, Fes, Abl, FAK y Syk.

Figura 2.1. Grupo de PTKs del quinoma humano. Extrado de [230].

2.2. Sealizacin Celular en Tirosina Quinasas

Las RTKs activan, en respuesta a los factores de crecimiento, numerosas vas de sealizacin
que generan respuestas celulares tales como la mitognesis y proliferacin, diferenciacin,
migracin, la supervivencia celular, la prevencin o induccin de apoptosis, el reordenamiento
del citoesqueleto y cambios metablicos.

Esta variedad de respuestas ante un mismo estmulo puede depender del tipo celular y ms
genricamente de las diversas condiciones fisiolgicas a las cuales estn sometidas las clulas.
As, en cultivos celulares estas respuestas pueden depender de la densidad celular de los
cultivos, del tipo de matriz extracelular a la que estn adheridas las clulas o de la presencia en
el medio de otros factores de crecimiento u hormonas, ya que normalmente estos actan en
combinaciones especficas. Por ejemplo, un nmero pequeo de factores de crecimiento pueden
servir, en combinaciones diferentes, para regular selectivamente la proliferacin de cada una de
las diferentes clases de clulas de un animal superior.

102
Captulo 2. Tirosina Quinasas

Los factores de crecimiento pueden presentar una especificidad amplia (como EGF, FGF y
PDG) o reducida (NGF). Mayoritariamente se encuentran implicados en regulaciones paracrinas
(mediadores locales), aunque algunos estn presentes en la circulacin.

2.2.1. Activacin de los Receptores de Tirosina Quinasa

La mayor parte de las RTKs existen como monmeros en la membrana celular, siendo las dos
principales excepciones la familia de receptores de insulina (tetrmeros 22) y la familia Met.
La unin del ligando a los receptores monomricos induce la dimerizacin de stos,
produciendo un acercamiento de sus extremos que permiten que los dominios TK interaccionen
y se autofosforilen (por trans-fosforilacin, se ha descartado la posibilidad de una
cis-fosforilacin), conduciendo a su activacin.

El mecanismo de dimerizacin difiere entre distintas RTKs. Se pueden unir ligandos


monomricos bivalentes, homodmeros o heterodmeros. stos pueden ser factores solubles o
estar unidos a la membrana (receptores Eph), o pueden requerirse factores adicionales como los
heparina sulfato proteoglicanos, en el caso de FGFR. En algunos casos, la dimerizacin por s
sola no es capaz de activar toda la funcionalidad posible, necesitndose oligomerizaciones (caso
de los receptores Eph). Adems, los dmeros formados pueden ser homodmeros o
heterodmeros, compuestos por dos cadenas de RTKs de una misma familia321, aunque no todas
las configuraciones dimricas de un receptor son capaces de sealizar.

La activacin por autofosforilacin no solo aumenta la actividad del dominio cataltico, sino que
se hacen accesibles determinados sitios de unin con tirosinas autofosforiladas, normalmente
fuera del dominio TK, que reclutan protenas para ser fosforiladas, continundose la cascada de
sealizacin.
Estas protenas reclutadas poseen dominios no catalticos altamente conservados SH2 (Src
homology 2 domain) o dominios PTB (phosphotyrosine binding). Los dominios SH2 se unen
especficamente a secuencias de aminocidos definidas por 1-6 residuos C-terminales a una
fosfotirosina. Por su parte, los dominios PTB reconocen secuencias de 3-5 aminocidos
N-terminales a una tirosina, fosforilada o no. Estas protenas pueden ser de dos tipos: i)
protenas adaptadoras, sin actividad cataltica, que pueden reclutar a otras protenas
transductoras, o ii) factores o enzimas directamente transductores/as que tras unirse al receptor
son fosforilados por ste, pasando de un estado inactivo a otro activo. Las protenas adaptadoras
poseen tambin dominios SH3 WW que reconocen motivos ricos en prolinas, permitiendo el
ensamblaje de complejos de protenas a travs de uniones SH2 y SH3322.
Adems, existen protenas de reclutamiento (docking proteins) con dominios seal dirigidos a
los fosfolpidos de la membrana celular (como el dominio PH, pleckstrin homology domains)
que permiten la translocacin a la membrana de protenas de sealizacin, dominios SH2 para
unirse a estas protenas y dominios PTB que se unen al receptor. Destacan las familias IRS y
FRS como docking proteins de los receptores IR (receptor de insulina) y FGFR.

Por lo tanto, mediante estos reclutamientos y/o fosforilaciones se producen cambios


conformacionales y/o cambios en la localizacin intracelular de estas protenas sealizadoras,
siendo as capaces stas de transmitir sus mensajes a otros componentes de las diversas rutas
intracelulares de transduccin de seales. Otras NRTKs utilizan dominios especficos de la
subfamilia para mediar las interacciones protena-protena.

103
Captulo 2. Tirosina Quinasas

2.2.2. Mecanismos de Sealizacin Intracelular

De manera general, los mecanismos intracelulares normalmente terminan en el ncleo celular,


resultando en la activacin de distintos factores de transcripcin que regulan la expresin
gnica. En la Figura 2.2 se recogen los distintos mecanismos de sealizacin activados por
RTKs.

Figura 2.2. Mecanismos de sealizacin activados por RTKs. Extrado de [321].

Cascada MAPK (Mitogen Activated Proteins Kinases) / Erk (Extracellular Signal


Regulated Kinases). Implicada en el crecimiento y diferenciacin celular. Requiere la
activacin por transferencia de GTP de protenas GTPasas monomricas como las
protenas de la familia Ras (Ras y Rap1). La activacin de Ras es mediada por el factor de
liberacin de nucletidos de guanina SOS, que a su vez transloca a la membrana por
formacin del complejo Grb2-SOS. Grb2 es una protena adaptadora que puede
interaccionar directamente por sus dominios SH2 con los RTKs (como en el caso del
EGFR) o alternativamente interaccionar indirectamente con otras protenas adaptadoras
acopladas a los RTKs (como Shc en EGFR, unida va dominios PTB) o docking proteins
como FRS2 en FGFR (directa o indirectamente por acoplamiento a la fosfatasa Shp2).
La activacin de Ras inicia la cascada MAP/Erk, que consta de tres serina/treonina
quinasas secuenciales (Raf, Mek, Erk). Una vez que las ERK1/2 son activadas, stas
pueden fosforilar a diferentes protenas dianas localizadas en la membrana plasmtica y en
el citoplasma, dando lugar a la activacin de otras vas de sealizacin o translocarse al
ncleo y fosforilar diversos factores de transcripcin como son, entre otros, c-Myc, c-Jun,
c-Fos, Elk-1 y p62TCF, produciendo as la activacin o la represin transcripcional de
determinados genes.

Cascadas MAPK alternativas como la JNK/SAPK (c-Jun N-terminal kinase, Stress-


activated protein kinases), que interviene en respuesta a numerosas situaciones de estrs
medioambiental, tambin puede iniciarse tras la activacin de Ras por una RTK. Tambin
la cascada p38 MAPK, se activa en respuesta a factores de crecimiento como el factor de
crecimiento neuronal o el tipo-insulina.

Activacin de las protenas activadoras de GTPasa (GAP) que se unen directamente a los
RTKs e incrementan la velocidad de hidrlisis del GTP unido a Ras, inactivndolo.

104
Captulo 2. Tirosina Quinasas

Activacin de la fosfolipasa C- (PLC-) por unin directa de sus dominios SH2 al RTK.
Este enzima hidroliza el fosfatidilinositol 4,5-bisfosfato (PIP2) generando inositol 1,4,5-
trisfosfato (IP3) y 1,2-diacilglicerol (DAG). Tanto el IP3 como el DAG son potentes
mensajeros secundarios. El IP3 es un efector de canales de calcio localizados en la
membrana del retculo endo/sarcoplsmico que estimulan la liberacin de Ca2+. Este Ca2+
se une a la calmodulina, activando la familia de quinasas dependientes de calmodulina.
Adems, el DAG y Ca2+ activan la protena quinasa C (PKC). Adems de una serie de
respuestas intracelulares, como puede ser el reordenamiento del citoesqueleto mediado por
Ca2+, los efectos de DAG y Ca2+ se transducen en la activacin de ciertos factores de
transcripcin.

Activacin de la fosfatidilinositol 3-quinasa (PI-3K). Las PI-3K de la clase I son


heterodmeros compuestos de una subunidad reguladora, p85, con dominios SH2 y SH3 y
una subunidad cataltica, p110. PI-3K puede interaccionar directamente a travs de sus
dominios SH2 con el receptor (caso del receptor ErbB3 de la familia EGFR) o bien hacerlo
con docking proteins, como la protena Gab1 en EGFR y FGFR. La PI-3K activada
fosforila el PIP2, generndose fosfatidilinositol 3,4,5-trisfosfato (PIP3). ste es un potente
efector que se une a protenas que contienen dominios PH, interviniendo en la
translocacin de una variedad de protenas de sealizacin y su activacin:

- Una de ellas es la serina/treonina quinasa PKB/Akt (PKB, por protein kinase B; y Akt,
por ser homloga de la oncoprotena v-Akt). La PKB/Akt activada fosforila a multitud
de protenas sustrato generando, entre otras, seales de supervivencia celular que
previenen la aparicin de apoptosis. Por una parte, inactiva caspasas (procaspasa 9),
suprime la expresin de genes proapoptticos e inhibe la formacin del complejo
apopttico BAD-Bcl2.
- En el receptor de insulina, la activacin de PI-3K conduce a la translocacin de los
transportadores de glucosa a la membrana celular.
- Interviene en la generacin de H2O2 inducida por factores de crecimiento. H2O2, entre
otras respuestas, inactiva a la fosfatasa PTP, que desfosforila la EGFR activada.

Activacin de la cascada JAK/STAT (signal transducers and activators of transcription).


La fosforilacin de las quinasas de Janus (JAK) permite el acoplamiento y fosforilacin de
STATS, que dimerizan y migran al ncleo, aumentando la expresin del inhibidor del ciclo
celular p21WAF1/CIP1, quedando as bloqueado el mismo, y de la caspasa 1, proteasa
implicada en apoptosis. Esta parada de la proliferacin celular e induccin de apoptosis,
opuesta a la respuesta anterior, se realiza dependiendo del estado de la clula (clulas
tumorales).

Finalmente, los factores de crecimiento inducen la transcripcin de genes tardos como los
de las ciclinas y las quinasas dependientes de ciclina (CDKs), que intervienen en la
progresin de las clulas desde la fase G1 del ciclo celular a la fase S.323

Por otra parte, las NRTKs, adems de estar integradas en los mecanismos iniciados por las
RTKs, intervienen en el funcionamiento del sistema inmunolgico. La familia Jak est asociada
a receptores de citoquinas (como el interfern ), cuya activacin conduce a la transcripcin de
genes especficos mediante el sistema JAK/STAT. La quinasa Lck, un miembro de la familia
Src, est constitutivamente asociada a los receptores CD4 y CD8 de los linfocitos T, que una
vez estimulados, transducen la seal a travs de la quinasas Lck y ZAP-70, que finalmente
deriva en la activacin transcripcional de genes de citoquinas que intervienen en la activacin de
las clulas T. Anlogamente, en la activacin de las clulas B intervienen las NRTKs Lyn y
Syk.

105
Captulo 2. Tirosina Quinasas

En la Tabla 2.1 se recogen las actividades ms representativas en que participan los tres
receptores de factores de crecimiento con los que se trabaja: EGFR, PDGFR y FGFR.

Tabla 2.1. Familias de receptores de factores de crecimiento estudiados en el trabajo, sus ligandos,
receptores y funciones representativas.

Ligandos Receptores Actividades Representativas

EGF, TFG-, EGFR (ErbB1) Diferenciacin, proliferacin de muchos


Familia EGFR324 BTC, ErbB2 (Neu) tipos celulares. Seal inductora durante el
HB-EGF ErbB3 y ErbB4. desarrollo embrionario. Apoptosis.

PDGF-AA Mitogenicidad de clulas del tejido


PDGF-AB conjuntivo. Quimiotaxis. Reordenamiento
PDGFR-
Familia PDGFR325 PDGF-BB filamentos de actina. Movilizacin del Ca2+.
PDGFR-
PDGF-CC Inhibicin apoptosis (PDGFR-)
PDGF-DD

Durante el desarrollo embrionario


Cuatro genes desempean un papel crtico en la
(FGFR1-FGFR4) morfognesis, regulando la proliferacin,
22 FGFs que generan dis- diferenciacin y migracin celulares. En los
Familia FGFR326
distintos. tintas isoformas organismos adultos, intervienen en el
por splicing alter- control del sistema nervioso central, la
nativo reparacin de tejidos y la angiognesis
tumoral.

2.3 Protena Tirosina Quinasas / Implicacin Teraputica

Las protena quinasas han surgido como dianas farmacolgicas en numerosas enfermedades,
bien porque se encuentran sobreexpresadas y/o muestran una disfuncin en un rgano o tejido
particulares, o por el papel que desempean en mecanismos del ciclo celular implicados en
distintas enfermedades.

Entre estas enfermedades, el cncer focaliza la mayor parte de estudios, no solo por su
predominancia en la poblacin occidental, sino tambin porque su estudio permite avanzar en el
conocimiento de las pautas de comportamiento de las clulas en organismos pluricelulares.

Las clulas cancerosas se caracterizan por una proliferacin celular incontrolada y porque
invaden y colonizan territorios normalmente reservados para otras clulas.327 En la mayor parte
de cnceres, las anomalas que presentan estas clulas se transmiten a su progenie gracias a que
son debidas a cambios genticos (alteraciones en la secuencia de DNA), aunque tambin pueden
tener un origen epigentico (cambios en la pauta de expresin gnica, sin que exista ningn
cambio en la secuencia de DNA).
El anlisis de las alteraciones genticas en clulas cancerosas ha revelado un gran nmero de
genes que codifican protenas implicadas en el control de la proliferacin celular. Por una parte,
genes cuyos productos ayudan a estimular la proliferacin celular, de manera que al mutar se
sobreexpresan o se vuelven hiperactivos, denominndose oncogenes (siendo el alelo normal un
proto-oncogn). Por otra, los genes que inhiben la proliferacin celular sufren mutaciones que
los inactivan, denominndose entonces genes supresores de tumores. Los primeros presentan un
fenotipo dominante, nicamente se requiere la activacin de una nica copia del proto-oncogn,
mientras que la mutacin de los genes supresores de tumores tienen un efecto recesivo, las dos
copias del gen en la clula deben estar inactivadas o delecionadas.

106
Captulo 2. Tirosina Quinasas

La identificacin de proto-oncogenes en clulas normales ha sido posible en muchos casos


gracias al estudio de retrovirus que los transforman en oncogenes y actan de vectores,
insertndolos en el DNA de una clula husped. Sin embargo, existen otros agentes
carcingenos externos que producen mutagnesis, tales como radiaciones ionizantes o productos
qumicos.
Los proto-oncogenes incluyen ejemplos de prcticamente todos los tipos de protenas que
intervienen en los mecanismos de sealizacin molecular descritos en el apartado anterior:
factores de crecimiento y sus receptores RTK, protenas quinasa citoplasmticas (Src), protenas
Ras, protenas serina/treonina (cascadas MAPK) y protenas nucleares de regulacin gnica
(Myc, Fos, Jun).

En particular, la sobreexpresin y/o alteracin estructural de las RTKs estn frecuentemente


asociadas a cnceres en humanos y numerosas clulas tumorales utilizan los mecanismos de
transduccin mediados por RTK para conseguir el crecimiento tumoral, la angiognesis (las
clulas tumorales estimulan la generacin de vasos sanguneos que les aporten nutrientes y
oxgeno) y metstasis (propagacin de un tumor a sitios diferentes del origen). As, las RTKs
activan muchas protenas de sealizacin que no estn per se implicadas en el proceso de
proliferacin tumoral (activado por las cascadas dependientes de Ras), pero que tambin
contribuyen a la oncognesis (cambios en el citoesqueleto, movilidad celular, angiognesis
tumoral y cambios en la supervivencia celular).328

EGFR se utiliza como un marcador tumoral en numerosos tipos de cncer en los que se
encuentra sobreexpresado (colon, cabeza y cuello, pncreas, ovario, mama, rin, gliomas). Por
otra parte, se encuentran alteraciones en PDGF y su receptor en cnceres como el de pulmn,
prstata, renal, glioblastoma y la leucemia crnica monomieloctica. Adems, este PDGFR tiene
una gran importancia en la angiognesis tumoral.

Adems del cncer, los RTKs intervienen en distintas enfermedades asociadas con desrdenes
hiperproliferativos, migratorios, del desarrollo embrionario y enfermedades vasculares, tales
como arterosclerosis, la psoriasis, la artritis reumatoide, la retinopata diabtica, homeostasis del
fosfato, displasias esquelticas o fibrosis325,326. En la referencia [329] puede encontrarse una
recopilacin de las distintas enfermedades en las que estn implicadas las quinasas humanas.

2.4. Caracterizacin Estructural de los Receptores de Tirosina Quinasa:


dominio Tirosina Quinasa

Como se ha comentado, las RTKs consisten de una porcin extracelular, una hlice
transmembrana y una porcin cataltica.

La porcin extracelular contiene tpicamente un conjunto diverso de dominios globulares, como


los dominios tipo inmunoglobulinas (Ig), dominios de tipo fibronectina III, dominios ricos en
cistena y dominios tipo EGF.

La porcin intracelular es ms simple, compuesta de una regin yuxtamembrana situada tras la


regin transmembrana, seguida del dominio cataltico tirosina quinasa y de una regin carboxi-
terminal. Algunos receptores, principalmente los de la familia del receptor PDGFR poseen
adems una insercin de unos 100 aminocidos, denominado KID (kinase insert domain), que
no es conservado entre los distintos receptores y pese a que no es necesario para la actividad
cataltica, es un sitio de autofosforilacin e interaccin con otras protenas (como Grb2 y
PI-3K).
Los dominios yuxtamembrana y carboxi-terminal varan en longitud en distintas RTKs y, junto
con KID, contienen residuos de tirosina que son autofosforilados tras la activacin de la
actividad cataltica del dominio tirosina quinasa.

107
Captulo 2. Tirosina Quinasas

En la Figura 2.3 se esquematizan las estructuras de distintos RTKs.

L
Extracelular
Rico en Cys

Tipo Fibronectina III

Ig

EGF

Rico en Leu

Cadherina

Discoidina

Kringle

Tirosina
Quinasa
EGFR InsR PDGFR- Flt1 FGFR1 TrkA Ror1MuSK Met Axl Ret EphA1 Tie Ryk DDR1 Ros

ErbB2 IFGR1 PDGFR- KDRFGFR2 TrkB Ror2 Ron Eyk Tek DDR2
CSF1R Sea
ErbB3 IRR Flt4 FGFR3 TrkC Tyro SAM
Kit 3
ErbB4 FGFR4
Flk2 E`phB1
Nyk

Figura 2.3. Organizacin de dominios en RTKs. El dominio KID se muestra como una lnea negra
que divide el dominio tirosina quinasa. Adaptado de [330].

Los dominios quinasa comprenden entre 250 y 300 aminocidos, con un peso alrededor de
30kD. Se trata de un dominio muy similar entre serina/treonina quinasas y tirosina quinasas,
aunque existen diferencias a nivel de secuencia que caracterizan cada familia, de manera que
permiten distinguir si una secuencia putativa es de un tipo u otro.

A nivel de secuencia, Hanks331 estableci once subdominios conservados (I-XI) a partir del
alineamiento mltiple de quinasas, separados por regiones menos conservadas, donde se
encuentran gaps e insertos. As, el dominio KID de PDGFR, CSF1R y Kit aparece entre los
subdominios V y VI.

La arquitectura general del dominio quinasa es bilobular: con un lbulo N-terminal y un lbulo
C-terminal. El lbulo N-terminal comprende cinco lminas antiparalelas (1-5) y una hlice
(C), previa a la hlice C se encuentra otra hlice (B), aunque sta ltima no est tan
conservada entre quinasas. El lbulo C-terminal, ms grande que el anterior, est formado por
dos lminas (7, 8) y siete hlices (D, E, EF, F-I). Tambin se puede encontrar en
algunas quinasas otra lmina (9). El lbulo N-terminal est asociado a la unin del ATP,
mientras que el extremo C-terminal lo est con la catlisis y la unin del sustrato (vase Figura
2.4).

La notacin de la estructura secundaria es la aceptada e introducida por primera vez por


Knighton333, en la publicacin de la primera estructura resuelta de una protena quinasa, la PKA
(cAMP-dependent protein kinase). Posteriormente, la resolucin de muchos otros dominios
quinasa ha permitido comprobar que, aunque el porcentaje de identidad de secuencia total entre
todas ellas no es muy elevado (evidentemente, dentro de una familia ste se incrementa), el
plegamiento general se conserva. De hecho, existen varios residuos conservados, nueve de ellos
invariablemente y el resto altamente conservados entre las quinasas, implicados en la
funcionalidad del dominio. En la Tabla 2.2 se detallan los correspondientes residuos
conservados y su funcionalidad siguiendo la secuencia de PKA, ya que no existe una
nomenclatura de residuos, aunque estos se conservan en los alineamientos mltiples de
dominios quinasa como el presentado en las referencias [320] y [331].

108
Captulo 2. Tirosina Quinasas

Figura 2.4. Esquema de la estructura


del PKA. Extrado de [332].

Tabla 2.2. Residuos conservados (notacin secuencial de PKA) en el dominio cataltico quinasa.
Adaptado de [332].

Nmero de
Residuo Situacin en la estructura
Funcin dominio de
PKA secundaria
Hanks
Gly50 Loop que ancla el -PO4 de ATP I Loop de unin del ATP entre 1 y 2
Glu52 Loop que ancla el -PO4 de ATP I Loop de unin del ATP entre 1 y 2
Gly55 Loop que ancla el -PO4 de ATP I Loop de unin del ATP entre 1 y 2
Val57 Alinea el sitio de unin de la adenina del ATP 2
Lys72 Forma un par inico con -PO4 y -PO4 de ATP II 3
Glu91 Forma un par inico con la Lys72 III C
Asp166 Base cataltica VIb Loop cataltico entre 6 y 7
Lys168 Interacciona con -PO4 de ATP VIb Loop cataltico entre 6 y 7
Asn171 Quela Mg2+ en PKA VIb Loop cataltico entre 6 y 7
Asp184 Quela Mg2+ en PKA VII Inicio del loop de activacin (tras 8)
Phe185 Inicio del loop de activacin (tras 8)
Gly186 Inicio del loop de activacin (tras 8)
Glu208 Forma un par inico con Arg280 VIII Extremo del loop P+1
Asp220 Estabiliza el loop cataltico IX F
Arg280 Forma un par inico con Glu208 XI Loop entre H y I

109
Captulo 2. Tirosina Quinasas

Por su papel en la fosforilacin, destacan las regiones330-333:

Loop de unin del nucletido (nucleotide-binding loop). Corresponde al sitio de unin del
ATP situado en la hendidura situada entre los dos lbulos, de manera que el nucletido
queda coordinado por los residuos de las lminas 1-2 del lbulo N-terminal. Se
encuentra un motivo de glicinas: Gly-X-Gly-X-X-Gly, tambin muy conservado entre
protenas que unen nucletidos. Adems, en muchas TKs, 14 residuos antes de la primera
Gly del motivo consenso, se encuentra un motivo WE que estabiliza la estructura en el
lbulo N-terminal y que parece demarcar el lmite entre el dominio quinasa y la regin
yuxtamembrana precedente. Tambin se encuentra, casi invariablemente, una valina
situada a dos posiciones del extremo carboxi del motivo Gly-X-Gly-X-X-Gly y que se
posiciona en la parte superior de la adenina del ATP.

Loop cataltico (catalytic loop): En el dominio VIb se encuentra el loop que interviene en
la transferencia de fosfato. De hecho, su secuencia permite determinar si se trata de una
serina/treonina quinasa o de una tirosina quinasa. En el primer caso, la secuencia
corresponde a Asp-Leu-Lys-Pro-Glu-Asn (como en el caso del PKA entre Asp166 y
Asn171), mientras que en las secuencias Asp-Leu-Arg-Ala-Ala-Asn o Asp-Leu-Ala-Ala-
Arg-Asn indican especificidad por tirosina en la fosforilacin.

Loop de activacin (activation loop). Ocupa los subdominios VII-VIII. El motivo


invariante Asp-Phe-Gly (Asp184-Phe185-Gly186 en PKA) se encuentra al comienzo del loop
de activacin y est implicado en la unin de Mg-ATP. El loop termina con un motivo
conservado: Ala-Phe-Glu. Las RTKs poseen de 1 a 3 tirosinas en el loop de activacin
quinasa. La fosforilacin de estos residuos es crtica para estimular la actividad cataltica y
biolgica de una gran parte de RTKs, como IR, FGFR, VEGFR, PDGFR y Met
(hepatocyte growth factor receptor). Una gran excepcin supone el EGFR, ya que la
mutacin de los residuos Tyr del loop de activacin por Phe no afecta a las propiedades de
sealizacin de dicho receptor329. Es un loop con una gran movilidad. Los residuos que
preceden al loop de activacin se denominan hinge residues.

Loop P+1: Situado en el dominio VIII e incluido en el loop de activacin. En su extremo se


encuentra el triplete consenso Ala-Pro-Glu (Ala206-Pro207-Glu208 en PKA). El Glu208 forma
un par inico, conservado entre quinasas, con una arginina del dominio XI (Arg280 en
PKA). Las secuencias que preceden a este triplete, tambin son indicativo de la
especificidad de la quinasa (si es tirosina o serina/treonina quinasa). Es el loop que
reconoce el residuo contiguo al residuo diana del sustrato peptdico. En general, el sitio de
unin del sustrato peptdico se extiende al final del loop de activacin y muestra mayor
variabilidad de secuencia que el sitio de unin del ATP y el loop cataltico.

La orientacin relativa de los dos lbulos muestra una considerable variabilidad entre protena
quinasas. La forma apo desfosforilada se encuentra en una conformacin ms abierta, que se
cierra tras la activacin. El mecanismo de autoinhibicin observado en estructuras
cristalogrficas no fosforiladas sugiere que el loop de activacin bloquea el sitio de unin del
ATP y/o el sitio de unin del sustrato, y que tras la autofosforilacin, dicho loop se estabiliza en
una conformacin no-inhibitoria, sufriendo un gran cambio conformacional.330

110
Captulo 2. Tirosina Quinasas

2.5. Inhibidores de Tirosina Quinasas

Se han desarrollado distintas estrategias para prevenir la activacin de los RTKs: desde
anticuerpos monoclonales que se unen selectivamente a su porcin extracelular (como por
ejemplo para el EGFR y VEGFR) bloqueando su unin con el ligando natural, hasta frmacos
que inhiben la actividad quinasa del receptor. En este apartado, se describen aquellos
compuestos diseados para interferir en el sitio de unin del ATP.

Actualmente, superado un escepticismo inicial, el sitio de unin del ATP se considera una diana
farmacolgica, a pesar de las dos desventajas asociadas a l: i) la necesidad de obtener una
potencia suficiente como para competir con la gran concentracin de ATP intracelular in vivo y
ii) la naturaleza ubicua del sitio de unin del ATP, con los problemas asociados de selectividad
que conlleva. Normalmente, los inhibidores estn dirigidos a la conformacin activa de la
protena, aunque resultan ms interesantes aquellos que se dirigen a la conformacin inactiva,
ya que es ms fcil conseguir especificidad para el sitio de unin del ATP en esta situacin.

De hecho, en 2004, veinte inhibidores se encontraban en fase clnica y tres haban sido
aprobados: Gleevec (STI-571, imatinib mesylate), dirigido contra c-Kit / PDGFR; gefitinib
(ZD1839, IRESSA), dirigido contra EGFR y erlotinib (CP358,774, Tarceva), dirigido contra
EGFR.334

A continuacin, se muestran aquellos scaffolds para los que se ha encontrado actividad:

Quinazolinas

Se han realizado numerosos estudios SAR (structureactivity relationship) y pruebas biolgicas


sobre este scaffold, encontrndose los compuestos 1-2 en pruebas clnicas335 y 3 (erlotinib), para
el tratamiento de cncer de pulmn y pncreas (Figura 2.5).

HN Br O HN Cl HN
O N O O
N N O N
O
O N O N O N

PD153035 / SU5721 ZD1839 CP358,774


EGFR (Ki = 6pM) EGFR (Ki = 2.1nM) EGFR (IC50 = 1-2nM)
1 2 3

Figura 2.5. Compuestos representativos de quinazolinas en fase clnica y aprobados.

Entre las diversas derivaciones destacan las sustituciones en las posiciones 3-, 4-, 6-, o 7-, (4, 6)
as como anlogos de quinazolinas tricclicos (5) (Figura 2.6).

Muchas de ellas son inhibidores del EGFR en el orden submicromolar y nanomolar, con un
buen perfil de selectividad. En la referencia [336] puede encontrarse una revisin del SAR de
estos compuestos frente a EGFR. Por otra parte, tambin se han diseado quinazolinas con
mayor selectividad hacia otras dianas como Raf, CSF-1R y VEGFR337.

111
Captulo 2. Tirosina Quinasas

3' 1
R 3' R
1
2' 2'
4' 4'
5' HN Br 5' HN Br
HN HN
6' 6'
4
6 N R
2
6 O N
N N
3 N N X R N N
2 N O
R 7 O 7 N H
X:CH
X:N

4 5 6 7

Figura 2.6. Scaffolds de quinazolina derivatizados.

La derivatizacin de las posiciones 6 y 7 responde principalmente a un aumento de solubilidad,


aunque C-6 es ms restrictivo en lo referente a los sustituyentes. Por otra parte, la sustitucin en
el anillo de anilina en 3-bromo o 3-cloro y 4-flor produce un aumento de la actividad, frente a
otras sustituciones.

Estos inhibidores, son ATP-competitivos reversibles. Sin embargo, tambin se han desarrollado
una nueva clase de inhibidores irreversibles338 con potencia subnanomolar para los receptores
EGFR y erbB-2. stos, representados por el compuesto 7, contienen un aceptor de Michael en la
posicin 6- 7- del anillo de quinazolina, de manera que se unen irreversiblemente a una
cistena (Cys773) del sitio de unin del ATP en el EGFR, que es nica para esta familia de
quinasas, lo que les confiere una gran selectividad frente a otras quinasas.

Fenilaminopirimidinas

En este grupo se encuentra STI-571 o Gleevec (8) (Figura 2.7), que inhibe a v-Abl y PDGFR.
Aunque inicialmente se identificaron como inhibidores del receptor de PDGF y de PKC, la
selectividad por PDGFR se consigui mediante la introduccin del grupo metilo en la posicin
6-del fenilo. La potencia frente a v-Abl se obtuvo derivatizando los sustituyentes del fenilo.339
Tambin se han descrito 4,6-dianilinopirimidinas (9) como inhibidores de EGFR y
2-anilinopirimidinas (10) como inhibidores de Lck, Fyn, ZAP-70, Csk, EGFR y PKC.

H
N N O
H
N N N
N
H H O
N N N N N
O
N O HN
N
HO
O HN
N N
STI-571 (Gleevec)
v-Abl (IC50 = 38nM) NH2
EGFR (IC50 = 1nM) Fyn (IC50 = 68nM)
PDGFR (IC50 = 50nM)
8 9 10

Figura 2.7. Representantes de fenilaminopirimidinas.

Piridopirimidinas y pirimidopirimidinas

Se han descrito pirido[4,3-d], pirido[3,4-d], pirido[2,3-d] y pirido[3,2-d]pirimidinas como


inhibidores de una gran cantidad de quinasas (Figura 2.8).

En un estudio inicial SAR realizado por Rewcastle et al340 se compararon estos cuatro scaffolds
segn su capacidad de inhibir el receptor de EGF, encontrndose que las series [3,4-d] (12) y

112
Captulo 2. Tirosina Quinasas

[4,3-d] (11) eran las ms activas, seguidas de [3,2-d] (14) y siendo los compuestos [2,3-d] (13)
los menos potentes, para los compuestos sintetizados.

Br NH Br NH Br NH Br NH
1 1
R N R
N N N N N
1 N 1
N 7 R N N N R N

11 12 13 14

Figura 2.8. Series de piridopirimidinas testadas por Rewcastle frente a EGFR.

Adems, la introduccin de sustituyentes bsicos dbiles en la posicin 7- de la serie [4,3-d]


(11), permite aumentar no solo la solubilidad de los compuestos, sino tambin su potencia. Estas
series se han ampliado con estudios de pirido[5,4-d]pirimidinas, identificndose compuestos
con una IC50 del orden nanomolar frente a EGFR.

Por otra parte, durante el screening de quimiotecas, el equipo de ParkeDavis/Warner


Lambert341 identific derivados pirido[2,3-d]pirimidnicos activos frente a PDGFR, FGFR y
pp60c-src. A partir del compuesto 15 (Figura 2.9), se realizaron distintos SARs342-345 modificando
los sustituyentes en las posiciones C-2, C-6, C-7, y N-8, y junto con la informacin extrada por
rayos-X de estructuras de quinasas unidas a inhibidores, permitieron elucidar un modelo de
unin para esta clase de compuestos.346

O O

Cl

N N O N O

Cl N
H2N N N O H2N N N NH N N N NH
H
HN O HN O

15 16 17
PD166866 PD173074
FGFR (IC50 = 60nM) optimizacin de 16

Figura 2.9. Optimizacin de pirido[2,3-d]pirimidinas inhibidoras de FGFR.

En este modelo, se propone un motivo de puentes de hidrgeno de unin similar al de la


olomoucina (vase abajo), segn el cual los nitrgenos N-3 y el nitrgeno exocclico del grupo
2-amino forman un puente de hidrgeno bidentado con dos aminocidos de la regin hinge. El
grupo 6-fenilo interacciona en una cavidad prxima a este sitio.

De este modo, se han obtenido compuestos selectivos para FGFR variando los sustituyentes que
penden del grupo 6-fenilo (16) (Figura 2.9). Finalmente, este compuesto se optimiz mediante
la sustitucin de la cadena de la amina, incrementando su solubilidad (17). Otros estudios
recogen la optimizacin de las posiciones N-8 y C-6, lo que permiti la identificacin de un
inhibidor de PDGFR.347

Finalmente, del mismo modo que para las anilinoquinazolinas, las piridopirimidinas se han
derivatizado con aceptores de Michael para obtener inhibidores irreversibles, as, se han
preparado 6-acrilamido pirido[3,4-d]pirimidinas y 6-acrilamido pirido[3,2-d]pirimidinas.

113
Captulo 2. Tirosina Quinasas

Pirrolopirimidinas y pirrolo[2,3-b]piridinas

El scaffold pirrolopirimidina ha sido derivatizado por varias compaas farmacuticas para


encontrar inhibidores ATP-competitivos frente a EGFR y c-Src.

Anlogamente al caso anterior, se ha desarrollado un modelo farmacofrico de interaccin para


la serie 7H-pirrolo-[2,3-d]pirimidinas (18) frente a EGFR348-349. Se postul que el NH(7) del
anillo de pirrol y el N(1) de la pirimidina forman un puente de hidrgeno bidentado con la
Gln767 y la Met769, similar al que forma el ATP en el EGFR, donde el anillo m-clorofenil
reemplaza a la ribosa en el bolsillo del azcar. Para mejorar la potencia y farmacocintica, se
realizaron modificaciones en las posiciones C-4 y C-6, introducindose sustituyentes que
aumentaran el nmero de contactos de van der Waals con la regin hidrofbica formada por los
residuos Thr766 y Thr860 (19-22) (Figura 2.10). Tambin se han desarrollado series de
pirrolo[3,2-d] y [2,3-d]pirimidinas como inhibidores de pp60c-src.335

H H
N 7N N 7N
2 6 2 6 N
R1
N N
5 5
4 4 O
NH NH2
R1 = NHCOCH3 19
F
R1 = NHSO2CH(CH3)2 20
H2N N N
R1 = NHCONHC2H5 21 H
Cl R1 = OCH3 22
CGP 59326 RWJ 68354
EGFR (IC50 = 27nM) EGFR (IC50 = 1-3nM) p38 (IC50 = 9nM)
18 23

Figura 2.10. Series de pirrolo[2,3-d]pirimidinas testadas frente a EGFR.

Por otro lado, se han identificado pirrolo[2,3-b]piridinas350, como el compuesto 23, como
inhibidores de la quinasa p38.

Pirazolopirimidinas y pirazolopiridinas

Pfizer identific en 1996 los compuestos PP1 (24) y PP2 (25) (Figura 2.11), representativos de
una serie de 4-aminopirazolo[3,4-d]pirimidinas, como inhibidores selectivos de las quinasas
Lck y FynT.351 Se estudiaron distintas sustituciones del anillo aromtico en el nitrgeno y en la
posicin C-3 del anillo de pirazol.

Cl Cl Cl
OH

NH2 NH2 NH2 NH H


4 N
3
N N N N
5 N2 N N N
N N1 N N H2N N N N
N

PP1 PP2

Lck (IC50 = 5nM) Lck (IC50 = 4nM) EGFR (IC50 = 0.22M) EGFR (IC50 = 1nM)
FynT (IC50 = 6nM) FynT (IC50 = 5nM)

24 25 26 27

Figura 2.11. Series de pirazolo[3,4-d]pirimidinas testadas frente a Lck, FynT y EGFR.

Posteriormente, en un screening rutinario de quimiotecas se descubri la potencia del


compuesto 26 frente a EGFR. Sobre esta base y a partir del modelo farmacofrico establecido

114
Captulo 2. Tirosina Quinasas

para las pirrolo[2,3-d]pirimidinas348, se optimiz una serie de 4-(fenilamino) pirazolo-


[3,4-d]pirimidinas352, disendose compuestos como 27, con una mayor potencia, explicada a
partir de interacciones adicionales por puente de hidrgeno del grupo hidroxilo del fenilo.

Indolin-2-onas

Sugen ha desarrollado varias series indolin-2-onas sustituidas en la posicin 3, como inhibidoras


de VEGFR, FGFR, EGFR, Her-2 y PDGFR en el orden submicromolar (28 y 29) (Figura 2.12).
En funcin de los resultados SAR, se pueden establecer distintos criterios para obtener
selectividad frente a las distintas dianas. Tambin se han estudiado sustituciones en las
posiciones 5- y 6- (30).353-355

OH
O
O
OH

N
H
N N O
H H
O O 5 N
H
N N
H H 6

SU5416 SU5402

KDR / flk-1 (IC50 = 1M)

28 29 30

Figura 2.12. Ejemplos de indol-2-onas.

Purinas

Las purinas se han testado frente a un gran nmero de quinasas, especialmente las
serina/treonina quinasas y, dentro de ellas, para las quinasas dependientes de ciclina (CDKs). A
partir de las inicialmente descritas, olomoucina (31) y roscovitina (32), se han estudiado
anlogos por modificacin de las posiciones 2-, 6- y 9-, conduciendo a compuestos con mayor
potencia y selectividad dentro de esta familia, como el purvalanol B (33).

COOH

Cl

HN HN HN
6 6 6
1N
5
N7 1N
5
N7 1N
5
N7
8 8 8
HO N9 HO N9 HO
N 2 N 4 N 2 N 4 N 2 N 4 N9
H 3 H 3 H 3

Olomoucina Roscovitina Purvalanol B

CDKs (IC50 = 3-7 M) CDKs (IC50 = 0.2-0.7 M) Cdk2-ciclinaA (IC50 = 6 nM)

31 32 33

Figura 2.13. Ejemplos de anlogos de purinas.

115
Captulo 2. Tirosina Quinasas

Piridinilimidazoles, pirimidinilimidazoles y fenilbenzimidazoles

H Cl
N
NH OH
N N
N S F
F
N N
N N
F N
N
H2N N
N N
H
N
F H
F

SKF-86002 SB-220025 L-779450

p38 (IC50 = 19nM) p38 (IC50 = 0.19nM) Raf (IC50 = 2.0nM)

34 35 36 37

Figura 2.14. Ejemplos de anlogos de piridinilimidazoles y pirimidinilimidazoles como inhibidores


de la quinasa p38.

El compuesto SKF-86002 (34) (Figura 2.14), derivado piridinilimidazol, es el primer compuesto


de esta serie identificado como inhibidor de la quinasa p38. Sin embargo, el grupo piridina
genera efectos secundarios por su interaccin con el citocromo P450, por lo que se sustituy
este anillo por pirimidinas, como el compuesto 35.

Por otra parte, Merck, a partir de estudios SAR ha identificado los compuestos 36 y 37 como
inhibidores potentes y selectivos de las quinasas p38 y Raf, respectivamente.356

En 1998, Palmer y colaboradores presentaron una serie de 1-fenilbenzimidazoles como


inhibidores ATP-competitivos del PDGFR357, con el compuesto 38 como cabeza de serie
(Figura 2.15). A partir de un estudio SAR inicial, concluyeron que las modificaciones en 4'- y
3'- del anillo de fenilo, aunque toleradas, no mejoran significativamente la actividad, mientras
que las sustituciones en 2'- abolen su actividad. Las sustituciones en las posiciones 2-, 4- y 7-
del anillo de benzimidazol tambin eliminan la capacidad inhibitoria de esta serie. Sin embargo,
las sustituciones en las posiciones 5- y 6- mantienen o incrementan la actividad, encontrando
para el compuesto 39 una actividad mxima frente a PDGFR. Posteriormente358, este estudio
SAR se ampli para la posicin 5-, encontrndose que la sustitucin por grupos catinicos
solubilizantes aumenta la potencia de esta serie (40).

4'

3'

2'
7 N
N N
6

N N O N
5 N MeO
4 4

PDGFR (IC50 = 9.3 M) PDGFR (IC50 = 0.43 M) PDGFR (IC50 = 0.15 M)

38 39 40

Figura 2.15. Ejemplos de anlogos de 1-fenilbenzimidazoles inhibidores de PDGFR.

Naftiridin-2(1H)-onas

Thompson y colaboradores359, presentan en 2000, estudios SAR sobre los scaffolds


3-(2,6-diclorofenil) 1,6-naftiridin-2(1H)-onas (41, 42) (Figura 2.16) y 3-(2,6-diclorofenil)

116
Captulo 2. Tirosina Quinasas

1,8-naftiridin-2(1H)-onas (43), con actividad submicromolar frente a pp60c-src, FGFR y PDGFR


(en menor grado).
La serie 1,6-naftiridona presentan actividades semejantes a la serie pirido[2,3-d]pirimidina,
mientras que la serie 1,8-naftiridona es mucho menos activa. Como en otros scaffolds, la
sustitucin con cadenas laterales bsicas en la posicin C-7, incrementa la potencia.

Cl Cl

3 3
6N
2 2
Cl Cl
R1 7 1 N O R1 7 N N1 O
8
X

X = Me 41 43
X = H 42

Figura 2.16. Series de 1,6-naftiridin-2(1H)-onas y 1,8-naftiridin-2(1H)-onas testadas como


inhibidores de pp60c-src y FGFR.

Otras clases estructurales

El balanol (44) (Figura 2.17) es un producto natural aislado del hongo verticullium balanoides,
inhibidor especfico de serina/treonina quinasas, que apenas muestra actividad frente a tirosina
quinasas. Se han realizado diversas modificaciones sobre su estructura para incrementar su
actividad en ensayos celulares.

El flavopiridol (45) es un flavonoide inhibidor de muchas quinasas dependientes de ciclina.

La staurosporina (46) es un alcaloide microbiano, inhibidor muy potente aunque no especfico


de protena quinasas. De hecho, se ha tomado como estructura de partida para preparar
derivados con mejores perfiles de selectividad, como el 3744W (47), que inhibe la
autofosforilacin de PDGFR.

Finalmente, Novartis ha descrito tambin derivados de ftalazinas como inhibidores de los


receptores de VEGF y PDGF. Los compuestos 48 y 49 muestran actividad submicromolar
frente a estos enzimas.

H
N O
OH OH O
O
O O OH
HO Cl
O
O
HO O N N
OH O
HN OH
HO
N O
H N
HN

Balanol Flavopiridol Staurosporina


45 46
44 R
H
O N O
HN
O O
N
N
N N
H H
3744 W
PDGFR (IC50 = 14.5 nM) N R = Me 48
R = Cl 49
47
Figura 2.17. Series de inhibidores derivados de productos naturales.

117
Captulo 2. Tirosina Quinasas

Recientemente, se ha profundizado en los mecanismos que puedan explicar la elevada


inespecificidad de determinados inhibidores con actividad micromolar frente a varias tirosina
quinasas. Compuestos como el ndigo, indirrubina y bisindolilmaleimida inhiben a enzimas
varios, aparte de quinasas, a travs de la formacin de agregados.360

Tal y como se ha ido comentando, el uso de la informacin estructural obtenida por difraccin
de rayos-X, junto con la modelizacin por homologa de dominios tirosina quinasa ha permitido
el diseo de inhibidores de quinasas. En este sentido, destaca tambin la contribucin de los
modelos farmacofricos y las bsquedas de similitud a compuestos activos ya conocidos.

118

Вам также может понравиться