Вы находитесь на странице: 1из 57

Modelado hbrido de datos genmicos

de alta dimensionalidad para el


reconocimiento de patrones en
quimiosensibilidad del cncer
Examen de candidatura
Juan Carlos Coto Ulate

Introduccin
3

Biocomputacin
Mtodos de
anlisis de
datos

Mtodos
tericos

Modelos
matemticos

Principios
fundamentales
de los sistemas
biolgicos

Tcnicas de
simulacin

Enfoque

Enfoque
Quimioterapia 1

Quimioterapia 2

Quimioterapia n
6

Enfoque
Quimioterapia 1

Quimioterapia 2

Quimioterapia n
7

Enfoque
Quimioterapia 1

Quimioterapia 2

Quimioterapia n
8

Enfoque

Quimioterapia 1

Reconocimiento de patrones
en el cncer de mama

Quimioterapia 2

Quimioterapia n

ADN, ARN y protenas


Transcripcin

ADN

Traduccin

ARN

Plegamiento

Protenas

ADN, ARN y protenas


Transcripcin

ADN

Traduccin

ARN

Plegamiento

Protenas

Cncer

Conjunto de anormalidades en el funcionamiento celular que producen un


comportamiento aberrante y disfuncional, y en que las clulas pueden
invadir otros tejidos.
12

Cncer y genoma

13

Cncer y genoma

14

CCLE

15

Ingeniera reversa
Anlisis exploratorio
Seleccionar caractersticas
Construir modelos
Entrenar con datos
Validar resultados

16

Reconocimiento de patrones

17

Trabajos previos

1941 - 1977

1981 - 1989

1990 - 2003

2003 - 2016
18

Trabajos previos
Bussey et al. (2006): NCI-60
Solvang et al. (2011): NC + EG
Barretina et al. (2012): CCLE
Thompson et al. (2014): Flujo de trabajo
Dong et al. (2015): Modelo basado en EG
19

Justificacin
20

Impacto del cncer


14 M casos (2012)
8 M muertes (2012)
24,7 M afectados (2008)

8000 casos anuales


3500 muertes anuales
2007 - 2025: 20% - 50% muertes
21

Transdisciplinariedad

22

Generacin de datos
Datos

Biologa
molecular

Tecnologas
de
secuenciacin
23

Generacin de datos
Datos

Biologa
molecular

Procesamiento

Anlisis

Conocimiento

Tecnologas
de
secuenciacin
24

Heterogeneidad

25

Terapia personalizada

26

El Problema
27

Interrogante
Es posible predecir de manera eficiente la
respuesta a quimioterapias en las lneas celulares
de cncer de mama analizadas a travs de la
construccin de un sistema computacional de
reconocimiento patrones basado en la
representacin por modelos hbridos de la
relacin entre el nmero de copias y el nivel de
expresin gnica?
28

Definicin formal
Gen

LC

NC

EG

A1BG

0,13

224,34

4,3

A2ML1

125,2

1,3

AA06

-0,1

91,65

0,4

A1BG

0.22

173,4

2,5

A2ML1

2.4

883,3

1,8

Terapia

LC Efectividad

29

Definicin formal
Gen

LC

NC

EG

A1BG

0,13

224,34

4,3

A2ML1

125,2

1,3

AA06

-0,1

91,65

0,4

A1BG

0.22

173,4

2,5

A2ML1

2.4

883,3

1,8

Terapia

LC Efectividad

30

Definicin formal
Gen

LC

NC

EG

A1BG

0,13

224,34

4,3

A2ML1

125,2

1,3

AA06

-0,1

91,65

0,4

A1BG

0.22

173,4

2,5

A2ML1

2.4

883,3

1,8

Terapia

LC Efectividad

31

Definicin formal
Gen

LC

NC

EG

A1BG

0,13

224,34

4,3

A2ML1

125,2

1,3

AA06

-0,1

91,65

0,4

A1BG

0.22

173,4

2,5

A2ML1

2.4

883,3

1,8

Terapia

LC Efectividad

32

Definicin formal
Gen

LC

NC

EG

A1BG

0,13

224,34

4,3

A2ML1

125,2

1,3

AA06

-0,1

91,65

0,4

A1BG

0.22

173,4

2,5

A2ML1

2.4

883,3

1,8

Terapia

LC Efectividad

33

Hiptesis y
objetivos
34

Hiptesis
Es posible representar las relaciones entre el
nmero de copias, expresin gnica y
quimiosensibilidad, con una alta bondad de
ajuste, de los datos de las lneas celulares de
cncer de mama de la Cancer Cell Line
Encylopedia mediante un modelo hbrido de
agrupacin y regresin
35

Objetivo general
Formular un modelo hbrido de agrupacin y
regresin que permita representar, con una
bondad de ajuste mayor al 50%, las relaciones
entre nmero de copias, expresin genca y
quimiosensibilidad observadas en los datos
de lneas celulares de cncer de mama en la
Cancer Cell Line Encyclopedia
36

Objetivos especficos
1.

Integrar los datos de la Cancer Cell Line Encyclopedia en una base de datos
que permita la consulta adecuada de los datos a analizar

2.

Definir criterios de bondad de ajuste y de particin de datos para el


entrenamiento del modelo y validacin de la representacin de los datos

3.

Formular un modelo hbrido de agrupacin para la reduccin de


dimensionalidad y regresin para la estimacin de la respuesta a
quimioterapias

4.

Validar dicho modelo en un conjunto de datos independiente, de acuerdo


con la estrategia de particin de datos mencionada en el objetivo especfico 2.
37

Metodologa
38

Dimensionalidad
Gen

LC

NC

EG

A1BG

0,13

224,34

4,3

A2ML1

125,2

1,3

AA06

-0,1

91,65

0,4

A1BG

0.22

173,4

2,5

A2ML1

2.4

883,3

1,8

Terapia

~ 5000 genes

2 + medidas de bondad de ajuste

~ 60 lneas celulares

2 + tipos de regresin

LC Efectividad

39

Dimensionalidad
Gen

+ 10 000 modelos de
regresin
LC

NC

EG

0,13

224,34

4,3

125,2

1,3

-0,1

91,65

0,4

A1BG

0.22

173,4

2,5

A2ML1

2.4

883,3

1,8

A1BG
A2ML1
AA06

Terapia

~ 5000 genes

2 + medidas de bondad de ajuste

~ 60 lneas celulares

2 + tipos de regresin

LC Efectividad

40

Tarea 1: Integracin

41

Tarea 2: Exploracin

42

Tarea 3: Modelado

43

Tarea 4: Validacin

44

Facilidades

ITCB
45

Fuentes de financiamiento
Proyecto 834-B4-504, inscrito en la Vicerrectora de Investigacin

46

Cronograma

47

Resultados
preliminares
48

Base de datos

49

Modelos exploratorios

50

Relaciones NC, EG

51

Perfil de comportamiento
Gen
A1BG

RSS lineal

R2 lineal

RSS Cuadrtico

R2 Cuadrtico

67.11582841

0.107755283

65.81727314

0.12501841

A2ML1

49.89366633

0.000907168

48.39820164

0.030853014

AA06

2.584231698

0.001562586

2.577752191

0.004065992

AADAC

44.95565965

0.000206008

44.38235481

0.012956054

AAK1

2.205623418

0.204032377

2.147532153

0.224996412

52

Modelos de regresin

53

Gracias!
54

Referencias

Barretina, J., Caponigro, G., Stransky, N., Venkatesan, K., Margolin, A. A., Kim, S., Garraway, L. A. (2012). The Cancer Cell Line Encyclopedia
enables predictive modelling of anticancer drug sensitivity. Nature, 483(7391), 603607. http://doi.org/10.1038/nature11003
Baslan, T., Kendall, J., Rodgers, L., Cox, H., Riggs, M., Stepansky, A., Hicks, J. (2012). Genome-wide copy number analysis of single cells. Nature
Protocols, 7(6), 10241041. http://doi.org/10.1038/nprot.2012.039
Becker, S. (2015). A historic and scientific review of breast cancer: The next global healthcare challenge. International Journal of Gynecology &
Obstetrics, 131, Supplement 1, S36S39. http://doi.org/10.1016/j.ijgo.2015.03.015
Bussey, K. J. (2006). Integrating data on DNA copy number with gene expression levels and drug sensitivities in the NCI-60 cell line panel.
Molecular Cancer Therapeutics, 5(4), 853867. http://doi.org/10.1158/1535-7163.MCT-05-0155
Butler, D. (2001). Are you ready for the revolution? Nature, 409(6822), 758760. http://doi.org/10.1038/35057400
Dong, Z., Zhang, N., Li, C., Wang, H., Fang, Y., Wang, J., & Zheng, X. (2015). Anticancer drug sensitivity prediction in cell lines from baseline gene
expression through recursive feature selection. BMC Cancer, 15(1). http://doi.org/10.1186/s12885-015-1492-6
Ferrell, J. E. (2009). Q&A: Systems biology. Journal of Biology, 8(1), 2. http://doi.org/10.1186/jbiol107
Flach, P. A. (2012). Machine learning: the art and science of algorithms that make sense of data. Cambridge; New York: Cambridge University Press.
Hajiloo, M., Damavandi, B., HooshSadat, M., Sangi, F., Mackey, J. R., Cass, C. E., Damaraju, S. (2013). Breast cancer prediction using genome
wide single nucleotide polymorphism data. BMC Bioinformatics, 14(Suppl 13), S3. http://doi.org/10.1186/1471-2105-14-S13-S3
Hanahan, D., & Weinberg, R. A. (2011). Hallmarks of Cancer: The Next Generation. Cell, 144(5), 646674. http://doi.org/10.1016/j.cell.2011.02.013
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. New York, NY: Springer New York. Retrieved from http://
link.springer.com/10.1007/978-0-387-84858-7
Jagga, Z., & Gupta, D. (2014). Classification models for clear cell renal carcinoma stage progression, based on tumor RNAseq expression trained
supervised machine learning algorithms. BMC Proceedings, 8(Suppl 6), S2. http://doi.org/10.1186/1753-6561-8-S6-S2
Keogh, E., & Mueen, A. (2011). Curse of Dimensionality. In C. Sammut & G. I. Webb (Eds.), Encyclopedia of Machine Learning (pp. 257258). Springer
US. Retrieved from http://link.springer.com.ezproxy.sibdi.ucr.ac.cr:2048/referenceworkentry/10.1007/978-0-387-30164-8_192
Lodish, H., Berk, A., Zipursky, S. L., Matsudaira, P., Baltimore, D., & Darnell, J. (2000). Molecular Cell Biology (4th ed.). W. H. Freeman.

55

Referencias

Marx, V. (2013). Biology: The big challenges of big data. Nature, 498(7453), 255260. http://doi.org/10.1038/498255a
Orozco, A., Morera, J., Jimnez, S., & Boza, R. (2013). A review of Bioinformatics training applied to research in Molecular Medicine, Agriculture and Biodiversity in Costa Rica and
Central America. Briefings in Bioinformatics, 14(5), 661670. http://doi.org/10.1093/bib/bbt033
Phan, J. H., Moitt, R. A., Stokes, T. H., Liu, J., Young, A. N., Nie, S., & Wang, M. D. (2009). Convergence of biomarkers, bioinformatics and nanotechnology for individualized cancer
treatment. Trends in Biotechnology, 27(6), 350358. http://doi.org/10.1016/j.tibtech.2009.02.010
Quo, C. F., Kaddi, C., Phan, J. H., Zollanvari, A., Xu, M., Wang, M. D., & Alterovitz, G. (2012). Reverse engineering biomolecular systems using -omic data: challenges, progress and
opportunities. Briefings in Bioinformatics, 13(4), 430445. http://doi.org/10.1093/bib/bbs026
Ramsey, S. D., Veenstra, D. L., Tunis, S. R., Garrison, L. P., Crowley, J. J., & Baker, L. H. (2011). How Comparative Eectiveness Research Can Help To Advance Personalized Medicine
In Cancer Treatment. Health Aairs (Project Hope), 30(12), 22592268. http://doi.org/10.1377/hltha.2010.0637
Solvang, H. K., Lingjrde, O., Frigessi, A., Brresen-Dale, A.-L., & Kristensen, V. N. (2011). Linear and non-linear dependencies between copy number aberrations and mRNA expression
reveal distinct molecular pathways in breast cancer. BMC Bioinformatics, 12(1), 197. http://doi.org/10.1186/1471-2105-12-197
Soneson, C., Lilljebjrn, H., Fioretos, T., & Fontes, M. (2010). Integrative analysis of gene expression and copy number alterations using canonical correlation analysis. BMC
Bioinformatics, 11(1), 191. http://doi.org/10.1186/1471-2105-11-191
Stephens, Z. D., Lee, S. Y., Faghri, F., Campbell, R. H., Zhai, C., Efron, M. J., Robinson, G. E. (2015). Big Data: Astronomical or Genomical? PLoS Biol, 13(7), e1002195. http://doi.org/
10.1371/journal.pbio.1002195
Stingele, S., Stoehr, G., Peplowska, K., Cox, J., Mann, M., & Storchova, Z. (2012). Global analysis of genome, transcriptome and proteome reveals the response to aneuploidy in human
cells. Molecular Systems Biology, 8. http://doi.org/10.1038/msb.2012.40
Taylor, A. S., Piterman, N., Ishtiaq, S., Fisher, J., Cook, B., Cockerton, C., Benque, D. (2013). At the Interface of Biology and Computation. In Proceedings of the SIGCHI Conference on
Human Factors in Computing Systems (pp. 493502). New York, NY, USA: ACM. http://doi.org/10.1145/2470654.2470725
Thompson, J. A., Duarte, C., Marks, P., & Congdon, C. B. (2014). An Automated Pipeline for Discovering Gene Expression Patterns Associated with Increased Cancer Survival Time. In
Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics (pp. 627628). New York, NY, USA: ACM. http://doi.org/
10.1145/2649387.2660807
Vera, J., Lai, X., Schmitz, U., & Wolkenhauer, O. (2013). MicroRNA-regulated networks: the perfect storm for classical molecular biology, the ideal scenario for systems biology.
Advances in Experimental Medicine and Biology, 774, 5576. http://doi.org/10.1007/978-94-007-5590-1_4
Wanjek, C. (2011, November 3). Systems Biology as Defined by NIH. Retrieved February 22, 2016, from http://irp.nih.gov/catalyst/v19i6/systems-biology-as-defined-by-nih

56

57

Modelo BD

58

Вам также может понравиться