Вы находитесь на странице: 1из 38

Biologa Computacional / Bioinformtica

Laboratorio Introduccin / Bases de Datos.

Qu es la Bioinformtica?
La bioinformtica es el campo de la ciencia en donde la biologa, la ciencia de la computacin, y la tecnologa de informacin se funden en una disciplina. El objetivo principal es el descubrimiento de nuevos indicios biolgicos, como tambin crear una perspectiva global de la cual poder unificar principios de la biologa. (NCBI Education)

Subdisciplinas

Desarrollo de nuevos algoritmos que permitan determinar relaciones en muestras de gran tamao. Anlisis e interpretacin de varios tipos de datos, incluyendo secuencias de nucletidos y aminocidos, dominio de protenas, y estructuras de protenas. Desarrollo e implementacin de herramientas para permitir un acceso eficiente a la informacin.

Herramientas.

Problema Biolgico Secuenciacin. Captura de genes. Localizacin subcelular de protenas. Comparacin de protenas.

Solucin Computacional Base de datos. Planillas de clculo. Alineamiento. Reconocimiento de patrones. Datamining. Especializadas.

Bases de datos

Qu es una base de datos?

Una Base de Datos es un conjunto de datos relacionados y almacenados para un proposito particular con una estructura lgica. Base de Datos = Estructura + Datos.

Ejemplo: Un biblioteca.

Cmo se organizan los datos?

La organizacin depende de las consultas que se piensan realizar sobre la base de datos. De las consultas se concluye los conjuntos, relaciones y lgicas que existen entre los datos.

Ejemplo: Biblioteca II

AUTOR

Lista de Autores

Consulta...

TTULO

Lista de Ttulos

TEMA

Temas x Estantes

Cmo mantener una base de datos?

El motor de base de datos es el software encargado de mantener consistencia en los datos y responder las consultas a realizar. El software debe tener las siguientes herramientas para ser declarado como un motor de base de datos: Lenguaje de Definicin de Estructura. Lenguaje de Modificacin de Datos. Lenguaje de Consultas.

Ejemplo: Biblioteca III

El Bibliotecario...

Cmo se crea una base de datos?


La creacin de la base de datos excede los objetivos de la materia, pero se darn las pautas ms importantes para su creacin.

Consultas y operaciones:

Qu voy a consultar? Qu necesito almacenar?

El diseo debe ser formal, no debe haber ambigedades.

Existen lenguajes grficos que ayudan al diseo.

Un mal diseo puede complicar la consistencia de los datos! An siendo formal... Tiempo!

Operaciones

Las operaciones bsicas en una base de datos son la consulta, la insercin, modificacin y eliminacin de datos. Quienes realizan estas operaciones son los usuarios. Los usuarios no solo son personas sino tambin procesos o sistemas externos. Existen dos clases de bases de datos segn sus operaciones ms comunes: operacionales y analticas.

Base de Datos por Consulta

Base de datos operacionales.


Continua insercin de datos. Los datos provienen de un proceso automtico o repetitivo, pueden traer error. Los datos estn actualizados. Objetivo: Almacenar datos. Optimizada para consultas. Los datos estn confirmados. Los datos no estn actualizados. Objetivo: Buscar informacin.

Bases de datos analticas


Diseo formal

Los motores de base de datos necesitan formalidad para crear las estructuras fsicas necesarias para mantener la base de datos. Las herramientas que se usan para simplificar el diseo son los lenguajes grficos formales como UML y ER.

Diagramas ER y UML

Algo ms?

El diseo esta relacionado al motor de base de datos. Las bases de datos fueron evolucionando durante los ltimos aos dejando varios modelos que permiten representar la organizacin de los datos, por supuesto, uno ms restrictivo que otro.

Modelos de Base de datos.


Planas: No se verifica la consistencia de los datos. (No es una base de datos!) Jerrquicas: Fichas, Jerarqua. Red: Registro, Campo, Conjunto, Relacionales: Tablas, Registros, Atributos y Relaciones. Objetos: Clases, Objetos y Mensajes.

Otras necesidades...
No solo de las operaciones depende el diseo. Tambin de otros requerimientos y funcionalidades. Muchas veces depende de los recursos que se tienen. Como consecuencia fue necesario clasificar las bases de datos segn la distribucin de fsica de los datos.

Organizacin Fsica

Centralizada.

Existe un nico repositorio responsable de los datos. La consulta se realiza sobre el repositorio. Existen varios respositorios responsables de los datos. La consulta se realiza en cualquiera de los repositorios. El usuario ve un nico repositorio. Existe un proceso de sincronizacin de los

Distribuida.

Organizacin Fsica

Mixta.

Existen varios repositorios responsables de los datos. La consulta se realiza en el repositorio adecuado. La interconexin entre los repositorios pueden ser visible o invisible. Existen procesos independientes a los repositorios que realizan la sincronizacin. La forma de distribucin y almacenamiento de datos es eterogenea.

Qu se puede almacenar?

La pregunta correcta es... Qu queremos almacenar?

Datos Biolgicos

Bibliografa.

Nucletidos.
Protenas. Genoma.

Resultados de Microarrays. Mutaciones. Etc.

Estructuras.
Alineamientos. Organismos. Genes.

Caractersticas

Alta complejidad.

Gran cantidad y variabilidad de la informacin.


Mltiples origenes de la informacin. Mltiples interpretaciones. Consultas impredecibles.

Nueva Clasificacin

Las bases de datos biolgicas tienen caractersticas especiales que promovieron una nueva clasificacin para poder identificar la calidad de los datos almacenados.

Clases de Bases de Datos Biolgicas

x Confianza en los datos.


Curadas: Los datos estn confirmados biolgicamente. An as esto no significa que puedan variar. No curadas: Los datos no fueron confirmados. Son obtenidos de procesos automticos o son resultados parciales.

x Redundancia en los datos.


Redundantes: No se puede confirmar que los datos existentes no se encuentran repetidos varias veces. No redundantes: Los datos no estn repetidos bajo un criterio... y las secuencias repetidas?

El problema

Nadie conoce cual es la mejor implementacin.

No existe un estndar (SQL?).


La actualizacin de los recursos es lenta con respecto a la cantidad de datos. No todos los laboratorios tienen la misma calidad de recursos.

La consulta a los datos varia segn el objeto de estudio.


Problemas polticos.

Solucin actual

Especificar las bases de datos. Relacionar las bases de datos a travs de Internet: Enlaces! Centralizar en grandes centros de bioinformtica con recursos suficientes. Permitir acceso a los grandes centros va Internet. Mantenimiento de los datos a travs de sistemas de versiones.

Ejemplo: Bases de Datos Biolgicas

Entrez + De todo! Pero separado... Por donde empezar?

ExPASy + Confiable. Todo separado. Pocos datos.

AceDB + De todo! Especializado a un genoma.

GenBank + Todas las secuencias. No es confiable.

Nuevos problemas.

Una consulta seria implica 'navegar' por varias bases de datos diferentes. Los resultados no siempre son satisfactorios. Las herramientas estn especializadas a las distintas bases de datos. Es muy fcil marearse... Dnde empezar la consulta? Qu tan confiable es lo encontrado?

Se necesitan una solucin

Las soluciones tienen que ser integradoras y accesibles, de bajo costo y polticamente aceptable. Los grandes centros de bioinformtica quieren imponer su solucin integradora, siendo la mayora gratuitas y multiplataformas. Esto limita la fusin de los datos acotando las consultas. Es por ello que surgieron soluciones puntuales para integrar las herramientas existentes.

Solucin I: Scripts
Los lenguajes de scripts permiten simplificar tareas automatizables y tediosas. Existen extensiones para procesos comunes para la Bioinformtica. Ventajas

Sencillos y rpidos de implementar. Permiten intercomunicar base de datos. Saber programacin.


BioPerl, BioPython, etc.

Desventajas

Ejemplos

Solucin II: XML


Lenguaje de representacin y organizacin de datos. Flexible. Fcil de interpretar y consultar. Cualquier sistema que entiende XML puede interpretar los datos. Pensado para intercambiar datos por Internet. HTML es primo mayor de XML.

El futuro?

La integracin de los datos...

BioGrid, posible solucin?

Base de datos de objetos organizada jerrquicamente. Informacin distribuida. Independencia en la administracin. Lenguaje de consulta muy amplio. Tecnologa de Directorios: 10 aos de experiencia. Automticamente integrable con otras grillas de informacin cientfica.

Problemas del proyecto BioGrid

Concepto nuevo en Bioinformtica.

Ignorancia. En fase de prueba. Necesita implementar consultas especfica de la bioinformtica.


La solucin es integradora... nadie se puede imponer. La organizacin de los datos es diferente. Las herramientas deben cambiar de conceptos.

Debe ser aceptado polticamente.


Lo ms parecido... AceDB.

Preguntas?

Fin de la presentacin...

Ir a los fierros...

Вам также может понравиться