Академический Документы
Профессиональный Документы
Культура Документы
Qu es la Bioinformtica?
La bioinformtica es el campo de la ciencia en donde la biologa, la ciencia de la computacin, y la tecnologa de informacin se funden en una disciplina. El objetivo principal es el descubrimiento de nuevos indicios biolgicos, como tambin crear una perspectiva global de la cual poder unificar principios de la biologa. (NCBI Education)
Subdisciplinas
Desarrollo de nuevos algoritmos que permitan determinar relaciones en muestras de gran tamao. Anlisis e interpretacin de varios tipos de datos, incluyendo secuencias de nucletidos y aminocidos, dominio de protenas, y estructuras de protenas. Desarrollo e implementacin de herramientas para permitir un acceso eficiente a la informacin.
Herramientas.
Problema Biolgico Secuenciacin. Captura de genes. Localizacin subcelular de protenas. Comparacin de protenas.
Solucin Computacional Base de datos. Planillas de clculo. Alineamiento. Reconocimiento de patrones. Datamining. Especializadas.
Bases de datos
Una Base de Datos es un conjunto de datos relacionados y almacenados para un proposito particular con una estructura lgica. Base de Datos = Estructura + Datos.
Ejemplo: Un biblioteca.
La organizacin depende de las consultas que se piensan realizar sobre la base de datos. De las consultas se concluye los conjuntos, relaciones y lgicas que existen entre los datos.
Ejemplo: Biblioteca II
AUTOR
Lista de Autores
Consulta...
TTULO
Lista de Ttulos
TEMA
Temas x Estantes
El motor de base de datos es el software encargado de mantener consistencia en los datos y responder las consultas a realizar. El software debe tener las siguientes herramientas para ser declarado como un motor de base de datos: Lenguaje de Definicin de Estructura. Lenguaje de Modificacin de Datos. Lenguaje de Consultas.
El Bibliotecario...
Consultas y operaciones:
Un mal diseo puede complicar la consistencia de los datos! An siendo formal... Tiempo!
Operaciones
Las operaciones bsicas en una base de datos son la consulta, la insercin, modificacin y eliminacin de datos. Quienes realizan estas operaciones son los usuarios. Los usuarios no solo son personas sino tambin procesos o sistemas externos. Existen dos clases de bases de datos segn sus operaciones ms comunes: operacionales y analticas.
Continua insercin de datos. Los datos provienen de un proceso automtico o repetitivo, pueden traer error. Los datos estn actualizados. Objetivo: Almacenar datos. Optimizada para consultas. Los datos estn confirmados. Los datos no estn actualizados. Objetivo: Buscar informacin.
Diseo formal
Los motores de base de datos necesitan formalidad para crear las estructuras fsicas necesarias para mantener la base de datos. Las herramientas que se usan para simplificar el diseo son los lenguajes grficos formales como UML y ER.
Diagramas ER y UML
Algo ms?
El diseo esta relacionado al motor de base de datos. Las bases de datos fueron evolucionando durante los ltimos aos dejando varios modelos que permiten representar la organizacin de los datos, por supuesto, uno ms restrictivo que otro.
Planas: No se verifica la consistencia de los datos. (No es una base de datos!) Jerrquicas: Fichas, Jerarqua. Red: Registro, Campo, Conjunto, Relacionales: Tablas, Registros, Atributos y Relaciones. Objetos: Clases, Objetos y Mensajes.
Otras necesidades...
No solo de las operaciones depende el diseo. Tambin de otros requerimientos y funcionalidades. Muchas veces depende de los recursos que se tienen. Como consecuencia fue necesario clasificar las bases de datos segn la distribucin de fsica de los datos.
Organizacin Fsica
Centralizada.
Existe un nico repositorio responsable de los datos. La consulta se realiza sobre el repositorio. Existen varios respositorios responsables de los datos. La consulta se realiza en cualquiera de los repositorios. El usuario ve un nico repositorio. Existe un proceso de sincronizacin de los
Distribuida.
Organizacin Fsica
Mixta.
Existen varios repositorios responsables de los datos. La consulta se realiza en el repositorio adecuado. La interconexin entre los repositorios pueden ser visible o invisible. Existen procesos independientes a los repositorios que realizan la sincronizacin. La forma de distribucin y almacenamiento de datos es eterogenea.
Qu se puede almacenar?
Datos Biolgicos
Bibliografa.
Nucletidos.
Protenas. Genoma.
Estructuras.
Alineamientos. Organismos. Genes.
Caractersticas
Alta complejidad.
Nueva Clasificacin
Las bases de datos biolgicas tienen caractersticas especiales que promovieron una nueva clasificacin para poder identificar la calidad de los datos almacenados.
Curadas: Los datos estn confirmados biolgicamente. An as esto no significa que puedan variar. No curadas: Los datos no fueron confirmados. Son obtenidos de procesos automticos o son resultados parciales.
Redundantes: No se puede confirmar que los datos existentes no se encuentran repetidos varias veces. No redundantes: Los datos no estn repetidos bajo un criterio... y las secuencias repetidas?
El problema
Solucin actual
Especificar las bases de datos. Relacionar las bases de datos a travs de Internet: Enlaces! Centralizar en grandes centros de bioinformtica con recursos suficientes. Permitir acceso a los grandes centros va Internet. Mantenimiento de los datos a travs de sistemas de versiones.
Nuevos problemas.
Una consulta seria implica 'navegar' por varias bases de datos diferentes. Los resultados no siempre son satisfactorios. Las herramientas estn especializadas a las distintas bases de datos. Es muy fcil marearse... Dnde empezar la consulta? Qu tan confiable es lo encontrado?
Las soluciones tienen que ser integradoras y accesibles, de bajo costo y polticamente aceptable. Los grandes centros de bioinformtica quieren imponer su solucin integradora, siendo la mayora gratuitas y multiplataformas. Esto limita la fusin de los datos acotando las consultas. Es por ello que surgieron soluciones puntuales para integrar las herramientas existentes.
Solucin I: Scripts
Los lenguajes de scripts permiten simplificar tareas automatizables y tediosas. Existen extensiones para procesos comunes para la Bioinformtica. Ventajas
Desventajas
Ejemplos
Lenguaje de representacin y organizacin de datos. Flexible. Fcil de interpretar y consultar. Cualquier sistema que entiende XML puede interpretar los datos. Pensado para intercambiar datos por Internet. HTML es primo mayor de XML.
El futuro?
Base de datos de objetos organizada jerrquicamente. Informacin distribuida. Independencia en la administracin. Lenguaje de consulta muy amplio. Tecnologa de Directorios: 10 aos de experiencia. Automticamente integrable con otras grillas de informacin cientfica.
Lo ms parecido... AceDB.
Preguntas?
Fin de la presentacin...
Ir a los fierros...