Вы находитесь на странице: 1из 9

INSTITUTO TECNOLOGICO SEPERIOR

DE LERDO

LIC. EN INFORMATICA

TOPICOS AVANZADOS DE BASE DE DATOS

“Ejemplos reales de aplicaciones reales de Data Mining”

Profesor

Ricardo de Jesús Nava Bustamante

Alumna

Karla Janeth Andrade Martínez

Numero de control 06230237

18 de marzo del 2010

EJEMPLO 1

DATA MINING
CLINICA VIRTUAL GINECOLOGICA, Buenos Aires (Argentina)

Buenos Aires, Argentina

DATA MINING Y LA MEDICINA BASADA EN LA EVIDENCIA.

Por el Dr. Carlos Alberto Porta (BA)

Con el advenimiento de los modernos sistemas tecnológicos de Informática


Médica, los profesionales de la Salud han podido tener acceso a un mundo
insospechado de información actualizado y veloz.

La búsqueda bibliográfica por Internet, merced a las bondades de Medline y otras


librerías, permitió que el médico dedicara su tiempo en menesteres profesionales
mientras la Informática le conseguía la preciada documentación.

Pero con el tiempo, surgió el problema del control de calidad y seriedad científica
de la información en Medicina, con lo cual la "Medicina Basada en la Evidencia"
apareció como el paladín de los que con el pasar de los años veíamos con
grandes dudas todo lo que se escribía sobre nuestras especialidades. A la primera
visión surgió un autocuestionamiento de paranoia larvada, pero el análisis
minucioso de la situación permitió detectar infinidad de procedimientos
erroneamente elegidos, resultados criticables, seguridad epidemiológica ausente,
y fue entonces cuando la MBE se consagró como la única forma de saber si las
conductas estratégicas de los profesionales de la Salud eran sensatas o
arrastraban las costumbres sin fundamentos a través de los tiempos.

Paralelamente, se produce un fenómeno que caracteriza la Informática de fin de


siglo: nuestras habilidades para recolectar datos resultaron muy superiores a las
facilidades con que podíamos analizarlos. Y así fue como se impuso la necesidad
de manejar coherentemente los enormes volúmenes de información que se
recogen a diario, llegando al momento actual amparados bajo un concepto muy
especial de la "Teoría del Conocimiento".

Cualquier data entry, o administrador de una base de datos sabe perfectamente


que con el porcedimiento habitual de análisis solamente se recoge una mínima
parte de la información almacenada. El término "almacén de datos" tiene una
palabra específica en Informática, que es "DATAWAREHOUSING". Se pretende
con este término describir un depósito de información de gran magnitud, imposible
de procesar por métodos habituales de manejo de base de datos. El ejemplo
clásico es la lista de códigos que compramos en un supermercado, y la asociación
de ellos en una misma compra.
La tecnología moderna nos permite hoy recolectar infinidad de datos. Pero no
solamente fallamos en la velocidad del análisis. Siempre se sabe que quedan
zonas y paquetes de información donde el análisis no llega.

Y así es como nació el "Descubrimiento del conocimiento en base de datos" (KDD;


Knowledge Discovery in Databases), lo cual constituye una revolución dentro del
proceso de manejo de información. Su definición, es tan clara que se autodefine
por su aplicación práctica:

"Es la extracción no trivial, desde los datos, de información implícita, previamente


desconocida y potencialmente útil".

Como manifestación estratégica no puede ser mas interesante para descubrir que
la MBE se puede sentir alimentada en el futuro por la información codificada y
almacenada en el mega datawarehouse de la Salud.

Es escalofriante pensar en la recolección de datos codificados en las consultas


médicas del mundo entero, donde cada enfermedad puede tener síntomas hasta
ahora no sospechados, por la sencilla razón de que hasta ahora a nadie se le
ocurrió atar los cabos sueltos de la información dispersa.

La revolución de la MBE puede encontrar aquí una fuente no sólo de inspiración,


sino de confirmación o rechazo de viejas teorías que se perpetuan sin bases
científicas ni estadísticas de valor.

Un trabajo colaborativo multicéntrico mundial con protocolos de recolección de


datos uniforme, permitiría obtener información de singular valor como para permitir
afirmar que la enfermedad XXX se presenta con el síntoma YYY en el x% de los
casos.

Hasta ahora, hablamos de la estrategia del KDD. Pero para implementar la técnica
debemos aplicar ciertos algoritmos para la extracción de patrones que utilizen los
datos disponibles. Y eso, la exploración (o explotación) y análisis a través de
algoritmos, por medios automáticos o semiautomáticos de grandes cantidades de
datos con el fin de descubrir reglas y patrones significativos, se llama
"DATAMINING".

Solamente hay que querer sacar provecho de la información disponible. A la


información existente en Salud, el mundo le queda chico. Con el Datamining de la
base de datos de síntomas clínicos, la MBE puede llegar a decirnos que lo que
creíamos que era de una forma, en realidad es de otra forma.
Las raices de la Medicina clásica pueden llegar a temblar a la luz del "Nuevo
conocimiento" bajo el paraguas de la MBE, y dentro del Datawarehouse de la
Salud.

Debemos pensar con la mentalidad de un minero. El yacimiento es el


datawarehouse y todo lo que a diario recolectamos como información. Pero está
inexplotado. Hay que buscar la veta de información desaprovechada y explotar la
mina. Y eso es el datamining. Tenemos todo, menos las ganas y la decisión.

Es un desafío, pero el nuevo siglo nos está acostumbrando a ponernos a prueba.


Sólo que esta vez está de por medio la Salud del mundo entero.

Bibliografía:

"Data mining, o cómo transformar datos en Información". Lic. Juan M. Ale.


Universidad de Palermo, B. Aires. Comunicación personal.

"Data mining". Pieter Adriaans & Dolf Zantinge. Ed. Addison-Wesley, USA. 1998

Cafetería / Lobby / Capilla

http://cablemodem.fibertel.com.ar/ginecologica/MBE-DM.HTM
EJEMPLO 2

DATA MINING EN LA POLICIA

EEUU empleará Data Mining para detectar sospechosos

16 agosto 2006

Via Nestic, llego a People For The American Way (PFAW), una organización que
denuncia los planes del Gobierno estadounidense de utilizar herramientas de data
mining para establecer perfiles de posibles sospechosos de terrorismo:

"As part of its plan to track potential terrorists, the Bush Administration is preparing
to collect massive amounts of information about everyone in the United States.
Specifically, the government has planned new and enormous government data
mining programs to collect and analyze records of travel, bank transactions, phone
calls, email, credit card purchases, and virtually anything else that leaves a trail.
Using secret criteria, this data would be mined by computer programs to produce
watch lists and profiles and to mark certain individuals as suspicious."

Esto, en la práctica, supone un recorte de las libertades civiles más básicas, como
es el derecho a la intimidad y la privacidad. Porque no sólo supone una intromisión
en la privacidad de los datos más particulares del individuo, sino que establece
peligrosos precedentes en cuanto a políticas de control de la población civil. ¿ Se
legislará hasta el punto de obligar a entidades financieras, telecos y otras
compañías a remitir sus datos a los Gobiernos como pasa con los ISPs -sin
autorización judicial- ?

Y, además, ya no hace falta conocer el contenido de tus comunicaciones, sino que


el control empieza por conocer con quién te comunicas y cuándo. Algo similar
planteaba David de Ugarte en su alegato contra la traza sin autorización judicial:

"Analizando la información con una serie de herramientas estadísticas se puede


conocer tu orientación sexual, tus aspiraciones políticas o profesionales, tu vida
sentimental… incluso mejor que accediendo a los contenidos de las
comunicaciones."

Y no olvidemos que, en la práctica, la privacidad en Internet no existe. En el fondo,


bajo la excusa de la seguridad nacional, caben todo tipo de vilipendios. Sólo
espero que estas políticas no se hagan extensivas a otros países.

Para alguien -como yo- que tiene la tez morena y el pelo negro, que fue abordado
por la polícia rusa por tener rasgos similares a los chechenos y que ha viajado a
países musulmanes al menos 4 veces en los últimos 4 años (por trabajo y turismo,
todo sea dicho), las posibilidades de que no me permitan viajar a los Estados
Unidos o que me deporten aumentan considerablemente.

Recuerdo la escena de "La Terminal" en que el jefe de aduanas dice que hay que
mostrar compasión hacia los extranjeros que llegan al aeropuerto, porque la
compasión es lo que inspira al pueblo norteamericano. Ríete, Canales, ríete.

Bibliografía

http://tochismochis.blogspot.com/2006/08/eeuu-emplear-data-mining-para-
detectar.html
EJEMPLO 3

DATA MINING EN LOS IDIOMAS

La problemática de los idiomas

El proceso de tomar una señal de voz de contenido desconocido y convertir dicha


señal en una serie de palabras del diccionario correspondiente es más difícil con
idiomas como el chino en el cual la tonalidad cambia el significado de una palabra.
Ello está relacionado con ciertos aspectos de la demanda de sistemas multilingües
de mining de audio la cual está experimentando un crecimiento lento. Este hecho
es notorio en idiomas tales como el árabe, chino mandarín, inglés del Reino Unido
y de Estados Unidos, alemán, japonés y español. A título de ejemplo, podemos
mencionar que el sistema de indexación BBN de audio de BBN Technologies
produce transcripciones indexadas (susceptibles de ser objeto de búsqueda) de
cualquier fuente de audio en árabe, chino, inglés o español en tiempo real sobre
un ordenador personal corriente. Por otro lado, el transporte de un producto a un
nuevo idioma o a un dialecto claramente diferente conlleva un consumo
considerable de tiempo y tiene un alto coste dado que es necesario el
almacenamiento y también la transcripción de los datos acústicos para el idioma o
dialecto correspondientes a fin de evaluar nuevos modelos acústicos.

BBN Technologies, IBM, Fast-Talk y Scan Soft han diseñado tecnología de data
mining de audio específica para no depender de la persona hablante. Por ejemplo,
los modelos acústicos de Fast-Talk han sido elaborados para efectuar el
reconocimiento de numerosos speakers correspondientes a varios dialectos y
estilos de habla y también a los dos sexos y a diferentes edades. En relación a
estos hechos, cabe citar que algunos tipos de mining de audio emplean modelos
acústicos sintonizados para el entendimiento de voz procedente de distintos
entornos tales como telefonía, radio y televisión.

Bibliografia

http://www.idg.es/iworld/articulo.asp?id=153189
EJEMPLO 4

DATA MINING EN LA TELEVICION

Prediciendo el tamaño de las audiencias televisivas.

La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema de


data mining para predecir el tamaño de las audiencias televisivas para un
programa propuesto, así como el tiempo óptimo de exhibición (Brachman y otros,
1996). El sistema utiliza redes neuronales y árboles de decisión aplicados a datos
históricos de la cadena para determinar los criterios que participan según el
programa que hay que presentar.[8] La versión final se desempeña tan bien como
un experto humano con la ventaja de que se adapta más fácilmente a los cambios
porque es constantemente reentrenada con datos actuales.

Bibliografia

http://www.uoc.edu/web/esp/art/uoc/molina1102/molina1102.html

EJEMPLO 5

DATA MINING EN LOS BANCOS DE ADN

Bancos de ADN: Data Mining y Gestión

Funded by Agencia Córdoba Ciencia.

Description:

El objetivo del projecto fue el desarrollo de un software que permita la


administración de multiples bancos de datos de ADN y el "minado de datos'' dentro
de ellos. Entre las funciones actuales del sistema se encuentran la determinación
de vínculos biológicos, la identificación de personas a partir de los marcadores
genéticos y la búsqueda de patrones genéticos comunes a un conjunto de
muestras. El desarrollo se realizo con herramientas de software libre.

Developers

Alejando Peralta Frias

Sergio Penkale

Santiago Albareda

Estado Actual de Proyect


El software producto de este proyecto ha sido aceptado exitosamente por parte del
Ceprocor. El ceprocor además validará los resultados del sistema a través de
casos de tests específicos.

Resta el registro de la propiedad intelectual del mismo y el informe final por parte
del ceprocor. Restan además redactar y enviar las publicaciones científicas donde
se de cuenta sobre descripciones técnicas en general y sobre usos reales del
sistema.

Bibliografia

http://www.cs.famaf.unc.edu.ar/~gabriel/?q=node/11

Вам также может понравиться