Вы находитесь на странице: 1из 10

!

UNIVERSIDAD ANDINA DEL CUSCO


FACULTAD DE INGENIERA

!
!
!
!
!
!
!
!
!

Carrera PROFESIONAL DE INGENIERA


DE SISTEMAS

!
TEMA
!
!

Data Mining
!
CURSO
!
DOCENTE
!
ALUMNO

!
!
!
!
!
!

: Programacin Avanzada
: Ing. Amrico Estrada Snchez
:

Cesar Jordano Moscoso Yarn

CUSCO 2014

Pgina 1 de 10

Indice!
Indice!

2!

Introduccin!

3!

Desarrollo!

4!

Qu es Data Mining?!

4!

Qu tipos de Datos pueden ser explotados?!

4!

Datos de una Base de Datos!

4!

Data WareHouse!

5!

Transaccional Data!

5!

Que clase de patrones pueden ser explotados?!

5!

Tcnicasque utiliza el Data Mining!

6!

Estadstica!

6!

Machine Learning!

6!

Recuperacin de Informacion!

6!

Sectores deAplicacin!

7!

Inteligencia de Negocios!

7!

Motores debsqueda web!

7!

Principales Problemas!

8!

Interaccindel Usuario!

8!

Eficiencia y Escalabilidad!

8!

Impacto en la Sociedad!

8!

Conclusiones!
Bibliografa!

9!
10

Pgina 2 de 10

!
!
!
!
!
Introduccin!

!
!
!
!
!
!
!
!

En los ltimos aos se han acumulado enormes cantidades de datos en todas las
organizaciones, y esta tendencia contina a un ritmo acelerado.

Esto es posible por el amplio uso de los sistemas computarizados, nuevas tcnicas de
captura de datos, el empleo de cdigos de barra, los lectores de caracteres pticos, las
tarjetas magnticas, entre otros, y por el avance en la tecnologa de almacenamiento
y su consiguiente reduccin de costos. La disponibilidad de esos datos es un
importante activo para cualquier organizacin, en la medida en que puedan ser
transformados en informacin de inters, utilizando tcnicas y mtodos de Data
Mining.

El crecimiento explosivo de las bases de datos, de Internet y el empleo de tcnicas y


herramientas (que en forma automtica y eficiente, generan informacin a partir de
los datos almacenados), permiten descubrir patrones, relaciones y formular modelos.
En particular, estas tcnicas han adquirido enorme importancia en reas tales como
estrategias de marketing, soporte de decisiones, planeamiento financiero, anlisis de
datos cientficos, bioinformtica, anlisis de textos y de datos de la web.

Pgina 3 de 10

Desarrollo!
Qu es Data Mining?

Data mining al ser un termino que engloba varias disciplinas puede ser de varias
maneras. Tambin puede entenderse generalmente como el proceso de extraer oro
de una mina o un conjunto de rocas.!
Data mining es un paso esencial en el proceso de descubrimiento deconocimiento,
este proceso general costa de varios pasos que interactan con Data Mining.
Entonces se puede decir que Data minina es el proceso de descubrir patrones
importantes y conocimiento de una gran cantidad de datos. Los recursos que proveen
estos datos pueden incluir bases de datos, data warehouses, la web y otros centros de
informacion o datos que pueden ser transferidos a un sistemaautomticamente.

Qu tipos de Datos pueden ser explotados?

Como una tecnologa general, dataminino puede seraplicadaa cualquier clases de


data tanto como sea til para una aplicacin destino. La forma mas bsica
de aplicacin de Data Mining es a las bases de datos, Data Wareohuse y datos
detransacciones.Tambin puede ser aplicado a secuencias de datos,grficos o de red,
datos espaciales, datos de texto, multimedia, etc

!
Datos de una Base de Datos
!

Consiste en unacoleccin de datos interrelacionados y un conjunto deprogramabas


para administrar y acceder a estos datos.Una base de datos relacional es un conjunto
de tablas que tienen asignado un nico nombre. Un Modelo de datos es
unaestructuraconstruida para representar a una base de datos como un conjunto de
entidades y relaciones.!
Cuando se utiliza Data Mining en bases de datos relacionados se puede buscar por
tendencias y patrones de datos.Tambin en lossistemas que utilizan Data Mining se
puede detectar desviaciones en los datos para que sean investigadas. Las bases de
datosrelacionases son una de las ms comunes fuentes de informacin disponibles y
ricas adems forman el objetivo principal del Data Mining.

!
!
!
!

Pgina 4 de 10

Data WareHouse

Data Warehouse es un repositorio de informacion recolectada demltiples fuentes,


almacenada bajo un sistema de esquema y usualmente rediseado para un solo
l u g a r. D a t a w a r e h o u s e s s o n c o n s t r u i d o s p o r p r o c e s o s d e
l i m p i e z a , i n t e g r a c i n , t r a n s f o r m a c i n , p r o c e s a m i e n t o y u n
mantenimiento peridico.Para facilitar la toma de decisiones los datos en un Data
Wareouse es organizada alrededor de palabras clave y periodos de tiempos largos,
para poder resumirlos y mostrarlos de manera sencilla.!
Aunque las herramientas de un Data Warehouse ayudan al anlisis de datos,
adicionalmente Data Mining necesita ms herramientas para un profundoanlisis.
Multidimensional Data Mining representa unacombinacin de varios niveles de datos
enlos cuales se pueden encontrar patrones mas importantes.

!
Transaccional Data
!

En general cada registro en una base de datostransaccional captura unatransaccin


como una compra de un cliente, reserva de vuelos, o click de usuarios en un sitio web.
Una transaccin suele tener un identificador nico y una lista de tems que han
participado de letransaccin.!
De esta manera de puede hacer un anlisis de que cosas la gente compra en
conjunto, paraas generar ofertas acerca de esto.Tambin se puede crear publicidad
inclinada a la compra de objetos complementarios a lo que el usuario ya haya
comprado. Estos son llamadosfrecuentes conjuntos detems.

Que clase de patrones pueden ser explotados?

Los patrones masfrecuentes como su nombrelos dice suelenocurrir frecuentemente


en los datos. Existen varios tipos de patrones frecuentes, incluyendo frecuentes
conjuntos de datos, frecuentes secuencias de datos,frecuentes subestructuras de
datos. Un frecuente conjunto de datos se refiere a unconjunto detems que aparecen
juntos es un base de datos transnacional, como una compra de leche y pan por
ejemplo. Una frecuente secuencia de datos es cuando un cliente suele comprar
un tem a causa de otro, comprar una computadora seguida de un mouse por
ejemplo. Una frecuente subestructura de datos es una mezcla de conjuntos de datos
y secuencias, en pocas palabras este tipo de patrn engloba a los dos anteriores
patrones.

!
!
!
!

Pgina 5 de 10

Tcnicasque utiliza el Data Mining

Data Mining tiene incorporada varias tcnicas de otros campos como


laestadstica,precognicin de patrones, etc. Lainterdisciplinarianaturaleza de Data
Mining genera que se mejore y desarrolle de mejor manera cada una de sus
aplicaciones extensivas.

!
Estadstica
!

La estadstica estudia la recoleccin,anlisis, interpretacin y presentacin de los


datos. Data Mining tiene una conexin inherente a la estadstica.El
modelo estadstico es un conjunto de funciones matemticas que describen
el comportamiento de objetos enfocados en trminos de variables y asociaciones
posibles.!
La estadstica busca desarrollar las herramientas para la prediccin y previsin
usando datos y modelosestadsticos. los modelosestadsticos pueden ser usado para
verificar los resultados del Data Mining. Los algoritmos deben ser cuidadosamente
diseados para reducir el costo computacional de usar los modelos estadsticos. El
reto se vuelve mas divicil para aplicaciones online pues estas requieren el Data
Mining constantemente.

!
Machine Learning
!

Machine learning investiga como las computadoras pueden aprender basados en los
datos. En campo principal deinvestigacin es como los programas pueden aprender a
reconocercomplejos patrones y hacer decisiones inteligentes basadas en datos.

!
Recuperacin de Informacion
!

Recuperacinde informacion es la ciencia debsqueda de documentos o informacion


en documentos. Los documentos pueden ser texto omultimedia pueden estar en la
web.Las diferencias entre este proceso y los sistemas de bases de datos son dos
principales.!
La recuperacin de informacion asume que los datos sobre los que se buscan
noestn estructurados y las consultasestn formadas de palabras clave, las cuales
no tiene que tenercomplejas estructuras(disiento a las consultas SQL).!
Esta tcnica adopta modelos probabilsticos, ademas un tema en un conjunto de
documentos puede ser modelado como unadistribucin sobre el vocabulario, lo cual
es llamado modelo de tpicos.Un documento de texto el cual encierre uno o
mastpicos puede ser considera en una mezcla demltiples modelostpicos. Estos
modelos crecen constantemente gracias a las web y las aplicaciones online. Su
efectividad y anlisis ha generado una creciente cantidad de retos para el Data
Mining.!
Pgina 6 de 10

Sectores deAplicacin

!
Inteligencia de Negocios
!

Es esencial para los negocios el conocer de mejor manera el contexto comercial de


una organizaron, como de sus consumidores,el mercado, los recursos y los
competidores. Las tecnologas de inteligencia de negocios proveen
vistas histricas,actuales y futuras en las operaciones de negocios.Incluyendo
reportes, anlisis online de los procesos, el redimiendo de la administracin de los
negocios,inteligencia competitiva yanlisisproductivos.!
Sin el Data Mining muchos negocios pueden experimentar baja efectividad en
el anlisis del mercado, en el descubrimiento de las fortalezas y debilidades de sus
competidores, retener gran cantidad de usuarios importantes. Claramente data
mining es elcorazn de la inteligencia de negocios.

!
Motores debsqueda web
!

Un motor debsqueda web es una servidor computacional para la informacion web.


Los resultados a una consulta de un usuario mayormente revuelve una listatambin
llamada hits. Esta lista consiste enpaginas web,imgenes y otros tipos de ficheros.
Algunos motores debsquedatambin buscan en lainformacin publica disponible
en directorios abiertos. Los motores de bsqueda proponen grandes retos a Data
Mining.!
Primero, ellos tiene que manejar una enorme cantidad de datos que
crececonstantemente. Normalmente esa cantidad de datos no puede ser procesas en
una o varias maquinas. En cambio losmotorsedbsqueda necesitan usar servidores
de computadores que se computen por miles o cientos de miles de computadoras
que colaboran para encontrar lo mejor de tan gran cantidad de informacion.!
Segundo, los motores de bsqueda suelen tener que lidiar con datos online. Un
motor de bsqueda tiene que ser capaz de sostener un modelo sin conexin
para grandes cantidades de datos. Por ello es necesario construir un seleccionador
se bsqueda predefinido por categoras basado en tpicos generales(si
unabsquedaapple se refiera a la fruta tantocomo a la marcatecnolgica).!
Tercero, los motores debsqueda web suelen tener que lidiar con consultas solo unas
pocas veces. Esto genera que no se tenga una gran informacion estructurada acerca
de esta consulta y no se puede dar la mejor respuesta. A esto se suma que la consulta
tenga que ser respondida en unafraccin de segundo.

!
!
!
!

Pgina 7 de 10

Principales Problemas

Data Mining es un campodinmicoque se esta expandiendo de manera gigantesca


con grandesfortalezas. ahora demostraremos algunos principales problemas que se
manejan en Data Mining,dividindolos en grupos.

!
Tecnologa disponible
!

La tecnologa disponible para el data mining suele ser costosa ya que requiere
grandes equipos de computo para su realizacin. Basado en esto las tecnologas
disponibles para crear patrones no aseguran su utilidad al cien por ciento ya que al ser
un sistema de software no puede pensar adecuadamente al realizar todas las
funciones derecoleccin de datos.

!
Interaccindel Usuario
!

Cuando se exigen crear patrones debsquedas que han sido realizadas pocas veces,
el sistema sufre ya que buscar esas pocas consultar y crear mejores respuestas entre
millones de documentos de informacion genera problemas. Los usuarios juegan un
papel fundamental en estos aspectos, por lo tanto se debe guiar al usuario a buscar
de otras formas o de la manera que se pueda obtener mejores y mas rpidas
respuestas.

!
Eficiencia y Escalabilidad
!

En medida que crece la informacin, sobre todo online, es cada vez


mas difcil manejarla, se hace complejo poder coordinar mediante algoritmos
lossistemas decreacin de patrones. Estos sistemas decreacin de patrones trabajan
con gran cantidad de computadores que cada da tienen que ir mejorando y
adaptandose a la creciente demanda de informacin que las grandes corporaciones
requieren.

!
Impacto en la Sociedad
!

Como impacta el Data Mining en la sociedad, un aspecto importante a notar es la


privacidad de laspersonas. Por ello toda empresa que maneja datos de usuarios hace
conocer a sus usuarios lo que realiza y como lo realiza. A su vez el usuario tiene
derecho a saber si su informacion esta siendo utilizada para fines fuera de lo
establecido por un contrato de privacidad. Se tiene que tener cuidado con esto, ya que
ninguna persona quiere que su informacion sea utilizada para atentados contra ella
misma o generar dinero del cual nodebera.

!
!

Pgina 8 de 10

Conclusiones!

El Data Mining nos ayuda a generar sistemas de computacin mas eficientes y


competentes en el mundo que vivimos hoy en da, ya que toda la gama de
herramientas que nos provee facilita el manejo de grandes cantidades de
informacion. Sin este conjunto de herramientas seria dificilsimo hacer frente a la
gran ola de necesidad de informacin que requieren las personas.

La gente quiere lo mejor, lo masrpido posible y barato. A esto se suma el creciente


afianzamiento de la gente a internet, y la tendencia de subir su informacion a
internet. Estotambin tienerelacin con el mercado, ya que la gente no solo quiere
un buen producto sino lo quieren con un valor agregado y este valor agregado
lopuede mostrar el Data Mining para las organizaciones que lo necesiten.

Sin esta gran cantidad de herramientas que provee el Data Mining probablemente
Google no podra darnos una respuesta a esa consulta de la manera gran bestial y
precia que lo hacenormalmente. Cabe resaltar que estasherramientas no solo sirven
para grandes organizaciones sino para las pequeas tambin, para poder crecer de
mejor manera sabiendo de que forma deben actuar para afianzar su curva de
crecimientoeconmico.

!
!

Pgina 9 de 10

Bibliografa!

Han, Jiawei.!
Data mining : concepts and techniques / Jiawei Han, Micheline Kamber, Jian Pei. 3rd
ed.!
USA 2012.!
Online Version: http://www.cse.hcmut.edu.vn/~chauvtn/data_mining/Texts/
[1]%20Data%20Mining%20-%20Concepts%20and%20Techniques%20(3rd
%20Ed).pdf!

http://triton.exp.dc.uba.ar/datamining/index.php/que-es-data-mining!
Tema: Data Mining!
Autor: Universidad de buenos Aires - Argentina!
Fecha de Ingreso: 14/09/2014

http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/
datamining.htm!
Tema: Data Mining!
Autor: University of California - Estados Unidos!
Fecha de Ingreso: 14/09/2014

!
!

http://infolab.stanford.edu/~ullman/mmds/ch1.pdf!
Tema: Data Mining!
Autor: Stanford University - Estados Unidos!
Fecha de Ingreso: 14/09/2014!

Pgina 10 de 10

Вам также может понравиться