Вы находитесь на странице: 1из 22

UNIVERSIDAD LAICA ELOY ALFARO DE MANAB

FACULTAD DE CIENCIAS INFORMTICAS

CUESTIONARIO DE
MINERA DE DATOS
Inteligencia Artificial

Angelo Hernndez Valencia 5to A

GUIA DE PRCTICAS DE LABORATORIO / TALLERES


EN RELACIN A LA ASIGNATURA
Carrera: Ingeniera en Sistemas

Docente: Ing. Jorge Ivn Pincay Ponce

Periodo lectivo:
2015 - 2016
Nmero de Prctica/talleres:

Asignatura: Inteligencia Artificial

Curso (anual):
Quinto
Paralelo:
A

Fecha: 26/01/16

Nombre de la Unidad: Minera de datos y aprendizaje automtico.


Tema:
Nmero horas:
Tcnicas (Algoritmos) de minera de datos, definiciones y aplicaciones
frecuentes.
OBJETIVO DE LA PRCTICA
Investigar sobre minera de datos para obtener conocimientos de aprendizaje automtico mediantes
en internet, libro, revista.
INSTRUCCIONES
Esta es una tarea individual construida a partir de los tutoriales de minera de datos propuestos en el
MSDN de Microsoft o en el aula virtual desde el espacio [PDF] Minera de Datos con Analysis
Services 2012 (gua para videotutoriales), los videotutoriales que para ste entonces ha finalizado y
de fuentes cuidadosamente seleccionadas con la orientacin del docente, conteste en la siguiente
seccin ACTIVIDADES A DESARROLLAR de sta plantilla, a las siguientes interrogantes
(copie las preguntas a esa seccin y respndalas all):

Qu es?, Qu resuelve?

Datamining
Qu no es?, Qu no resuelve?

1.-QUE PROBLEMAS SE RESUELVEN CON MINERIA DE DATOS Y QUE


PROBLEMAS NO SE RESUELVEN CON MINERIA DE DATOS?
Los problemas que resuelve:
Generacin de Recomendaciones
Deteccin de Anomalas
Anlisis de Rotacin
Gestin de Riesgos
Segmentacin de Clientes
Anuncios Orientados
Previsin y predicciones
Escriba una breve definicin
Algoritmos de asociacin
El algoritmo minera de datos y aprendizaje automtico, las reglas de asociacin se utilizan
para descubrir hechos que ocurren en comn dentro de un determinado conjunto de datos.
Se han investigado ampliamente diversos mtodos para aprendizaje de reglas de asociacin
que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes
conjuntos de datos.
1

https://es.wikipedia.org/wiki/Reglas_de_asociaci%C3%B3n

Algoritmos de clustering,

El algoritmo de clsteres de Microsoft es un algoritmo de segmentacin suministrado por


Anlisis Services.El algoritmo utiliza tcnicas iterativas para agrupar los casos de un conjunto
de datos dentro de clsteres que contienen caractersticas similares.

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

Algoritmos de rboles de decisin

Son conjuntos de decisiones, que generan reglas para la clasificacin de un conjunto de


datos, configurndose para ello en base a estructuras en forma de rbol.
https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

Algoritmos de regresin lineal

El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de rboles de


decisin de Microsoft que ayuda a calcular una relacin lineal entre una variable
independiente y otra dependiente y, a continuacin, utilizar esa relacin para la prediccin.
https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

Algoritmos de regresin logstica

La regresin logstica es una tcnica estadstica conocida que se usa para modelar los
resultados binarios, la regresin logstica es que el algoritmo es muy flexible, puede tomar
cualquier tipo de entrada y admite varias tareas analticas.
Una de las ventajas de diferentes:
Usar datos demogrficos para realizar predicciones sobre los resultados, como el riesgo de
contraer una determinada enfermedad.
Explorar y ponderar los factores que contribuyen a un resultado.
https://msdn.microsoft.com/es-es/library/ms174828(v=sql.120).aspx

Algoritmos de Bayes naive

El algoritmo Bayes naive de Microsoft es un algoritmo de clasificacin basado en los teoremas


de Bayes y que Microsoft SQL Server Analysis Services proporciona para el modelado de
prediccin. La palabra nave (ingenuo en ingls) del trmino Bayes naive proviene del hecho
que el algoritmo utiliza tcnicas Bayesianas pero no tiene en cuenta las dependencias que
puedan existir.
Desde el punto de vista computacional, el algoritmo es menos complejo que otros algoritmos
de Microsoft y, por tanto, resulta til para generar rpidamente modelos de minera de datos
que detectan las relaciones entre las columnas de entrada y las columnas de prediccin.
Puede utilizar este algoritmo para realizar la exploracin inicial de los datos y, ms adelante,
aplicar los resultados para crear modelos de minera de datos adicionales con otros
algoritmos ms complejos y precisos desde el punto de vista computacional.
https://msdn.microsoft.com/es-es/library/ms174806(v=sql.120).aspx

Algoritmos de red neuronal

El algoritmo de red neural es un sistema de interconexin de neuronas que colaboran entre


s para producir un estmulo de salida. En inteligencia artificial es frecuente referirse a ellas
como redes de neuronas o redes neuronales.
https://es.wikipedia.org/wiki/Red_neuronal_artificial
Algoritmos de clustering de secuencia

Es un algoritmo de anlisis de flujos que proporciona Microsoft SQL Server Analysis


Services.Puede utilizar este algoritmo para explorar los datos que contienen eventos que
pueden vincularse mediante rutas o secuencias. El algoritmo encuentra las secuencias ms
comunes mediante la agrupacin, o agrupacin en clsteres, de las secuencias que son
idnticas. A continuacin se incluyen algunos ejemplos de datos que contienen secuencias
que se podran utilizar para la minera de datos, para ofrecer una visin general de problemas
comunes o escenarios empresariales.
https://msdn.microsoft.com/es-es/library/ms175462(v=sql.120).aspx

Algoritmos de serie temporal.

El algoritmo de serie temporal de Microsoft proporciona los algoritmos de regresin que se


optimizan para la previsin en el tiempo de valores continuos tales como las ventas de
productos. Mientras que otros algoritmos de Microsoft, como por ejemplo los rboles de
decisin, requieren columnas adicionales de nueva informacin como entrada para predecir
una tendencia, los modelos de serie temporal no las necesitan. Un modelo de serie temporal
puede predecir tendencias basadas nicamente en el conjunto de datos original utilizado
para crear el modelo.
https://msdn.microsoft.com/es-es/library/ms174923(v=sql.120).aspx

Para cada una de las tcnicas (algoritmos) mencionados en el punto 2, escriba diez 10 enunciados de
situaciones o problemas que se puedan resolver de manera principal con algunos de ellos. Como
ejemplos basados en la base de datos AdventureWorksDW2012 se propone: Algoritmos de
asociacin: Que si un cliente compra productos X, el sistemas les sugiera otros productos Y,
Algoritmos de clustering: Agrupar por ejemplos a clientes de un servicio X, por edad, por gnero,
por geolocalizacin, para hacerle ofertas personalizadas. Adicionalmente se sugiere que para cada
tcnica use el esquema de la tabla de ejemplo:
Ejemplos o casos solubles con Tcnicas de Datamining
Algoritmos de asociacin
1

La empresa Adventure Works Cycle est rediseando la


funcionalidad de su sitio web. El objetivo del nuevo diseo es
incrementar la venta directa de sus productos. Debido a que la
empresa registra cada venta en una base de datos transaccional,
se puede utilizar el algoritmo de asociacin de Microsoft para
identificar los conjuntos de productos que suelen adquirirse
juntos. As, se pueden predecir los elementos adicionales en los
que un cliente puede estar interesado basndose en los
elementos que ya se encuentran en su cesta de la compra.
.
Fuente:https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx

Marcar los clientes de una lista de posibles compradores como clientes con
buenas o malas perspectivas.
.
Fuente: https://msdn.microsoft.com/es-es/library/ms175595(v=sql.120).aspx

Calcular la probabilidad de que un servidor genere un error en los prximos

6 meses
.
Fuente:
http://inacap.serveftp.com/tic2/PresentacionesN2/Algoritmo%20de%20Clasificaci%C3%B3n%202%C2%B0%20Informe.pdf
4

Clasificar la evolucin de los pacientes y explorar los factores relacionados


.
Fuente:
http://inacap.serveftp.com/tic2/PresentacionesN2/Algoritmo%20de%20Clasificaci%C3%B3n%202%C2%B0%20Informe.pdf

Que si un cliente compra productos X, el sistemas les sugiera


otros productos Y.
.
Fuente: https://msdn.microsoft.com/es-es/library/ms174828(v=sql.120).aspx

{cebollas, vegetales}=>{carne} Encontrada en los datos de ventas


de un supermercado, indicara que un consumidor que compra
cebollas y verdura a la vez, es probable que compre tambin
carne. Esta
informacin se puede utilizar
como base para tomar decisiones sobre marketing como
precios promocionales para ciertos productos o dnde ubicar
stos dentro del
supermercado.

.
Fuente: http://es.slideshare.net/WillieManuelCaminero/algoritmos-de-minera-dedatos?qid=f8518025-96fa-44f3-8dea716d55d105ad&v=default&b=&from_search=7

Un caso muy famoso sobre reglas de asociacin es el de la "cerveza y los


paales", basado en el comportamiento de los compradores en el
supermercado. Se descubri que muchos hombres acaban comprando
paales por encargo de sus esposas. En la cadena de supermercados
Wal-Mart, donde se descubri este hecho, se adopt la medida de
colocar la cerveza junto a los paales. De esta manera consigui
aumentar la venta de cerveza.

Fuente: http://dataminingfime.blogspot.com/2010/12/reglas-se-asociacion.html
8

Detectar cundo la ocurrencia de un artculo est asociada a la


ocurrencia de otros artculos en la misma transaccin.

Fuente: http://elvex.ugr.es/decsai/intelligent/slides/dm/D2%20Association.pdf
9

Los viernes en la tarde, los jvenes varones estadounidenses que


compran mantillas tienen tambin una predisposicin a comprar cerveza.
Nadie nunca predijo dicho resultado, de tal manera que nadie se hubiera
hecho la pregunta sobre el caso en primer lugar. Esto es un excelente
ejemplo de la diferencia entre minera de datos y consulta de datos.

Fuente:
http://bsolano.com/ecci/claroline/backends/download.php/UHJlc2VudGFjaW9uZXMvNy
5fVGFyZWFzX2RlX2xhX21pbmVy7WFfZGVfZGF0b3MsX3JlZ2xhc19kZV9hc29jaWF
jafNuLnBkZg%3D%3D?cidReset=true&cidReq=CI2352

Ejemplos o casos solubles con Tcnicas de Datamining


Algoritmos de clustering
1

Puede comprender lgicamente que las personas


que se desplazan a sus trabajos en bicicleta no
viven, por lo general, a gran distancia de sus
centros de trabajo.

.
Fuente:https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx

clster A representa los datos sobre las personas


que suelen conducir hasta el trabajo, en tanto que
el clster B representa los datos sobre las personas
que van hasta all en bicicleta.

.
Fuente:

Agrupar por ejemplos a clientes de un servicio X,


por edad, por gnero, por geo localizacin, para
hacerle ofertas personalizadas.

.
Fuente:

Es una clase especial de dependencia en las que el


orden de acontecimientos es considerado. En un
anlisis de cesta de compras, las asociaciones
describen dependencias entre artculos en un
tiempo dado. El patrn secuencial describe el
modelo que hace compras de un cliente particular
o un grupo de clientes relacionando las distintas
transacciones efectuadas por el o ellos a lo largo
del tiempo.
http://es.slideshare.net/marilynsilvana/mineria-de-datos-

Fuente:
secuenciales?qid=ac1431ca-5eb1-4a56-993fbd78ab7641bb&v=default&b=&from_search=1

Todas las formas de vida estn compuestas por clulas, que


estn basadas en una bioqumica comn, que es la qumica
de los seres vivos. Todos los organismos perpetan sus
caracteres hereditarios mediante el material gentico, que
est basado en el cido nucleico ADN, que emplea
un cdigo gentico universal

.
Fuente: https://es.wikipedia.org/wiki/Biolog%C3%ADa
6

Un atributo de prediccin, puede utilizar el modelo para realizar


predicciones sobre los resultados. Sin embargo, el modelo
procesa el atributo de prediccin de manera diferente
dependiendo de si se establece la columna de prediccin
en Predict o en PredictOnly. Si establece el uso de la columna
en Predict, los valores para ese atributo se agregan al modelo de
agrupacin en clsteres y aparecen como atributos en el modelo
finalizado. Sin embargo, si establece el uso de la columna
en PredictOnly, los valores no se utilizan para crear clsteres. En

su lugar, una vez completado el modelo, el algoritmo de clsteres


crea nuevos valores para el atributo PredictOnly basndose en los
clsteres a los que pertenece cada caso.
.
Fuente:https://msdn.microsoft.com/eses/library/cc280440(v=sql.120).aspx#bkmk_Query5

Si sus patrones de escaneado de iris son robados, sin


embargo, y eso permite a otra persona acceder a
informacin personal o a cuentas financieras, el dao
podra ser irreversible.

Fuente: https://es.wikipedia.org/wiki/Biometr%C3%ADa
8

Como mtodo abreviado, en lugar de escribir sus propias


consultas usando DMX, tambin puede llamar a los
procedimientos almacenados del sistema que Analysis
Services usa para trabajar con clsteres.En el ejemplo
siguiente se muestra cmo usar los procedimientos
almacenados internos para devolver el perfil de un clster con
el identificador 002.

Fuente:https://msdn.microsoft.com/eses/library/cc280440(v=sql.120).aspx#bkmk_Query5
9

departamento de recursos humanos de una


gran empresa, desea categorizar a sus empleados en
distintos grupos, con el objetivo de establecer un trato
personalizado con ellos y definir las polticas sociales de la
empresa. La organizacin dispone en sus bases de datos
de
informacin
sobre
sus
empleados.
El

Fuente: http://www.monografias.com/trabajos104/data-mining-mineria-datos/datamining-mineria-datos.shtml#ixzz3yNiFDb8U

Ejemplos o casos solubles con Tcnicas de Datamining


Algoritmos de rboles de decisin
1

El departamento de marketing de la empresa


Adventure Works Cycles desea identificar las

caractersticas de los clientes antiguos que podran


indicar si es probable que realicen alguna compra
en
el
futuro.
La
base
de
datos
AdventureWorks2012 almacena informacin
demogrfica que describe a los clientes antiguos.
Mediante el algoritmo de rboles de decisin de
Microsoft que analiza esta informacin, el
departamento puede generar un modelo que
predice si un determinado cliente va a comprar
productos, basndose en el estado de las
columnas conocidas sobre ese cliente, como la
demografa o los patrones de compra anteriores
.
Fuente:https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx
2

La empresa Adventure Works Cycle est rediseando la


funcionalidad de su sitio web. El objetivo del nuevo diseo es
incrementar la venta directa de sus productos. Debido a que la
empresa registra cada venta en una base de datos
transaccional, se puede utilizar el algoritmo de asociacin de
Microsoft para identificar los conjuntos de productos que
suelen adquirirse juntos. As, se pueden predecir los elementos
adicionales en los que un cliente puede estar interesado
basndose en los elementos que ya se encuentran en su cesta
de la compra.
Fuente:
https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx

este ejemplo se muestra cmo utilizar algunas de las


funciones de agrupacin y ordenacin que DMX
proporciona de forma predeterminada. La consulta
devuelve los 10 mejores conjuntos de elementos
ordenados segn el soporte para cada nodo. Observe que
no necesita agrupar explcitamente los resultados, tal
como hara en Transact-SQL; sin embargo, puede utilizar
solo una funcin de agregado en cada consulta.

Prstamo de Crdito, se relacionan 10 clientes a los que


se evaluara de acuerdo a unos factores establecido si se
les puede o no conceder un crdito bancario.

.
Fuente:
4

.
Fuente: http://es.slideshare.net/Migu3lB/ejemplificacion-de-arboles-de-de
5

La consulta usa la funcin de prediccin PredictHistogram (DMX), que


devuelve una tabla anidada que contiene informacin til sobre las
probabilidades detectadas por el modelo. La clusula WHERE final de la
consulta filtra los resultados para devolver solo los clientes de los que se ha

predicho que son posibles compradores de bicicletas con una probabilidad


mayor del 0%.

.
Fuente:
ES/library/cc645903(v=sql.120).aspx

https://msdn.microsoft.com/es-

Por ejemplo, si no qued satisfecho con las


recomendaciones devueltas por la consulta de ejemplo
anterior, podra examinar otros conjuntos de
elementos que contuviesen el Producto A para tener
una idea ms clara de si dicho producto es un accesorio
que se compra con todo tipo de productos, o si se trata
de un producto estrechamente relacionado con las
compras de determinados productos. La manera ms
fcil de explorar estas relaciones es filtrando los
conjuntos de elementos en el Visor de asociacin de
Microsoft; sin embargo, se puede recuperar la misma
informacin con una consulta.

.
Fuente:
https://msdn.microsoft.com/es-es/library/cc280429(v=sql.120).aspx
7

8
9

puede agregar un nuevo modelo a esta estructura de minera


de datos y seleccionar rboles de decisin de Microsoft como
algoritmo.
Fuente:
https://msdn.microsoft.com/eses/library/cc280429(v=sql.120).aspx

Fuente:
Ejemplos o casos solubles con Tcnicas de Datamining
Algoritmos de regresin lineal

Puede utilizar la regresin lineal para determinar


una relacin entre dos columnas continuas. Por
ejemplo, puede utilizar la regresin lineal para
calcular una lnea de tendencias en los datos de
fabricacin o ventas. Tambin podra utilizar la
regresin lineal como precursor para el desarrollo
de modelos de minera de datos ms complejos,
con el fin de evaluar las relaciones entre las
columnas de datos.
Aunque hay muchas maneras de calcular la regresin lineal
que no requieren herramientas de minera de datos, la
ventaja de utilizar el algoritmo de regresin lineal de

Microsoft para esta tarea es que se calculan y se prueban


automticamente todas las posibles relaciones entre las
variables.
No tiene que seleccionar un mtodo de clculo, como por
ejemplo para resolver los mnimos cuadrados.
Sin embargo, la regresin lineal podra simplificar en exceso
las relaciones en escenarios en los que varios factores afectan
al resultado.
.
Fuente:https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx
2

A consulta devuelve el contenido del nodo que contiene la


frmula de regresin. Cada variable y coeficiente estn
almacenados en una fila independiente de la tabla
NODE_DISTRIBUTION anidada. Si desea ver la frmula de

regresin completa, utilice el Visor de rboles de


Microsoft.
3

Fuente:
https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx
La manera ms fcil de crear una sola consulta en un modelo
de regresin es usar el cuadro de dilogo Entrada de consulta
singleton. Por ejemplo, puede generar la consulta DMX
siguiente seleccionando el modelo de regresin adecuado,
eligiendo Consulta
singleton y
escribiendo
a
continuacin 20 como el valor para Age.
Fuente:
https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx

Puede utilizar muchas de las funciones de prediccin


estndar con modelos de regresin lineal. En el ejemplo
siguiente se muestra cmo agregar algunas estadsticas
descriptivas a los resultados de las consultas de
prediccin. A partir de estos resultados, puede que hay
una desviacin considerable de la media para este
modelo.

.
Fuente:
https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx
5

10

Aunque hay muchas maneras de calcular la regresin


lineal que no requieren herramientas de minera de datos,
la ventaja de utilizar el algoritmo de regresin lineal de
Microsoft para esta tarea es que se calculan y se prueban
automticamente todas las posibles relaciones entre las
variables. No tiene que seleccionar un mtodo de clculo,
como por ejemplo para resolver los mnimos cuadrados.
Sin embargo, la regresin lineal podra simplificar en exceso

las relaciones en escenarios en los que varios factores afectan


al resultado.
.
Fuente:
ES/library/ms174824(v=sql.120).aspx

https://msdn.microsoft.com/es-

Ejemplos o casos solubles con Tcnicas de Datamining


Algoritmos de regresin logstica

Imagine un grupo de personas que comparten


informacin demogrfica parecida y que adquieren
productos de la empresa Adventure Works. Al modelar los
datos para relacionarlos con un resultado concreto, como
la compra de un producto de destino, podr ver cmo
contribuye la informacin demogrfica a la probabilidad
de que alguien adquiera dicho producto de destino.

.
Fuente:https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx

clster A representa los datos sobre las personas


que suelen conducir hasta el trabajo, en tanto que
el clster B representa los datos sobre las personas
que van hasta all en bicicleta.

.
Fuente:
es/library/ms174828(v=sql.120).aspx

https://msdn.microsoft.com/es-

Clasificar los documentos, el correo electrnico u otros


objetos que tengan muchos atributos.

.
Fuente:
es/library/ms174828(v=sql.120).aspx
4

https://msdn.microsoft.com/es-

Al consultar el conjunto de filas de esquema de minera de


datos, se pueden encontrar metadatos sobre el modelo,
como cundo se cre, cundo se proces por ltima vez, el
nombre de la estructura de minera de datos en que se basa
el modelo, y el nombre de la columna que se usa como
atributo de prediccin. El ejemplo siguiente devuelve los
parmetros que se utilizaron cuando se cre por primera vez

11

el modelo, junto con el nombre y el tipo del modelo, y la fecha


en que se cre.
.
Fuente:
es/library/ms174828(v=sql.120).aspx
5

La consulta siguiente devuelve informacin bsica sobre


el modelo de regresin logstica.Un modelo de regresin
logstica es similar a un modelo de red neuronal en
muchos sentidos, por ejemplo en la presencia de un nodo
estadstico marginal (NODE_TYPE = 24) que describe los
valores que se usan como entradas.En esta consulta de
ejemplo se utiliza el modelo de distribucin de correo
directo y se obtienen los valores de todas las entradas
recuperndolos de la tabla anidada NODE_DISTRIBUTION.

.
Fuente:
es/library/ms174828(v=sql.120).aspx
6

https://msdn.microsoft.com/es-

https://msdn.microsoft.com/es-

Dado que la regresin logstica admite el uso de atributos


continuos para entrada y prediccin, resulta fcil crear
modelos que pongan en correlacin varios factores de
los datos. Puede utilizar las consultas de prediccin para
explorar la relacin entre estos factores

.
Fuente:
https://msdn.microsoft.com/es-es/library/ms174828(v=sql.120).aspx

Fuente:
8
9

12

Fuente:

En el siguiente ejemplo se muestra cmo cambiar la manera en


que se agrupa el atributo predecible. Para hacerlo, debe crear
una copia de la estructura de minera de datos y, a
continuacin, cambiar el mtodo de discretization de la
columna de destino para que los valores sean agrupados en
lugar de continuos.

Ejemplos o casos solubles con Tcnicas de Datamining


Algoritmos de Bayes naive

Como parte de su estrategia promocional, el


departamento de comercializacin de la empresa
AdventureWorks Cycles ha decidido atraer a posibles
clientes realizando un envo por correo de folletos Para
reducir costos, desean enviar los folletos solo a los clientes
de los que esperan recibir respuesta. La empresa
almacena informacin en una base de datos sobre datos
demogrficos y respuestas a envos de correo anteriores.
Desean utilizar estos datos para ver el modo en que los
datos demogrficos como la edad o la ciudad pueden
ayudarles a predecir la respuesta a una promocin,
comparando los clientes potenciales con los que tienen
caractersticas similares y con los que han adquirido
productos de la empresa en el pasado. En concreto, lo que
desean es ver las diferencias entre los clientes que
adquirieron una bicicleta y los que no lo hicieron.

.
Fuente:https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx
2

Mediante el algoritmo Bayes naive de Microsoft, el


departamento de comercializacin pude predecir
rpidamente un resultado de un perfil de cliente concreto
y, por tanto, puede determinar qu clientes respondern
a los folletos con ms probabilidad. Con el Visor Bayes
naive de Microsoft de SQL Server Data Tools (SSDT),
tambin pueden investigar visualmente qu columnas de
entrada especficas contribuyen a conseguir respuestas
positivas a los folletos.

Supongamos que un ingeniero esta buscando agua en un


terreno. A priori, se sabe que la probabilidad de que haya
agua en dicha finca es del 60%. No obstante, el ingeniero
quiere asegurarse mejor y decide realizar una prueba que
permite detectar la presencia o no de agua. Dicha prueba
tiene una fiabilidad del 90%, es decir, habiendo agua, la

.
Fuente:
3

13

detecta en el 90% de los casos. Tambin, cuando


realmente no hay agua, la prueba predice que no hay agua
en
el
90%
de
los
casos.
Por tanto, pudiendo hacer uso de dicha prueba qu es
ms probable, que haya agua o que no.
.
Fuente: http://naivebayes.blogspot.com/
4

Al consultar el conjunto de filas de esquema de minera de


datos, puede buscar los metadatos del modelo. Esto podra
incluir cundo se cre, cundo se proces en ltimo lugar, el
nombre de la estructura de minera de datos en la que se basa
el modelo y el nombre de las columnas que se usan como
atributos de prediccin.

.
Fuente:
es/library/cc645907(v=sql.120).aspx
5

https://msdn.microsoft.com/es-

Qu pasara si existieran ms pruebas para detectar si hay


agua? Supongamos que se aplican nuevas pruebas,
identificadas como las pruebas 1, 2, 3 y 4. En este caso
tendramos que calcular la probabilidad de que haya agua
sabiendo que todas las pruebas han dicho que hay agua

.
Fuente: http://naivebayes.blogspot.com/
6

En un modelo Bayes naive, el nodo de estadsticas


marginal almacena informacin agregada sobre la
distribucin de los valores de los datos de entrenamiento.
Este resumen es cmodo y le evita tener que crear
consultas SQL con los datos de entrenamiento para
encontrar la misma informacin.
En el ejemplo siguiente se utiliza una consulta de
contenido DMX para recuperar los datos del nodo
(NODE_TYPE = 24).Dado que las estadsticas estn
almacenadas en una tabla anidada, la palabra clave
FLATTENED se utiliza para facilitar la visualizacin de los
resultados.

.
Fuente:
es/library/cc645907(v=sql.120).aspx

14

https://msdn.microsoft.com/es-

Dado que un modelo Bayes naive a menudo contiene


informacin compleja sobre las relaciones entre atributos
diferentes, la manera ms fcil de ver estas relaciones es

utilizar el Visor Bayes naive de Microsoft.Sin embargo,


puede crear consultas DMX para devolver los datos.
Fuente:
es/library/cc645907(v=sql.120).aspx
8

Para explorar los resultados, puede utilizar algunos


procedimientos almacenados de sistema de Analysis
Services adems de escribir sus propias consultas de
contenido. Para utilizar un procedimiento almacenado de
sistema, anteponga al nombre del procedimiento
almacenado la palabra clave CALL:

Fuente:
es/library/cc645907(v=sql.120).aspx

https://msdn.microsoft.com/es-

https://msdn.microsoft.com/es-

La consulta siguiente utiliza una consulta singleton para proporcionar


un nuevo valor y predecir, segn el modelo, si es probable que un
cliente con estas caractersticas compre una bicicleta.La manera ms
fcil de crear una consulta singleton en un modelo de regresin es
usar el cuadro de dilogo Entrada de consulta singleton.Por ejemplo,
puede generar la consulta DMX siguiente seleccionando el
modelo TM_NaiveBayes,
eligiendo Consulta
singleton y
seleccionando los valores en las listas desplegables para [Commute
Distance] y Gender.

Fuente:
es/library/cc645907(v=sql.120).aspx

https://msdn.microsoft.com/es-

Ejemplos o casos solubles con Tcnicas de Datamining


Algoritmos de red neuronal

Anlisis de comercializacin y promocin, como


medir el xito de una promocin por correo
directo o una campaa publicitaria en la radio.

.
Fuente:https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx

Predecir los movimientos de las acciones, la


fluctuacin de la moneda u otra informacin
financiera con gran nmero de cambios a partir de
los datos histricos.

.
Fuente:
3

15

Analizar los procesos industriales y de produccin


Minera de texto.
.
Fuente:
4

Cualquier modelo de prediccin que analice relaciones


complejas entre muchas entradas y relativamente pocas
salidas.
.
Fuente:
5

Cada da de negocio hay varias referencias de contratos de


opciones de compra sobre Telefnica en funcin de los
precios de ejercicio y el vencimiento del contrato. Por ello, el
nmero de datos es muy elevado. Para mostrar este ejemplo,
se han utilizado slo los datos del mercado de las opciones
call de Telefnica desde 3 de enero de 2000 hasta 30 de junio
de 2000, eligiendo, slo, las referencias diarias qua han tenido
movimiento. De stas, se ha utilizado el ltimo precio cruzado
en el da, que no coincide siempre con el valor terico
calculado con la ecuacin Black Scholes ya que depende de la
oferta y demanda que en ese momento tenga esa referencia
.
Fuente: http://eprints.ucm.es/6767/1/0205.pdf

Determinamos que hay 25 ciclos de simulador que van a


corresponder a oportunidades en las cuales el agente puede
decidir moverse antes de que la pelota est a menos de 110
unidades del punto de contacto.
.
Fuente:
https://msdn.microsoft.com/eses/library/cc280440(v=sql.120).aspx#bkmk_Query5

Seleccionaremos tantas neuronas en la primera capa como


ratios o variables tengamos y una neurona en la capa de
salida, que es la que tiene que distinguir a las empresas que
devolvieron el prstamo de las que no.
Fuente: http://ciberconta.unizar.es/leccion/introduc/490.HTM

Aprendizaje, en la que la red neuronal no hace magia, sino


que ajusta una funcin matemtica que trata de minimizar los
errores, mediante un proceso de clculo numrico iterativo.
Fuente: http://ciberconta.unizar.es/leccion/introduc/490.HTM

16

Un ejemplo real de utilizacin exitosa de redes neuronales es


su uso para detectar fraudes en pagos electrnicos,
especialmente en tarjetas de crdito. VISA fue la entidad
pionera en utilizar redes neuronales para detectar
operaciones fraudulentas, en combinacin con otras
herramientas.
Fuente: http://ciberconta.unizar.es/leccion/introduc/490.HTM

Ejemplos o casos solubles con Tcnicas de Datamining


Algoritmos de clustering de secuencia

El sitio web de Adventure Works Cycles recopila


informacin sobre las pginas que visitan los
usuarios y sobre el orden en que las visitan. Debido
a que la empresa ofrece un sistema de pedidos en
lnea, los clientes deben registrarse en el sitio. Esto
permite que la empresa pueda conseguir
informacin de clics por cada perfil de cliente.
Mediante el uso del algoritmo de clsteres de
secuencia de Microsoft en estos datos, la empresa
puede encontrar grupos, o clsteres, de los
clientes que tienen patrones o secuencias de clics
similares. La empresa puede usar estos clsteres
para analizar la forma en que los clientes se
mueven por el sitio web, identificar qu pginas
se relacionan ms estrechamente con la venta de
un producto en particular y predecir las pginas
que tienen mayores probabilidades de ser
visitadas a continuacin.

.
Fuente:https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx

Rutas de clics que se crean cuando los usuarios


navegan o examinan un sitio web.

2
.
Fuente:
secuenciales
3

17

http://es.slideshare.net/marilynsilvana/mineria-de-datos-

Registros que enumeran eventos que preceden a


un incidente, como un disco duro errneo o
interbloqueos del servidor.
Fuente:
secuenciales

http://es.slideshare.net/marilynsilvana/mineria-de-datos-

Registros de transacciones que describen el orden


en el que un cliente agrega elementos a una cesta
de la compra de un comerciante en lnea.
.
Fuente:
5

Registros que siguen las interacciones del cliente


(o paciente) a lo largo del tiempo, para predecir
cancelaciones del servicio u otros malos
resultados.
.
Fuente:
http://www.monografias.com/trabajos104/data-mining-mineriadatos/data-mining-mineria-datos.shtml

Personalizacin del servicio a nuevos usuarios


(mediante ofertas cruzadas de productos, enlaces
dinmicos a otras reas del
servidor
que
puedan ser de su inters, etc.).
.
Fuente:
http://es.slideshare.net/marilynsilvana/mineria-de-datossecuenciales

Registros de transacciones que describen el orden en


el que un cliente agrega elementos a una cesta de la
compra de un comerciante en lnea.

Fuente:
http://www.monografias.com/trabajos104/data-mining-mineriadatos/data-mining-mineria-datos.shtml
8

Rutas de clics que se crean cuando los usuarios


navegan o examinan un sitio web.

Fuente: http://es.slideshare.net/geoc_hhga/clustering
9

18

Registros que siguen las interacciones del cliente (o


paciente) a lo largo del tiempo, para predecir
cancelaciones del servicio u otros malos resultados.

Fuente: http://es.slideshare.net/geoc_hhga/clustering

Registros que enumeran eventos que preceden a un incidente, como un disco duro errneo
o interbloqueos del servidor.

Establecimiento de nuevas tarifas de publicidad en nuestro


servidor (las pginas ms
visitadas por determinado tipo de
clientes pueden tener un precio particularizado).
Reorganizacin de la estructura de nuestras pginas en el
servidor.

Correo electrnico y agendas personales, gestin de avisos.

Deteccin de fraude en el comercio electrnico.

https://msdn.microsoft.com/es-es/library/ms175462(v=sql.120).aspx

Ejemplos o casos solubles con Tcnicas de Datamining

Algoritmos de serie temporal.

El equipo de administracin de Adventure Works Cycles desea predecir las


ventas mensuales de bicicletas para el prximo ao. La compaa est
especialmente interesada en saber si las ventas de un determinado modelo
de bicicleta se pueden utilizar para predecir las ventas de otro modelo. Al
utilizar el algoritmo de serie temporal de Microsoft en los datos histricos de
los ltimos tres aos, la empresa puede crear un modelo de minera de datos
que prevea la venta futura de bicicletas. Adems, la organizacin puede
llevar a cabo predicciones cruzadas para ver si las tendencias de venta de
modelos individuales de bicicleta estn relacionadas.
.
Fuente:https://msdn.microsoft.com/eses/library/ms174916(v=sql.120).aspx

Cada trimestre, la compaa tiene previsto actualizar el modelo con datos


recientes de ventas y actualizar sus predicciones a las tendencias recientes
del modelo. Para suplir los datos de los almacenes que no actualizan los
datos de ventas de forma precisa o regular, crearn un modelo de prediccin
general que utilizarn para crear predicciones para todas las regiones.
.
Fuente: https://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/apriori.pdf

19

Analizar los procesos industriales y de produccin


Minera de texto.
.
Fuente: https://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/apriori.pdf
4

Cualquier modelo de prediccin que analice relaciones complejas entre


muchas entradas y relativamente pocas salidas.
.
Fuente: https://ccc.inaoep.mx/~emorales/Cursos/NvoAprend/apriori.pdf
5
Un cliente que compra una computadora personal Pentium nueve meses

antes probablemente comprar un chip de CPU nuevo en un mes


.
Fuente:http://bsolano.com/ecci/claroline/backends/download.php/UHJlc2VudGFjaW9uZX
MvNy5fVGFyZWFzX2RlX2xhX21pbmVy7WFfZGVfZGF0b3MsX3JlZ2xhc19kZV9hc2
9jaWFjafNuLnBkZg%3D%3D?cidReset=true&cidReq=CI2352

Tratamientos mdicos, desastres naturales (e.g., terremotos),


procesos de la ingeniera y las ciencias, mercados y valores, etc.

.
Fuente:
http://bsolano.com/ecci/claroline/backends/download.php/UHJlc2VudGFjaW9uZXMvNy5fV
GFyZWFzX2RlX2xhX21pbmVy7WFfZGVfZGF0b3MsX3JlZ2xhc19kZV9hc29jaWFjafNuLn
BkZg%3D%3D?cidReset=true&cidReq=CI2352

Primero compra computador, luego CD-ROM y por ltimo una

cmara digital, en 3 meses.


Fuente:
http://bsolano.com/ecci/claroline/backends/download.php/UHJlc2VudGFjaW9uZXM
vNy5fVGFyZWFzX2RlX2xhX21pbmVy7WFfZGVfZGF0b3MsX3JlZ2xhc19kZV9hc
29jaWFjafNuLnBkZg%3D%3D?cidReset=true&cidReq=CI2352

Patrones de llamadas telefnicas, flujos de navegacin en el Web


Fuente:
http://bsolano.com/ecci/claroline/backends/download.php/UHJlc2VudGFjaW9uZXMvNy
5fVGFyZWFzX2RlX2xhX21pbmVy7WFfZGVfZGF0b3MsX3JlZ2xhc19kZV9hc29jaWF
jafNuLnBkZg%3D%3D?cidReset=true&cidReq=CI2352

Una regla tal como los empleados que han sido despedidos de una
empresa no pueden ser recontratados por esa empresa en el futuro.
Fuente:
http://bsolano.com/ecci/claroline/backends/download.php/UHJlc2VudGFjaW9uZXMvNy
5fVGFyZWFzX2RlX2xhX21pbmVy7WFfZGVfZGF0b3MsX3JlZ2xhc19kZV9hc29jaWF
jafNuLnBkZg%3D%3D?cidReset=true&cidReq=CI2352

20

A continuacin, se hace un recuento de Adventure Works Cycles:


Adventure Works Cycles, la empresa ficticia en la que se basan las bases de datos de ejemplo AdventureWorks, es
una gran empresa de fabricacin multinacional. La empresa fabrica y vende bicicletas de metal y de metal
compuesto en los mercados de Norteamrica, Europa y Asia. Si bien su sede central de operaciones se encuentra
en Bothell, Washington, con 290 empleados, en toda su base de mercado tiene distribuidos varios equipos
regionales de ventas.
En el ao 2000, Adventure Works Cycles compr una pequea planta de fabricacin, Importadores Neptuno,
situada en Mxico. Importadores Neptuno fabrica varios subcomponentes muy importantes para la lnea de
productos de Adventure Works Cycles. Estos subcomponentes se envan a la sede de Bothell para el ensamblado
final del producto. En el ao 2001, Importadores Neptuno pas a ser el nico fabricante y distribuidor del grupo
de productos de bicicletas de paseo.
Tras un ao fiscal con muy buenos resultados, Adventure Works Cycles est intentando ampliar su cuota de
mercado dirigiendo sus ventas a sus mejores clientes, ampliando la disponibilidad de sus productos en un sitio
web externo, y reduciendo los costos de venta a travs de costos de produccin ms bajos.

ACTIVIDADES A DESARROLLAR
Desarrolle progresivamente esta gua en funcin de las instrucciones dadas (copie aqu las preguntas,
y aqu respndalas
RESULTADOS OBTENIDOS
Aprendizaje de los algoritmo que toman decisin que se utiliza la minera de datos, tener en cuenta en
donde se aplica las minera de datos.
CONCLUSIONES
Que la minera de datos nos ayuda a emprendernos ms aplicando Algoritmo, adems son tcnica y
tecnologa que nos permite explorar resultado mediante en datos.
RECOMENDACIONES
Poner en claro que la minera de datos en los que se refiere los algoritmo para as tomar decisiones
en cualquier problemas dados.
Firman:

Presidente Curso

21

Docente

Coordinador Acadmico

Вам также может понравиться