2 PC

MACHINE LEARNING
 Curso: Negociaciones Internacionales
 Nombre: Estefany Jhuliza Carrasco Inga
 Código: 20130251H
¿QUÉ ES EL MACHINE LEARNING?
Machine Learning: Cuyo objetivo reside en Se refiere a la

que los sistemas identificación de
Es una disciplina de la aprendan patrones complejos
inteligencia artificial y automáticamente dentro de una gran
la ciencia de la cantidad de datos
computación obtenidos
APRENDIZAJE SUPERVISADO
“Clasificación”
Nuestros datos deben estar etiquetados, estos etiquetas

nos va a permitir clasificar nuestro datos mas rápido.
Siempre en aprendizaje supervisado se utilizan datos para

el entrenamiento y se predicen individuos fuera de la
muestra de entrenamiento.
“Ejemplo” Atributos
Observación Peso (kg) Color Altura (cm) Target
45 Negro 65 Rottweiler
Muestra
de 28 Cervato – Blanco 58 Boxer
entrenamiento
8 Negro - Albaricoque 30 Pug
Predicción  39 Negro 62 ????

TIPOS DE PREDICCIONES
Variables Categóricas Variables Numéricas

APRENDIZAJE NO SUPERVISADO
“Clustering”
Nuestros datos no se encuentran etiquetados.
El algoritmo de aprendizaje no supervisado busca por su

cuenta grupos o cluster.
“Ejemplo”
Atributos
Observación Peso (kg) Color Altura (cm) Target
45 Negro 65 Rottweiler
Muestra
de 28 Cervato – Blanco 58 Boxer
entrenamiento
8 Negro - Albaricoque 30 Pug

Altura (cm)
Peso (kg)
- No se que tipo de raza es, pero sabemos que pertenece a ese grupo
- En este caso se hace un algoritmo que por si solo agrupa en función a sus atributos
APRENDIZAJE SUPERVISADO APRENDIZAJE NO SUPERVISADO
VS
MÉTODO ENSEMBLE
ENSEMBLE LEARNING
Ensemble learning o aprendizaje en conjunto es el proceso

mediante el cual se generan y combinan estratégicamente
varios modelos clasificadores, para resolver un problema de
inteligencia computacional particular.
El aprendizaje en conjunto se usa principalmente para mejorar

el performas de un modelo (clasificación, predicción,
aproximación de funciones, etc.), o reducir la probabilidad de
una desafortunada selección de un mal modelo.
SELECCIÓN DE MODELO
Esta es quizás la razón principal por la cual los sistemas basados en conjuntos se usan en
la práctica
¿cuál es el clasificador más apropiado para un problema de clasificación dado?
Esta pregunta se puede interpretar de la siguiente maneras diferentes:
multilayer perceptron (MLP),
Qué tipo de support vector machines

clasificador se debe (SVM),
elegir entre
muchos modelos
clasificadores decision trees,
naive Bayes classifier

Entonces, de todos los clasificadores (posiblemente infinitos)
que pueden tener la misma data de entrenamiento o incluso el
mismo rendimiento .
¿Cuál debería ser elegido? Todo lo demás es igual, uno puede

estar tentado de elegir al azar, pero con esa decisión viene el
riesgo de elegir un modelo particularmente pobre.
Utilizando un conjunto de tales modelos, en lugar de elegir solo

uno, y combinando sus resultados, por ejemplo, simplemente
promediarlos puede reducir el riesgo de una desafortunada
selección de un clasificador que tiene un rendimiento
particularmente bajo.
RAZONES PARA USAR EL SISTEMA ENSEMBLE
LA FUSIÓN DE DATOS ESTIMACIÓN DE CONFIANZA
• No es inusual recibir datos obtenidos de • Considere tener un conjunto de clasificadores

diferentes fuentes que pueden proporcionar entrenados en un problema de clasificación.
información complementaria. Una combinación • Si la gran mayoría de los clasificadores está de
adecuada de dicha información se conoce como acuerdo con sus decisiones, dicho resultado puede
fusión de datos o información. interpretarse como que el conjunto tiene una gran
• Por ejemplo, para el diagnóstico de un trastorno confianza en su decisión.
neurológico, un neurólogo puede usar el • Sin embargo, si la mitad de los clasificadores toma
electroencefalograma resonancia magnética una decisión y la otra mitad toma una decisión
nuclear por imágenes ,Imágenes de exploración, la diferente, esto puede interpretarse como que el
cantidad de ciertos productos químicos en el conjunto tiene poca confianza en su decisión.
líquido cefalorraquídeo junto con los datos • Se ha demostrado que una decisión de conjunto
demográficos de los sujetos, como la edad, el sexo, bien entrenado suele ser correcta si su confianza
el nivel educativo del sujeto, etc. es alta, y generalmente incorrecto si su confianza
• Estas características heterogéneas no se pueden es baja.
usar todas juntas para entrenar a un único. • Utilizando dicho enfoque, las decisiones del
• En tales casos, se puede usar un conjunto de conjunto se pueden utilizar para estimar las
clasificadores, donde un clasificador separado se probabilidades posteriores de las decisiones de
entrena en cada uno de los conjuntos de clasificación
características de forma independiente.
DIVERSIDAD
• El éxito de un sistema de conjunto, es decir, su capacidad

para corregir los errores de algunos de sus miembros,
descansa directamente en la diversidad de los
clasificadores que componen el conjunto. Después de
todo, si todos los clasificadores proporcionaran el mismo
resultado, corregir un posible error no sería posible. Por
lo tanto, los clasificadores individuales en un sistema de
conjunto necesitan realizar diferentes errores en
instancias diferentes. La intuición, entonces, es que si cada
clasificador comete diferentes errores, una combinación
estratégica de estos clasificadores puede reducir el error
total.
ALGORITMOS DE APRENDIZAJE DE CONJUNTO
COMÚNMENTE UTILIZADOS
Bagging
La diversidad de los clasificadores en bagging se obtiene mediante el uso

de réplicas de boostrap de los datos de entrenamiento. Es decir, diferentes
subconjuntos de datos de entrenamiento se extraen al azar, con reemplazo,
de todo el conjunto de datos de capacitación.
Cada subconjunto de datos de entrenamiento se usa para entrenar un
clasificador diferente tipo.
Los clasificadores individuales se combinan tomando el camino de mayoría
simple de sus decisiones. Para cualquier instancia dada, la clase elegida por
la mayoría de los clasificadores es la decisión del conjunto
Boosting
Boosting también crea un conjunto de clasificadores mediante el remuestreo
de los datos, que luego hace una combinación por mayoritaria.
Sin embargo, al boosting, el remuestreo está estratégicamente orientado a
proporcionar los datos de entrenamiento más informativos para cada
clasificador consecutivo.
En esencia, cada iteración de impulso crea tres clasificadores débiles: el
primer clasificador está entrenado con un subconjunto aleatorio de los datos
de entrenamiento disponibles.
El subconjunto de datos de entrenamiento para el segundo clasificador 2 se
elige como el subconjunto más informativo, dado.
Específicamente, está entrenado en una información de entrenamiento que
solo la mitad está clasificada correctamente, y la otra mitad está mal
clasificada. El tercer clasificador está entrenado con instancias en las cuales el
1 y 2 discrepan. Los tres clasificadores se combinan a través de una votación
por mayoría de tres vías.
……
CASOS APLICATIVOS
A PREDICTION MODEL FOR CREDIT DEFAULTERS
USING ENSEMBLE LEARNING CLASSIFIERS
G. Arutjothi - Dr. C. Senthamarai
 Analiza el riesgo de crédito usando el desarrollo de la tecnología moderna de las técnicas de análisis de
datos
 El modelo de predicción que utilizan para para encontrar los clientes morosos y cliente no morosos, es el
modelo de análisis basado clasificador conjunto o ensemble de datos de morosos de crédito.
 En este trabajo se utiliza ensemble learning basado en las metodologías como bagging, boosting y stacking
classifiers
 Ese modelo propuesto proporciona toda la información que puede ser utilizada para la toma de decisión
sobre las propuestas de préstamo.
 También realizan un estudio de comparación, encontrando la metodología adecuada en el conjunto de
metodologías de ensemble learning.
 El clasificador encontrado es la metodología bagging, lo cual proporciona mayor precisión que los otros
clasificadores. Por lo tanto, ensemble learning técnica es adecuada para la industria bancaria para hacer la
aprobación para el préstamo
DECLARACIÓN DEL PROBLEMA
 Análisis de riesgo crediticio es difícil para los gerentes de los bancos, ya que si la
cantidad de crédito otorgado al cliente no se pudo recuperar, para el banco seria
pérdida. Para evitar este problema, el riesgo de crédito se comprueba antes de
aprobado el crédito.
 El estudio del diseño y desarrollo de un sistema se utiliza para aumentar la eficiencia
del proceso de evaluación de solicitud de préstamo.
 El objetivo del estudio es diseñar y desarrollar un sistema eficiente para la búsqueda
de los clientes morosos de crédito y el análisis de los datos de crédito que prevalecen
en la industria bancaria.También descubre la información para evaluar el préstamo.
 Las contribuciones de este trabajo son para desarrollar el modelo clasificador basado
en conjunto y mejorar el rendimiento de los clasificadores. El estudio completo se
hace entre las técnicas de aprendizaje conjunto. En particular, se identifica el
clasificador más adecuado para este problema de puntuación de crédito.
MODELO DE PROPUESTO
 En el trabajo se centro en la búsqueda de clientes morosos de crédito utilizando

el modelo de calificación de crédito.
 El trabajo propone utilizar en un clasificador de aprendizaje conjunto como

ensemble learning con las metodologías como bagging, boosting y stacking.
 Con el fin de tomar una decisión sobre las propuestas de préstamo un modelo
eficaz se ha diseñado utilizando técnicas de minería de datos. técnicas de
aprendizaje conjunto clasificador también se comparan para encontrar el mejor
modelo.
ARQUITECTURA PROPUESTA
RESULTADOS Y DISSCUSION
 El conjunto de datos del banco fue tomado de UC Irvine Machine Learning

Repository, este comprende 21 atributos, y un tamaño de muestra de 1000.
 Ensemble Learning tal como Bagging, Boosting y Stacking son usados para
encontrar la precision en el subconjunto optimo de caracteristicas.
 Las métricas usadas para el análisis son accuracy, precision y recall.
 La figura muestra la comparación de ensemble classifiers. Los algortimos de
clasificación están en el eje ‘x’, y el porcentaje de precisión de clasificación
sobre el eje ‘y’.
 El modelo clasificador de Bayes clasificó correctamente 77,66667\%
de los clientes buenos y malos del conjunto de datos de
entrenamiento. Del mismo modo, se clasificó correctamente el 75\%
de los clientes buenos y malos del conjunto de datos de prueba.

2 PC

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

2 PC

Загружено:

Авторское право:

Доступные форматы

MACHINE LEARNING

 Curso: Negociaciones Internacionales

 Nombre: Estefany Jhuliza Carrasco Inga

Machine Learning: Cuyo objetivo reside en Se refiere a la

Nuestros datos deben estar etiquetados, estos etiquetas

Siempre en aprendizaje supervisado se utilizan datos para

Observación Peso (kg) Color Altura (cm) Target

8 Negro - Albaricoque 30 Pug

Predicción  39 Negro 62 ????

Variables Categóricas Variables Numéricas

Nuestros datos no se encuentran etiquetados.

El algoritmo de aprendizaje no supervisado busca por su

Observación Peso (kg) Color Altura (cm) Target

8 Negro - Albaricoque 30 Pug

Ensemble learning o aprendizaje en conjunto es el proceso

El aprendizaje en conjunto se usa principalmente para mejorar

Esta pregunta se puede interpretar de la siguiente maneras diferentes:

multilayer perceptron (MLP),

Qué tipo de support vector machines

naive Bayes classifier

¿Cuál debería ser elegido? Todo lo demás es igual, uno puede

Utilizando un conjunto de tales modelos, en lugar de elegir solo

• No es inusual recibir datos obtenidos de • Considere tener un conjunto de clasificadores

• El éxito de un sistema de conjunto, es decir, su capacidad

La diversidad de los clasificadores en bagging se obtiene mediante el uso

 En el trabajo se centro en la búsqueda de clientes morosos de crédito utilizando

 El trabajo propone utilizar en un clasificador de aprendizaje conjunto como

 El conjunto de datos del banco fue tomado de UC Irvine Machine Learning

Вам также может понравиться