Вы находитесь на странице: 1из 8

TEMA 2

Técnicas de Aprendizaje Automatizado

Índice
1. Técnicas de Aprendizaje Automatizado 1
1.1. Tipos de problemas que se estudian en A. A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2. Aprendizaje no supervisado. 2
2.1. Definición preliminar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2. Definición formal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.3. Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.4. Métodos de Agrupamiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.5. Ejemplos juguetes de Aprendizaje no supervisado . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.6. Métricas de disimilaridad y de similaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.7. Métrica de disimilaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.8. Métrica de similaridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

3. Aprendizaje supervisado. 4
3.1. Definición formal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2. Objetivo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3. Tipos de aprendizaje supervisado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.4. Métodos de aprendizaje supervisado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

4. Aprendizaje semi supervisado. 5


4.1. Definición preliminar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2. Definición Formal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.3. Clasificación Semisupervisada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.4. Un ejemplo de un problema de aprendizaje semi supervisado . . . . . . . . . . . . . . . . . . . . 5

5. Conceptos importantes. 6
5.1. Función de pérdida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.2. Función de pérdida en Clasificación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.3. Error empírico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.4. Generalización. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5.5. Sub ajuste - Sobre Ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.6. Regularización. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

6. Próxima Clase 7

7. Bibliografía 8

1. Técnicas de Aprendizaje Automatizado


1.1. Tipos de problemas que se estudian en A. A.

En función de las caracteristicas de los datos.

1
Tipos de Aprendizaje:

1. Aprendizaje no supervisado.

2. Aprendizaje supervisado.
3. Aprendizaje semi supervisado.

2. Aprendizaje no supervisado.
2.1. Definición preliminar.
Aprendizaje no supervisado.
Intenta descubrir cómo están organizados los datos, agrupándolos por similaridad.
Datos no etiquetados
Los datos usados por este tipo de algoritmos no se encuentran etiquetados, es decir no se dispone un valor de
salida y junto con cada ejemplo x.

Similaridad
En el aprendizaje no supervisado, como no se dispone de las etiquetas de los datos, se toma como criterio de
agrupamiento la similaridad de los datos.

2.2. Definición formal.


Aprendizaje no supervisado (definición formal).
Dado un conjunto de datos de entrenamiento no etiquetados D, donde D = {(x1 ), ..., (xn )} El problema
es encontrar una hipótesis fˆ que permita agrupar/explicar los datos basándose en ciertas características
(distancia/similitud).

2.3. Objetivos.
Objetivos.
Objetivos.

Descubrir grupos de ejemplos/datos similares (llamados agrupamientos o clústers).

Determinar la distribución de los datos dentro del espacio de entrada (estimación de la densidad).
Proyectar óptimamente los datos de un espacio de alta dimensionalidad en un espacio de dos o tres dimen-
siones que se haga posible la visualización de los mismos.

2.4. Métodos de Agrupamiento.


Métodos de Agrupamiento (Clustering).
Métodos de Agrupamiento (Clustering).

Son técnicas de aprendizaje no supervisado cuyo objetivo es partir un conjunto de ejemplos y agruparlos en
clusters.

Se entiende que los ejemplos que pertenecen a un cluster son más similares entre ellos que con respecto a
los ejemplos de otros clusters.

2
2.5. Ejemplos juguetes de Aprendizaje no supervisado
Ejemplos juguetes de Aprendizaje no supervisado

Nubes gaussianas - Grupos elongados - Clustering.

2.6. Métricas de disimilaridad y de similaridad


Métricas de disimilaridad y de similaridad
Para poder unir ejemplos individuales y que formen un grupo es necesario tener alguna medida numérica que
caracterice las relaciones entre los ejemplos. La medida de asociación puede ser una distancia o una similaridad.

2.7. Métrica de disimilaridad


Se llama función de distancia o disimilaridad, a toda función que posea las siguientes propiedades:
Simetría: d(xi , x j ) = d(x j , xi ).

Positividad: d(xi , x j ) ≥ 0.
Si además la función satisface las siguientes condiciones:
Desigualdad triangular: d(xi , x j ) ≤ d(xi , xk ) + d(xk , x j ), ∀xi , x j , xk
Reflexividad: d(xi , x j ) = 0 ⇔ xi = x j

la función d se denomina métrica de disimilaridad.

2.8. Métrica de similaridad


Las funciones de similaridad deben cumplir las siguientes propiedades:
Simetía: s(xi , x j ) = s(x j , xi ).
Positividad: 0 ≤ s(xi , x j ) ≤ 1
si, además, verifica que:

s(xi , x j ) = 1 ⇔ xi = x j
Entonces la función s es una métrica de similaridad.

3
3. Aprendizaje supervisado.
3.1. Definición formal.
Aprendizaje supervisado (Definición formal)
Notación formal:

Un conjunto de datos etiquetados D, donde D = (x, y)/x ∈ X ∧ y ∈ Y , o sea tenemos un conjunto de


valores de salida Y
Una función objetivo desconocida f : X → Y

Se busca calcular una función fˆ : X → Y usando D tal que fˆ(x) ∼


= f (x)∀x ∈ X

3.2. Objetivo.
Objetivo.
Objetivo.
En el aprendizaje supervisado el objetivo es crear, a partir de un conjunto de datos de entrenamiento para los
cuales se conoce la respuesta adecuada, un modelo numérico capaz de realizar predicciones precisas para nuevos
datos.

3.3. Tipos de aprendizaje supervisado.


Tipos de aprendizaje supervisado.
Dependiendo de las características del conjunto Y , podemos distinguir tres variantes de aprendizaje
supervisado:
Tipos de aprendizaje supervisado:

Clasificación binaria: el conjunto Y consta de dos valores discretos.

Clasificación multiclase: el conjunto Y tiene tres o más elementos discretos.


Regresión: el conjunto Y consta de una o más variables continuas.

3.4. Métodos de aprendizaje supervisado


Métodos de aprendizaje supervisado

Métodos de aprendizaje supervisado.

4
4. Aprendizaje semi supervisado.
4.1. Definición preliminar.
Aprendizaje semi supervisado.
En los últimos años ha surgido nuevos tipos de métodos que permiten procesar simultáneamente datos
etiquetados y no etiquetados, dando origen al paradigma del aprendizaje semisupervisado.
Aprendizaje semi supervisado

Busca la manera de combinar las técnicas de aprendizaje supervisado y no supervisado.

Usa para el entrenamiento tanto datos con etiquetas como datos sin etiquetas.

4.2. Definición Formal.


Aprendizaje semi supervisado.
Definición formal
Dado un conjunto de los datos de entrada D = {(xi , yi )}li=1 ∪ {(xi )}l+u

i=l+1 , donde típicamente l  u. Diremos
entonces que D está compuesto por dos subconjuntos de ejemplos:
El subconjunto de datos etiquetados L = {(xi , yi )}li=1 , tomados i.i.d. de una distribución desconocida P(x, y).
El subconjunto de datos no etiquetados U = {(xi )}l+u i=l+1 i.i.d. de una distribución desconocida P(x).

Aprendizaje semi supervisado.


i.i.d.
En teoría de probabilidad y estadística , una colección de variables aleatorias es independiente e idénticamente
distribuida (i.i.d.) si cada variable aleatoria tiene la misma distribución de probabilidad que las otras y todas son
mutuamente independientes.

Pre condición del Aprendizaje semi supervisado


El presupuesto básico que sustenta la viabilidad del aprendizaje semisupervisado es que P(x, y) y P(x) comparten
parámetros.

4.3. Clasificación Semisupervisada.


Aprendizaje semi supervisado.
Clasificación Semisupervisada.
Es un método semisupervisado que usa datos no etiquetados para intentar disminuir el error de generalización de
la hipótesis óptima fˆ que se encuentra basándose solamente en los datos etiquetados.
En general lo que se busca es aprovechar directa o indirectamente la información que se puede obtener
de la distribución de los datos no etiquetados, para así mejorar la capacidad de predicción de ejemplos
nuevos.

4.4. Un ejemplo de un problema de aprendizaje semi supervisado


Un ejemplo de un problema de aprendizaje semi supervisado

5
Un caso simple de aprendizaje semisupervisado, usando SVM (margen máximo).

5. Conceptos importantes.
5.1. Función de pérdida.
Función de pérdida.
Recordemos...
En el Aprendizaje Supervisado se busca dentro del espacio de hipótesis H , la hipótesis fˆ(x) que mejor aproxime
los valores de salida para cada ejemplo del conjunto de entrenamiento que fueron generados por una función f (x)
que se desconoce.

Función de pérdida
Para cuantificar el grado de aproximación de fˆ(x) a f (x), se utiliza lo que se conoce como Función de Pérdida
L(y, fˆ(x)), que calcula la diferencia entre la salida verdadera yi y la que se obtiene con fˆ(xi ).

5.2. Función de pérdida en Clasificación.


Función de pérdida en Clasificación.
Para problemas de clasificación, si el predictor genera valores discretos, se usa la función de pérdida 0-1 como se
muestra en la siguiente ecuación, que devuelve 0 si el valor predicho coincide con la salida verdadera, o 1 en caso
contrario.
0 si fˆ(x) = y

L(y, fˆ(x)) (1)
1 si fˆ(x) 6= y

5.3. Error empírico.


Error empírico.

La hipótesis fˆ(x) más adecuada será entonces la que mayor grado de aproximación tenga con f (x), para ello lo
que se acostumbra hacer es minimizar el Error Empírico que es el promedio de los valores de la función de
pérdida de los ejemplos de entrenamiento.

1 n
Remp ( fˆ) = ∑ L yi , fˆ(xi )) (2)
n i=1

5.4. Generalización.
Generalización.

En la mayoría de los casos nos encontramos con más de una hipótesis con error empírico igual a cero, es por eso
que se pretende que un programa de aprendizaje automatizado más que replicar la salida de los datos de
entrenamiento sea capaz de generar salidas acertadas para ejemplos no observados aún, es decir que tenga buena
capacidad de generalización

6
5.5. Sub ajuste - Sobre Ajuste.
Sub ajuste - Sobre Ajuste.
Lo que se busca es que coincida la complejidad de la hipótesis fˆ con la complejidad de la función f que genera
los valores de salida.

Sub ajuste - Sobre Ajuste

Si fˆ es menos compleja que f , estaremos cometiendo lo que se conoce como sub-ajuste (underfitting).
Si fˆ es más compleja que la función f , estamos ante un caso de sobreajuste (overfitting).

5.6. Regularización.
Regularización.
En todos los algoritmos de aprendizaje automatizado que son entrenados a partir de ejemplos se busca una
solución de equilibrio entre tres factores:

Regularización.
Muchos métodos de aprendizaje supervisado tratan de encontrar una solución que de un equilibrio entre
los tres factores mencionados. Para ello debemos pasar de pretender minimizar el Riesgo empírico (error
sobre datos vistos en entrenamiento) a priorizar minimizar el Riesgo Estructural (error de generalización
en nuevos ejemplos no considerados durante el entrenamiento).

Regularización.
La minimización del riesgo estructural busca prevenir el sobre-ajuste, para ello se extrae del conjunto
de entrenamiento D, un subconjunto de ejemplos que no se utilizará para entrenar el algoritmo y sobre el
cual se determinará el nivel de error de cada hipótesis, se lo llama a este subconjunto conjunto de validación
o conjunto de prueba.
Entonces...
La hiótesis óptima es aquella que consiga menor error de generalización sobre los ejemplos del conjunto de
validación o prueba.

6. Próxima Clase
Próxima Clase
1. Clasificación.
2. Error en clasificación.
3. Estimación del error en clasificación.
4. Árboles de Decisión (ID3).
5. Support Vector Machines(SVM).
6. Random Forest (RF).

7
7. Bibliografía
Bibliografía

Mitchell, T. Machine Learning. McGraw-Hill series in computer science. McGrawHill, 1997.


Alpaydin, E. Introduction to machine learning. MIT press, 2004.
Bishop, C. M., et al. Pattern recognition and machine learning, tomo 1. springer New York, 2006.

Dietterich, T. G. Machine learning. En: Nature Encyclopedia of Cognitive Science. London: Macmillan,
2003.

Вам также может понравиться