Академический Документы
Профессиональный Документы
Культура Документы
APRENDIZAJE ESTADÍSTICO
Autor:
Nombre Apellidos
Diciembre 2019
APRENDIZAJE ESTADÍSTICO
Machine Learning es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas
que aprenden automáticamente. Aprender en este contexto quiere decir identificar patrones complejos
en millones de datos.
Emular:
Seguir exactamente el mismo proceso.
Simular:
Sólo trata de reproducir el comportamiento del programa.
Vector de Características:
X = (x1 , x2 )
X ∈ R2
X∈X
X ⊆ R2
X −→ espacio de caracteristicas
Clasificador:
Es una función tal que asigna 0,1,2,etc a cada uno de los vectores que pertenecen al espacio de
características.
Clasificador Binario:
Asigna dos clases categorías o etiquetas (Los valores no interesan como numero sino como categoría).
Ψ : X −→ {0, 1}
Ψ : X −→ {−1, +1}
1
Clasificador Multiclase:
Asigna mas de dos clases categorías o etiquetas.
Ψ : X −→ {0, 1, 2}
Regresión:
Asigna valores reales (Los valores si interesan).
Ψ : X −→ R
Regresión lineal:
Regresión lineal 2D
y = β0 + β1 x
Regresión lineal 3D
y = β0 + β1 x1 + β2 x2
Clasificación: (
0 si 0,5x1 + 2x2 + 1 < 120
Ψ=
1 si 0,5x1 + 2x2 + 1 ≥ 120
2
Error de clasificación:
Es la probabilidad de que la hipótesis retorne una etiqueta diferente a la etiqueta que le corresponde
en realidad a la clasificación.
3
Clasificador de bayes(solución optima)
P[y = 0] + P[y = 1] = 1
Error de Salida
Teórico
X X
[P[X/y = 1] ∗ P[y = 1]] + [P[X/y = 0] ∗ P[y = 0]]
X:ψ(x)=0 X:ψ(x)=1
X
−→ Espacio discreto
X:ψ(x)=0
Practico
N
1 X
Ein (ψ) = I[ψ(Xi ) 6= yi ]]
N n=1
I −→ F uncion indicador
Ejemplo:
X : (x1 , x2 , x3 )
(
0 si
x1 −→ Sobrepeso =
1 no
(
0 si
x2 −→ P resion arterial =
1 no
4
(
0 si
x3 −→ F actor hereditario =
1 no
Regla de Clasificación:
N
1 X
Ein (ψ) = I[ψ(Xi ) 6= yi ] −→ Sobre M uestra
N i=1
5
ηr
µ=
ηv + ηr
]r Sacadas de la muestra
υ= ;
N ] elementos en la muestra
Desigualdad de Hoeffding.
Desigualdad universal.
2N
P[|v − u| > ] ≤ 2e−2
Valido para cualquier problema siempre y cuando pueda satisfacer ciertas condiciones.
Las muestras se seleccionan de manera aleatoria e independiente.
i.i.d −→ M uestreo
i −→ independiente(una muestra no af ecta a otra)
i.d −→ identicamente distribuido(misma distribucion)
Aplica a cualquier distribución de probabilidad.
u, v ∈ [0, 1]
∈ [0, 1]
i.i.d
2
1−α=
e−22 N
−→ M argen error
N −→ T amao muestra
Ejemplo
Despejar N con un nivel de confianza del 95 %.
2
1 − 0,95 =
e−22 N
ln 40
N=
22
Intervalo de confianza:
u ∈ [v − , v + ]; α = 0,95
2N
P[|Ein (h) − Eout (h)| > ] ≤ 2e−2
2N
Ein (h), Eout (h), 2e−2 −→ [0, 1]
6
Eout (h) −→ Sobre la poblacion
Metodología Machine Learning
Fase 1: Diseño, entrenamiento y validación preliminar (Construir el clasificador).
(
0 β0 + β1 x1 + β2 x2 < τ
ψ(X) =
1 β0 + β1 x1 + β2 x2 ≥ τ
Fase 2: Testeo (Validar el clasificador).
2M
1−α=
e−22 NT rain
2
1−α= −22 NT est
e
N = NT rain + NT est
Espacio de hipótesis: Conjunto de funciones clasificadores tales que satisfacen algunas propiedades.
H = {h; h = sgn(β0 + β1 x1 + β2 x2 ), β0 , β1 , β2 ∈ R}
Espacio de todos los clasificadores para un problema dado.
ψ + : Elmejorclasif icadordeHparaelproblemadado.
7
En una función espacio de 3 hipótesis el numero de dicotomias es 8 a menos que sean puntos
colineales.
En una función espacio de 4 hipótesis el numero de dicotomias es 14.
la dV C(H) dimensión de Vapnik-Chervonenkis corresponde a la máxima cantidad de puntos N para
los cuales se cumple que:
mH = 2N
La dimensión Vc de un espacio de hipótesis lineal en 2D es 3.
NT rain dV C(H)
dVC mide la cantidad de puntos que un sistema de clasificación puede memorizar.
mH = 2N
H = {h; h = sgn(β0 + β1 x1 + β2 x2 ), β0 , β1 , β2 ∈ R}
dV C(H) = 3
NT rain dV C(H)
NT rain −→ Datos
dV C(H) −→ Algoritmo
Para n dimensiones.
dV C(HLnD ) = n + 1
Si tengo 3 dimensiones necesito amenos 30 datos.
8
Para un clasificador binario.
(
−1 x < 0
sgn(x) =
1 x≥0
Para un clasificador No binario.
−1 x < 0
sgn(x) = 0 x=0
1 x≥0
Sobre Ajuste: Cuando existe pocos datos para entrenamiento y cuando se lo implementa el error es
muy alto.
~a : ||a|| = 1
α ∈ R+
Eout (gBayes ) = Eout (gopt )
Φ −→ F unciondedensidadnormalestandaracumulada.
X : (2, 3)
h1 (x) = sgn((2)(−5) + (3)(10) + (1)(1))
h1 (x) = sgn(−10 + 30 + 1) = +1
9
h2 (x) = sgn((2)(3) + (3)(−7) + (1)(2))
h2 (x) = sgn(6 − 21 + 2) = 0
10
(1) (1) (1)
W01 W11 W21
1 −5 10
W (1) =
W (1) W (1) W (1)
02 12 22
2 3 −7
(2) (2) (2)
(2) W01 W11 W21
W2 =
−9 −3 4
Dimensiones de los vectores.
W (1) : [2, 3]
(2)
W2 : [1, 3]
X : [1, 3]
Z = [1, x1 , x2 ] : [1, 3]
Z : [1, 3]
W(1)T : [3, 2]
W(2)T : [3, 2]
ZW(1)T : [1, 2]
[1 sgn(ZW(1)T )] : [1, 3]
g(X) : [1, 1]
Entrenar una red neuronal artificial es encontrar los valores W(1) y W(2) tales que:
N
1 X
ECM = (yi − ŷi )2
2N i=1
11
Sea Mínimo.
N
1 X
ECM = (yi − ŷi )2
2N i=1
XW(1) = Z(1)
∂E ∂E
= 0 ; =0
∂W (1) ∂W (2)
∂E ∂E ∂ ŷ
(2)
= ∗
∂W ∂ ŷ ∂W (2)
∂E
=0
∂W (2)
∂ ŷ
=0
∂W (2)
∂hardlim
∂W (2) ∗ =0
∂Z (1)
Por el problema de la función hardlim es cero entonces se reemplaza por la función logsig.
1
logsig(a) =
1 + e−a
12
Derivada de la función logsig.
13
ŷi = logsig(β0 + β1 x1 + β2 x2 + ... + βn xn )
Regresión Logística.
(
1 si P[y = 1/X ≥ 21
g(x) =
0 no P[y = 1/X < 12
Error Cuadrático Medio como función de costo para la regresión.
N N
1 X 2 1 X
ECM = (yi − ŷi ) = (yi − P[y = 1/Xi ])2
N i=1 N i=1
P[y = 1/Xi ] = 1; yi = 0
P[y = 1/Xi ] = 1; yi = 1
La entropía cruzada penaliza con un costo mas alto los errores que el ECM, ademas es una función
derivable.
N
X
EC = − [yi log(Pi ) + (1 − yi ) log(1 − Pi )]
i=1
1
Pi =
1 + e−Z
Z = β0 + β1 x1 + β2 x2 + ... + βn xn
14
j = 0, 1, 2, ..., n
N
∂EC ∂ X
= {− [yi log(Pi ) + (1 − yi ) log(1 − Pi )]}
∂Pi ∂Pi i=1
N
X ∂yi log(Pi ) ∂(1 − yi ) log(1 − Pi )
∂EC
=− +
∂Pi i=1
∂P i ∂Pi
N
∂EC X ∂log Pi ∂log(1 − Pi )
=− yi + (1 − yi )
∂Pi i=1
∂Pi ∂Pi
N
∂EC X (1) (−1)
=− yi + (1 − yi )
∂Pi i=1
Pi 1 − Pi
N
∂EC X yi (1 − yi )
=− ( )−
∂Pi i=1
Pi (1 − Pi )
N
X yi (1 − Pi ) − Pi (1 − yi )
∂EC
=−
∂Pi i=1
(1 − Pi )Pi
N
X yi − yi Pi − Pi + Pi yi
∂EC
=−
∂Pi i=1
(1 − Pi )Pi
X yi − Pi N
∂EC
=− [ ]
∂Pi i=1
(1 − Pi )Pi
P ordef iniciondelogsig :
∂Pi
= Pi (1 − Pi )
∂Zi
∂Z
=1
∂β0
∂Z
= xk ; k = 1, 2, ..., n
∂βk
N
X (yi − Pi )
∂CE
=− ∗ Pi (yi − Pi ) ∗ 1
∂β0 i=1
Pi (yi − Pi )
N
∂CE X
=− (yi − Pi )
∂β0 i=1
N
X (yi − Pi )
∂CE
=− ∗ Pi (yi − Pi ) ∗ 1
∂βk i=1
Pi (y i − P i )
N
∂CE X
=− (yi − Pi )xik
∂βk i=1
15
∂CE ∂CE
y −→ F orman el gradiente de la f uncion Entropia Cruzada
∂β0 ∂βk
El gradiente de una función indica la dirección de máximo crecimiento de la función, minimiza
funciones trascendentes.
∂CE ∂CE
β0new = β0old − α y βknew = βkold − α ; k = 1, 2...
∂β0 ∂βk
N
X N
X
β0new = β0old −α (Pi − yi ) y βknew = βkold −α (Pi − yi )xik
i=1 i=1
N
X
β0new = β0old −α (Pi − yi )
i=1
N
X
βknew = βkold − α (Pi − yi )xik
i=1
P[D/B] ∗ P[B]
Bargmax [P[B/D]] =
P[D]
si N Complejidad modelo B
16
D : {(X1 : y1 ), (X2 : y2 ), ..., (Xn : yn )}
N Y
Y 1 Q
[y−j]
P[D/B] = P[y = j/Xi ; B]
i=1 j=0
N
Y
P[D/B] = P[y = 0/Xi ; B][i−y] P[y = 1/Xi ; B][y]
i=1
N
X
ln[P[D/B]] = ln[(1 − P)1−y ] + ln[Pyi ]
i=1
N
X
ln[P[D/B]] = [(1 − y) ln(1 − Pi ) + y ln(P)]
i=1
17
1 2 . . . 100
2
.
dataX =
.
.
1010
Regularización:
Bajar la complejidad al modelo sin modificar los coeficientes.
Decaimiento de pesos.
n
λX 2
Jr (B) = J(B) + B
2 j=0 j
~ ~ n
∂Jr (B) ∂J(B) X
= +λ Bj
~
∂B ~
∂B j=0
Se penaliza los pesos para reducir el nivel de complejidad, el error baja sin reducir el numero de
características para pocos datos y muchas características.
Clasificador Softmax.
Sirve para clasificadores multiclase.
k = 1, 2, 3, ..., c
c −→ N umero Clases
β = β 1 , β 2 , ..., β c −→ [1, n + 1]
Z = [1, X] −→ [1, n + 1]
(k)T
eZβ
P[y = k/Xi ; β] = Pc Zβ (i)T
i=1 e
ak = Zβ (k)T
ai = Zβ (i)T
e(a1 −x)
f (ai ) =
e(a1 −x) + e(a2 −x) + ... + e(a5 −x)
18
ea1 ∗ e−x
f (ai ) =
ea1 ∗ e−x + ea2 ∗ e−x + ... + ea5 ∗ e−x
El clasificador softmax no da una probabilidad sino un vector de probabilidad. Sirve unicamente
para clases mutuamente excluyentes.
P = [P[y = 1/Xi ; β], P[y = 2/Xi ; β], ..., P[y = c/Xi ; β]]
y −→ 5 −→ [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
N X
X c
J=− I[yi = k] ln[P[yi = k/Xi ; β]]
i=1 k=1
1 1 0 0 0 0 0 0 0 0 0
2 0 1 0 0 0 0 0 0 0 0
10 0 0 0 0 0 0 0 0 0 1
5 −→ one hot encoding Y T rainHot = 0
Y T rain = 0 0 0 1 0 0 0 0 −→ [N, 10] M N IST
0
. .
. .
. .
Se devuelve la clase de mayor probabilidad. En caso de ser las mismas clases se selecciona de manera
aleatoria.
0,2 0,2 0,1 0,1 0,4 0,0 0,0 0,0 0,0 0,0
0,1 0,1 0,1 0,3 0,2 0,0 0,0 0,0 0,2 0,0
PM = . −→ [N, 10]
.
.
Para reducir los casos de falsos positivos se recomienda poner un umbral y la probabilidad que
devuelve el sistema debe superar el umbral para no considerarse como un falso positivo.
N
∂J X
= − xj (I[yi = k] − P[yi = k/Xi ; β])
∂β kj i=1
19
j = 1, 2, ..., n ; k = 1, 2, ..., c
Validación Cruzada: Técnica de estimación de errores en conjunto de pequeños datos.
k: Números de grupos en los que se divide el conjuntos de datos.
20
La función de transferencia elegida servirá para toda la capa.
h1 : 0,8854
21
h2 : −0,8337
g1 : 0,6894
(1) (x1 ) (x2 )
W(1) = −0,5 −0,3 0,8
−0,7 0,7 0,1
(1) (h1 ) (h2 )
W(2) =
−1 0,9 −1,2
Histograma orientado a gradientes:
Histogramas orientados a gradientes.
22
ΨC : X −→ {1, 2, ..., c} −→ Entropia Cruzada (F U N CION COST O)
Regresión:
y = f (x) +
−→ Ruido −→ ∼ N(0, σ 2 )
N −→ Distribucion N ormal
1 2
P() = √ e− 2σ2
σ∗ 2π
D = {(x1 , y1 ), (x2 , y2 ), ..., (xN , yN )}
H −→ Espacio hipotesis g(x) ≈ y
A −→ Algoritmo Aprendizaje
N
X
A= ln[P[i ]]; i = yi − g(xi )
i=1
N
X 1 2
i
A= ln[ √ e− 2σ2 ]
i=1
σ∗ 2π
N
X 1 2
i
A= {ln[ √ ] + ln[e− 2σ2 ]}
i=1
σ∗ 2π
N
X √ 2
A= {− ln[σ ∗ 2π] − i 2 }
i=1
2σ
N N
X √ X 2i
A=− ln[σ ∗ 2π] −
i=1 i=1
2σ 2
N
√ 1 X
A = −N ln[σ ∗ 2π] − 2 (yi − g(xi ))2
2σ i=1
N
1 X √
A=− (y i − g(x i ))2
− N ln[σ ∗ 2π]
2σ 2 i=1
A −→ M inimizar
N
1 X √
A =− 2
0
(yi − g(xi ))2 − N ln[σ ∗ 2π]
2σ i=1
A0 −→ M aximizar
23
N
X
ECM = (yi − g(xi ))2
i=1
xi , yi ∈ R; i = 1, 2, .., N
Función de costo:
N
1 X
ECM = (yi − ŷi )2
2N i=1
∂ECM ∂ECM ∂ ŷ
= ∗ ; j = 0, 1
∂β j ∂ ŷ ∂β j
Derivando
N
∂ECM 2 X
=− (yi − ŷi )2
∂ ŷ 2N i=1
N
∂ECM X
=− (yi − ŷi )2 (yi − β0 − β1 xi )
∂ ŷ i=1
(
1 si β0
ŷ =
xi si β1
N
X
− (yi − β0 − β1 xi ) = 0
i=1
N
X
− (yi − β0 − β1 xi )xi = 0
i=1
XN N
X
β0 = [ yi − β1 xi ] N = ȳ − β1 x̄
i=1 i=1
N( N
P PN PN
i=1 xi yi ) − ( i=1 xi )( i=1 yi )
β1 = PN 2 PN
N ( i=1 xi ) − ( i=1 xi )2
Regresión lineal multidimensional.
X = (x1 , x2 , x3 , ..., xn )
24
y = f (X) + ; ∼ N(0, σ)
xi ∈ R2 ; yi ∈ R; i = 1, 2...N
Ŷ = Zβ T
1
ECM = (Y − Ŷ)T (Y − Ŷ)
2N
1
(Y − Ŷ) = (Y − Zβ T )T (Y − Zβ T )
2N
N
1 X
ECM = (yi − ŷi )2
2N i=1
N
∂ECM ∂ECM ∂ ŷ X
= ∗ = (yi − ŷi )Zij ; j = 0, 1, ...n
∂β j ∂ ŷ ∂β j i=1
(Y − Zβ T )Z = 0
YT Z − (Zβ T )T Z = 0
YT Z − βZT Z = 0
βZT Z = YT Z
25
β(ZT Z)(ZT Z)− 1 = YT Z(ZT Z)− 1
β = YT Z(ZT Z)− 1
1
G=− (Y − Ŷ)T Z −→ Gradiente
N
Ŷ[N ;1] = Zβ T
Estandarizar los datos.
1 x11 x12 . . . x1n
1 x21 x22 . . . x2n
. . . . . . .
dataX =
.
. . . . . .
. . . . . . .
1 xN 1 xN 2 . . . xN n
x1 ∈ [−1; 1]
x2 ∈ [−1000; 5000]
x3 ∈ [0; 2]
x̄1 x̄2 x̄3
Aplica entrenamiento testeo −→ σ1 σ2 σ3
x̄i = (xiσ−x̄ i)
i
ALGORITMOS NO PARAMÉTRICOS
K
K −→ ∞ y −→ 0 con NT rain −→ ∞;
NT rain
la cantidad de vecinos debe crecer lentamente que la cantidad de datos de entrenamiento.
KNN sufre de la maldición de la dimensión (curse of dimensionality).
No es recomendable para ngrandes y Ntrain pequeños.
26
Es un algoritmo no paramétricos, no hay coeficientes que ajustar, no tiene parámetros. Encuentra
vecinos cercanos calculando la distancia del punto que interesa clasificar.
Algoritmo Suport Vector Machine:
Y hat = sgn(β0 + β1 xi + β2 x2 )
(
0 a<0
sgn(a) =
1 a≥0
Y hat = sgn(β0 + β1 xi + β2 x2 + β3 x3 )
Clasificador SVM.
#vectores soporte
X
Y hat = sgn(β0 + βi K(Xi , X))
i=1
Xi −→ V ector soporte
27