Materia PDF

Universidad Técnica de Ambato
Facultad de Ingeniería en Sistemas Electrónica e

Industrial
APRENDIZAJE ESTADÍSTICO
Materia Aprendizaje Estadístico
Autor:
Nombre Apellidos
Diciembre 2019
APRENDIZAJE ESTADÍSTICO
Machine Learning es una disciplina científica del ámbito de la Inteligencia Artificial que crea sistemas
que aprenden automáticamente. Aprender en este contexto quiere decir identificar patrones complejos
en millones de datos.
Emular:
Seguir exactamente el mismo proceso.
Simular:
Sólo trata de reproducir el comportamiento del programa.
Vector de Características:
X = (x1 , x2 )
X ∈ R2
X∈X
X ⊆ R2
X −→ espacio de caracteristicas
Clasificador:
Es una función tal que asigna 0,1,2,etc a cada uno de los vectores que pertenecen al espacio de
características.
Clasificador Binario:
Asigna dos clases categorías o etiquetas (Los valores no interesan como numero sino como categoría).
{0, 1} −→ Clasif icador
Ψ : X −→ {0, 1}
Ψ : X −→ {−1, +1}
1
Clasificador Multiclase:
Asigna mas de dos clases categorías o etiquetas.
Ψ : X −→ {0, 1, 2}
Regresión:
Asigna valores reales (Los valores si interesan).
Ψ : X −→ R
Regresión lineal:
Regresión lineal 2D
y = β0 + β1 x
Regresión lineal 3D
y = β0 + β1 x1 + β2 x2
Clasificación: (
0 si 0,5x1 + 2x2 + 1 < 120
Ψ=
1 si 0,5x1 + 2x2 + 1 ≥ 120
Ψ(XM ) : 0,5 ∗ (25) + 2 ∗ (10) + 1

12,5 + 20 + 1 = 33,5
Ψ(XM ) : 0 −→ N o P ropensa Ataque Cardiaco
Ψ(XJ ) : 0,5 ∗ (60) + 2 ∗ (60) + 1

30 + 120 + 1 = 151
Ψ(XJ ) : 1 −→ Si P ropensa Ataque Cardiaco
Frontera de decisión óptima:
2
Error de clasificación:
Es la probabilidad de que la hipótesis retorne una etiqueta diferente a la etiqueta que le corresponde
en realidad a la clasificación.
Eout (ψ) = P[ψ(X) 6= y]
Eout (ψ) −→ Error de Clasif icacion

ψ(X) −→ P rediccion
3
Clasificador de bayes(solución optima)
P[y = 0] + P[y = 1] = 1
P[y = 0] −→ P robabilidad incidencia clase 0
P[y = 1] −→ P robabilidad incidencia clase 1
Error de Salida
Eout (ψ) = P[ψ(X) 6= y]
Teórico
X X
[P[X/y = 1] ∗ P[y = 1]] + [P[X/y = 0] ∗ P[y = 0]]
X:ψ(x)=0 X:ψ(x)=1
X
−→ Espacio discreto
X:ψ(x)=0
Practico
P[y = 0/X] ∗ P[X] + P[y = 1/X] ∗ P[X]

Distribución gaussiana:
Es una de las pocas distribuciones que permiten modelar el comportamiento o variación aleatoria
de una sección de variables(vector) y no solo de una variable.
Xi : (x1i , x2i , ..., xni )
D : {(X1 : y1 ), (X2 : y2 ), ..., (Xn : yn )}
N
1 X
Ein (ψ) = I[ψ(Xi ) 6= yi ]]
N n=1
Ein −→ Error entrada
I −→ F uncion indicador
Ejemplo:
X : (x1 , x2 , x3 )
(
0 si
x1 −→ Sobrepeso =
1 no
(
0 si
x2 −→ P resion arterial =
1 no
4
(
0 si
x3 −→ F actor hereditario =
1 no
X : (x1 , x2 , x3 ) f ree[X/y = 0] f ree[X/y = 1] f ree[X]

(0 0 0) 475 25 500
(0 0 1) 250 50 300
(0 1 0) 175 75 250
(0 1 1) 70 30 100
(1 0 0) 600 100 700
(1 0 1) 400 200 600
(1 1 0) 200 300 500
(1 1 1) 20 20 400
Regla de Clasificación:
P[y = 1/X] ∗ P[X] + P[y = 0/X] ∗ P[X]

 

  P[y = 1/X] < 12
0 si P[y = 1/X] < P[y = 0/X]




P[X/y = 1] < P[X/y1 = 0]
 
ψopt (X) =

  P[y = 1/X] ≥ 2
1 si P[y = 1/X] ≥ P[y = 0/X]




P[X/y = 1] ≥ P[X/y = 0]
 
Clasificador de Bayes:
No puede existir un error menor que el error de Bayes ya que es el clasificador optimo, para el calculo
del error se debe asumir los datos de la distribución, en la practica no se lo puede implementar.
Eout (ψ) = P[ψ(X) 6= y] −→ Sobre P oblacion
N
1 X
Ein (ψ) = I[ψ(Xi ) 6= yi ] −→ Sobre M uestra
N i=1
D : {(X1 : y1 ), (X2 : y2 ), ..., (Xn : yn )} −→ Clasif icador
5
ηr
µ=
ηv + ηr
]r Sacadas de la muestra
υ= ;
N ] elementos en la muestra
Desigualdad de Hoeffding.
Desigualdad universal.
2N
P[|v − u| > ] ≤ 2e−2
Valido para cualquier problema siempre y cuando pueda satisfacer ciertas condiciones.
Las muestras se seleccionan de manera aleatoria e independiente.
i.i.d −→ M uestreo
i −→ independiente(una muestra no af ecta a otra)
i.d −→ identicamente distribuido(misma distribucion)
Aplica a cualquier distribución de probabilidad.

u, v ∈ [0, 1]
∈ [0, 1]
i.i.d

2
1−α=
e−22 N
α −→ N ivel Conf ianza
−→ M argen error
N −→ T amao muestra
Ejemplo
Despejar N con un nivel de confianza del 95 %.
2
1 − 0,95 =
e−22 N
ln 40
N=
22
Intervalo de confianza:
u ∈ [v − , v + ]; α = 0,95
2N
P[|Ein (h) − Eout (h)| > ] ≤ 2e−2
2N
Ein (h), Eout (h), 2e−2 −→ [0, 1]
Ein (h) −→ Sobre la muestra
6
Eout (h) −→ Sobre la poblacion
Metodología Machine Learning
Fase 1: Diseño, entrenamiento y validación preliminar (Construir el clasificador).
(
0 β0 + β1 x1 + β2 x2 < τ
ψ(X) =
1 β0 + β1 x1 + β2 x2 ≥ τ
Fase 2: Testeo (Validar el clasificador).
Estima Eout (ψ) a traves de Ein (ψ)
2M
1−α=
e−22 NT rain
2
1−α= −22 NT est
e
N = NT rain + NT est
Espacio de hipótesis: Conjunto de funciones clasificadores tales que satisfacen algunas propiedades.
H = {h; h = sgn(β0 + β1 x1 + β2 x2 ), β0 , β1 , β2 ∈ R}
Espacio de todos los clasificadores para un problema dado.
ψopt : Clasif icadordebayes
ψ + : Elmejorclasif icadordeHparaelproblemadado.
Eout + ψopt < Eout (ψ+ )
X h1 (x) h2 (x) h3 (x) h4 (x)

(3,3) 0 1 1 0
(5,2) 0 1 0 1
dicotomia h1 dicotomia h2 dicotomia h3 dicotomia h4
Dicotomia: Es la clasificación de un determinado numero de puntos.

Función de crecimiento: Es la máxima cantidad de dicotomias en un conjunto de puntos. Depende
de cuantos puntos se analiza y la distribución de los puntos.
7
En una función espacio de 3 hipótesis el numero de dicotomias es 8 a menos que sean puntos
colineales.
En una función espacio de 4 hipótesis el numero de dicotomias es 14.
la dV C(H) dimensión de Vapnik-Chervonenkis corresponde a la máxima cantidad de puntos N para
los cuales se cumple que:
mH = 2N
La dimensión Vc de un espacio de hipótesis lineal en 2D es 3.
NT rain dV C(H)
dVC mide la cantidad de puntos que un sistema de clasificación puede memorizar.
mH = 2N
mH = 2N −→ F uncion de crecimiento maximo numero de dicotomias.
4mH (2NT rain )

1−δ =
e1/8 2 NT rain
si dV C(H) NT rain −→ 1 − δ T iende a cero.
NT rain > 10 ∗ dV C(H)

Ejemplo.
H = {h; h = sgn(β0 + β1 x1 + β2 x2 ), β0 , β1 , β2 ∈ R}
dV C(H) = 3
NT rain dV C(H)
NT rain −→ Datos
dV C(H) −→ Algoritmo
Para n dimensiones.
HLnD = {h; h = sgn(β0 + β1 x1 + β2 x2 + ... + βn xn ), β0 , β1 , β2 , ...βn ∈ R}
dV C(HLnD ) = n + 1
Si tengo 3 dimensiones necesito amenos 30 datos.
Si NT rain > 10 ∗ dV C(H) Entonces Ein (g) ≈ Eout (g)

Aprender significa que:

Ein (g) ≈ Eout (g)
Aprender
Ein (g) −→ 0
8
Para un clasificador binario.
(
−1 x < 0
sgn(x) =
1 x≥0
Para un clasificador No binario.

−1 x < 0

sgn(x) = 0 x=0

1 x≥0

Sobre Ajuste: Cuando existe pocos datos para entrenamiento y cuando se lo implementa el error es
muy alto.
~a : ||a|| = 1
α ∈ R+
Eout (gBayes ) = Eout (gopt )
Eout (gBayes ) = 1 − Φ(α)
Φ −→ F unciondedensidadnormalestandaracumulada.
RED NEURONAL ARTIFICIAL(RNA Feed Fordward)
X : (2, 3)
h1 (x) = sgn((2)(−5) + (3)(10) + (1)(1))
h1 (x) = sgn(−10 + 30 + 1) = +1
9
h2 (x) = sgn((2)(3) + (3)(−7) + (1)(2))
h2 (x) = sgn(6 − 21 + 2) = 0
g(h1 (X), h2 (X)) = sgn[(1)(−3) + (0)(4) + (1)(−9)]
g(h1 (X), h2 (X)) = sgn[−3 + 0 − 9] = 0
Definimos la matriz de pesos de la capa 1 y capa 2.
10
 (1) (1) (1) 
W01 W11 W21
 1 −5 10 
W (1) = 
W (1) W (1) W (1) 

02 12 22
2 3 −7
(2) (2) (2)

(2) W01 W11 W21
W2 =
−9 −3 4
Dimensiones de los vectores.
W (1) : [2, 3]
(2)
W2 : [1, 3]
X : [1, 3]
Z = [1, x1 , x2 ] : [1, 3]
g(X) = sgn([1 sgn(ZW(1)T )](2)T )
g(X) = f (2) ([1 f (1) X]) −→ Dos capas

Dimensiones:
Z : [1, 3]
W(1)T : [3, 2]
W(2)T : [3, 2]
ZW(1)T : [1, 2]
[1 sgn(ZW(1)T )] : [1, 3]
g(X) : [1, 1]
ŷ = g(X) = f (3) (f (2) (f (1) (X))) −→ T res capas

Error Cuadrático Medio.
N
1 X
ECM = (yi − ŷi )2
2N i=1
Entrenar una red neuronal artificial es encontrar los valores W(1) y W(2) tales que:
N
1 X
ECM = (yi − ŷi )2
2N i=1
11
Sea Mínimo.
N
1 X
ECM = (yi − ŷi )2
2N i=1
ŷi = f (2) (f (1) (XW(1) )W(2) )
XW(1) = Z(1)
∂E ∂E
= 0 ; =0
∂W (1) ∂W (2)
∂E ∂E ∂ ŷ
(2)
= ∗
∂W ∂ ŷ ∂W (2)
∂E
=0
∂W (2)
∂ ŷ
=0
∂W (2)
∂hardlim
∂W (2) ∗ =0
∂Z (1)
Por el problema de la función hardlim es cero entonces se reemplaza por la función logsig.
1
logsig(a) =
1 + e−a
12
Derivada de la función logsig.
13
ŷi = logsig(β0 + β1 x1 + β2 x2 + ... + βn xn )
Regresión Logística.
(
1 si P[y = 1/X ≥ 21
g(x) =
0 no P[y = 1/X < 12
Error Cuadrático Medio como función de costo para la regresión.
N N
1 X 2 1 X
ECM = (yi − ŷi ) = (yi − P[y = 1/Xi ])2
N i=1 N i=1
ECM −→ P ara Regresion

Entropia Cruzada como funcion de costo para la clasificación.
N
X
EC = − {yi ln(P[y = 1/Xi ]) + (1 − yi ) ln(1 − P[y = 1/Xi ])}
i=1
P[y = 1/Xi ] = 1; yi = 0
P[y = 1/Xi ] = 1; yi = 1
La entropía cruzada penaliza con un costo mas alto los errores que el ECM, ademas es una función
derivable.
N
X
EC = − [yi log(Pi ) + (1 − yi ) log(1 − Pi )]
i=1
1
Pi =
1 + e−Z
Z = β0 + β1 x1 + β2 x2 + ... + βn xn
∂EC ∂EC ∂Pi ∂Z

= ∗ ∗
∂β j ∂Pi ∂Z ∂βj
14
j = 0, 1, 2, ..., n
N
∂EC ∂ X
= {− [yi log(Pi ) + (1 − yi ) log(1 − Pi )]}
∂Pi ∂Pi i=1
N
X ∂yi log(Pi ) ∂(1 − yi ) log(1 − Pi )
∂EC
=− +
∂Pi i=1
∂P i ∂Pi
N
∂EC X ∂log Pi ∂log(1 − Pi )
=− yi + (1 − yi )
∂Pi i=1
∂Pi ∂Pi
N
∂EC X (1) (−1)
=− yi + (1 − yi )
∂Pi i=1
Pi 1 − Pi
N
∂EC X yi (1 − yi )
=− ( )−
∂Pi i=1
Pi (1 − Pi )
N
X yi (1 − Pi ) − Pi (1 − yi )
∂EC
=−
∂Pi i=1
(1 − Pi )Pi
N
X yi − yi Pi − Pi + Pi yi
∂EC
=−
∂Pi i=1
(1 − Pi )Pi
X yi − Pi N
∂EC
=− [ ]
∂Pi i=1
(1 − Pi )Pi
P ordef iniciondelogsig :
∂Pi
= Pi (1 − Pi )
∂Zi
∂Z
=1
∂β0
∂Z
= xk ; k = 1, 2, ..., n
∂βk
N
X (yi − Pi )
∂CE
=− ∗ Pi (yi − Pi ) ∗ 1
∂β0 i=1
Pi (yi − Pi )
N
∂CE X
=− (yi − Pi )
∂β0 i=1
N
X (yi − Pi )
∂CE
=− ∗ Pi (yi − Pi ) ∗ 1
∂βk i=1
Pi (y i − P i )
N
∂CE X
=− (yi − Pi )xik
∂βk i=1
15
∂CE ∂CE
y −→ F orman el gradiente de la f uncion Entropia Cruzada
∂β0 ∂βk
El gradiente de una función indica la dirección de máximo crecimiento de la función, minimiza
funciones trascendentes.
∂CE ∂CE
β0new = β0old − α y βknew = βkold − α ; k = 1, 2...
∂β0 ∂βk
N
X N
X
β0new = β0old −α (Pi − yi ) y βknew = βkold −α (Pi − yi )xik
i=1 i=1
N
X
β0new = β0old −α (Pi − yi )
i=1
N
X
βknew = βkold − α (Pi − yi )xik
i=1
P[D/B] ∗ P[B]
Bargmax [P[B/D]] =
P[D]
P[B/D] −→ Distribucion a posteriori de los modelos
P[B] −→ Distribucion a priori de los modelos
P[D] −→ Distribucion de los datos
D = {(X1 : y1 ), (X2 : y2 ), ..., (Xn : yn )}
B −→ M odelo usado(regresion logistica, RN A, etc)
argmaxB P[B/D] = argmaxB ln P[B/D]
argmaxB P[B/D] = argminB − ln P[B/D]

Enfoque Bayesiano: Estimación de máxima distribución aposteriori.
− ln P[B/D] = − ln P[D/B] − ln P[B] + ln P[D]
argminB − ln P[B/D] = argminB [− ln P[D/B] − ln P[B]]

Enfoque frecuentista: Modelo máxima verosimilitud.
si N Complejidad modelo B
argminB − ln P[B/D] = argminB [− ln P[D/B]]
16
D : {(X1 : y1 ), (X2 : y2 ), ..., (Xn : yn )}
N Y
Y 1 Q
[y−j]
P[D/B] = P[y = j/Xi ; B]
i=1 j=0
N
Y
P[D/B] = P[y = 0/Xi ; B][i−y] P[y = 1/Xi ; B][y]
i=1
P[y = 0/Xi ; B][i−y] −→ 1 − P[y = 1/Xi ; B]
P[y = 1/Xi ; B][y] −→ P
N
X
ln[P[D/B]] = ln[(1 − P)1−y ] + ln[Pyi ]
i=1
N
X
ln[P[D/B]] = [(1 − y) ln(1 − Pi ) + y ln(P)]
i=1
f (x) = logsig(β0 + β1 x1 + ... + β100 x100 )
dV c(f (x)) = 101 −→ N > 1010

(
0 si f (x) ≥ 0,5
ŷ =
1 no f (x) < 0,5
17
 
1 2 . . . 100
 2 
 
 . 
dataX = 
 .


 
 . 
1010
Regularización:
Bajar la complejidad al modelo sin modificar los coeficientes.
Decaimiento de pesos.
n
λX 2
Jr (B) = J(B) + B
2 j=0 j
J(B) −→ Entropia cruzada
λ −→ Hiperparametro que controla la regularizacion

Gradiente de la función a minimizar.
~ ~ n
∂Jr (B) ∂J(B) X
= +λ Bj
~
∂B ~
∂B j=0
Se penaliza los pesos para reducir el nivel de complejidad, el error baja sin reducir el numero de
características para pocos datos y muchas características.
Clasificador Softmax.
Sirve para clasificadores multiclase.
X = (x1 , x2 , x3 , ..., xn ) −→ [1, n]
β k = β0k , β1k , ..., βnk −→ [1, n + 1]
k = 1, 2, 3, ..., c
c −→ N umero Clases
β = β 1 , β 2 , ..., β c −→ [1, n + 1]
Z = [1, X] −→ [1, n + 1]
(k)T
eZβ
P[y = k/Xi ; β] = Pc Zβ (i)T
i=1 e
ak = Zβ (k)T
ai = Zβ (i)T
e(a1 −x)
f (ai ) =
e(a1 −x) + e(a2 −x) + ... + e(a5 −x)
18
ea1 ∗ e−x
f (ai ) =
ea1 ∗ e−x + ea2 ∗ e−x + ... + ea5 ∗ e−x
El clasificador softmax no da una probabilidad sino un vector de probabilidad. Sirve unicamente
para clases mutuamente excluyentes.
P = [P[y = 1/Xi ; β], P[y = 2/Xi ; β], ..., P[y = c/Xi ; β]]
Las clases son mutuamente excluyentes sum(P = 1)

Mutuamente excluyentes: En termino de valores significa que la suma de las probabilidades debe
dar 1.
one hot encoding.
Convierte un numero en un vector para poder ser comparado.
y −→ 5 −→ [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]
T odos los valores son ceros excepto el numero a representar
N X
X c
J=− I[yi = k] ln[P[yi = k/Xi ; β]]
i=1 k=1
I −→ F uncion Indicador retorna 1 si cumple o 0 si no cumple
   
1 1 0 0 0 0 0 0 0 0 0
2 0 1 0 0 0 0 0 0 0 0
   
10 0 0 0 0 0 0 0 0 0 1
   
 5  −→ one hot encoding Y T rainHot = 0
Y T rain =  0 0 0 1 0 0 0 0  −→ [N, 10] M N IST
0
 
.  . 
   
.  . 
. .
Se devuelve la clase de mayor probabilidad. En caso de ser las mismas clases se selecciona de manera
aleatoria.  
0,2 0,2 0,1 0,1 0,4 0,0 0,0 0,0 0,0 0,0
0,1 0,1 0,1 0,3 0,2 0,0 0,0 0,0 0,2 0,0
 
PM =  .  −→ [N, 10]
 
 . 
.
Para reducir los casos de falsos positivos se recomienda poner un umbral y la probabilidad que
devuelve el sistema debe superar el umbral para no considerarse como un falso positivo.
Calculo del gradiente.

N c
∂J ∂ XX
= [− I[y = ki ] ln[P[y = k/Xi ; β]]
∂β ∂β i=1 k=1
N
∂J X
= − xj (I[yi = k] − P[yi = k/Xi ; β])
∂β kj i=1
19
j = 1, 2, ..., n ; k = 1, 2, ..., c
Validación Cruzada: Técnica de estimación de errores en conjunto de pequeños datos.
k: Números de grupos en los que se divide el conjuntos de datos.
Etest1 + Etest2 + Etest3 + Etest4

Etest =
4
Redes Neuronales Artificiales:
Conexion de izquierda a derecha, alimentación hacia delante o feedforward, se necesita la función
de costo y el gradiente.
Regla de la Cadena: Halla la derivada de una función compuesta.
df df dg dh
= ∗ ∗ ; f (g(h(x)))
dx dg dh dx
Propagación del error: Evalúa el error para corregir los pesos de las neuronas.
20
La función de transferencia elegida servirá para toda la capa.
h1 : tanh((−1)(0,3) + (2)(0,8) + (1)(0,5))
h1 : 0,8854
h2 : tanh((−1)(0,7) + (2)(0,1) + (1)(−0,7))
21
h2 : −0,8337
g1 : logsig((0,8854)(0,9) + (−0,8337)(−1,2) + (1)(−1))
g1 : 0,6894
 
(1) (x1 ) (x2 )
W(1) = −0,5 −0,3 0,8 
−0,7 0,7 0,1

(1) (h1 ) (h2 )
W(2) =
−1 0,9 −1,2
Histograma orientado a gradientes:
Histogramas orientados a gradientes.
∇I(x, y) −→ gradiente f uncion I coordenada (x0 , y 0 )

(
∇x I(x0 , y 0 )
∇I(x, y) =
∇y I(x0 , y 0 )
dx ≈ ∇x I(x0 , y 0 ) = I(x0 + 1, y 0 ) − I(x0 , y 0 )
dy ≈ ∇y I(x0 , y 0 ) = I(x0 , y 0 + 1) − I(x0 , y 0 )

Regresión:
Un clasificador predice categorías mientras que un regreso predice valores reales.
Clasificación:
22
ΨC : X −→ {1, 2, ..., c} −→ Entropia Cruzada (F U N CION COST O)
Regresión:
ΨR : X −→ R −→ Error Cuadratico medio (F U N CION COST O)
y = f (x) +
f (x) −→ f uncion desconocida, continua y real
−→ Ruido −→ ∼ N(0, σ 2 )
N −→ Distribucion N ormal
1 2
P() = √ e− 2σ2
σ∗ 2π

D = {(x1 , y1 ), (x2 , y2 ), ..., (xN , yN )}
H −→ Espacio hipotesis g(x) ≈ y
A −→ Algoritmo Aprendizaje

N
X
A= ln[P[i ]]; i = yi − g(xi )
i=1
N
X 1 2
i
A= ln[ √ e− 2σ2 ]
i=1
σ∗ 2π
N
X 1 2
i
A= {ln[ √ ] + ln[e− 2σ2 ]}
i=1
σ∗ 2π
N
X √ 2
A= {− ln[σ ∗ 2π] − i 2 }
i=1
2σ
N N
X √ X 2i
A=− ln[σ ∗ 2π] −
i=1 i=1
2σ 2
N
√ 1 X
A = −N ln[σ ∗ 2π] − 2 (yi − g(xi ))2
2σ i=1
N
1 X √
A=− (y i − g(x i ))2
− N ln[σ ∗ 2π]
2σ 2 i=1
A −→ M inimizar
N
1 X √
A =− 2
0
(yi − g(xi ))2 − N ln[σ ∗ 2π]
2σ i=1
A0 −→ M aximizar
23
N
X
ECM = (yi − g(xi ))2
i=1
Regresión lineal en 2D:

Para esta regresión lineal se utiliza el método de los mínimos cuadrados.
ŷ = β0 + β1 x −→ aproxima −→ y = f (x) + ; ∼ N(0, σ 2 )
f (x) −→ F uncion deterministica lineal desconocida
D = {(x1 , y1 ), (x2 , y2 ), ..., (xN , yN )}
xi , yi ∈ R; i = 1, 2, .., N
Función de costo:
N
1 X
ECM = (yi − ŷi )2
2N i=1
∂ECM ∂ECM ∂ ŷ
= ∗ ; j = 0, 1
∂β j ∂ ŷ ∂β j
Derivando
N
∂ECM 2 X
=− (yi − ŷi )2
∂ ŷ 2N i=1
N
∂ECM X
=− (yi − ŷi )2 (yi − β0 − β1 xi )
∂ ŷ i=1
(
1 si β0
ŷ =
xi si β1
N
X
− (yi − β0 − β1 xi ) = 0
i=1
N
X
− (yi − β0 − β1 xi )xi = 0
i=1
XN N
X
β0 = [ yi − β1 xi ] N = ȳ − β1 x̄
i=1 i=1
N( N
P PN PN
i=1 xi yi ) − ( i=1 xi )( i=1 yi )
β1 = PN 2 PN
N ( i=1 xi ) − ( i=1 xi )2
Regresión lineal multidimensional.
X = (x1 , x2 , x3 , ..., xn )
g(X) = ŷi = (β0 + β1 x1 + β2 x2 + ... + βn xn )
24
y = f (X) + ; ∼ N(0, σ)
f (X) −→ F uncion lineal, deterministica y desconocida
D = {(x1 , y1 ), (x2 , y2 ), ..., (xN , yN )}
xi ∈ R2 ; yi ∈ R; i = 1, 2...N
β = (β0 , β1 , ...βn ) −→ [1; n + 1]

 
1 x11 x12 . . . x1n
1 x21 x22 . . . x2n 
 
. . . . . . . 
dataX = Z =   −→ [N ; n + 1]
. . . . . . . 
 
. . . . . . . 
1 xN 1 xN 2 . . . xN n
 
y1
 y2 
 
 . 
dataY = Y =  .  −→ [N ; 1]

 
 . 
yN
Ŷ = Zβ T
1
ECM = (Y − Ŷ)T (Y − Ŷ)
2N
1
(Y − Ŷ) = (Y − Zβ T )T (Y − Zβ T )
2N
N
1 X
ECM = (yi − ŷi )2
2N i=1
N
∂ECM ∂ECM ∂ ŷ X
= ∗ = (yi − ŷi )Zij ; j = 0, 1, ...n
∂β j ∂ ŷ ∂β j i=1
G[1;n+1] = (Y − Ŷ)T[N ;1] ∗ Z[N ;n+1]
(Y − Zβ T )Z = 0
YT Z − (Zβ T )T Z = 0
YT Z − βZT Z = 0
βZT Z = YT Z
25
β(ZT Z)(ZT Z)− 1 = YT Z(ZT Z)− 1
β = YT Z(ZT Z)− 1
1
G=− (Y − Ŷ)T Z −→ Gradiente
N
Ŷ[N ;1] = Zβ T
Estandarizar los datos.
 
1 x11 x12 . . . x1n
1 x21 x22 . . . x2n 
 
. . . . . . . 
dataX = 
.

 . . . . . .  
. . . . . . . 
1 xN 1 xN 2 . . . xN n
x1 ∈ [−1; 1]
x2 ∈ [−1000; 5000]
x3 ∈ [0; 2]

 x̄1 x̄2 x̄3
Aplica entrenamiento testeo −→ σ1 σ2 σ3
x̄i = (xiσ−x̄ i)

i
ALGORITMOS NO PARAMÉTRICOS
Algoritmo KNN (vecinos mas cercanos).
KN N −→ es universalmente consistente si;
K
K −→ ∞ y −→ 0 con NT rain −→ ∞;
NT rain
la cantidad de vecinos debe crecer lentamente que la cantidad de datos de entrenamiento.
KNN sufre de la maldición de la dimensión (curse of dimensionality).
No es recomendable para ngrandes y Ntrain pequeños.
26
Es un algoritmo no paramétricos, no hay coeficientes que ajustar, no tiene parámetros. Encuentra
vecinos cercanos calculando la distancia del punto que interesa clasificar.
Algoritmo Suport Vector Machine:
Y hat = sgn(β0 + β1 xi + β2 x2 )
(
0 a<0
sgn(a) =
1 a≥0
Y hat = sgn(β0 + β1 xi + β2 x2 + β3 x3 )
Clasificador SVM.
#vectores soporte
X
Y hat = sgn(β0 + βi K(Xi , X))
i=1
K −→ Kernel −→ Lineal, polinomico, gausiano
Xi −→ V ector soporte
27

Materia PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Materia PDF

Загружено:

Авторское право:

Доступные форматы

Universidad Técnica de Ambato

Facultad de Ingeniería en Sistemas Electrónica e

Materia Aprendizaje Estadístico

{0, 1} −→ Clasif icador

Ψ(XM ) : 0,5 ∗ (25) + 2 ∗ (10) + 1

Ψ(XJ ) : 0,5 ∗ (60) + 2 ∗ (60) + 1

Eout (ψ) = P[ψ(X) 6= y]

Eout (ψ) −→ Error de Clasif icacion

P[y = 0] −→ P robabilidad incidencia clase 0

P[y = 1] −→ P robabilidad incidencia clase 1

Eout (ψ) = P[ψ(X) 6= y]

P[y = 0/X] ∗ P[X] + P[y = 1/X] ∗ P[X]

Xi : (x1i , x2i , ..., xni )

D : {(X1 : y1 ), (X2 : y2 ), ..., (Xn : yn )}

Ein −→ Error entrada

X : (x1 , x2 , x3 ) f ree[X/y = 0] f ree[X/y = 1] f ree[X]

P[y = 1/X] ∗ P[X] + P[y = 0/X] ∗ P[X]

Eout (ψ) = P[ψ(X) 6= y] −→ Sobre P oblacion

D : {(X1 : y1 ), (X2 : y2 ), ..., (Xn : yn )} −→ Clasif icador

α −→ N ivel Conf ianza

Ein (h) −→ Sobre la muestra

Estima Eout (ψ) a traves de Ein (ψ)

ψopt : Clasif icadordebayes

Eout + ψopt < Eout (ψ+ )

X h1 (x) h2 (x) h3 (x) h4 (x)

Dicotomia: Es la clasificación de un determinado numero de puntos.

mH = 2N −→ F uncion de crecimiento maximo numero de dicotomias.

4mH (2NT rain )

si dV C(H)  NT rain −→ 1 − δ T iende a cero.

NT rain > 10 ∗ dV C(H)

HLnD = {h; h = sgn(β0 + β1 x1 + β2 x2 + ... + βn xn ), β0 , β1 , β2 , ...βn ∈ R}

Si NT rain > 10 ∗ dV C(H) Entonces Ein (g) ≈ Eout (g)

Eout (gBayes ) = 1 − Φ(α)

RED NEURONAL ARTIFICIAL(RNA Feed Fordward)

g(h1 (X), h2 (X)) = sgn[(1)(−3) + (0)(4) + (1)(−9)]

g(h1 (X), h2 (X)) = sgn[−3 + 0 − 9] = 0

Definimos la matriz de pesos de la capa 1 y capa 2.

g(X) = sgn([1 sgn(ZW(1)T )](2)T )

g(X) = f (2) ([1 f (1) X]) −→ Dos capas

ŷ = g(X) = f (3) (f (2) (f (1) (X))) −→ T res capas

ŷi = f (2) (f (1) (XW(1) )W(2) )

ECM −→ P ara Regresion

∂EC ∂EC ∂Pi ∂Z

P[B/D] −→ Distribucion a posteriori de los modelos

P[B] −→ Distribucion a priori de los modelos

P[D] −→ Distribucion de los datos

D = {(X1 : y1 ), (X2 : y2 ), ..., (Xn : yn )}

B −→ M odelo usado(regresion logistica, RN A, etc)

argmaxB P[B/D] = argmaxB ln P[B/D]

argmaxB P[B/D] = argminB − ln P[B/D]

− ln P[B/D] = − ln P[D/B] − ln P[B] + ln P[D]

argminB − ln P[B/D] = argminB [− ln P[D/B] − ln P[B]]

argminB − ln P[B/D] = argminB [− ln P[D/B]]

P[y = 0/Xi ; B][i−y] −→ 1 − P[y = 1/Xi ; B]

P[y = 1/Xi ; B][y] −→ P

f (x) = logsig(β0 + β1 x1 + ... + β100 x100 )

dV c(f (x)) = 101 −→ N > 1010

J(B) −→ Entropia cruzada

λ −→ Hiperparametro que controla la regularizacion

X = (x1 , x2 , x3 , ..., xn ) −→ [1, n]

β k = β0k , β1k , ..., βnk −→ [1, n + 1]

Las clases son mutuamente excluyentes sum(P = 1)

T odos los valores son ceros excepto el numero a representar

si dV C(H) NT rain −→ 1 − δ T iende a cero.

ŷ = β0 + β1 x −→ aproxima −→ y = f (x) + ; ∼ N(0, σ 2 )