Академический Документы
Профессиональный Документы
Культура Документы
Contents
Estimacin analtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Visin general de los problemas de estimacin . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Estimadores de parmetro determinista y de variable aleatoria . . . .
1.1.2 Estimacin analtica y mquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Diseo analtico de estimadores de variable aleatoria. Teora bayesiana
de la estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Modelado estadstico de los problemas de estimacin . . . . . . . . . . .
1.2.2 Funciones de coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Coste medio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Estimador bayesiano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Estimadores bayesianos de uso frecuente . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Estimador de mnimo error cuadrtico medio (MMSE) . . . . . . . . . .
1.3.2 Estimador de mnimo error absoluto (MAD) . . . . . . . . . . . . . . . . . . .
1.3.3 Estimador de mximo a posteriori (MAP) . . . . . . . . . . . . . . . . . . . . .
1.4 Estimacin de mxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Estimacin con distribuciones gaussianas . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Caso unidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2 Caso con variables multidimensionales . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Estimacin con restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Principios generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.2 Estimacin lineal de mnimo error cuadrtico medio . . . . . . . . . . . .
1.7 Caracterizacin de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.1 Sesgo y varianza de estimadores de parmetros deterministas . . . . .
1.7.2 Sesgo y varianza de estimadores de variables aleatorias . . . . . . . . . .
1.8 Apndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.1 Casos particulares gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.2 Principio de Ortogonalidad. Interpretacin geomtrica . . . . . . . . . .
1.9 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
4
5
7
8
9
9
11
12
14
17
18
20
21
21
22
28
28
31
32
32
34
35
Aprendizaje Mquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Principios generales del aprendizaje mquina . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mtodos Paramtricos y no Paramtricos . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Estimacin Mquina No Paramtrica: Mtodo del vecino ms prximo . .
2.4 Estimacin Mquina Paramtrica: Regresin de Mnimos Cuadrados . . . .
2.4.1 Modelos Semilineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
37
38
38
39
39
1
1
2
4
XIV
Contents
2.5 Generalizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3
Decisin analtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Introduccin al problema de decisin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Regiones de decisin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Diseo de decisores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Diseo analtico de decisores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Modelado estadstico de los problemas de decisin . . . . . . . . . . . . . .
3.2.2 Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Teora bayesiana de la decisin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Decisin ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Decisores binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Riesgo de un decisor binario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Funcin discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3 Decisores binarios de mnimo riesgo . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.4 Decisor ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.5 Decisores no Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 El caso Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Varianzas iguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Medias nulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Apndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 Diseo analtico de decisores con costes dependientes de la
observacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
41
42
43
44
44
44
47
50
51
51
52
53
54
57
62
64
65
67
67
69
Decisin mquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1 Diseo de clasificadores bajo enfoque mquina . . . . . . . . . . . . . . . . . . . . . . 73
4.1.1 Estimacin paramtrica ML para clasificacin . . . . . . . . . . . . . . . . . . 74
Filtrado Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 El problema de filtrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Solucin ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Filtro de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Solucin Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6 Clculo online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.1 Solucin ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.2 Solucin Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
77
77
78
78
78
79
79
80
80
81
81
82
85
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
1
Estimacin analtica
1 Estimacin analtica
1 Estimacin analtica
El diseo de un estimador debe tener en cuenta la relacin que existe entre la variable
que se desea estimar y las observaciones que se utilizarn como argumento de entrada
del estimador. Segn cmo venga dada dicha informacin, consideraremos dos familias
principales de procedimientos de diseo:
Mtodos analticos: se basan en la disponibilidad de cierta informacin estadstica
que relaciona observaciones y valor a estimar. El tipo de informacin requerida para
el diseo del estimador vara en funcin de cul sea el tipo de estimador que se
desea construir (por ejemplo, segn sea el criterio de diseo). En general, esta aproximacin analtica resulta posible cuando la naturaleza del problema hace posible determinar un modelo probabilstico de las variables involucradas.
Mtodos mquina: se basan en la disponibilidad de un conjunto etiquetado de datos
de entrenamiento, i.e., un conjunto de pares {x(k) , s(k) }lk=1 . Este conjunto de datos
proporciona informacin acerca de cul sera la salida deseada del sistema para diferentes valores de las observaciones de entrada. De esta manera, resulta posible partir
de una forma paramtrica para la funcin de estimacin f (), y ajustar los valores
de los parmetros de manera que el comportamiento del estimador en los datos de
entrenamiento sea el deseado. Ntese, no obstante, que el objetivo del estimador construido es que sea capaz de proporcionar estimaciones acertadas cuando sea aplicado
a nuevos datos no vistos durante el entrenamiento. A esta propiedad se la conoce
como capacidad de generaralizacin del estimador.
Finalmente, conviene mencionar que existe una tercera va en la que el conjunto de
datos de entrenamiento se utiliza para estimar la informacin probabilstica necesaria
para un diseo de tipo analtico. A este tipo de procedimientos se los conoce como
mtodos semianalticos.
En lo que resta de captulo se considerarn tcnicas para el diseo analtico y
mquina de estimadores. En primer lugar, se presentan los conceptos fundamentales
para un diseo analtico ptimo, prestando una especial atencin a los modelos de estimacin lineales en sus parmetros, y al imporante caso en que las variables involucradas
tienen carcter gaussiano. Presentaremos, adems, criterios que permiten evaluar ciertas
propiedades de los estimadores. La parte final del captulo considera algunas tcnicas
importantes para el diseo mquina de estimadores, contexto en el que se presentarn
algunos conceptos como los modelos semilineales y las tcnicas de validacin cruzada.
1.2 Diseo analtico de estimadores de variable aleatoria. Teora bayesiana de la
estimacin
1.2.1 Modelado estadstico de los problemas de estimacin
Antes de abordar el propio diseo de los estimadores, recogemos en esta subseccin las
distintas funciones de probabilidad que caracterizan estadsticamente la relacin existente entre observaciones y variable a estimar:
En primer lugar, la verosimilitud de la variable S viene dada por pX|S (x|s), y caracteriza probabilsticamente la generacin de las observaciones para cada valor concreto de la variable a estimar.
(1.1)
Por ltimo, hay que resaltar que segn el estimador que se pretenda implementar la
informacin requerida para el diseo puede ser sustancialmente menor que la utilizada
para un modelado estadstico completo del problema de estimacin. As, por ejemplo,
veremos que para el clculo de ciertos estimadores resultar suficiente el conocimiento
de ciertos momentos estadsticos de la distribucin a posteriori de S.
1.2.2 Funciones de coste
El diseo de un estimador requiere algn criterio objetivo. En nuestro caso, consideraremos que dicho criterio puede materializarse en forma de alguna funcin cuyo valor
perseguimos maximizar o minimizar. Hacemos notar, no obstante, que existen estrategias de diseo que caen fuera de este enfoque.
En el caso concreto de estimacin de variable aleatoria, es frecuente definir una funcin de coste que mide la discrepancia entre el valor real y el estimado de la variable
S. Dicho coste est asociado a la penalizacin que conlleva la aplicacin de dicho estimador segn el modelo que describimos en la Seccin 1.1 de este captulo. Aceptando
1 Estimacin analtica
s) ln(1
Example 1.3 (Error cuadrtico medio). Supongamos que X es una observacin ruidosa
de S, de tal modo que
X =S+R
(1.2)
siendo S una variable aleatoria de media 0 y varianza 1, y R una variable aleatoria
gaussiana, independiente de S, de media 0 varianza v. Considerando el estimador S =
X, el coste cuadrtico medio es
E{(S
El coste absoluto ser
E{|S
2 } = E{(S
S)
X)2 } = E{R2 } = v
2
1
r
|r| p
exp
dr
2v
2v
1
r
2
Z 1
1
r
2v
=2
rp
exp
dr =
2v
2v
0
= E{|R|} =
S|}
(1.3)
(1.4)
Ntese que la funcin de coste se denota con una c minscula por ser una funcin de carcter determinista, i.e.,
para unos valores fijos de s y s el coste siempre toma el mismo valor. Sin embargo, al igual que ocurra con la
funcin de estimacin, la aplicacin de dicha funcin sobre variables aleatorias dar lugar a otra variable aleatoria,
la empleada para el diseo. A modo de ejemplo, podramos estar interesados en conocer el coste absoluto medio que resulta de la aplicacin del estimador de mnimo error
cuadrtico medio.
Example 1.4 (Funciones de coste de variables aleatorias multidimensionales). TBD
1.2.3 Coste medio.
E{c(S, S)} =
c(s, s)pS,X (s, x)dsdx
x
(1.5)
donde debe tenerse en cuenta que s es, en general, funcin de x. El coste medio constituye una medida de las prestaciones de un decisor, y por lo tanto proporciona un criterio
para comparar dos estimadores cualesquiera.
Example 1.5 (Clculo del coste medio global). Supongamos que la distribucin conjunta
de S y X est dada por
1
,
0<s<x<1
pS,X (s, x) = x
(1.6)
0,
resto
Consideremos dos estimadores S1 = 12 X y S2 = X. Cul es mejor estimador desde el
punto de vista del coste cuadrtico? Para averiguarlo, calcularemos el error cuadrtico
medio para ambos estimadores. Sabiendo que, para cualquier w,
Z 1Z x
2
E{(S wX) } =
(s wx)2 pS,X (s, x)dsdx
Z0 1 Z0 x
1
=
(s wx)2 dsdx
x
Z0 1 0
1
2
=
w + w x2 dx
3
0
1 1
2
=
w+w
(1.7)
3 3
Tomando w = 1/2 resulta
1
1
1
2
E{(S S1 ) } = E{(S
X) } =
2
3 3
Alternativamente, tomando w = 1 se obtiene
1
1
2
2
E{(S S2 ) } = E{(S X) } =
3 3
2
1 1
+
2 4
1+1
1
36
(1.8)
1
9
(1.9)
Por tanto, desde el punto de vista del error cuadrtico medio, S1 es mejor estimador que
S2
1 Estimacin analtica
Cabe preguntarse, para un coste y una distribucin dadas, cul es el mejor estimador
posible. Podemos averiguarlo teniendo en cuenta que, de forma general, el coste medio
en (1.5) puede expresarse como
Z Z
E{c(S, S)} =
c(s, s)pS|X (s|x)ds pX (x)dx =
Zx s
= E{c(S, s)|X = x}pX (x)dx.
(1.10)
x
La ltima lnea de esta ecuacin muestra que una estrategia que permite minimizar el
error de estimacin global consiste en la minimizacin del error medio para cada posible
valor del vector de observaciones, E{c(S, s)|X = x}, al que nos referiremos como coste
medio a posteriori o coste medio dado X. Por tanto, ambas estrategias (minimizacin de
la esperanza del error para todo S y X, o condicionado al valor de X) son en principio
equivalentes de cara a obtener el estimador ptimo asociado a una funcin de coste
determinada.
Se define el Estimador bayesiano asociado a una funcin de coste como aqul que
minimiza (1.10), es decir:
s = argmin E{c(S, s)|X = x}
(1.11)
pS,X (s, x)
.
pX (x)
pS|X (s|x) =
,
x
0,
x
0
1
ds = 1,
x
0<s<x<1
resto
(1.13)
(1.14)
(1.15)
1 (x s)3 s3
=
+
x
3
3
1
= x2 sx + s2 .
(1.16)
3
Como funcin de s, el coste medio condicionado a la observacin es un polinomio
de segundo grado, cuyo mnimo puede calcularse de modo inmediato por derivacin.
Siendo
d
E{c(S, s)|X = x} = x + 2
s,
(1.17)
d
s
el estimador de mnimo coste cuadrtico medio ser
1
s = x,
(1.18)
2
que coincide con el estimador S1 del ejemplo 1.5. Por tanto, S1 es el mejor estimador
posible desde el punto de vista del coste cuadrtico medio.
De acuerdo con (1.11) podemos concluir que, con independencia del coste que
se pretenda minimizar, el conocimiento de la distribucin a posteriori de S dado X,
pS|X (s|x), resulta suficiente para el diseo del Estimador bayesiano ptimo. Como ya
se ha comentado, dicha distribucin es frecuentemente calculada a partir de la verosimilitud de S y de su distribucin a priori utilizando el Teorema de Bayes, lo que de hecho
constituye el origen de la denominacin de estos estimadores.
1.3 Estimadores bayesianos de uso frecuente
En esta seccin se presentan algunos de los estimadores bayesianos de uso ms comn.
Para su clculo, procederemos a la minimizacin del coste medio dado X (coste medio
a posteriori) para distintas funciones de coste.
1.3.1 Estimador de mnimo error cuadrtico medio (MMSE)
El estimador de mnimo error cuadrtico medio (Minimum Mean Square Error, MMSE)
es el asociado a la funcin de coste c(e) = e2 = (s s)2 , y por lo tanto queda caracterizado por
sMMSE = argmin E{c(S, s)|X = x} =
s
Z
= argmin (s s)2 pS|X (s|x)ds
s
(1.19)
(1.20)
10
1 Estimacin analtica
La Figura 1.2 ilustra el problema de diseo del estimador de mnimo error cuadrtico
medio. El coste medio a posteriori se puede obtener integrando en s la funcin que resulta del producto de la funcin de coste y de la densidad de probabilidad a posteriori
de S. El argumento para la minimizacin es s, lo que permite desplazar la grfica correspondiente a la funcin de coste (representada con trazo discontinuo) de forma que el
resultado de dicha integral sea mnimo.
c(e) = (s )2
pS|X(s|x)
s
Fig. 1.2. Representacin grfica del proceso de clculo del coste cuadrtico medio a posteriori para un valor genrico
s.
El valor de sMMSE puede obtenerse de forma analtica tomando la derivada del coste
medio a posteriori e igualando el resultado a 0. El clculo de la derivada no plantea
ninguna dificultad ya que la derivada y la integral pueden conmutarse (se integra respecto de s y se deriva respecto de s):
Z
dE{(S s)2 |X = x}
= 2 (s sMMSE )pS|X (s|x)ds = 0
(1.21)
d
s
s
s=
sMMSE
Teniendo en cuenta
que la integral que aparece en (1.21) debe anularse, y utilizando
R
el hecho de que pS|X (s|x)ds = 1, resulta sencillo demostrar que el estimador de
mnimo error cuadrtico medio de S viene dado por
sMMSE =
(1.22)
11
Example 1.8 (Clculo directo del estimador MMSE). De acuerdo con (1.22), el estimador de mnimo coste cuadrtico medio obtenido en 1.5 puede obtenerse alternativamente como
Z 1
Z x
1
s
sMMSE =
spS|X (s|x)ds =
ds = x
(1.23)
2
0
0 x
que coincide con (1.18).
De forma similar a como hemos procedido para el caso del estimador sMMSE , podemos
calcular el estimador asociado al valor absoluto del error de estimacin, c(e) = |e| =
|s s|. Dicho estimador, al que nos referiremos como estimador de mnimo error absoluto (Mean Absolute Deviation, MAD), est caracterizado por
sMAD = argmin E{|S s| |X = x} =
s
Z
= argmin
|s s| pS|X (s|x)ds
s
(1.24)
Nuevamente, resulta sencillo ilustrar el proceso de clculo del coste medio a posteriori
superponiendo en unos mismos ejes el coste expresado como funcin de s y la distribucin a posteriori de la variable a estimar (vase la Fig. 1.3). Dicha representacin sugiere
tambin la conveniencia de partir la integral en dos tramos correspondientes a las dos
ramas de la funcin de coste:
Z s
Z 1
E{|S s| |X = x} =
(
s s) pS|X (s|x)ds +
(s s) pS|X (s|x)ds
1
s
Z s
Z 1
(1.25)
= s
pS|X (s|x)ds
pS|X (s|x)ds +
1
s pS|X (s|x)ds
s pS|X (s|x)ds
1
El Teorema Fundamental del Clculo2 permite obtener la derivada del coste medio a
posteriori como
dE{|S s| |X = x}
= 2FS|X (
s|x) 1
(1.26)
d
s
donde FS|X (s|x) es la funcin de distribucin a posteriori de S dado X. Dado que
sMAD representa el mnimo del coste medio, la derivada anterior debe anularse para el
estimador, por lo que se ha de verificar que FS|X (
sMAD |x) = 1/2. Dicho de otra manera,
el estimador de mnimo error absoluto viene dado por la mediana de pS|X (s|x):
2
d
dx
Rx
t0
g(t)dt = g(x).
12
1 Estimacin analtica
c(e) = |s |
pS|X(s|x)
s<
s>
Fig. 1.3. Representacin grfica del proceso de clculo del coste medio absoluto a posteriori para un valor genrico
s.
sMAD = mediana{S|X = x}
(1.27)
Recurdese que la mediana de una distribucin es el punto que separa dicha distribucin en dos regiones que acaparan la misma probabilidad, por lo que el estimador de
mnimo error absoluto medio verificar que
P {S > sMAD } = P {S < sMAD }
Example 1.9 (Diseo de estimador de Mnimo Error Absoluto). En el escenario del
ejemplo 1.5, la distribucion a posteriori de S dado X es uniforme entre 0 y x, cuya
mediana es x/2. Por tanto,
1
sMAD = x
2
(1.28)
Observe que, en este caso, el estimador MAD coincide con el MMSE obtenido en (1.18).
Esto es una consecuencia de la simetra de la distribucin a posteriori. En general, ambos
estimadores no tienen por qu coincidir.
Como su propio nombre indica, el estimador de mximo a posteriori (Maximum a Posteriori, MAP) se define como el valor de S que maximiza la distribucin de probabilidad
a posteriori de dicha variable, i.e., el valor de S que concentra mayor densidad de probabilidad para cada valor de la variable observable:
13
(1.29)
1 ; para |s s| >
c (s s) =
(1.30)
0 ; para |s s| <
!0
pS|X(s|x)
c (s )
1
2
Fig. 1.4. Representacin grfica del proceso de clculo del coste medio a posteriori para c (s
s).
Por otro lado, por motivos prcticos, para la maximizacin de (1.29) puede ser til
introducir una funcin auxiliar que simplifique la forma analtica de la funcin a maximizar. As, por ejemplo, la definicin (1.29) es completamente equivalente a
dado que la funcin logaritmo est definida para todo valor positivo de su argumento y es
estrictamente creciente (lo que implica que si pS|X (s1 |x) > pS|X (s2 |x), entonces tambin ln pS|X (s1 |x) > ln pS|X (s2 |x)). La introduccin de la funcin logaritmo resultar
til cuando la distribucin a posteriori de S dado X presente productos o exponenciales,
ya que transformar productos en sumas y cancelar las exponenciales. De esta manera,
el proceso de maximizacin puede simplificarse considerablemente.
s .
14
1 Estimacin analtica
(1.32)
2 ln(x) + ln(s)
s
,
x
0, s
(1.33)
=
s=
sMAP
Por tanto
1
sMAP
1
= 0,
x
0, s
(1.34)
(1.35)
sMAP = x
(1.36)
15
Dado que pX (x) no depende de s y estamos asumiendo que pS (s) es constante, el valor
de s que maximiza el trmino izquierdo de la igualdad ha de coincidir con el que maximiza la verosimilitud.
Por ltimo, hay que resaltar que, al contrario de lo que ocurra en el caso de estimacin bayesiana, la estimacin de mxima verosimilitud no precisa de la definicin de
densidades de probabilidad sobre la variable a estimar y, por lo tanto, puede ser aplicada
tanto en el caso de estimacin de variable aleatoria como de parmetro determinista.
Example 1.13 (Estimacin ML de Variable Aleatoria). Se desea estimar el valor de una
variable aleatoria S a partir de una observacin X estadsticamente relacionada con ella.
Para el diseo del estimador se conoce nicamente la verosimilitud de S que est dada
por
2x
pX|S (x|s) =
, 0 < x < 1 s, 0 < s < 1
(1.37)
(1 s)2
Dada la informacin estadstica disponible, se decide construir el estimador ML de
S. Para ello, se debe maximizar la verosimilitud anterior con respecto de s. Dicha
verosimilitud es una funcin de densidad de probabilidad de X, tal y como se representa
en la Figura 1.5(a), donde se comprueba que la integral de dicha funcin con respecto
de x es unitaria. Sin embargo, para llevar a cabo la maximizacin que permite encontrar sML resulta de mayor utilidad representar dicha verosimilitud como funcin de s
(Fig. 1.5(b))3 . A partir de dicha representacin grfica resulta evidente que el estimador
buscado es
sML = 1 x
o, alternativamente, si consideramos la aplicacin de la funcin de estimacin sobre la
variable aleatoria X en lugar de sobre un valor concreto de la misma,
SML = 1
Ntese que la integral respecto de s de pX|S (x|s) no ser en general la unidad, ya que dicha funcin no constituye
una densidad de probabilidad de S.
16
1 Estimacin analtica
pX|S(x|s)
pX|S(x|s)
2/x
1 s
2x
1 s
1x
(a)
(b)
Fig. 1.5. Representacin de la funcin de verosimilitud del Ejericio 1.13 como funcin de x y de s.
1
pX (x) = pX|m,v (x|m, v) = p
exp
2v
(x
m)2
2v
(1.38)
para cada una de las observaciones. Dado que debemos construir el estimador basado
en la observacin conjunta de l observaciones, necesitaremos calcular la distribucin
conjunta de todas ellas que, al tratarse de observaciones independientes, se obtiene como
producto de las individuales:
p{X (k) }|m,v ({x(k) }|m, v) =
l
Y
k=1
l
Y
1
(x(k) m)2
=
exp
(2v)l/2 k=1
2v
(1.39)
(k)
l
ln(2v)
2
l
1 X (k)
(x
2v k=1
m)2
(1.40)
dL
ML =
dm m=m
v = vML
1 X (k)
(x
v k=1
dL
ML =
dv m=m
v = vML
l
l
1 X (k)
+ 2
(x
2v 2v k=1
m)
m=m
ML
v = vML
m)2
=0
m=m
ML
v = vML
(1.41)
=0
17
m
ML
1 X (k)
=
x
l k=1
(1.42)
X
ML = 1
M
X (k)
l k=1
(1.44)
1 X (k)
VML =
[X
l k=1
ML ]2
M
(1.45)
ML =
m
1 X (k)
x
l k=1
18
1 Estimacin analtica
Consideraremos como punto de partida un caso con variables aleatorias unidimensionales con medias nulas, en el que la distribucin conjunta de X y S tiene la siguiente
forma:
0
vS
pS,X (s, x) G
,
(1.46)
0
vX
siendo la covarianza entre ambas variables aleatorias.
A partir de dicha distribucin conjunta podemos obtener cualquier otra distribucin
que involucre a las variables s y x; en concreto, la distribucin a posteriori de S se puede
obtener como:
pS|X (s|x) =
pS,X (s, x)
pX (x)
1
p
vX vS
exp
"
1
2(vX vS
1
p
exp
2vX
s
2
) x
x2
2vX
vX
vS
s
x
(1.47)
(s mS|X )2
1
p
exp
=
2vS|X
2vS|X
"
T
#
1
1
s
vX
s
p
exp
2
vS
x
2(vX vS ) x
2 vX vS 2
(1.48)
1
x2
p
exp
2vX
2vX
Resulta posible descomponer esta igualdad en otras dos asociadas a los factores externos a las exponenciales y a sus argumentos:
p
1
2vX
p
= p
(1.49)
2vS|X
2 vX vS 2
T
(s mS|X )2
1
x2
s
vX
s
=
(1.50)
vS
x
vS|X
vX vS 2 x
vX
19
Operando los trminos matriciales, la segunda de estas igualdades puede ser reescrita
de forma ms sencilla como
(s mS|X )2
vX s2 + vS x2 2xs
x2
=
(1.51)
vS|X
vX vS 2
vX
Ntese que (1.51) supone una igualdad entre dos polinomios en s (y en x). Por lo
tanto, los coeficientes de los trminos independientes, lineales y cuadrticos en s (i.e.,
que no dependen de s, o que multiplican a s y s2 ) que aparecen en ambos lados de la
igualdad deben coincidir. Por lo tanto, y teniendo en cuenta que mS|X no depende de s,
se han de verificar las tres igualdades siguientes:
m2S|X
vS x2
x2
vS|X
v X v S 2 v X
s mS|X
xs
=
vS|X
v X v S 2
=
s2
(1.52)
(1.53)
v X s2
(1.54)
vS|X
v X v S 2
Para el clculo de la media a posteriori, resulta cmodo despejar dicho valor de (1.53)
como
vS|X x
mS|X =
(1.55)
v X v S 2
Finalmente, el valor de la varianza a posteriori puede extraerse fcilmente de (1.49) o
(1.54) como
v X v S 2
vS|X =
(1.56)
vX
Introduciendo este valor en (1.55) se obtiene la expresin que determina el estimador
de mnimo error cuadrtico medio.
=
sMMSE = mS|X =
x
vX
(1.57)
sMMSE = mS +
(x mX )
(1.58)
vX
Example 1.17 (Estimacin de seal gaussiana contaminada por ruido gaussiano).
En este ejemplo consideraremos el caso en que la observacin se obtiene como suma
de la seal a estimar y una componente de ruido independiente de la seal: X = S + R.
Tanto la seal como el ruido presentan distribuciones gaussianas de medias nulas y
varianzas vS y vR , respectivamente. La Figura (1.6) representa la situacin descrita para
un caso con vS < vR .
20
1 Estimacin analtica
pS(s)
pR(r)
s/r
Fig. 1.6. Estimacin de variable aleatoria gaussiana S contaminada por ruido gaussiano R.
De acuerdo con (1.57), para la resolucin del problema debemos encontrar la varianza de X y la covarianza entre S y X (). La varianza vX se obtiene simplemente
como la suma de vS y vR por ser ambas variables independientes. Para el clculo de la
covarianza podemos proceder como sigue:
= E{(X
sMMSE =
vS
x
vS + vR
(1.60)
Este resultado puede ser interpretado de una manera bastante intuitiva: cuando la varianza del ruido es mucho menor que la de la seal (Relacin Seal a Ruido (SNR) alta,
vS
vR ) se tiene que sMMSE ! x, lo que tiene sentido ya que el efecto de la componente de ruido en este caso no es muy significativo; por el contrario, cuando la SNR es
muy baja (vS vR ), la observacin apenas aporta informacin acerca del valor de S en
cada experimento, por lo que el estimador se queda con el valor medio de la componente
de seal, sMMSE ! 0.
1.5.2 Caso con variables multidimensionales
En un caso general multidimensional, S y X pueden ser vectores aleatorios de dimensiones N y M , respectivamente, con distribucin conjuntamente gaussiana
VS VSX
mS
pS,X (s, x) G
,
(1.61)
T
mX
VSX
VX
siendo mS y mX las medias de S y X, respectivamente, VS y VX las matrices de
covarianzas de S y X, respectivamente, y VSX la matriz de covarianzas cruzadas de S
y X, y, de tal modo que
VS = E{(S
mS )(S
VX = E{(X
mX )(X
mS ) T }
mX ) T }
21
(1.62)
(1.63)
mX )
(1.65)
y matriz de covarianzas
VS|X = VS
T
VSX VX 1 VSX
(1.66)
mX )
(1.67)
(1.68)
Partiendo de (1.68) pueden obtenerse diversos casos particulares de inters en aplicaciones prcticas del procesado de seales. Algunos de ellos se analizan en el Apndice
1.8.1.
1.6 Estimacin con restricciones
1.6.1 Principios generales
En ocasiones, puede resultar til imponer una forma paramtrica determinada al estimador, S = fw (X), donde w es un vector que contiene todos los parmetros de la
funcin. Por ejemplo, en un caso con dos observaciones X = [X1 , X2 ]T , podra ser un
requisito de diseo el restringir la bsqueda del estimador a la familia de estimadores
cuadrticos de la forma S = w0 + w1 X12 + w2 X22 . En estos casos, la tarea de diseo del
estimador consiste en encontrar el vector ptimo de parmetros w que proporciona un
mnimo coste medio sujeto a la restriccin impuesta en la arquitectura del estimador:
= argmin E{c(S, fw (X))}
w = argmin E{c(S, S)}
w
w
Z Z
= argmin
c(s, fw (x))pS,X (s, x)dsdx
w
(1.69)
22
1 Estimacin analtica
Zx
(1.70)
1 2
2
=
x
sx + s pX (x)dx
3
x
Forzando s = wx2 y teniendo en cuenta que pX (x) = 1 para 0 < x < 1 , se obtiene el
coste medio global en funcin de w
Z
1 2
2
3
2 4
E{c(S, wX )} =
x
wx + w x dx
(1.71)
3
x
1 1
1
=
w + w2
(1.72)
9 4
5
El valor w que optimiza (1.72) puede calcularse derivando respecto de w e igualando
a cero la expresin obtenida:
d
E{c(S, wX2 )}
dw
=
w=w
1 2
+ w = 0,
4 5
5
w = ,
8
5 2
y por lo tanto el estimador buscado es: s = 8 x .
(1.73)
(1.74)
La nica excepcin a esta regla consiste precisamente en el caso en el que las restricciones impuestas permiten
obtener el estimador ptimo o, dicho de otro modo, cuando el estimador bayesiano presenta una forma analtica
compatible con las restricciones impuestas.
23
S = w0 + w1 X1 + + wN XN
(1.75)
S = w0 + wT X = weT Xe
(1.76)
N
donde N denota el nmero de variables observables disponibles, {Xi }N
i=1 , y {wi }i=0 son
los pesos que caracterizan al estimador. En este contexto, es habitual referirse al trmino
independiente de la expresin anterior, w0 , como trmino de sesgo. Por simplicidad
analtica, resulta ms cmodo introducir la siguiente notacin matricial:
we
y nos referiremos al estimador lineal asociado a dicho vector ptimo de pesos como
SLMSE :
SLMSE = we T Xe
La Figura 1.7 representa la superficie de error en un caso con dos observaciones. Al
ser la funcin a minimizar cuadrtica en los pesos (argumento de la minimizacin), la
superficie de error tendr forma de un paraboloide de N dimensiones. Adems, dado
que el coste medio es no negativo, queda garantizado que la funcin es convexa, y su
mnimo puede localizarse igualando a 0 el gradiente del coste medio con respecto del
vector de pesos5 :
rwe E{(S
2}
S)
we =we
=
=
2E{(S
weT Xe )Xe }
we =we
2E{(S
we T Xe )Xe }
=0
(1.78)
El gradiente de una funcin escalar f (w) con respecto del vector w se define como un vector formado por las
h
iT
@f
@f
derivadas de la funcin con respecto de cada una de las componentes de w: rw f (w) = @w
,
.
.
.
.
@wN
1
24
1 Estimacin analtica
w1
w*
w2
Fig. 1.7. Superficie de error cuadrtico medio de un estimador lineal de variable aleatoria como funcin de los pesos
del estimador.
La segunda lnea de la expresin anterior define las condiciones que debe cumplir el
vector de pesos ptimo. Ntese que dicha ecuacin constituye, en realidad, un sistema
de N + 1 ecuaciones (tantas como dimensiones tiene Xe ) con N + 1 incgnitas (las
componentes de we ).
Para encontrar el vector ptimo de pesos, resulta conveniente reescribir la ltima
lnea de (1.78) como
E{SXe } = E{Xe (XTe we )}
(1.79)
Definiendo el vector de correlacin cruzada
y la matrix de correlacin
rSXe = E{SXe }
(1.80)
(1.81)
(1.82)
(1.83)
La ecuacin (1.82) resuelve el problema del clculo de los pesos del estimador SLMSE .
Pero resulta interesante volver sobre la ecuacin vectorial (1.78) para analizar algunas
de sus propiedades. Obsrvese que el trmino entre parntesis en esta ecuacin constituye el error de estimacin
E = S we T Xe
(1.84)
25
(1.85)
Tomando, por un lado, la primera componente de esta ecuacin (teniendo en cuenta que
Xe,1 = 1, y el resto por otro, se obtienen dos propiedades fundamentales del estimador
lineal de mnimo error cuadrtico medio:
Propiedad 1: El error tiene media nula:
E{E } = 0
(1.86)
Expandiendo las ecs. (1.86) y (1.87), podemos obtener las siguientes frmulas explcitas
para los coeficientes w0 y w del estimador.
w0 = mS
w T mx
w = VX1 vS,X
(1.88)
(1.89)
Se puede observar que el papel del trmino de sesgo w0 consiste en compensar las
diferencias entre las medias de la variable a estimar y las observaciones. Por lo tanto,
cuando todas las variables involucradas tengan medias nulas, se tendr que w0 = 0.
En contraposicin al papel de w0 , podemos afirmar que el vector de pesos w permite
minimizar el error cuadrtico medio de las fluctuaciones de S alrededor de su media,
explotando para ello la relacin estadstica existente entre S y X.
Dedicaremos este apartado a obtener las expresiones (1.88) y (1.89). La primera es
una consecuencia directa de (1.86) que puede desarrollarse como
mS
w T mx
w0 = 0
(1.90)
w T X
w0 )X} = 0
(1.91)
(1.92)
26
1 Estimacin analtica
(1.94)
E{XXT } = VX + mX mTX
vS,X = VX w
mX mTX w + w0 mX
= VX w + mX (w0
= VX w
mTX w
mS mX
mS )
(1.95)
donde, en la ltima igualdad, hemos aplicado (1.88). Por tanto, despejando w , se obtiene (1.89)
Estimacin lineal y estimacin gaussiana
Aplicando (1.89) y (1.88) sobre (1.76), el estimador lineal de mnimo error cuadrtico
medio puede escribirse como
T
sLMSE = (w )T x + w0 = mS + vS,X
VX1 (x
mX )
(1.96)
Resulta interesante comprobar que esta expresin coincide con (1.65) para S unidimesional. Esto no es sorprendente: dado que el estimador MMSE sin restricciones en el
caso gaussiano es lineal, el mejor estimador lineal debe coincidir con el obtenido para
el caso gaussiano.
Obsrvese, por ltimo, que (1.89) asume que VX es una matriz no singular. La invertibilidad de VX implica que ninguna componente de X puede obtenerse como combinacin lineal del resto de componentes. Cuando esto no es as, puede comprobarse que
la solucin al problema de minimizacin no es nica, y por lo tanto conviene eliminar
las variables redundantes antes de proceder al diseo del estimador.
Error cuadrtico medio mnimo
SLMSE )2 } = E{E (S
= E{E S}
= E{E S}
w0
w T X)}
w0 E{E }
w T E{XE }
(1.97)
27
donde, en la ltima igualdad, hemos aplicado las dos propiedades del estimador de
mnimo error cuadrtico medio obtenidas en (1.86) y (1.87). Desarrolando de nuevo
el trmino de error, E , resulta
E{(S
SLMSE )2 } = E{S(S
= E{S 2 }
= E{S 2 }
= vS
w0
w T X)}
w0 mS
w T (vSX + mS mX )}
mS (w0 +w T mX )
w T vSX
w T vSX
(1.98)
Exercise 1.19 (Estimacin lineal de mnimo error cuadrtico medio). Se desea construir un estimador lineal de mnimo error cuadrtico medio que permita estimar la
variable aleatoria S a partir de las variables aleatorias X1 y X2 . Sabiendo que
E{S} = 1/2
E{S 2 } = 4
E{SX1 } = 1
E{X1 } = 1
E{X2 } = 0
2
E{X1 } = 3/2 E{X22 } = 2
E{SX2 } = 2 E{X1 X2 } = 1/2
obtnganse los pesos del estimador buscado y calclese su error cuadrtico medio. Calclese el valor estimado para el siguiente vector de observaciones: [X1 , X2 ] = [3, 1].
Example 1.20 (Extensin al caso multidimensional). A lo largo de la discusin terica
previa se consider en exclusiva el caso en que la variable a estimar tiene carcter unidimensional. Cuando se desea construir el estimador lineal de mnimo error cuadrtico
medio de un vector aleatorio S, el problema puede formularse como
= w0 + W T X
S
donde W es ahora una matriz que contiene tantas columnas como variables a estimar, y
tantas filas como observaciones disponibles, mientras que w0 es un vector columna de
trminos de sesgo.
La solucin a este problema puede obtenerse como extensin directa del caso unidimensional, y est caracterizada por
T
W = VX1 VS,X
w0 = E{S}
W T E{X}
28
1 Estimacin analtica
Una caracterizacin completa del comportamiento de un estimador de parmetro determinista la proporciona la densidad de probabilidad del estimador para cada posible valor
del parmetro a estimar, es decir, pS|s
s|s). Ntese, que al ser el estimador una funcin
(
de las observaciones, S = f (X), es posible obtener dicha densidad de probabilidad a
partir de la de X (dado s), aplicando el cambio de variable aleatoria correspondiente.
p ( )
|s ( 1|s)
|s ( 2|s)
Varianza
Sesgo
1/ 2
(a)
(b)
Fig. 1.8. Sesgo y varianza de estimadores de parmetro determinista. La figura de la izquierda muestra las densidades
de probabilidad asociadas a dos estimadores diferentes, mientras que la figura de la derecha ilustra el significado
fsico del sesgo y la varianza de un estimador.
La Figura 1.8(a) muestra la distribucin de probabilidad que se obtendra con dos estimadores diferentes, S1 = f1 (X) y S2 = f2 (X), y sugiere que, en este caso concreto, el
empleo del primero de los estimadores ser en general ms beneficioso, ya que la probabilidad de estimar valores cercanos al valor real de s es mucho mayor que si usramos
S2 . Ntese que esto no implica que en cada aplicacin concreta de los estimadores S1
obtenga menor error de estimacin.
29
=s
S}
E{S}
2 } = E{S2 }
E{S})
(1.99)
E2 {S}
(1.100)
2 } = Varianza{s S}
+ E2 {s S}
S)
+ [Sesgo(S)]
2
= Varianza(S)
(1.102)
Example 1.21 (Clculo del sesgo y la varianza del estimador muestral de la media de
una distribucin). El estimador muestral de la media m de una variable aleatoria X a
partir de l observaciones independientes de la misma, {X (k) }lk=1 , se define como
30
1 Estimacin analtica
l
X
=1
M
X (k)
l k=1
(1.103)
) = m
Sesgo(M
} = m
E{M
l
) = Varianza
Varianza(M
1 X (k)
X
l k=1
1X
E{X (k) } = 0
l k=1
l
1X
v
= 2
Varianza(X (k) ) =
l k=1
l
1 X (k)
V =
(X
l k=1
)2
M
(1.104)
Sesgo(V ) = v
E{V } = v
=v
=v
=v
=v
)2 }
M
i
1 Xh
(k) 2
2
(k)
1X
v
1
v + 2m2 +
2 v + m2 + (l 1)m2
l k=1
l
l
l
=v
1X
E{(X (k)
l k=1
(l
1)
31
La extensin de los conceptos de sesgo y varianza para el caso de estimacin de variable aleatoria resulta inmediata. De hecho, y de forma anloga al caso determinista,
sera posible utilizar directamente la distribucin pS|S
s|s) para obtener informacin
(
acerca de la bondad de un estimador para cada posible valor de la variable aleatoria.
Sin embargo, al aplicar repetidas veces un estimador de variable aleatoria, el valor s de
la variable a estimar cambia de experimento a experimento y, por este motivo, resulta
necesario obtener tambin la esperanza matemtica con respecto de S para tener una
idea precisa acerca del error sistemtico que se obtiene al aplicar el estimador.
Por lo tanto, en el caso de estimacin de variable aleatoria definimos el sesgo y la
varianza como
= E{S S}
= E{S} E{S}
Sesgo(S)
(1.105)
= E{(S E{S})
2 } = E{S2 } E2 {S}
Varianza(S)
(1.106)
En este caso, es posible llevar a cabo una descomposicin del error cuadrtico medio
similar a la utilizada para el caso determinista:
E{(S
2 } = Varianza{S
S)
+ E2 {S S}
S}
2
= Varianza(E) + [Sesgo(S)]
(1.107)
32
1 Estimacin analtica
E{(S
2} =
S)
=
Z(s) Z(s)
(s)
(s
(s
(1.108)
(x)
(1.109)
Asimismo, el estimador lineal de mnimo error cuadrtico medio tambin es insesgado. Esto es una consecuencia inmediata de la propiedad 1 en (1.86)
1.8 Apndices
1.8.1 Casos particulares gaussianos
Partiendo de (1.65) pueden obtenerse estimadores MMSE para diferentes casos particulares de inters, que se analizan en los apartados siguientes.
Transformaciones lineales con ruido
pR (r) = G(0, VR )
(1.110)
Por tanto, S y X tienen media nula, y podemos aplicar la ecuacin (1.68). Para ello,
calcularemos VSX y VX . En primer lugar,
1.8 Apndices
33
VSX = E{SXT }
= E{S(HS + R)T }
(1.111)
= VS HT
(1.112)
= HVS HT + VR
= VR1
VR1 H HT VR1 H + VS 1 HT VR
(1.114)
Aplicando esta ecuacin sobre (1.113) y, tras algunas manipulaciones algebraicas que
omitiremos aqu, puede escribirse
sMMSE = HT VR1 H + VS 1
HT VR 1 x
(1.115)
Observaciones independientes
(1.116)
v Si
DS (DS + DR ) 1 ii =
v R i + v Si
donde vSi y vRi son las varianzas de e Si y Ri respectivamente.
34
1 Estimacin analtica
Consideremos la observacin repetida de una variable aleatoria unidimensional S, estando sujeta cada medicin a ruidos independientes de distinta varianza. Se pretende
estimar el valor de S en base al conjunto de observaciones X. Esto supone una particularizacin del modelo general estudiado en esta subseccin, en el que
X=1S+R
Es decir, H = 1, siendo 1 un vector columna de dimensiones apropiadas con todas
sus entradas iguales a 1, y siendo S una variable aleatoria unidimensional. El hecho
de que las observaciones estn sujetas a ruidos indpendientes implica que la matriz de
covarianza del ruido es diagonal, VR = DR de componentes diagonales vRi .
Aplicando (1.115), se obtiene
sMMSE =
vS
1
1
T
1 1 DR x
T
+ 1 DR 1
(1.118)
(1.119)
Una analoga que permite obtener algo ms de intuicin acerca del significado del Principio de Ortogonalidad obtenido en (1.87), as como del problema de estimacin lineal
de mnimo error cuadrtico medio, consiste en asociar cada variable aleatoria unidimensional a un vector en un espacio eucldeo. La analoga, considerando el caso en
que todas las variables aleatorias tienen medias nulas, es como sigue (vase la Figura
1.9): cada variable aleatoria puede representarse como un vector en un espacio eucldeo,
definiendo el producto escalar entre dos vectores en dicho espacio como su covarianza
hXi , Xj i = E{Xi Xj } (recurdese que estamos asumiendo medias nulas). De esta manera, la longitud del vector asociado a cada variable aleatoria es directamente la varianza
1.9 Problemas
35
S
E*
X2
X1
LMSE
p
de la variable, kXi k = E{Xi Xi }. Puede comprobarse que, con estas definiciones, se
satisfacen las necesarias correspondencias entre sumas y diferencias de variables aleatorias y sus correspondientes representaciones vectoriales.
Tanto las variables observables Xi como aqulla que deseamos estimar S se asocian por tanto a un vector en un espacio eucldeo. Ahora, si el objetivo es aproximar
el valor de S como combinacin lineal de las Xi , resulta claro que la estimacin de S
debe pertenecer al subespacio generado por las observaciones (un plano, para el caso
de dos observaciones representado en la Figura 1.9). El objetivo de minimizacin de
error cuadrtico medio es anlogo al de minimizacin de la norma del error (kEk), y
sabemos que dicha norma se minimiza cuando el vector de error es ortogonal al subespacio generado por las Xi , y por tanto tambin ortogonal a todos los vectores de dicho
espacio, incluidas cada una de las observaciones. Cuando recuperamos la interpretacin
en trminos de variables aleatorias, dicha conclusin sigue siendo vlida, sin ms que
argumentar en trminos de ortogonalidad estadstica en lugar de geomtrica.
Un corolario interesante del Principio de Ortogonalidad, que tambin puede entenderse fcilmente a la vista de lo representado en la Figura 1.9, es que el error del estimador lineal ptimo E tambin ha de ser ortogonal al propio estimador, SLMSE , por ser
ste una combinacin lineal de las observaciones y, por tanto, un vector en un subespacio ortogonal a E .
Para concluir la seccin, conviene insistir en el hecho de que todos estos resultados son vlidos exclusivamente para el caso de estimacin lineal de mnimo error
cuadrtico medio.
1.9 Problemas
1.1. La distribucin a posteriori de S dado X es
pS|X (s|x) = x2 exp( x2 s),
36
1 Estimacin analtica
2
b) El error cuadrtico medio del estimador, E
S SLMSE
.
1.4. Sean X y S dos variables aleatorias con d.d.p. conjunta
b) Si el sistema se va a utilizar para la transimisin de seales digitales con una codificacin unipolar (se emplea un nivel de seal A para transmitir el bit 1 y se mantiene
el nivel de seal a 0 para la transmisin del bit 0), considerando equiprobabilididad
entre smbolos, ndique el mnimo nivel de seal que debe usarse en la codificacin,
Amin , para garantizar un nivel de SNR en el receptor de 3 dB.
2
Aprendizaje Mquina
utilizada consiste en la estimacin de las verosimilitudes pX|H (x|h). Esto es mucho ms complicado en el caso
de estimacin dado el carcter continuo de las variables objetivo, pS,X (s, x). Una vez se dispone de dicha estimacin de la d.d.p., puede procederse siguiendo un enfoque analtico convencional. Esta aproximacin se conoce
habitualmente como semianaltica.
38
2 Aprendizaje Mquina
Otra posibilidad es utilizar directamente los datos de entrenamiento para el proceso de estimacin o clasificacin,
evitando la aproximacin de densidad de probabiliidad alguna que es, en general un objetivo ms complicado
que la propia tarea de estimacin o clasificacin. Este enfoque es el que se suele asumir cuando se habla de
Aprendizaje Mquina, y ser el que estudiaremos de forma resumida en el presente captulo.
siendo
k = arg min kx
k
x(k) k2
2.5 Generalizacin
39
w0
= (XTe Xe ) 1 XTe s
w
con
2
(1)
(1) 3
1 x1 . . . x N
6 1 x(2) . . . x(2) 7
6
N 7
Xe = 6 . 1. .
7
4 .. .. . . ... 5
(K)
(K)
1 x1 . . . x N
s = [s(1) , , s(K) ]T
con
w0
= (YeT Ye ) 1 YeT s
w
2
(1)
(1) 3
1 y1 . . . y N 0
6 1 y (2) . . . y (2) 7
6
N0 7
Ye = 6 . 1. .
. 7
.
.
.
4. .
. .. 5
(K)
(K)
1 y1 . . . y N 0
2.5 Generalizacin
Para el diseo bajo enfoque supervisado se dispone de un conjunto de entrenamiento
con datos supervisados. No obstante, ha de tenerse presente que el objetivo es
aplicar dicha mquina en nuevos datos, diferentes de los disponibles durante el entrenamiento.
Generalizacin: La deseable propiedad de que la mquina proporcione una buena
estimacin/clasificacin en datos diferentes de los del entrenamiento.
Sobreajuste: El comportamiento indeseado que ocurre cuando la funcin de estimacin o clasificacin aprende las particularidades del conjunto de entrenamiento,
debidas al ruido o al efecto del submuestreo, pero no extrapolables al problema real.
40
2 Aprendizaje Mquina
References
1. Hayes M H (1996) Statistical Digital Signal Processing and Modeling. John Wiley and Sons, New York, EE.UU.
2. Oppenheim A, Schaffer R (1999) Discrete-Time Signal Processing 2nd Ed. Prentice Hall, New York, EE.UU.
Thesis, Columbia University, New York