Вы находитесь на странице: 1из 44

B1 - Apuntes de estimacin

Nombre del curso: Teora Moderna de la Deteccin y Estimacin


Autores: Jernimo Arenas Garca, Jess Cid Sueiro

Contents

Estimacin analtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1 Visin general de los problemas de estimacin . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Estimadores de parmetro determinista y de variable aleatoria . . . .
1.1.2 Estimacin analtica y mquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Diseo analtico de estimadores de variable aleatoria. Teora bayesiana
de la estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Modelado estadstico de los problemas de estimacin . . . . . . . . . . .
1.2.2 Funciones de coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.3 Coste medio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.4 Estimador bayesiano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Estimadores bayesianos de uso frecuente . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Estimador de mnimo error cuadrtico medio (MMSE) . . . . . . . . . .
1.3.2 Estimador de mnimo error absoluto (MAD) . . . . . . . . . . . . . . . . . . .
1.3.3 Estimador de mximo a posteriori (MAP) . . . . . . . . . . . . . . . . . . . . .
1.4 Estimacin de mxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Estimacin con distribuciones gaussianas . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.1 Caso unidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5.2 Caso con variables multidimensionales . . . . . . . . . . . . . . . . . . . . . . . .
1.6 Estimacin con restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Principios generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.6.2 Estimacin lineal de mnimo error cuadrtico medio . . . . . . . . . . . .
1.7 Caracterizacin de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.7.1 Sesgo y varianza de estimadores de parmetros deterministas . . . . .
1.7.2 Sesgo y varianza de estimadores de variables aleatorias . . . . . . . . . .
1.8 Apndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.1 Casos particulares gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.8.2 Principio de Ortogonalidad. Interpretacin geomtrica . . . . . . . . . .
1.9 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4
4
5
7
8
9
9
11
12
14
17
18
20
21
21
22
28
28
31
32
32
34
35

Aprendizaje Mquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Principios generales del aprendizaje mquina . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Mtodos Paramtricos y no Paramtricos . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Estimacin Mquina No Paramtrica: Mtodo del vecino ms prximo . .
2.4 Estimacin Mquina Paramtrica: Regresin de Mnimos Cuadrados . . . .
2.4.1 Modelos Semilineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37
37
38
38
39
39

1
1
2
4

XIV

Contents

2.5 Generalizacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3

Decisin analtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Introduccin al problema de decisin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Regiones de decisin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Diseo de decisores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Diseo analtico de decisores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Modelado estadstico de los problemas de decisin . . . . . . . . . . . . . .
3.2.2 Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Teora bayesiana de la decisin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Decisin ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Decisores binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Riesgo de un decisor binario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Funcin discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3 Decisores binarios de mnimo riesgo . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.4 Decisor ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.5 Decisores no Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 El caso Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Varianzas iguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2 Medias nulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Apndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 Diseo analtico de decisores con costes dependientes de la
observacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41
41
42
43
44
44
44
47
50
51
51
52
53
54
57
62
64
65
67
67
69

Decisin mquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1 Diseo de clasificadores bajo enfoque mquina . . . . . . . . . . . . . . . . . . . . . . 73
4.1.1 Estimacin paramtrica ML para clasificacin . . . . . . . . . . . . . . . . . . 74

Filtrado Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 El problema de filtrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Solucin ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 Filtro de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Solucin Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6 Clculo online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.1 Solucin ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.6.2 Solucin Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

77
77
77
78
78
78
79
79
80
80

Soluciones de los problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


6.1 Problemas del Captulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Problemas del Captulo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Problemas del Captulo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

81
81
82
85

References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

1
Estimacin analtica

1.1 Visin general de los problemas de estimacin


El diseo de un estimador consiste en construir una funcin real que, a partir del valor
de unas determinadas variables de observacin, proporcione predicciones acerca de una
variable (o vector) objetivo. A modo de ejemplo, considrese la produccin de energa
en una planta nuclear. Con el fin de maximizar el beneficio de explotacin resulta muy
deseable adecuar la generacin de energa a la demanda real, ya que la capacidad de
almacenamiento de la energa no consumida es muy limitada. Obviamente, la demanda
energtica est muy relacionada con determinados factores, tales como la hora del da,
la poca del ao, la temperatura actual, etc. Por lo tanto, en este contexto est muy generalizado el diseo de modelos de estimacin que, a partir de variables de fcil acceso,
proporcionan predicciones sobre el consumo energtico.
La Figura 1.1 representa el proceso completo de un sistema de estimacin. Habitualmente, el resultado de la estimacin lleva aparejada una cierta actuacin (por ejemplo,
generar una determinada cantidad de energa), y los errores en que se incurre al realizar la estimacin acarrean determinadas penalizaciones. En este sentido, el objetivo
perseguido en el diseo de un estimador suele ser la minimizacin de dicha penalizacin
(o la maximizacin de un beneficio) cuando el estimador se utiliza repetidas veces.
Introducimos a continuacin la notacin que utilizaremos a lo largo del presente
captulo de estimacin:
Denotaremos el valor real de la variable a estimar como s o S, dependiendo de que
dicha variable tenga carcter determinista o aleatorio. Si se trata de la estimacin de
un vector, se denotar como s o S.
Incluiremos en un vector aleatorio X todas aquellas observaciones que representan la
informacin utilizada para cada aplicacin concreta del estimador, recogida a travs
de sensores que exploran el escenario lgico (e.g., da del ao) y/o fsico (e.g., medida de temperatura) en que se lleva a cabo el proceso de estimacin. Ntese que
el vector de observaciones tiene siempre carcter aleatorio, independientemente del
carcter de la variable a estimar. Ntese tambin que para que la tarea de estimacin
de s o S a partir de X tenga sentido, es necesario que exista alguna relacin estadstica entre ellos.
El mdulo de estimacin implementa una funcin de salida real, S = f (X), siendo
f () la funcin de estimacin. Es habitual referirse a dicha funcin simplemente
como estimador, y a su salida como estimacin. Una caracterstica fundamental del

1 Estimacin analtica

Fig. 1.1. Diagrama de bloques de un sistema de estimacin.

estimador es el carcter determinista de la funcin f (), es decir, para un valor dado x


el estimador proporcionar siempre la misma salida. No obstante lo anterior, cuando
el argumento de la funcin es un vector aleatorio, la salida del estimador es una
variable aleatoria independientemente de que la variable a estimar sea aleatoria o
determinista, y por lo tanto la denotaremos con letra mayscula.
El mdulo actuador llevar a cabo unas u otras actuaciones en funcin del resultado
del proceso de estimacin, actuando sobre su entorno. Dado que es de esperar que
el estimador incurra en un determinado error en cada aplicacin, la actuacin ser
subptima (i.e., diferente a la que se habra llevado a cabo de conocer de forma
exacta el valor de s o S), lo que acarrear un determinado coste (o, alternativamente,
un beneficio que conviene maximizar).
Conviene indicar, por ltimo, que en ocasiones el contexto sugerir cambiar la notacin, empleando otros nombres para denotar la variable objetivo y/o las observaciones.
Un primer ejemplo de esto se tiene en el Ejemplo 1.1 descrito ms abajo.
1.1.1 Estimadores de parmetro determinista y de variable aleatoria

En la exposicin previa se ha mencionado que la variable a estimar puede tener carcter


determinista o aleatorio. Dicha diferencia no es trivial y tiene importantes consecuencias
tanto en el diseo de los correspondientes estimadores, como en la evaluacin de sus
prestaciones. Por este motivo, una de las primeras reflexiones que han de hacerse a la

1.1 Visin general de los problemas de estimacin

hora de resolver un problema de estimacin es precisamente acerca del carcter aleatorio


o determinista de la variable a estimar.
A modo de ejemplo se describen en esta subseccin dos casos de estimacin, cada
uno de ellos correspondiente a un tipo diferente de variable a estimar.
Example 1.1 (Estimacin de parmetro determinista). Se desea transmitir informacin
a travs de un canal de comunicaciones que introduce ruido blanco y gaussiano, con
media nula y varianza desconocida. Para disponer de una caracterizacin ms completa
de dicho canal se desea disear un estimador de la varianza del ruido basado en la observacin de l observaciones independientes del mismo. En este caso, que ser resuelto ms
adelante, la variable a estimar v es determinista, pero puede observarse que el conjunto
de observaciones para la estimacin X es un vector aleatorio (son muestras de ruido
gaussiano) cuya distribucin depende del valor de la varianza. Por tanto, el objetivo ser
construir una funcin de la forma
V = f (X)
siendo X = [X (1) , X (2) , . . . , X (l) ].
Resulta obvio que el conjunto de observaciones permite extraer informacin acerca
del valor real de v. As, por ejemplo, y dado que la media del ruido es nula, el estimador
debera proporcionar valores mayores cuanto mayores fuesen los valores absolutos de
las muestras de ruido observadas.
Example 1.2 (Estimacin de variable aleatoria). Considrese la tasacin de bienes inmuebles. Se desea conocer el precio de mercado S de una vivienda de 3 dormitorios
situada en la zona centro de Legans. Una empresa tasadora conoce a priori que la distribucin de los precios de mercado de los inmuebles de ese tipo sigue una determinada
distribucin probabilstica (es decir, se conoce la distribucin de precios pS (s)). No
obstante, si se desea una estimacin ms precisa, podra construirse un estimador que
tuviese adems en cuenta el nmero de metros cuadrados de la vivienda y de su garaje
asociado, distancia de dicha vivienda a la Universidad Carlos III de Madrid, horas de sol
que recibe la vivienda, etc. Dichos datos componen un vector de observaciones X correlacionado con el precio de la vivienda, y por tanto pueden ser utilizados para construir
una funcin de estimacin del precio de la forma
S = f (X)
siendo X = [m2 de la vivienda, distancia a UC3M en metros, . . . ].
Ntese que un modelado conjunto de las observaciones y la variable a estimar requerira conocer pX,S (x, s), y que tanto esta probabilidad conjunta como la marginal de
la variable aleatoria S no pueden ser definidas para el caso en que la variable a estimar
tiene carcter determinista. ste es el rasgo diferenciador fundamental de ambos tipos
de problemas de estimacin, y la causa de los diferentes planteamientos que para ellos
habrn de realizarse en el captulo.

1 Estimacin analtica

1.1.2 Estimacin analtica y mquina

El diseo de un estimador debe tener en cuenta la relacin que existe entre la variable
que se desea estimar y las observaciones que se utilizarn como argumento de entrada
del estimador. Segn cmo venga dada dicha informacin, consideraremos dos familias
principales de procedimientos de diseo:
Mtodos analticos: se basan en la disponibilidad de cierta informacin estadstica
que relaciona observaciones y valor a estimar. El tipo de informacin requerida para
el diseo del estimador vara en funcin de cul sea el tipo de estimador que se
desea construir (por ejemplo, segn sea el criterio de diseo). En general, esta aproximacin analtica resulta posible cuando la naturaleza del problema hace posible determinar un modelo probabilstico de las variables involucradas.
Mtodos mquina: se basan en la disponibilidad de un conjunto etiquetado de datos
de entrenamiento, i.e., un conjunto de pares {x(k) , s(k) }lk=1 . Este conjunto de datos
proporciona informacin acerca de cul sera la salida deseada del sistema para diferentes valores de las observaciones de entrada. De esta manera, resulta posible partir
de una forma paramtrica para la funcin de estimacin f (), y ajustar los valores
de los parmetros de manera que el comportamiento del estimador en los datos de
entrenamiento sea el deseado. Ntese, no obstante, que el objetivo del estimador construido es que sea capaz de proporcionar estimaciones acertadas cuando sea aplicado
a nuevos datos no vistos durante el entrenamiento. A esta propiedad se la conoce
como capacidad de generaralizacin del estimador.
Finalmente, conviene mencionar que existe una tercera va en la que el conjunto de
datos de entrenamiento se utiliza para estimar la informacin probabilstica necesaria
para un diseo de tipo analtico. A este tipo de procedimientos se los conoce como
mtodos semianalticos.
En lo que resta de captulo se considerarn tcnicas para el diseo analtico y
mquina de estimadores. En primer lugar, se presentan los conceptos fundamentales
para un diseo analtico ptimo, prestando una especial atencin a los modelos de estimacin lineales en sus parmetros, y al imporante caso en que las variables involucradas
tienen carcter gaussiano. Presentaremos, adems, criterios que permiten evaluar ciertas
propiedades de los estimadores. La parte final del captulo considera algunas tcnicas
importantes para el diseo mquina de estimadores, contexto en el que se presentarn
algunos conceptos como los modelos semilineales y las tcnicas de validacin cruzada.
1.2 Diseo analtico de estimadores de variable aleatoria. Teora bayesiana de la
estimacin
1.2.1 Modelado estadstico de los problemas de estimacin

Antes de abordar el propio diseo de los estimadores, recogemos en esta subseccin las
distintas funciones de probabilidad que caracterizan estadsticamente la relacin existente entre observaciones y variable a estimar:
En primer lugar, la verosimilitud de la variable S viene dada por pX|S (x|s), y caracteriza probabilsticamente la generacin de las observaciones para cada valor concreto de la variable a estimar.

1.2 Diseo analtico de estimadores de variable aleatoria. Teora bayesiana de la estimacin

En el caso en que la variable a estimar es determinista no tiene sentido condicionar


la distribucin de probabilidad de las observaciones al valor de s, por lo que lo estrictamente correcto sera denotar la densidad de probabilidad de las observaciones
simplemente como pX (x). No obstante, ntese que para que el problema de estimacin tenga sentido, dicha densidad de probabilidad de X ha de ser diferente segn
sea el valor real del parmetro determinista. Por este motivo, en ocasiones abusaremos la notacin y denotaremos dicha dependencia de las observaciones con s como
pX|s (x|s), refirindonos a dicha densidad de probabilidad como la verosimilitud de
s.
nicamente en el caso en que la variable a estimar sea aleatoria, podemos definir
adems densidades de probabilidad sobre S:
Distribucin marginal o a priori de S: pS (s)
Distribucin conjunta de X y S: pX,S (x, s) = pX|S (x|s)pS (s)
Distribucin a posteriori de S: pS|X (s|x).
Es importante resaltar que la informacin disponible para el diseo del estimador
puede ser diferente en cada situacin concreta. Una situacin habitual, por estar relacionada con el propio proceso fsico de generacin de las observaciones, es aqulla en
la que se dispone de la verosimilitud y de la distribucin marginal de S. Ntese que a
partir de ellas el clculo de la distribucin conjunta es inmediato, y que dicha distribucin conjunta proporciona el modelado estadstico ms completo que puede tenerse en
un problema de estimacin.
Asimismo, es frecuente que el diseo analtico de estimadores requiera el uso de
la distribucin a posteriori de la variable a estimar, pS|X (s|x), que indica qu valores
de S concentran mayor o menor probabilidad para cada valor concreto del vector de
observaciones. Para el clculo de dicha distribucin el Teorema de Bayes resulta ser
una herramienta de gran utilidad, ya que permite obtener dicha probabilidad a partir de
la distribucin a priori de S y de su verosimilitud que, como hemos comentado, suelen
ser ms accesibles:
pS|X (s|x) =

pX|S (x|s)pS (s)


pX,S (x, s)
=R
pX (x)
pX|S (x|s)pS (s)ds

(1.1)

Por ltimo, hay que resaltar que segn el estimador que se pretenda implementar la
informacin requerida para el diseo puede ser sustancialmente menor que la utilizada
para un modelado estadstico completo del problema de estimacin. As, por ejemplo,
veremos que para el clculo de ciertos estimadores resultar suficiente el conocimiento
de ciertos momentos estadsticos de la distribucin a posteriori de S.
1.2.2 Funciones de coste

El diseo de un estimador requiere algn criterio objetivo. En nuestro caso, consideraremos que dicho criterio puede materializarse en forma de alguna funcin cuyo valor
perseguimos maximizar o minimizar. Hacemos notar, no obstante, que existen estrategias de diseo que caen fuera de este enfoque.
En el caso concreto de estimacin de variable aleatoria, es frecuente definir una funcin de coste que mide la discrepancia entre el valor real y el estimado de la variable
S. Dicho coste est asociado a la penalizacin que conlleva la aplicacin de dicho estimador segn el modelo que describimos en la Seccin 1.1 de este captulo. Aceptando

1 Estimacin analtica

mide el coste1 , un criterio frecuente de diseo consiste en la minimizacin


que c(S, S)
de dicho coste en un sentido estadstico, es decir la minimizacin de la esperanza de
la funcin de coste, lo que equivale a minimizar el coste promedio que se obtendra al
realizar un nmero infinitamente alto de experimentos.
Dado que la funcin de coste est asociada a una penalizacin cuyo origen est en la
discrepancia entre el valor real y el estimado de S, es frecuente aceptar que c(s, s) 0,
verificndose la igualdad cuando s = s. Alternativamente, puede definirse una funcin
de beneficio cuyo valor medio ha de ser maximizado. Adems, es frecuente que la funcin de coste no dependa de los valores concretos de s y s, sino del error de estimacin
que se define como la diferencia entre ambas, e = s s, en cuyo caso tenemos que
c(s, s) = c(s s) = c(e), y el objetivo de diseo ser la minimizacin de E{c(E)},
donde E denota el operador de esperanza matemtica.
A modo de ejemplo, algunas funciones de coste de uso frecuente en el diseo de
estimadores son las siguientes:

Coste cuadrtico: c(e) = e2 .


Valor absoluto del error: c(e) = |e|.
2
Error cuadrtico relativo: c(s, s) = (s s2s)
Entropa cruzada: c(s, s) = s ln s (1

s) ln(1

s), para s, s 2 [0, 1]

Example 1.3 (Error cuadrtico medio). Supongamos que X es una observacin ruidosa
de S, de tal modo que
X =S+R
(1.2)
siendo S una variable aleatoria de media 0 y varianza 1, y R una variable aleatoria
gaussiana, independiente de S, de media 0 varianza v. Considerando el estimador S =
X, el coste cuadrtico medio es
E{(S
El coste absoluto ser
E{|S

2 } = E{(S
S)

X)2 } = E{R2 } = v

2
1
r
|r| p
exp
dr
2v
2v
1
r
2
Z 1
1
r
2v
=2
rp
exp
dr =
2v

2v
0

= E{|R|} =
S|}

(1.3)

(1.4)

En general, la minimizacin de cada coste dar lugar a un estimador diferente que


ser ptimo respecto del coste utilizado en el diseo. Ntese, no obstante la diferencia
fundamental que existe entre funciones de coste y estimadores. A pesar de nuestra discusin previa en la que se indica que es habitual disear estimadores que son ptimos
respecto de una funcin de coste determinada, resulta completamente viable calcular el
coste medio de dicho estimador respecto de cualquier otra funcin de coste diferente de
1

Ntese que la funcin de coste se denota con una c minscula por ser una funcin de carcter determinista, i.e.,
para unos valores fijos de s y s el coste siempre toma el mismo valor. Sin embargo, al igual que ocurra con la
funcin de estimacin, la aplicacin de dicha funcin sobre variables aleatorias dar lugar a otra variable aleatoria,

i.e., C = c(S, S).

1.2 Diseo analtico de estimadores de variable aleatoria. Teora bayesiana de la estimacin

la empleada para el diseo. A modo de ejemplo, podramos estar interesados en conocer el coste absoluto medio que resulta de la aplicacin del estimador de mnimo error
cuadrtico medio.
Example 1.4 (Funciones de coste de variables aleatorias multidimensionales). TBD
1.2.3 Coste medio.

De forma general, el coste medio de un estimador viene dado por


Z Z

E{c(S, S)} =
c(s, s)pS,X (s, x)dsdx
x

(1.5)

donde debe tenerse en cuenta que s es, en general, funcin de x. El coste medio constituye una medida de las prestaciones de un decisor, y por lo tanto proporciona un criterio
para comparar dos estimadores cualesquiera.
Example 1.5 (Clculo del coste medio global). Supongamos que la distribucin conjunta
de S y X est dada por
1
,
0<s<x<1
pS,X (s, x) = x
(1.6)
0,
resto
Consideremos dos estimadores S1 = 12 X y S2 = X. Cul es mejor estimador desde el
punto de vista del coste cuadrtico? Para averiguarlo, calcularemos el error cuadrtico
medio para ambos estimadores. Sabiendo que, para cualquier w,
Z 1Z x
2
E{(S wX) } =
(s wx)2 pS,X (s, x)dsdx
Z0 1 Z0 x
1
=
(s wx)2 dsdx
x

Z0 1 0
1
2
=
w + w x2 dx
3
0

1 1
2
=
w+w
(1.7)
3 3
Tomando w = 1/2 resulta

1
1
1
2
E{(S S1 ) } = E{(S
X) } =
2
3 3
Alternativamente, tomando w = 1 se obtiene

1
1
2
2
E{(S S2 ) } = E{(S X) } =
3 3
2

1 1
+
2 4

1+1

1
36

(1.8)

1
9

(1.9)

Por tanto, desde el punto de vista del error cuadrtico medio, S1 es mejor estimador que
S2

1 Estimacin analtica

1.2.4 Estimador bayesiano.

Cabe preguntarse, para un coste y una distribucin dadas, cul es el mejor estimador
posible. Podemos averiguarlo teniendo en cuenta que, de forma general, el coste medio
en (1.5) puede expresarse como
Z Z

E{c(S, S)} =
c(s, s)pS|X (s|x)ds pX (x)dx =
Zx s
= E{c(S, s)|X = x}pX (x)dx.
(1.10)
x

La ltima lnea de esta ecuacin muestra que una estrategia que permite minimizar el
error de estimacin global consiste en la minimizacin del error medio para cada posible
valor del vector de observaciones, E{c(S, s)|X = x}, al que nos referiremos como coste
medio a posteriori o coste medio dado X. Por tanto, ambas estrategias (minimizacin de
la esperanza del error para todo S y X, o condicionado al valor de X) son en principio
equivalentes de cara a obtener el estimador ptimo asociado a una funcin de coste
determinada.
Se define el Estimador bayesiano asociado a una funcin de coste como aqul que
minimiza (1.10), es decir:
s = argmin E{c(S, s)|X = x}

(1.11)

donde s es el Estimador bayesiano. De acuerdo a nuestra discusin previa, el Estimador


bayesiano minimiza tambin el coste esperado en un sentido global, i.e., para todo S y
X. Ntese, sin embargo, que para su diseo resulta ms til la expresin (1.11) que la
minimizacin directa del coste global
Z
= E{c(S, s)|X = x}pX (x)dx
E{c(S, S)}
(1.12)
x

ya que el clculo de la integral en x requerira conocer de antemano la relacin que


existe entre s y x, lo que constituye precisamente el objetivo del problema de diseo del
estimador.
Example 1.6 (Clculo de un estimador de mnimo coste cuadrtico medio). Continuado
el ejemplo 1.5, podemos calcular la distribucin a posteriori de S mediante
pS|X (s|x) =
Sabiendo que
pX (x) =
resulta

pS,X (s, x)
.
pX (x)

pS,X (s, x)ds =


0

pS|X (s|x) =

,
x
0,

x
0

1
ds = 1,
x

0<s<x<1
resto

El coste medio dada la observacin vendr dado por

(1.13)

(1.14)
(1.15)

1.3 Estimadores bayesianos de uso frecuente

E{c(S, s)|X = x} = E{(S s)2 |X = x}


Z 1
=
(s s)2 pS|X (s|x)ds
0
Z
1 x
=
(s s)2 ds
x 0

1 (x s)3 s3
=
+
x
3
3
1
= x2 sx + s2 .
(1.16)
3
Como funcin de s, el coste medio condicionado a la observacin es un polinomio
de segundo grado, cuyo mnimo puede calcularse de modo inmediato por derivacin.
Siendo
d
E{c(S, s)|X = x} = x + 2
s,
(1.17)
d
s
el estimador de mnimo coste cuadrtico medio ser
1
s = x,
(1.18)
2
que coincide con el estimador S1 del ejemplo 1.5. Por tanto, S1 es el mejor estimador
posible desde el punto de vista del coste cuadrtico medio.
De acuerdo con (1.11) podemos concluir que, con independencia del coste que
se pretenda minimizar, el conocimiento de la distribucin a posteriori de S dado X,
pS|X (s|x), resulta suficiente para el diseo del Estimador bayesiano ptimo. Como ya
se ha comentado, dicha distribucin es frecuentemente calculada a partir de la verosimilitud de S y de su distribucin a priori utilizando el Teorema de Bayes, lo que de hecho
constituye el origen de la denominacin de estos estimadores.
1.3 Estimadores bayesianos de uso frecuente
En esta seccin se presentan algunos de los estimadores bayesianos de uso ms comn.
Para su clculo, procederemos a la minimizacin del coste medio dado X (coste medio
a posteriori) para distintas funciones de coste.
1.3.1 Estimador de mnimo error cuadrtico medio (MMSE)

El estimador de mnimo error cuadrtico medio (Minimum Mean Square Error, MMSE)
es el asociado a la funcin de coste c(e) = e2 = (s s)2 , y por lo tanto queda caracterizado por
sMMSE = argmin E{c(S, s)|X = x} =
s
Z
= argmin (s s)2 pS|X (s|x)ds
s

(1.19)
(1.20)

10

1 Estimacin analtica

La Figura 1.2 ilustra el problema de diseo del estimador de mnimo error cuadrtico
medio. El coste medio a posteriori se puede obtener integrando en s la funcin que resulta del producto de la funcin de coste y de la densidad de probabilidad a posteriori
de S. El argumento para la minimizacin es s, lo que permite desplazar la grfica correspondiente a la funcin de coste (representada con trazo discontinuo) de forma que el
resultado de dicha integral sea mnimo.

c(e) = (s )2

pS|X(s|x)
s
Fig. 1.2. Representacin grfica del proceso de clculo del coste cuadrtico medio a posteriori para un valor genrico
s.

El valor de sMMSE puede obtenerse de forma analtica tomando la derivada del coste
medio a posteriori e igualando el resultado a 0. El clculo de la derivada no plantea
ninguna dificultad ya que la derivada y la integral pueden conmutarse (se integra respecto de s y se deriva respecto de s):
Z
dE{(S s)2 |X = x}
= 2 (s sMMSE )pS|X (s|x)ds = 0
(1.21)
d
s
s
s=
sMMSE
Teniendo en cuenta
que la integral que aparece en (1.21) debe anularse, y utilizando
R
el hecho de que pS|X (s|x)ds = 1, resulta sencillo demostrar que el estimador de
mnimo error cuadrtico medio de S viene dado por
sMMSE =

s pS|X (s|x)ds = E{S|X = x}

(1.22)

En otras palabras, el estimador de mnimo error cuadrtico medio de S es la media a


posteriori de S dado X, i.e., la media de pS|X (s|x).
Exercise 1.7. Compruebe que la expresin (1.22) efectivamente constituye un mnimo
del coste medio dado X, mediante el clculo de la derivada segunda de E{c(S, s)|X =
x}.

1.3 Estimadores bayesianos de uso frecuente

11

Example 1.8 (Clculo directo del estimador MMSE). De acuerdo con (1.22), el estimador de mnimo coste cuadrtico medio obtenido en 1.5 puede obtenerse alternativamente como
Z 1
Z x
1
s
sMMSE =
spS|X (s|x)ds =
ds = x
(1.23)
2
0
0 x
que coincide con (1.18).

1.3.2 Estimador de mnimo error absoluto (MAD)

De forma similar a como hemos procedido para el caso del estimador sMMSE , podemos
calcular el estimador asociado al valor absoluto del error de estimacin, c(e) = |e| =
|s s|. Dicho estimador, al que nos referiremos como estimador de mnimo error absoluto (Mean Absolute Deviation, MAD), est caracterizado por
sMAD = argmin E{|S s| |X = x} =
s
Z
= argmin
|s s| pS|X (s|x)ds
s

(1.24)

Nuevamente, resulta sencillo ilustrar el proceso de clculo del coste medio a posteriori
superponiendo en unos mismos ejes el coste expresado como funcin de s y la distribucin a posteriori de la variable a estimar (vase la Fig. 1.3). Dicha representacin sugiere
tambin la conveniencia de partir la integral en dos tramos correspondientes a las dos
ramas de la funcin de coste:
Z s
Z 1
E{|S s| |X = x} =
(
s s) pS|X (s|x)ds +
(s s) pS|X (s|x)ds
1
s
Z s
Z 1
(1.25)
= s
pS|X (s|x)ds
pS|X (s|x)ds +
1

s pS|X (s|x)ds

s pS|X (s|x)ds
1

El Teorema Fundamental del Clculo2 permite obtener la derivada del coste medio a
posteriori como
dE{|S s| |X = x}
= 2FS|X (
s|x) 1
(1.26)
d
s
donde FS|X (s|x) es la funcin de distribucin a posteriori de S dado X. Dado que
sMAD representa el mnimo del coste medio, la derivada anterior debe anularse para el
estimador, por lo que se ha de verificar que FS|X (
sMAD |x) = 1/2. Dicho de otra manera,
el estimador de mnimo error absoluto viene dado por la mediana de pS|X (s|x):
2

d
dx

Rx

t0

g(t)dt = g(x).

12

1 Estimacin analtica

c(e) = |s |

pS|X(s|x)
s<

s>

Fig. 1.3. Representacin grfica del proceso de clculo del coste medio absoluto a posteriori para un valor genrico
s.

sMAD = mediana{S|X = x}

(1.27)

Recurdese que la mediana de una distribucin es el punto que separa dicha distribucin en dos regiones que acaparan la misma probabilidad, por lo que el estimador de
mnimo error absoluto medio verificar que
P {S > sMAD } = P {S < sMAD }
Example 1.9 (Diseo de estimador de Mnimo Error Absoluto). En el escenario del
ejemplo 1.5, la distribucion a posteriori de S dado X es uniforme entre 0 y x, cuya
mediana es x/2. Por tanto,
1
sMAD = x
2

(1.28)

Observe que, en este caso, el estimador MAD coincide con el MMSE obtenido en (1.18).
Esto es una consecuencia de la simetra de la distribucin a posteriori. En general, ambos
estimadores no tienen por qu coincidir.

1.3.3 Estimador de mximo a posteriori (MAP)

Como su propio nombre indica, el estimador de mximo a posteriori (Maximum a Posteriori, MAP) se define como el valor de S que maximiza la distribucin de probabilidad
a posteriori de dicha variable, i.e., el valor de S que concentra mayor densidad de probabilidad para cada valor de la variable observable:

1.3 Estimadores bayesianos de uso frecuente

13

(1.29)

sMAP = argmax pS|X (s|x)


s

En sentido estricto, el estimador MAP no es bayesiano, porque no minimiza ningn


coste medio. No obstante, si consideramos la funcin de coste (vase tambin la Figura
1.4)

1 ; para |s s| >
c (s s) =
(1.30)
0 ; para |s s| <

y denotamos por s el estimador bayesiano asociado a la misma, puede comprobarse


que sMAP = lim !0 s . El estimador MAP es, por tanto, un caso lmite de una familia
de estimadores bayesianos.
Exercise 1.10. Demuestre que el estimador MAP puede obtenerse como sMAP = lim

!0

pS|X(s|x)
c (s )

1
2

Fig. 1.4. Representacin grfica del proceso de clculo del coste medio a posteriori para c (s

s).

Por otro lado, por motivos prcticos, para la maximizacin de (1.29) puede ser til
introducir una funcin auxiliar que simplifique la forma analtica de la funcin a maximizar. As, por ejemplo, la definicin (1.29) es completamente equivalente a

sMAP = argmax ln pS|X (s|x)


(1.31)
s

dado que la funcin logaritmo est definida para todo valor positivo de su argumento y es
estrictamente creciente (lo que implica que si pS|X (s1 |x) > pS|X (s2 |x), entonces tambin ln pS|X (s1 |x) > ln pS|X (s2 |x)). La introduccin de la funcin logaritmo resultar
til cuando la distribucin a posteriori de S dado X presente productos o exponenciales,
ya que transformar productos en sumas y cancelar las exponenciales. De esta manera,
el proceso de maximizacin puede simplificarse considerablemente.

s .

14

1 Estimacin analtica

Example 1.11 (Clculo de un estimador MAP). Suponiendo que


s
1
p(s|x) = 2 s exp
,
x 0, s 0
x
x

(1.32)

el estimador MAP puede obtenerse maximizando


ln(p(s|x)) =

2 ln(x) + ln(s)

s
,
x

0, s

(1.33)

Dado que ln(p(s|x)) tiende a 1 en torno a s = 0 y s = 1, su mximo debe estar en


algn punto intermedio de derivada nula. Derivando respecto a s, resulta
@
ln p(s|x)
@s

=
s=
sMAP

Por tanto

1
sMAP

1
= 0,
x

0, s

(1.34)
(1.35)

sMAP = x

Cuando la distribucin a posteriori tiene varios mximos globales, el estimador MAP


no es nico.
Example 1.12 (Multiplicidad del estimador MAP). En el ejemplo 1.5, la distribucion a
posteriori de S dado X es uniforme entre 0 y x. Por tanto, cualquier valor de s 2 [0, x]
es un estimador MAP.

1.4 Estimacin de mxima verosimilitud


Definimos el estimador de mxima verosimilitud (Maximum Likelihood, ML) de una
variable aleatoria como
sML = argmax pX|S (x|s) = argmax ln(pX|S (x|s))
s

(1.36)

donde se ha indicado que el uso de la funcin logaritmo (o de alguna otra de propiedades


similares) es opcional y no afecta en ningn caso al valor que resulta de la maximizacin. Es importante resaltar que la maximizacin de pX|S (x|s) ha de realizarse
con respecto del valor de s, que no es la variable respecto de la que est definida dicha
funcin de probabilidad.
El estimador de Mxima Verosimilitud no est asociado a la minimizacin de ningn
coste medio a posteriori, y por lo tanto no se considera un estimador bayesiano. De
hecho, su aplicacin sufre el inconveniente de no tomar en consideracin la distribucin
a priori de la variable aleatoria S. Precisamente, el uso del estimador ML est ms
justificado en aquellos casos en los dicha informacin no se encuentra disponible.
El estimador ML coincide con el MAP cuando S presenta distribucin uniforme
en un rango de valores y, por lo tanto, la aplicacin del estimador ML en ausencia de
informacin acerca de la distribucin a priori de S equivale a asumir uniformidad para
la misma y aplicar el estimador MAP. Para comprobar la equivalencia entre sML y sMAP

1.4 Estimacin de mxima verosimilitud

15

cuando pS (s) es uniforme, no hay ms que considerar la relacin existente entre la


verosimilitud y la distribucin a posteriori de S, que segn el Teorema de Bayes es
pS|X (s|x) =

pX|S (x|s)pS (s)


pX (x)

Dado que pX (x) no depende de s y estamos asumiendo que pS (s) es constante, el valor
de s que maximiza el trmino izquierdo de la igualdad ha de coincidir con el que maximiza la verosimilitud.
Por ltimo, hay que resaltar que, al contrario de lo que ocurra en el caso de estimacin bayesiana, la estimacin de mxima verosimilitud no precisa de la definicin de
densidades de probabilidad sobre la variable a estimar y, por lo tanto, puede ser aplicada
tanto en el caso de estimacin de variable aleatoria como de parmetro determinista.
Example 1.13 (Estimacin ML de Variable Aleatoria). Se desea estimar el valor de una
variable aleatoria S a partir de una observacin X estadsticamente relacionada con ella.
Para el diseo del estimador se conoce nicamente la verosimilitud de S que est dada
por
2x
pX|S (x|s) =
, 0 < x < 1 s, 0 < s < 1
(1.37)
(1 s)2
Dada la informacin estadstica disponible, se decide construir el estimador ML de
S. Para ello, se debe maximizar la verosimilitud anterior con respecto de s. Dicha
verosimilitud es una funcin de densidad de probabilidad de X, tal y como se representa
en la Figura 1.5(a), donde se comprueba que la integral de dicha funcin con respecto
de x es unitaria. Sin embargo, para llevar a cabo la maximizacin que permite encontrar sML resulta de mayor utilidad representar dicha verosimilitud como funcin de s
(Fig. 1.5(b))3 . A partir de dicha representacin grfica resulta evidente que el estimador
buscado es
sML = 1 x
o, alternativamente, si consideramos la aplicacin de la funcin de estimacin sobre la
variable aleatoria X en lugar de sobre un valor concreto de la misma,
SML = 1

Example 1.14 (Estimacin ML de los parmetros de una variable aleatoria gaussiana


unidimensional). Se sabe que el peso de los individuos de una familia de moluscos
sigue una distribucin de tipo gaussiano, cuya media y varianza se desea estimar. Se
dispone para la estimacin de los pesos de l individuos tomados de forma independiente,
{X (k) }lk=1 .
En este caso, nuestro objetivo consiste en construir estimadores de parmetros deterministas, ya que no existe y carece de sentido definir la distribucin de probabilidad
de la media y la varianza de la distribucin gaussiana. La verosimilitud de la media y
la varianza, en este caso, consiste simplemente en la distribucin de probabilidad de las
observaciones, que segn establece el enunciado viene dada por:
3

Ntese que la integral respecto de s de pX|S (x|s) no ser en general la unidad, ya que dicha funcin no constituye
una densidad de probabilidad de S.

16

1 Estimacin analtica
pX|S(x|s)

pX|S(x|s)

2/x

1 s

2x
1 s

1x

(a)

(b)

Fig. 1.5. Representacin de la funcin de verosimilitud del Ejericio 1.13 como funcin de x y de s.

1
pX (x) = pX|m,v (x|m, v) = p
exp
2v

(x

m)2
2v

(1.38)

para cada una de las observaciones. Dado que debemos construir el estimador basado
en la observacin conjunta de l observaciones, necesitaremos calcular la distribucin
conjunta de todas ellas que, al tratarse de observaciones independientes, se obtiene como
producto de las individuales:
p{X (k) }|m,v ({x(k) }|m, v) =

l
Y

k=1

pX|m,v (x(k) |m, v)

l
Y
1
(x(k) m)2
=
exp
(2v)l/2 k=1
2v

(1.39)

Los estimadores de mxima verosimilitud de m y de v sern los valores de dichos


parmetros que hacen mxima la expresin anterior. La forma analtica de (1.39) sugiere
el uso de la funcin logaritmo para simplificar el proceso de maximizacin:

(k)

L = ln p{X (k) }|m,v ({x }|m, v) =

l
ln(2v)
2

l
1 X (k)
(x
2v k=1

m)2

(1.40)

Para obtener los estimadores de mxima verosimilitud procederemos a derivar (1.40)


con respecto de m y de v, y a igualar el resultado con respecto de 0. De esta manera, el
sistema de ecuaciones a resolver queda
l

dL
ML =
dm m=m
v = vML

1 X (k)
(x
v k=1

dL
ML =
dv m=m
v = vML

l
l
1 X (k)
+ 2
(x
2v 2v k=1

m)

m=m
ML
v = vML
m)2

=0

m=m
ML
v = vML

(1.41)
=0

1.5 Estimacin con distribuciones gaussianas

17

La primera de estas ecuaciones permite obtener el estimador de la media de forma


sencilla como el promedio muestral de las observaciones, i.e.,
l

m
ML

1 X (k)
=
x
l k=1

(1.42)

Por otro lado, podemos despejar el estimador ML de la varianza de la segunda ecuacin


del sistema, obteniendo
l
1 X (k)
vML =
(x
m
ML )2
(1.43)
l k=1

Ntese que, si en lugar de aplicar la funcin de estimacin (de m o de v) sobre unas


observaciones concretas lo hicisemos sobre valores genricos {X (k) }, los estimadores
podran ser tratados como variables aleatorias, i.e.,
l

X
ML = 1
M
X (k)
l k=1

(1.44)

1 X (k)
VML =
[X
l k=1

ML ]2
M

(1.45)

Esto es as porque, a pesar de ser m y v parmetros deterministas, sus estimadores son


funciones de las observaciones, y stas siempre tienen carcter aleatorio.
Exercise 1.15 (Estimacin ML de la media de una variable aleatoria gaussiana
multidimensional). Demuestre que el estimador ML de la media de una variable
gaussiana multidimensional, a partir de l observaciones independientes de la misma,
{X(k) }lk=1 , est dado por el promedio muestral:
l

ML =
m

1 X (k)
x
l k=1

1.5 Estimacin con distribuciones gaussianas


En esta seccin analizaremos el caso de estimacin de variable aleatoria cuando la
distribucin conjunta de todas las variables implicadas (variable a estimar y variables
de observacin) es una gaussiana multidimensional. Este caso resulta de especial inters dada la frecuencia con la que dichas distribuciones suelen aparecer en problemas
del mbito de las telecomunicaciones y en otros escenarios. En este caso, puede demostrarse que todas las distribuciones marginales y todas las condicionales son tambin gaussianas. En concreto, dado que pS|X (s|x) es gaussiana, puede entenderse que
la moda, la media y la mediana de la distribucin coinciden, por lo que se verificar
sMMSE = sMAD = sMAP . Por lo tanto, durante esta seccin centraremos nuestra discusin
en el clculo del estimador de mnimo error cuadrtico medio.

18

1 Estimacin analtica

1.5.1 Caso unidimensional

Consideraremos como punto de partida un caso con variables aleatorias unidimensionales con medias nulas, en el que la distribucin conjunta de X y S tiene la siguiente
forma:

0
vS
pS,X (s, x) G
,
(1.46)
0
vX
siendo la covarianza entre ambas variables aleatorias.
A partir de dicha distribucin conjunta podemos obtener cualquier otra distribucin
que involucre a las variables s y x; en concreto, la distribucin a posteriori de S se puede
obtener como:
pS|X (s|x) =

pS,X (s, x)
pX (x)
1

p
vX vS

exp

"

1
2(vX vS

1
p
exp
2vX

s
2
) x
x2
2vX

vX
vS

s
x

(1.47)

donde ha sido necesario calcular la inversa de la matriz de covarianzas de S y X, lo que


resulta sencillo al ser dicha matriz de dimensiones 2 2.
Nuestro objetivo para obtener sMMSE consiste en calcular la media de dicha distribucin. Sin embargo, un clculo directo mediante la integracin de su producto con s
resulta bastante complicado. Sin embargo, dado el carcter conjuntamente gaussiano de
S y X, sabemos que la distribucin a posteriori de S ha de ser necesariamente gaussiana, definida por sus parmetros (desconocidos) de media y varianza mS|X y vS|X ,
respectivamente, lo que permite reescribir la expresin anterior como:

(s mS|X )2
1
p
exp
=
2vS|X
2vS|X
"
T
#
1
1
s
vX
s
p
exp
2
vS
x
2(vX vS ) x
2 vX vS 2

(1.48)
1
x2
p
exp
2vX
2vX
Resulta posible descomponer esta igualdad en otras dos asociadas a los factores externos a las exponenciales y a sus argumentos:
p
1
2vX
p
= p
(1.49)
2vS|X
2 vX vS 2
T

(s mS|X )2
1
x2
s
vX
s
=
(1.50)
vS
x
vS|X
vX vS 2 x
vX

1.5 Estimacin con distribuciones gaussianas

19

Operando los trminos matriciales, la segunda de estas igualdades puede ser reescrita
de forma ms sencilla como
(s mS|X )2
vX s2 + vS x2 2xs
x2
=
(1.51)
vS|X
vX vS 2
vX
Ntese que (1.51) supone una igualdad entre dos polinomios en s (y en x). Por lo
tanto, los coeficientes de los trminos independientes, lineales y cuadrticos en s (i.e.,
que no dependen de s, o que multiplican a s y s2 ) que aparecen en ambos lados de la
igualdad deben coincidir. Por lo tanto, y teniendo en cuenta que mS|X no depende de s,
se han de verificar las tres igualdades siguientes:
m2S|X

vS x2
x2
vS|X
v X v S 2 v X
s mS|X
xs
=
vS|X
v X v S 2
=

s2

(1.52)
(1.53)

v X s2
(1.54)
vS|X
v X v S 2
Para el clculo de la media a posteriori, resulta cmodo despejar dicho valor de (1.53)
como
vS|X x
mS|X =
(1.55)
v X v S 2
Finalmente, el valor de la varianza a posteriori puede extraerse fcilmente de (1.49) o
(1.54) como
v X v S 2
vS|X =
(1.56)
vX
Introduciendo este valor en (1.55) se obtiene la expresin que determina el estimador
de mnimo error cuadrtico medio.
=

sMMSE = mS|X =

x
vX

(1.57)

Como puede comprobarse, el estimador obtenido tiene carcter lineal.


Exercise 1.16. Generalice el resultado anterior para el caso en que las variables S y X
tienen medias no nulas mS y mX , respectivamente. Demuestre que en dicho caso, el
estimador buscado es

sMMSE = mS +
(x mX )
(1.58)
vX
Example 1.17 (Estimacin de seal gaussiana contaminada por ruido gaussiano).
En este ejemplo consideraremos el caso en que la observacin se obtiene como suma
de la seal a estimar y una componente de ruido independiente de la seal: X = S + R.
Tanto la seal como el ruido presentan distribuciones gaussianas de medias nulas y
varianzas vS y vR , respectivamente. La Figura (1.6) representa la situacin descrita para
un caso con vS < vR .

20

1 Estimacin analtica

pS(s)
pR(r)

s/r

Fig. 1.6. Estimacin de variable aleatoria gaussiana S contaminada por ruido gaussiano R.

De acuerdo con (1.57), para la resolucin del problema debemos encontrar la varianza de X y la covarianza entre S y X (). La varianza vX se obtiene simplemente
como la suma de vS y vR por ser ambas variables independientes. Para el clculo de la
covarianza podemos proceder como sigue:
= E{(X

mS )} = E{X S} = E{(S + R)S} = E{S 2 } + E{S R} = vS


(1.59)
donde se ha utilizado la independencia de S y R, y el hecho de que todas las variables
(incluida X) tienen medias nulas.
Sustituyendo estos resultados en (1.57) se obtiene
mX )(S

sMMSE =

vS
x
vS + vR

(1.60)

Este resultado puede ser interpretado de una manera bastante intuitiva: cuando la varianza del ruido es mucho menor que la de la seal (Relacin Seal a Ruido (SNR) alta,
vS
vR ) se tiene que sMMSE ! x, lo que tiene sentido ya que el efecto de la componente de ruido en este caso no es muy significativo; por el contrario, cuando la SNR es
muy baja (vS vR ), la observacin apenas aporta informacin acerca del valor de S en
cada experimento, por lo que el estimador se queda con el valor medio de la componente
de seal, sMMSE ! 0.
1.5.2 Caso con variables multidimensionales

En un caso general multidimensional, S y X pueden ser vectores aleatorios de dimensiones N y M , respectivamente, con distribucin conjuntamente gaussiana

VS VSX
mS
pS,X (s, x) G
,
(1.61)
T
mX
VSX
VX
siendo mS y mX las medias de S y X, respectivamente, VS y VX las matrices de
covarianzas de S y X, respectivamente, y VSX la matriz de covarianzas cruzadas de S
y X, y, de tal modo que

1.6 Estimacin con restricciones

VS = E{(S

mS )(S

VX = E{(X

mX )(X

mS ) T }
mX ) T }

21

(1.62)
(1.63)

VSX = E{(S mS )(X mX )T }


(1.64)
El clculo de la distribucin a posteriori de S dado X es algo ms complejo que en el
caso unidimensional pero sigue un procedimiento similar, que omitiremos aqu. Puede
demostrarse que la distribucin a posteriori es gaussiana de media
mS|X = mS + VSX VX 1 (x

mX )

(1.65)

y matriz de covarianzas
VS|X = VS

T
VSX VX 1 VSX

(1.66)

Dado que el estimador MMSE de S dado X es precisamente la media condicional,


podemos escribir
sMMSE = mS + VSX VX 1 (x

mX )

(1.67)

La expresin del estimador se simplifica cuando S y X tienen medias nulas, resultando


sMMSE = mS|X = VSX VX 1 x

(1.68)

Partiendo de (1.68) pueden obtenerse diversos casos particulares de inters en aplicaciones prcticas del procesado de seales. Algunos de ellos se analizan en el Apndice
1.8.1.
1.6 Estimacin con restricciones
1.6.1 Principios generales

En ocasiones, puede resultar til imponer una forma paramtrica determinada al estimador, S = fw (X), donde w es un vector que contiene todos los parmetros de la
funcin. Por ejemplo, en un caso con dos observaciones X = [X1 , X2 ]T , podra ser un
requisito de diseo el restringir la bsqueda del estimador a la familia de estimadores
cuadrticos de la forma S = w0 + w1 X12 + w2 X22 . En estos casos, la tarea de diseo del
estimador consiste en encontrar el vector ptimo de parmetros w que proporciona un
mnimo coste medio sujeto a la restriccin impuesta en la arquitectura del estimador:
= argmin E{c(S, fw (X))}
w = argmin E{c(S, S)}
w
w
Z Z
= argmin
c(s, fw (x))pS,X (s, x)dsdx
w

(1.69)

22

1 Estimacin analtica

Puede entenderse fcilmente que la imposicin de restricciones en la forma analtica


del estimador hace que el estimador resultante incurra en un coste medio mayor que
el que se obtendra utilizando el estimador bayesiano asociado a la misma funcin de
coste4 . No obstante, pueden existir razones de tipo prctico que hagan preferible el uso
del primero, por ejemplo por simplicidad en el diseo o aplicacin del estimador. Un
ejemplo de esto lo tendremos en la Seccin 1.6.2, dedicada al estudio de estimadores
lineales de mnimo error cuadrtico medio.
Example 1.18 (Clculo de un estimador con restricciones).
Continuando el ejemplo 1.6, se desea calcular el estimador de mnimo error cuadrtico
medio que tenga la forma s = wx2 . Partiendo del coste medio dado la observacin calculado en (1.16), se puede obtener las expresin del coste medio global como
Z
= E{c(S, s)|X = x} pX (x)dx
E{c(S, S)}

Zx
(1.70)
1 2
2
=
x
sx + s pX (x)dx
3
x
Forzando s = wx2 y teniendo en cuenta que pX (x) = 1 para 0 < x < 1 , se obtiene el
coste medio global en funcin de w

Z
1 2
2
3
2 4
E{c(S, wX )} =
x
wx + w x dx
(1.71)
3
x
1 1
1
=
w + w2
(1.72)
9 4
5
El valor w que optimiza (1.72) puede calcularse derivando respecto de w e igualando
a cero la expresin obtenida:
d
E{c(S, wX2 )}
dw

=
w=w

1 2
+ w = 0,
4 5

5
w = ,
8
5 2
y por lo tanto el estimador buscado es: s = 8 x .

(1.73)
(1.74)

1.6.2 Estimacin lineal de mnimo error cuadrtico medio

En esta seccin nos centraremos en el estudio de estimadores de variable aleatoria que


obtienen su salida como combinacin lineal de los valores de las observaciones, utilizando la minimizacin del coste cuadrtico medio como criterio de diseo. Por lo
tanto, consideraremos exclusivamente estimadores que calculan su salida como
4

La nica excepcin a esta regla consiste precisamente en el caso en el que las restricciones impuestas permiten
obtener el estimador ptimo o, dicho de otro modo, cuando el estimador bayesiano presenta una forma analtica
compatible con las restricciones impuestas.

1.6 Estimacin con restricciones

23

S = w0 + w1 X1 + + wN XN

(1.75)

S = w0 + wT X = weT Xe

(1.76)

N
donde N denota el nmero de variables observables disponibles, {Xi }N
i=1 , y {wi }i=0 son
los pesos que caracterizan al estimador. En este contexto, es habitual referirse al trmino
independiente de la expresin anterior, w0 , como trmino de sesgo. Por simplicidad
analtica, resulta ms cmodo introducir la siguiente notacin matricial:

donde w = [w1 , . . . , wN ]T y X = [X1 , . . . , XN ]T son los vectores (columna) de


parmetros y de observaciones, respectivamente, y we = [w0 , wT ]T y Xe = [1, XT ]T
son versiones extendidas de dichos vectores.
Puede entenderse que, al imponer una restriccin en la forma analtica que implementa el estimador, los estimadores lineales obtendrn, en general, prestaciones inferiores al estimador bayesiano ptimo. No obstante, el inters de los estimadores lineales
est justificado por su mayor simplicidad y facilidad de diseo. Como veremos, para el
clculo del estimador lineal de mnimo error cuadrtico medio, ser suficiente conocer
los momentos estadsticos de primer y segundo orden (medias y covarianzas) asociados
a las variables observables y la variable a estimar.
Por otro lado, el empleo de estimadores lineales est plenamente justificado en ciertas
circunstancias, por ejemplo al tratar con variables con distribuciones gaussianas, ya que,
como vimos en la seccin anterior, en dicho caso el estimador bayesiano de mnimo
error cuadrtico medio tiene arquitectura lineal.
Minimizacin del error cuadrtico medio

Como ya se ha comentado, consideraremos como criterio de diseo el coste cuadrtico,


c(e) = (s s)2 , por lo que el vector de pesos ptimo ser aquel que minimice el valor
medio de dicha funcin de coste:
2 } = argmin E{(S weT Xe )2 }
we = argmin E{(S S)
(1.77)
we

we

y nos referiremos al estimador lineal asociado a dicho vector ptimo de pesos como
SLMSE :
SLMSE = we T Xe
La Figura 1.7 representa la superficie de error en un caso con dos observaciones. Al
ser la funcin a minimizar cuadrtica en los pesos (argumento de la minimizacin), la
superficie de error tendr forma de un paraboloide de N dimensiones. Adems, dado
que el coste medio es no negativo, queda garantizado que la funcin es convexa, y su
mnimo puede localizarse igualando a 0 el gradiente del coste medio con respecto del
vector de pesos5 :
rwe E{(S

2}
S)

we =we

=
=

2E{(S

weT Xe )Xe }

we =we

2E{(S

we T Xe )Xe }

=0

(1.78)

El gradiente de una funcin escalar f (w) con respecto del vector w se define como un vector formado por las
h
iT
@f
@f
derivadas de la funcin con respecto de cada una de las componentes de w: rw f (w) = @w
,
.
.
.
.
@wN
1

24

1 Estimacin analtica

w1
w*
w2
Fig. 1.7. Superficie de error cuadrtico medio de un estimador lineal de variable aleatoria como funcin de los pesos
del estimador.

La segunda lnea de la expresin anterior define las condiciones que debe cumplir el
vector de pesos ptimo. Ntese que dicha ecuacin constituye, en realidad, un sistema
de N + 1 ecuaciones (tantas como dimensiones tiene Xe ) con N + 1 incgnitas (las
componentes de we ).
Para encontrar el vector ptimo de pesos, resulta conveniente reescribir la ltima
lnea de (1.78) como
E{SXe } = E{Xe (XTe we )}
(1.79)
Definiendo el vector de correlacin cruzada
y la matrix de correlacin

rSXe = E{SXe }

RXe = E{Xe XTe }


(que es una matriz simtrica) la ec. (1.79) se puede escribir como
rSXe = RXe we

(1.80)
(1.81)
(1.82)

De donde resulta el vector de coeficientes buscado:


we = RX1e rSXe

(1.83)

Propiedades del estimador lineal ptimo

La ecuacin (1.82) resuelve el problema del clculo de los pesos del estimador SLMSE .
Pero resulta interesante volver sobre la ecuacin vectorial (1.78) para analizar algunas
de sus propiedades. Obsrvese que el trmino entre parntesis en esta ecuacin constituye el error de estimacin
E = S we T Xe
(1.84)

1.6 Estimacin con restricciones

25

de modo que podemos reescribir (1.78) como


E{E Xe )} = 0

(1.85)

Tomando, por un lado, la primera componente de esta ecuacin (teniendo en cuenta que
Xe,1 = 1, y el resto por otro, se obtienen dos propiedades fundamentales del estimador
lineal de mnimo error cuadrtico medio:
Propiedad 1: El error tiene media nula:
E{E } = 0

(1.86)

Cuando un estimador tiene esta propiedad se dice que es insesgado. Volveremos


sobre esta propiedad en la sec. 1.7.
Propiedad 2 (Principio de Ortogonalidad): el error es estadsticamente ortogonal a
las observaciones:
E{E X} = 0
(1.87)
Expresin alternativa del estimador

Expandiendo las ecs. (1.86) y (1.87), podemos obtener las siguientes frmulas explcitas
para los coeficientes w0 y w del estimador.
w0 = mS

w T mx

w = VX1 vS,X

(1.88)
(1.89)

Se puede observar que el papel del trmino de sesgo w0 consiste en compensar las
diferencias entre las medias de la variable a estimar y las observaciones. Por lo tanto,
cuando todas las variables involucradas tengan medias nulas, se tendr que w0 = 0.
En contraposicin al papel de w0 , podemos afirmar que el vector de pesos w permite
minimizar el error cuadrtico medio de las fluctuaciones de S alrededor de su media,
explotando para ello la relacin estadstica existente entre S y X.
Dedicaremos este apartado a obtener las expresiones (1.88) y (1.89). La primera es
una consecuencia directa de (1.86) que puede desarrollarse como
mS

w T mx

w0 = 0

(1.90)

despejando w0 se llega a (1.88).


Buscaremos ahora una expresin para w . De (1.87) resulta
E{(S

w T X

w0 )X} = 0

(1.91)

que puede reescribirse como


E{SX} = E{(w T X + w0 )X}
= E{X(XT w )}+w0 E{X}
= E{XXT }w + w0 mX

(1.92)

26

1 Estimacin analtica

Recurriendo ahora a las expresiones que relacionan la correlacin y la covarianza de


dos variables:
E{SX} = vS,X + mS mX
(1.93)
la ec. (1.92) se convierte en

(1.94)

E{XXT } = VX + mX mTX

vS,X = VX w

mX mTX w + w0 mX

= VX w + mX (w0
= VX w

mTX w

mS mX
mS )

(1.95)

donde, en la ltima igualdad, hemos aplicado (1.88). Por tanto, despejando w , se obtiene (1.89)
Estimacin lineal y estimacin gaussiana

Aplicando (1.89) y (1.88) sobre (1.76), el estimador lineal de mnimo error cuadrtico
medio puede escribirse como
T
sLMSE = (w )T x + w0 = mS + vS,X
VX1 (x

mX )

(1.96)

Resulta interesante comprobar que esta expresin coincide con (1.65) para S unidimesional. Esto no es sorprendente: dado que el estimador MMSE sin restricciones en el
caso gaussiano es lineal, el mejor estimador lineal debe coincidir con el obtenido para
el caso gaussiano.
Obsrvese, por ltimo, que (1.89) asume que VX es una matriz no singular. La invertibilidad de VX implica que ninguna componente de X puede obtenerse como combinacin lineal del resto de componentes. Cuando esto no es as, puede comprobarse que
la solucin al problema de minimizacin no es nica, y por lo tanto conviene eliminar
las variables redundantes antes de proceder al diseo del estimador.
Error cuadrtico medio mnimo

Calcularemos aqu el error cuadrtico medio asociado al estimador lineal de mnimo


error cuadrtico medio, SLMSE . Como se coment al inicio de esta seccin, el error
cuadrtico medio obtenido ser, en general, superior al que obtendra el estimador
bayesiano de mnimo error cuadrtico medio (SMMSE ) para el mismo problema, salvo
cuando este ltimo estimador tenga precisamente estructura lineal.
Para calcular el error cuadrtico medio no tenemos ms que desarrollar la expresin
del coste medio, particularizndola para SLMSE , dejando el resultado en funcin de las
esperanzas matemticas de las variables aleatorias:
E{(S

SLMSE )2 } = E{E (S

= E{E S}
= E{E S}

w0

w T X)}

w0 E{E }

w T E{XE }

(1.97)

1.6 Estimacin con restricciones

27

donde, en la ltima igualdad, hemos aplicado las dos propiedades del estimador de
mnimo error cuadrtico medio obtenidas en (1.86) y (1.87). Desarrolando de nuevo
el trmino de error, E , resulta
E{(S

SLMSE )2 } = E{S(S
= E{S 2 }
= E{S 2 }
= vS

w0

w T X)}

w0 mS

w T (vSX + mS mX )}

mS (w0 +w T mX )

w T vSX

w T vSX

(1.98)

Exercise 1.19 (Estimacin lineal de mnimo error cuadrtico medio). Se desea construir un estimador lineal de mnimo error cuadrtico medio que permita estimar la
variable aleatoria S a partir de las variables aleatorias X1 y X2 . Sabiendo que
E{S} = 1/2
E{S 2 } = 4
E{SX1 } = 1

E{X1 } = 1
E{X2 } = 0
2
E{X1 } = 3/2 E{X22 } = 2
E{SX2 } = 2 E{X1 X2 } = 1/2

obtnganse los pesos del estimador buscado y calclese su error cuadrtico medio. Calclese el valor estimado para el siguiente vector de observaciones: [X1 , X2 ] = [3, 1].
Example 1.20 (Extensin al caso multidimensional). A lo largo de la discusin terica
previa se consider en exclusiva el caso en que la variable a estimar tiene carcter unidimensional. Cuando se desea construir el estimador lineal de mnimo error cuadrtico
medio de un vector aleatorio S, el problema puede formularse como
= w0 + W T X
S
donde W es ahora una matriz que contiene tantas columnas como variables a estimar, y
tantas filas como observaciones disponibles, mientras que w0 es un vector columna de
trminos de sesgo.
La solucin a este problema puede obtenerse como extensin directa del caso unidimensional, y est caracterizada por
T
W = VX1 VS,X

w0 = E{S}

W T E{X}

siendo VS,X la matriz de covarianzas cruzadas entre los vectores aleatorios S y X.


LMSE para este
Puede comprobarse que, como cabra esperar, al calcular el estimador S
caso, resulta la misma expresin que obtuvimos en (1.65) para el caso gaussiano sin
restricciones
La estimacin lineal de mnimo error cuadrtico medio y el Principio de Ortogonalidad presentan algunas analogas con la aproximacin lineal de vectores en espacios
vectoriales. El lector interesado puede acudir al apndice 1.8.2.

28

1 Estimacin analtica

1.7 Caracterizacin de estimadores


A lo largo de este captulo hemos presentado diversos mtodos de estimacin, comprobando que para un mismo escenario de aplicacin es posible disear diferentes estimadores no triviales. Por tanto, surge la necesidad de establecer criterios que permitan
una comparacin objetiva entre estimadores. Una primera posibilidad para evaluar las
prestaciones de un estimador es evaluar su coste medio para una determinada funcin de
coste. Queda claro, no obstante, que ningn estimador ofrecer un menor coste medio
que el estimador bayesiano asociado a dicha funcin de coste.
En esta seccin analizamos otras medidas que permiten obtener una primera aproximacin acerca de las propiedades de un estimador. En concreto, introduciremos los
conceptos de sesgo y de varianza, que dan idea del error sistemtico y de la dispersin
Por
de las estimaciones frente a un valor medio (recurdese el carcter aleatorio de S).
simplicidad, comenzaremos considerando el caso de estimacin de parmetro determinista, para pasar posteriormente a extender estos conceptos a la estimacin de variable
aleatoria.
1.7.1 Sesgo y varianza de estimadores de parmetros deterministas

Una caracterizacin completa del comportamiento de un estimador de parmetro determinista la proporciona la densidad de probabilidad del estimador para cada posible valor
del parmetro a estimar, es decir, pS|s
s|s). Ntese, que al ser el estimador una funcin
(
de las observaciones, S = f (X), es posible obtener dicha densidad de probabilidad a
partir de la de X (dado s), aplicando el cambio de variable aleatoria correspondiente.

p ( )

|s ( 1|s)

|s ( 2|s)

Varianza

Sesgo

1/ 2

(a)

(b)

Fig. 1.8. Sesgo y varianza de estimadores de parmetro determinista. La figura de la izquierda muestra las densidades
de probabilidad asociadas a dos estimadores diferentes, mientras que la figura de la derecha ilustra el significado
fsico del sesgo y la varianza de un estimador.

La Figura 1.8(a) muestra la distribucin de probabilidad que se obtendra con dos estimadores diferentes, S1 = f1 (X) y S2 = f2 (X), y sugiere que, en este caso concreto, el
empleo del primero de los estimadores ser en general ms beneficioso, ya que la probabilidad de estimar valores cercanos al valor real de s es mucho mayor que si usramos
S2 . Ntese que esto no implica que en cada aplicacin concreta de los estimadores S1
obtenga menor error de estimacin.

1.7 Caracterizacin de estimadores

29

Para disponer de una caracterizacin ms cmoda de los estimadores resulta til


resumir algunas de las propiedades ms relevantes de pS (
s), y la forma ms evidente de
hacer esto es mediante la media y la varianza de dicha distribucin. En realidad, ms que
interesarnos la media de la distribucin nos interesa cmo de alejada est dicha media
del valor real de s, siendo sta la definicin del sesgo de un estimador:
= E{s
Sesgo(S)
= E{(S
Varianza(S)

=s
S}

E{S}

2 } = E{S2 }
E{S})

(1.99)

E2 {S}

(1.100)

Cabe mencionar que, cuando s es un parmetro determinista, la varianza del estimador


= Varianza(S).

coincide con la de el error de estimacin, ya que Varianza(s S)


Es importante resaltar que, en el caso de estimacin de parmetro determinista, el
sesgo y la varianza son funciones de la variable que se desea estimar (s). Ntese que
todas las esperanzas matemticas de las expresiones anteriores pueden ser calculadas
Nuetanto a partir de la funcin de densidad de probabilidad de X como de la de S.
vamente, es posible denotar la dependencia de dichas densidades con s a la hora de
calcular las esperanzas matemticas, por ejemplo,
Z
Z
2
2
2

E{S } = E{S |s} = s pS (


s)d
s = s2 pS|s
s|s)d
s
(
Z
Z
2
= f (x) pX (x)dx = f 2 (x) pX|s (x|s)dx
(1.101)

La Figura 1.8(b) ilustra el significado fsico del sesgo y la varianza de un estimador.


Como puede verse, el sesgo tiene significado de error sistemtico, es decir, sera la media
de los errores que se obtendran si aplicsemos el estimador un nmero infinito de veces
con distintas observaciones. A los estimadores que tienen sesgo nulo se les denomina
estimadores insesgados. Por otro lado, la varianza da idea de cmo de concentrada est
la probabilidad del estimador en torno a su media y, por lo tanto, est relacionada con
la dispersin de los valores que se observaran al aplicar el estimador sobre distintas
observaciones.
En el caso particular de estimadores que operan sobre un nmero l de observaciones
de una variable aleatoria, por ejemplo al estimar la media o la varianza de una distribucin de tipo Gauss a partir de l observaciones de la misma (Ejemplo 1.14), una propiedad
deseable es que la varianza del estimador decrezca conforme aumenta el nmero de ob ! 0 cuando l ! 1. A los estimadores que disfrutan de
servaciones, i.e., Varianza(S)
esta propiedad se los conoce como estimadores consistentes en varianza.
Por ltimo, es posible relacionar el sesgo y la varianza con el coste cuadrtico medio
del estimador:
E{(s

2 } = Varianza{s S}
+ E2 {s S}

S)
+ [Sesgo(S)]
2
= Varianza(S)

(1.102)

Example 1.21 (Clculo del sesgo y la varianza del estimador muestral de la media de
una distribucin). El estimador muestral de la media m de una variable aleatoria X a
partir de l observaciones independientes de la misma, {X (k) }lk=1 , se define como

30

1 Estimacin analtica
l

X
=1
M
X (k)
l k=1

(1.103)

Podemos calcular el sesgo y la varianza de dicho estimador de manera sencilla como


l

) = m
Sesgo(M

} = m
E{M
l

) = Varianza
Varianza(M

1 X (k)
X
l k=1

1X
E{X (k) } = 0
l k=1
l
1X
v
= 2
Varianza(X (k) ) =
l k=1
l

En el clculo de la varianza del estimador, se ha utilizado v para denotar la media de


la variable aleatoria X, y se ha utilizado adems el hecho de que las observaciones
son independientes. A la vista de los resultados, puede comprobarse que el estimador
muestral de la media es insesgado y consistente en varianza.
Example 1.22 (Clculo del sesgo del estimador muestral de la varianza de una distribucin). El estimador muestral de la varianza v de una variable aleatoria X a partir de l
observaciones independientes de la misma, {X (k) }lk=1 , se define como
l

1 X (k)
V =
(X
l k=1

)2
M

(1.104)

es el estimador muestral de la media dado por (1.103).


donde M
Podemos calcular el sesgo de dicho estimador como
l

Sesgo(V ) = v

E{V } = v

=v
=v
=v
=v

)2 }
M

i
1 Xh
(k) 2
2
(k)

E{X } + E{M } 2E{X M }


l k=1
"
#
l
l
X
1X
1
) + E2 {M
} 2 E{X (k)
v + m2 + Varianza(M
X (k) }
l k=1
l
k=1
l
h
i
X
1
v
1
2
v + m2 + + m2 2 E{X (k) } + (l 1)E2 {X (k) }
l k=1
l
l
l

1X
v
1
v + 2m2 +
2 v + m2 + (l 1)m2
l k=1
l
l
l

=v

1X
E{(X (k)
l k=1

(l

1)

1.7 Caracterizacin de estimadores

31

Dado que E{V } = l l 1 v 6= v, el estimador muestral de la varianza es sesgado, si bien


es asintticamente insesgado, ya que segn crece el nmero de observaciones el sesgo
tiende a cero.
Exercise 1.23 (Estimador insesgado de la varianza). Se desea corregir el estimador
muestral de la varianza, de modo que el nuevo estimador sea insesgado independientemente del nmero de observaciones. Para ello se decide utilizar una versin escalada
del estimador:
Vins = c V
donde V es el estimador muestral de la varianza, Vins es el estimador buscado, y c es
una constante a determinar. Obtenga el valor de la constante c que hace que Vins sea
insesgado. Demuestre que la varianza del estimador insesgado es mayor que la que se
obtendra al utilizar el estimador muestral. Este resultado ilustra el importante compromiso entre sesgo y varianza que aparece con frecuencia en problemas de estimacin:
resulta posible disminuir la varianza (el sesgo) de un estimador a costa de un incremento
de su sesgo (varianza).
1.7.2 Sesgo y varianza de estimadores de variables aleatorias

La extensin de los conceptos de sesgo y varianza para el caso de estimacin de variable aleatoria resulta inmediata. De hecho, y de forma anloga al caso determinista,
sera posible utilizar directamente la distribucin pS|S
s|s) para obtener informacin
(
acerca de la bondad de un estimador para cada posible valor de la variable aleatoria.
Sin embargo, al aplicar repetidas veces un estimador de variable aleatoria, el valor s de
la variable a estimar cambia de experimento a experimento y, por este motivo, resulta
necesario obtener tambin la esperanza matemtica con respecto de S para tener una
idea precisa acerca del error sistemtico que se obtiene al aplicar el estimador.
Por lo tanto, en el caso de estimacin de variable aleatoria definimos el sesgo y la
varianza como
= E{S S}
= E{S} E{S}

Sesgo(S)
(1.105)
= E{(S E{S})
2 } = E{S2 } E2 {S}

Varianza(S)
(1.106)
En este caso, es posible llevar a cabo una descomposicin del error cuadrtico medio
similar a la utilizada para el caso determinista:
E{(S

2 } = Varianza{S
S)

+ E2 {S S}

S}
2
= Varianza(E) + [Sesgo(S)]

(1.107)

Ntese que, al contrario


donde E es error de estimacin en que incurre el estimador S.
de lo que ocurra en el caso determinista, cuando la variable a estimar S es aleatoria la
varianza del error no ser en general igual a la varianza del estimador.
Conviene por ltimo resaltar que el clculo de las esperanzas matemticas anteriores
que involucran a S y S puede realizarse utilizando la distribucin conjunta de dichas
dos variables o, alternativamente, la distribucin conjunta de S y X, haciendo uso de la
relacin determinista que existe entre S y X. As, por ejemplo,

32

1 Estimacin analtica

E{(S

2} =
S)
=

Z(s) Z(s)
(s)

(s

s)2 pS,S (s, s) ds d


s

(s

f (x))2 pS,X (s, x) ds dx

(1.108)

(x)

Mencionaremos, finalmente, dos propiedades de inters relativas al sesgo:


El estimador de mnimo error cuadrtico medio (sin restricciones) E{SMMSE } es
siempre insesgado:
E{SMMSE } = E {E{S|X}}
Z
= E {S|X = x}pX (x)dx
= E{S}

(1.109)

Asimismo, el estimador lineal de mnimo error cuadrtico medio tambin es insesgado. Esto es una consecuencia inmediata de la propiedad 1 en (1.86)
1.8 Apndices
1.8.1 Casos particulares gaussianos

Partiendo de (1.65) pueden obtenerse estimadores MMSE para diferentes casos particulares de inters, que se analizan en los apartados siguientes.
Transformaciones lineales con ruido

Supongamos que la observacin X est relacionada con S a travs de la expresin.


X = HS + R
donde H es una matriz determinista conocida de dimensiones M N , y R es un vector
gaussiano aleatorio de dimensiones M 1, independiente de S. Las distribuciones de
los vectores S y R son:
pS (s) = G(0, VS )

pR (r) = G(0, VR )

siendo 0 un vector columna con todas sus componentes iguales a 0.


De acuerdo con sto, podemos comprobar que
E{X} = HE{S} + E{R} = 0

(1.110)

Por tanto, S y X tienen media nula, y podemos aplicar la ecuacin (1.68). Para ello,
calcularemos VSX y VX . En primer lugar,

1.8 Apndices

33

VSX = E{SXT }

= E{S(HS + R)T }

= E{SST }HT + E{SR)T


= VS HT + E{S}E{R)T

(1.111)

= VS HT

(donde, en la tercera igualdad, hemos hecho uso de la independencia de S y R).


Analogamente,
VX = E{XXT }

= E{(HS + R)(HS + R)T }


= HE{SST }HT + E{RR)T

(1.112)

= HVS HT + VR

(donde, de nuevo, en la tercera igualdad hemos hecho uso de la independencia de S y


R). Aplicando (1.111) y (1.112) en (1.68), resulta
(1.113)

sMMSE = mS|X = VS HT (HVS HT + VR ) 1 x

Una expresin alternativa pero equivalente a la anterior puede obtenerse aplicando el


denominado lema de inversin de la matriz, segn el cual
(HVS HT + VR )

= VR1

VR1 H HT VR1 H + VS 1 HT VR

(1.114)

Aplicando esta ecuacin sobre (1.113) y, tras algunas manipulaciones algebraicas que
omitiremos aqu, puede escribirse
sMMSE = HT VR1 H + VS 1

HT VR 1 x

(1.115)

Observaciones independientes

Considrese el caso con M = N (hay tantas observaciones como variables a estimar),


H = I, siendo I la matriz unidad, y matrices de covarianzas diagonales VS = DS y
VR = DR (lo que equivale a decir que todas las componentes de S, y todas las de R,
son independientes). La particularizacin de (1.113) para este caso resulta en
sMMSE = DS (DS + DR )

(1.116)

La matriz DS (DS + DR ) 1 es una matriz diagonal, cuyo elemento i-simo de la diagonal es

v Si
DS (DS + DR ) 1 ii =
v R i + v Si
donde vSi y vRi son las varianzas de e Si y Ri respectivamente.

34

1 Estimacin analtica

Por lo tanto, la estimacin de la componente i-sima del vector aleatorio S es


v Si
sMMSE,i =
xi
(1.117)
v Ri + v Si
Ntese que este resultado implica que cada componente de S ha de ser estimada con
un estimador similar al obtenido en el Ejemplo 1.17. Dicha conclusin era esperable,
ya que el modelo de generacin de observaciones en este caso puede escribirse como
X = S + R, siendo todas las componentes de S y R independientes entre s. En otras
palabras, el problema podra haber sido descompuesto en N problemas de estimacin
independientes equivalentes al estudiado en el Ejemplo 1.17.
Observaciones independientes de una misma variable aleatoria unidimensional

Consideremos la observacin repetida de una variable aleatoria unidimensional S, estando sujeta cada medicin a ruidos independientes de distinta varianza. Se pretende
estimar el valor de S en base al conjunto de observaciones X. Esto supone una particularizacin del modelo general estudiado en esta subseccin, en el que
X=1S+R
Es decir, H = 1, siendo 1 un vector columna de dimensiones apropiadas con todas
sus entradas iguales a 1, y siendo S una variable aleatoria unidimensional. El hecho
de que las observaciones estn sujetas a ruidos indpendientes implica que la matriz de
covarianza del ruido es diagonal, VR = DR de componentes diagonales vRi .
Aplicando (1.115), se obtiene
sMMSE =

vS

1
1
T
1 1 DR x
T
+ 1 DR 1

y, teniendo en cuenta que DR1 es una matriz diagonal, se obtiene


X xi
1
sMMSE = P
1
1
vR,i
i vR,i + vS
i

(1.118)

(1.119)

Respecto del resultado anterior, ntese que la estimacin de S consiste en un promedio


ponderado de las observaciones, asignando un mayor peso a aquellas observaciones
contaminadas por una menor cantidad de ruido (i.e., con baja vR,i ).
1.8.2 Principio de Ortogonalidad. Interpretacin geomtrica

Una analoga que permite obtener algo ms de intuicin acerca del significado del Principio de Ortogonalidad obtenido en (1.87), as como del problema de estimacin lineal
de mnimo error cuadrtico medio, consiste en asociar cada variable aleatoria unidimensional a un vector en un espacio eucldeo. La analoga, considerando el caso en
que todas las variables aleatorias tienen medias nulas, es como sigue (vase la Figura
1.9): cada variable aleatoria puede representarse como un vector en un espacio eucldeo,
definiendo el producto escalar entre dos vectores en dicho espacio como su covarianza
hXi , Xj i = E{Xi Xj } (recurdese que estamos asumiendo medias nulas). De esta manera, la longitud del vector asociado a cada variable aleatoria es directamente la varianza

1.9 Problemas

35

S
E*
X2
X1

LMSE

Fig. 1.9. Interpretacin geomtrica del Principio de Ortogonalidad.

p
de la variable, kXi k = E{Xi Xi }. Puede comprobarse que, con estas definiciones, se
satisfacen las necesarias correspondencias entre sumas y diferencias de variables aleatorias y sus correspondientes representaciones vectoriales.
Tanto las variables observables Xi como aqulla que deseamos estimar S se asocian por tanto a un vector en un espacio eucldeo. Ahora, si el objetivo es aproximar
el valor de S como combinacin lineal de las Xi , resulta claro que la estimacin de S
debe pertenecer al subespacio generado por las observaciones (un plano, para el caso
de dos observaciones representado en la Figura 1.9). El objetivo de minimizacin de
error cuadrtico medio es anlogo al de minimizacin de la norma del error (kEk), y
sabemos que dicha norma se minimiza cuando el vector de error es ortogonal al subespacio generado por las Xi , y por tanto tambin ortogonal a todos los vectores de dicho
espacio, incluidas cada una de las observaciones. Cuando recuperamos la interpretacin
en trminos de variables aleatorias, dicha conclusin sigue siendo vlida, sin ms que
argumentar en trminos de ortogonalidad estadstica en lugar de geomtrica.
Un corolario interesante del Principio de Ortogonalidad, que tambin puede entenderse fcilmente a la vista de lo representado en la Figura 1.9, es que el error del estimador lineal ptimo E tambin ha de ser ortogonal al propio estimador, SLMSE , por ser
ste una combinacin lineal de las observaciones y, por tanto, un vector en un subespacio ortogonal a E .
Para concluir la seccin, conviene insistir en el hecho de que todos estos resultados son vlidos exclusivamente para el caso de estimacin lineal de mnimo error
cuadrtico medio.
1.9 Problemas
1.1. La distribucin a posteriori de S dado X es
pS|X (s|x) = x2 exp( x2 s),

36

1 Estimacin analtica

Determine los estimadores SMMSE , SMAD y SMAP .


1.2. Considere un problema de estimacin caracterizado por la siguiente distribucin a
posteriori:
pS|X (s|x) = x exp( xs), s > 0
(1.120)
Determine los estimadores SMMSE , SMAD y SMAP .
1.3. Se desea estimar la v.a. S a partir de la observacin de otra v.a. X mediante un
estimador lineal de mnimo error cuadrtico medio dado por la expresin:
SLMSE = w0 + w1 X
Sabiendo que E{X} = 1, E{S} = 0, E{X 2 } = 2, E{S 2 } = 1 y E{SX} = 1/2,
calcule:
a) Los valores de w0 y w1 .

2
b) El error cuadrtico medio del estimador, E
S SLMSE
.
1.4. Sean X y S dos variables aleatorias con d.d.p. conjunta

2 0 < x < 1, 0 < s < x


pX,S (x, s)
0 resto

a) Calcule el estimador de mnimo error cuadrtico medio de S dado X, SMMSE .


b) Calcule el sesgo del estimador SMMSE .
1.5. Se dispone de una imagen digitalizada de dimensiones 8 8 cuyos valores de lumniancia son estadsticamente independientes y se distribuyen uniformemente entre 0
(blanco) y 1 (negro); se ha modificado dicha imagen aplicando sobre cada pxel una
transformacin de la forma Y = X r r > 0, donde X es la v.a. asociada a los pxeles de
la imgen original e Y la asociada a la imagen transformada. Obtenga la expresin que
permite estimar por mxima verosimilitud el valor de r empleado en la transformacin
cuando se dispone de los 64 que componen la imagen transformada {y (k) }64
k=1 , pero no
se dispone de la imagen original.
1.6. Para el diseo de un sistema de comunicacin se desea estimar la atenuacin de
seal entre el transmisor y el receptor, as como la potencia de ruido introducida por el
canal cuando este ruido es gaussiano de media nula e independiente de la seal transmitida. Para ello, el transmisor enva una seal con una amplitud constante de 1 y el
receptor recopila un conjunto de K observaciones disponibles a su entrada.
a) Estime por mxima verosimilitud la atenuacin del canal, , y la varianza del ruido,
vr , cuando las observaciones diponibles en el receptor son
{0.55, 0.68, 0.27, 0.58, 0.53, 0.37, 0.45, 0.53, 0.86, 0.78}.

b) Si el sistema se va a utilizar para la transimisin de seales digitales con una codificacin unipolar (se emplea un nivel de seal A para transmitir el bit 1 y se mantiene
el nivel de seal a 0 para la transmisin del bit 0), considerando equiprobabilididad
entre smbolos, ndique el mnimo nivel de seal que debe usarse en la codificacin,
Amin , para garantizar un nivel de SNR en el receptor de 3 dB.

2
Aprendizaje Mquina

2.1 Principios generales del aprendizaje mquina


Como se ha estudiado en secciones anteriores, el diseo de estimadores y clasificadores
que son capaces de aprender una funcin para la estimacin o clasificacin de cualquier
nuevo punto x del espacio de observacin (procedimiento denominado induccin) precisa de cierta informacin que relacione las observaciones y el valor a estimar (o la
clase deseada). En los captulos anteriores hemos asumido que dicha informacin estaba
disponible gracias al conocimiento de determinadas distribuciones de probabilidad (enfoque analtico). As, por ejemplo si en un determinado problema de estimacin asumimos conocida pS,X (s, x) disponemos de la caracterizacin ms completa posible para
el diseo ptimo de estimadores (de hecho, para el diseo de estimadores bayesianos
resulta suficiente la distribucin a posteriori de S).
En la prctica, existen un gran nmero de problemas en los que no se dispone del
conocimiento estadstico necesario para llevar a cabo la tarea de estimacin o clasificacin de forma ptima. Sin embargo, si se dispone de datos etiquetados, {x(k) , s(k) },
es decir, de un conjunto de observaciones para las cuales se conoce el valor de la variable objetivo, resulta posible utilizar dicha informacin para la construccin de estimadores o clasificadores siguiendo un enfoque conocido como mquina o de aprendizaje automtico. Esto no es de extraar, ya que puede entenderse que si el conjunto
de datos {x(k) , s(k) } est compuesto por muestras i.i.d. de pS,X (s, x), la informacin
contenida en dicho conjunto de datos puede considerarse como una aproximacin al
propio conocimiento de la densidad de probabilidad, por lo que podr utilizarse en la
tarea de estimacin. Obviamente, conforme el nmero de muestras disponibles crece, el
conjunto de datos proporciona una informacin ms completa acerca de la densidad de
probabilidad conjunta real, por lo que el estimador o decisor construido se aproximar
ms al diseo ptimo analtico.
En esta seccin presentamos algunos de los conceptos clave inherentes al diseo de
estimadores y clasificadores a partir de datos. Cabe mencionar que existen al menos dos
maneras de proceder a partir de dicho conjunto de datos:
Los datos pueden utilizarse en primer lugar para obtener una aproximacin de la densidad de probabilidad conjuntaNtese que en el caso de clasificacin una alternativa frecuentemente

utilizada consiste en la estimacin de las verosimilitudes pX|H (x|h). Esto es mucho ms complicado en el caso
de estimacin dado el carcter continuo de las variables objetivo, pS,X (s, x). Una vez se dispone de dicha estimacin de la d.d.p., puede procederse siguiendo un enfoque analtico convencional. Esta aproximacin se conoce
habitualmente como semianaltica.

38

2 Aprendizaje Mquina
Otra posibilidad es utilizar directamente los datos de entrenamiento para el proceso de estimacin o clasificacin,
evitando la aproximacin de densidad de probabiliidad alguna que es, en general un objetivo ms complicado
que la propia tarea de estimacin o clasificacin. Este enfoque es el que se suele asumir cuando se habla de
Aprendizaje Mquina, y ser el que estudiaremos de forma resumida en el presente captulo.

Resulta pertinente plantearse la cuestin de cul de los dos enfoques, analtico o


mquina, resulta ms potente para la resolucin de problemas de aprendizaje. En principio, no hay situacin ms ventajosa que el conocimiento estadstico del problema. Sin
embargo, en la prctica es habitual que dicha informacin no se conozca (o al menos no
con exactitud), mientras que el acceso a un conjunto de datos etiquetado puede resultar
ms viable. Por ejemplo, si se considera un escenario de clasificacin de imagen en diagnstico mdico, resulta evidente que la disponibilidad de un modelo estadstico preciso
que relacione el valor de los pxeles de la imagen con la variable a estimar (e.g., nivel de
respuesta a un determinado contraste) o la clase a predecir (e.g., presencia o no de tumores) es imposible, mientras que la construccin de un conjunto de pares etiquetados
(conjunto de entrenamiento) nicamente requiere del etiquetado manual de imgenes
concretas por parte de expertos, un procedimiento probablemente costoso, pero viable
en cualquier caso.
En la literatura cientfica y tcnica se viene realizando un gran esfuerzo en esta direccin a lo largo de las ltimas dcadas, disponindose actualmente de una amplia
batera de mtodos de aprendizaje automtico. No es el objetivo de este captulo cubrir
siquiera un nmero reducido de las tcnicas de aprendizaje propuestas, pero s presentar de forma resumida algunos de los conceptos ms importantes de dicho aprendizaje
mquina, revisando nicamente algunas tcnicas concretas a modo ilustrativa.
2.2 Mtodos Paramtricos y no Paramtricos
Paramtrico: Se propone un modelo en forma de una funcin parametrizada. Se trata
de optimizar una determinada funcin de dichos datos que mida la discrepancia entre
las variables objetivos disponibles y las que proporciona el modelo (funcin de coste
basada en muestras, tpicamente promedios muestrales). Adicionalmente, se pueden
incluir trminos de control de la generalizacin. En funcin del problema, podemos
encontrar distintos mtodos de optimizacin. Algunos de ellos proporcionan la solucin ptima en modo bloque (i.e., existe una solucin cerrada), mientras que otros
proceden de manera iterativa. En la ltima parte del curso veremos algn ejemplo de
dichos procesos iterativos en el caso particular de estimacin.
No Paramtrico: Son estrategias que no requieren la definicin a priori de ningn tipo
concreto de funcin que implemente el estimador o clasificador. Lo veremos con un
ejemplo.
2.3 Estimacin Mquina No Paramtrica: Mtodo del vecino ms prximo
s(x) = s(k

siendo
k = arg min kx
k

x(k) k2

2.5 Generalizacin

39

2.4 Estimacin Mquina Paramtrica: Regresin de Mnimos Cuadrados


s(x) = w0 + wT x
Los vectores ptimos se obtienen como

w0
= (XTe Xe ) 1 XTe s
w
con
2
(1)
(1) 3
1 x1 . . . x N
6 1 x(2) . . . x(2) 7
6
N 7
Xe = 6 . 1. .
7
4 .. .. . . ... 5
(K)
(K)
1 x1 . . . x N
s = [s(1) , , s(K) ]T

2.4.1 Modelos Semilineales

s = w0 + w1 f1 (x) + w2 f2 (x) + + wN 0 fN 0 (x) = w0 + w1 y1 + w2 y2 + + wN 0 yN 0


{x(k) , s(k) } ! {y(k) , s(k) }

con

w0
= (YeT Ye ) 1 YeT s
w
2

(1)
(1) 3
1 y1 . . . y N 0
6 1 y (2) . . . y (2) 7
6
N0 7
Ye = 6 . 1. .
. 7
.
.
.
4. .
. .. 5
(K)
(K)
1 y1 . . . y N 0

2.5 Generalizacin
Para el diseo bajo enfoque supervisado se dispone de un conjunto de entrenamiento
con datos supervisados. No obstante, ha de tenerse presente que el objetivo es
aplicar dicha mquina en nuevos datos, diferentes de los disponibles durante el entrenamiento.
Generalizacin: La deseable propiedad de que la mquina proporcione una buena
estimacin/clasificacin en datos diferentes de los del entrenamiento.
Sobreajuste: El comportamiento indeseado que ocurre cuando la funcin de estimacin o clasificacin aprende las particularidades del conjunto de entrenamiento,
debidas al ruido o al efecto del submuestreo, pero no extrapolables al problema real.

40

2 Aprendizaje Mquina

Una forma de garantizar una adecuada generalizacin es mediante la aplicacin de


tcnicas conocidas como de validacin, de forma que un conjunto de datos se deja
aparte para estimar el comportamiento de la mquina, y tener as una forma de predecir cul va a ser el comportamiento en datos diferentes a los usados para el entrenamiento. La validacin cruzada divide el conjunto de entrenamiento en varios
subconjuntos, y promedia los resultados obtenidos al utilizar cada uno de ellos como
de validacin.
En la prctica, el conjunto de test no es conocido, al menos no las etiquetas deseadas.
No obstante, en los diseos de laboratorio es frecuente disponer de dichas etiquetas.
nicamente se pueden utilizar a los efectos de una evaluacin final de los diferentes
mtodos y su comparacin; en ningn caso deberan utilizarse durante el diseo.

References

1. Hayes M H (1996) Statistical Digital Signal Processing and Modeling. John Wiley and Sons, New York, EE.UU.
2. Oppenheim A, Schaffer R (1999) Discrete-Time Signal Processing 2nd Ed. Prentice Hall, New York, EE.UU.
Thesis, Columbia University, New York

Вам также может понравиться