Вы находитесь на странице: 1из 80

Probabilidades.

Luis Arenas
February 6, 2011

Chapter 1
Espacios de Probabilidad
Finitos.
Al lanzar una moneda se tienen dos resultados posibles: Cara y Sello. La
pregunta sobre cual es la probabilidad de obtener cara se interpreta en
matematicas como una funcion que asigna a cada elemento del conjunto
= {cara, sello} un n
umero real en el intervalo [0, 1] llamado su probabilidad. En otras palabras, el problema esta totalmente determinado si se
conocen las probabilidades p(cara) y p(sello). Por ejemplo, se dice que la
moneda esta equilibrada si p(cara) = p(sello). Uno asume, de hecho, que
el conjunto contiene todas las posibilidades. En particular, desestimamos
la probabilidad de que la moneda quede parada de canto o un ave la devore mientras esta en el aire. Esto se expresa matematicamente mediante la
ecuacion
p(cara) + p(sello) = 1.
Por cierto podemos, por ejemplo, incluir la tercera probabilidad considerando
un nuevo conjunto A0 = {cara, sello, canto} y asignar a sus elementos probabilidades que satisfagan la ecuacion
p(cara) + p(sello) + p(canto) = 1,
y modelar el hecho de que consideramos la tercera altermativa como extremadamente improbable mediante una condicion del tipo p(canto) << 1.
Mas generalmente, una funcion de probabilidad en el conjunto finito es
una funcion p : [0, 1] que satisface
X
p() = 1.

L. Arenas-Carmona

En particular, para todo subconjunto


P B de puede definirse la probabilidad
del conjunto B mediante P (B) = B p(). La probabilidad P (B) es un
n
umero entre 0 y 1. Notese que se tienen las propiedades siguientes, cuya
demostracion se deja al lector:
1. P () = 0.
2. P () = 1.
3. P (B c ) = 1 P (B).
4. P (B1 B2 ) = P (B1 ) + P (B2 ) P (B1 B2 ).
5. P (B1 B2 ) = P (B1 ) + P (B2 ) si B1 y B2 son disjuntos.
6. Si {Bi }iI es una familia finita de conjuntos disjuntos, entonces
!
X
[
P (Bi ) = P
Bi .
iI

iI

7. Si B1 B2 , entonces P (B1 ) P (B2 ).


Conversamente, si () es la coleccion de todos los subconjuntos de , entonces toda funcion no negativa P : () R que satisface las condiciones
2 y 6 define una funcion de probabilidad en el conjunto , ya que para todo
B se tiene
X
P ({}),
P (B) =
B

y podemos definir p() = P ({}). Una funcion P : () R que satisface


2 y 6 recibe el nombre de medida de probabilidad en el conjunto . Un
par (, P ), donde es un conjunto finito y P es una medida de probabilidad, recibe el nombre de espacio de probabilidad (finito). Concluimos que el
espacio de probabilidad puede definirse, ya sea mediante la funcion de probabilidad p o mediante la medida de probabilidad P . El conjunto recibe el
nombre de espacio muestral y un subconjunto B recibe el nombre de
evento.
ejemplo 1.1. Sea = {1, 2, 3, 4, 5, 6}, y sea p(i) = 1/6 para todo i. Esta
es la funcion probabilidad que se esperara al arrojar un dado simetrico. El
conjunto de los pares sera B = {2, 4, 6} y el de los n
umeros compuestos

L. Arenas-Carmona

sera C = {4, 6}. En este caso se tiene P (B) = 1/2 y P (C) = 1/3. En otras
palabras, la probabilidad del evento n
umero par es de 1/2 y la probabilidad
del evento n
umero compuesto es de 1/3. El u
nico elemento de B que no esta
en C es el 2, y de hecho p(2) = 1/6 = P (B) P (C). El evento B C c = {2}
es la interseccion de los eventos B y C c , el complemento de C. Tambien
diremos que corresponde al evento n
umero primo y n
umero par o n
umero
primo y par. Utilizaremos tambien la notacion
P (n
umero primo y par) = 1/6.
Las uniones se trataran de igual modo.
****************************
ejemplo 1.2. Se arroja una moneda dos veces. En este caso hay 4 resultados
posibles (sin considerar caidas de canto o aves tragamonedas):
n
o
= (cara, cara), (cara, sello), (sello, cara), (sello, sello) .
Si la moneda esta equilibrada, es razonable asumir que estas cuatro alternativas son igualmente probables y tiene cada una la probabilidad 1/4. En
este caso la probabilidad de obtener una cara en la primera tirada es la
probabilidad del evento
n
o
B = (cara, cara), (cara, sello) .
De hecho P (B) = 1/2, que es la misma probabilidad que asociamos a la
obtencion de una cara en el lanzamiento de una moneda. Del mismo modo,
la probabilidad de obtener una cara en la segunda tirada es la probabilidad
del evento
n
o
C = (cara, cara), (sello, cara) .
Como antes se tiene P (C) = 1/2. Notese que en particular que
h
i
P {(cara, cara)} = 1/4 = 1/2 1/2.
En otras palabras, para obtener la probabilidad de obtener una cara en cada
lanzamiento, multiplicamos la probabilidad de obtener una cara en el primer
lanzamiento por la probabilidad de obtener una cara en el segundo lanzamiento. Intuitivamente, consideramos que si la probabilidad de obtener una
cara en el segundo lanzamiento es 1/2, la probabilidad de obtener (cara, cara)
es la mitad de la probabilidad de obtener una cara en el primer lanzamiento.
A continuacion formalizaremos este concepto.

L. Arenas-Carmona

definici
on 1.3. Dos eventos B y C se dicen independientes si P (B C) =
P (B)P (C).
ejemplo 1.4. En el caso de la moneda arrojada dos veces, el evento de
obtener cara en la primera tirada es independiente del evento de obtener
cara en la segunda tirada.
definici
on 1.5. Para Dos eventos B y C cualesquiera, tales que P (B) 6= 0,
se define la probabilidad condicionada P (C|B) = P (B C)/P (B). Similarmente, para un elemento B se define p(|B) = p()/P (B), mientras
que p(|B) = 0 si B c . La funcion 7 p(|B) es una funcion de
probabilidad, ya que es positiva y se tiene
X

p(|B) =

p(|B) =

X p()
1 X
P (B)
=
p() =
= 1.
P
(B)
P
(B)
P
(B)
B
B

La probabilidad condicionada es frecuentemente interpretada como la probabilidad a posteriori una vez que se ha establecido que el evento B ocurre.
Se sigue de la definicion que B y C son independientes si y solo si
P (C|B) =

P (C B)
P (C)P (B)
=
= P (C).
P (B)
P (B)

En otras palabras, el conocimiento de que el evento B ocurre no afecta nuestro calculo de la probabilidad del evento C. Intuitivamente, pensamos que
dos eventos son independientes si ninguno de ellos es consecuencia del otro
ni existe una causa com
un a ambos. Por ejemplo, si yo ignoro la hora que
marca mi reloj de pulsera, pero observo que el reloj de la plaza marca las
5, es mucho mas probable que mi reloj marque una hora cercana a las 5
que una hora cercana a la una. Esto se debe a que existe una causa com
un
a ambos fenomenos (ambos relojes marcan la hora). Por otro lado, en el
ejemplo de las monedas, nuestra intuicion nos dice que la primera vez que
tiramos la moneda no afecta la segunda, por lo que ambos eventos deben
ser independientes. Uno espera naturalmente que si no existe relacion causal
alguna entre dos fenomenos, nuestro conocimiento de uno no influya en nuestro conocimiento del otro, de modo que en particular, nuestro calculo de las
probabilidades asociadas al segundo fenomeno no deben ser influenciadas por
nuestro conocimiento del primero. Es esta consecuencia de la nocion intuitiva
de dependencia la que se utiliza como definicion en la teora matematica, a
falta de una manera mas directa de traducir a smbolos la nocion intuitiva

L. Arenas-Carmona

de causalidad. Es posible, sin embargo, que eventos que si esten relacionados


causalmente sean matematicamente independientes. Por ejemplo, si una caja
contiene las siguientes bolas:
1. Una bola roja grande,
2. Una bola roja peque
na,
3. Una bola negra grande,
4. Una bola negra peque
na,
los eventos bola roja y bola grande son ciertamente independientes pero para
cada bola grande en particular la probabilidad de extraerla es fuertemente
modificada una vez que sabemos que la bola extraida fue roja. Para la bola
roja grande esta probabilidad subio de 14 a 21 , mientras que para la bola negra
grande bajo de 14 a 0. La independencia en este caso es una consecuencia
del hecho de que la probabilidad no cambio en promedio para el conjunto de
bolas grandes. Ignoraremos esta distincion en lo que sigue y nos enfocaremos
en la definicion matematica dada mas arriba.
ejemplo 1.6. Un ejemplo en el que no hay independencia es el siguiente: Se
tiene una bolsa con dos bolas, una negra y una roja. Por turno, dos personas
extraen cada una una bola y la conservan (no hay remplazo). En este caso
el espacio muestral es
n
o
= (negra, roja), (roja, negra) ,
de donde la probabilidad de obtener una bola roja en la segunda estraccion
es la misma que la de obtener una bola negra en la primera estraccion, y la
misma probabilidad de obtener el par (negra, roja). Las dos estracciones de
este ejemplo no son independientes, salvo en el caso trivial, donde se tiene
h
i
p (negra, roja) {0, 1}.
S
Notese que si A = iI Ai es una particion de A en conjuntos disjuntos
entonces para todo subconjunto B de A se tiene
X
X
P (B) =
P (B Ai ) =
P (B|Ai )P (Ai ).
(1.1)
iI

iI

L. Arenas-Carmona

En particular se tiene
P (Ai |B) =

P (BAi )
P (B)

P P (B|Ai )P (Ai )
.
iI P (B|Ai )P (Ai )

(1.2)

Este resultado se conoce como Teorema de Bayes. Nos referiremos tambien


a la relacion (1.1) como descomposici
on por casos.S
Una coleccion P = {B1 , . . . , Bn }, donde A = ni=1 Bi y Bi Bj = si
i 6= j, se denomina una particion de A. Notese que p(Bi ) = P (Bi ) es una
funcion de probabilidad en P. Diremos que es la funcion de probabilidad
asociada a la particion.
definici
on 1.7. Una variable aleatoria en el espacio de probabilidad finito
(, P ) es una funcion X : R. Su esperanza, que sera denotada EP (X),
o simplemente E(X) si no hay riesgo de confusion, se define por
X
E(X) =
X()p().

Tambien se utiliza la notacion XdP (), en cuyo caso se denomina la


integral de X con respecto a la medida de probabilidad P . Notese que se
tiene
X
E(X + Y ) =
[X() + Y ()]p() =

X()p() +

Y ()p() = E(X) + E(Y ),

y si X() = c es una constante, se tiene


X
X
E(X) =
cp() = c
p() = c 1 = c.

Si B es un subconjunto de , la esperanza condicionada de X respecto de B


es por definicion
Z
X
X
E(X|B) =
X()dP (|B) =
X()p(|B) =
X()p(|B),

dado que p(|B) = 0 si


/ B. En particular, la esperanza condicionada
E(X|B) depende solo de los valores de la variable aleatoria en los puntos de
B. Se sigue que si X e Y son variables aleatorias que coinciden en B se tiene
E(X|B) = E(Y |B).

L. Arenas-Carmona

Notese que p() = p(|B)P (B) para todo en B. En particular, se tiene


que si P = {B1 , . . . , Bn } es una particion de , entonces
!
X
X X
E(X) =
X()p() =
X()p(|Bi ) P (Bi )
Bi P

Bi

E(X|Bi )P (Bi ).

Bi P

Dada un real cualquiera r, se define Ar (X) = { |X() = r} y se denota


P (X = r) := P [Ar (X)].
Por cierto que P (X = r) 6= 0 solo para una cantidad finita de valores r. La
esperanza condicionada E(Y |X = r) es por definicion E[Y |Ar (X)], la cual
esta definida siempre que P (X = r) 6= 0. El rango probable o esencial RP (X)
(o R(X) si P es claro del contexto) de X es el conjunto de los valores r R
tales que P (X = r) 6= 0. En este caso se tiene E(X|X = r) = r para todo
r RP (X). Dejamos la demostracion al lector. En particular, en terminos
de las probabilidades P (X = r), la esperanza de X puede escribirse como
X
E(X) =
rP (X = r).
rR(X)

Por cierto, la suma precedente no cambia si se remplaza R(X) por un conjunto mayor. En lo que sigue escribiremos simplemente
X
rP (X = r),
E(X) =
rR

con el entendido de que esta suma es finita.


ejemplo 1.8. Suponga que se ordena aleatoriamente los n
umeros de uno a
n de manera que cada orden posible sea igualmente probable. Para cada
k = 1, . . . , n sea Xk una variable aleatoria que vale 1 si el n
umero k esta en
su posicion y 0 en caso contrario. En este caso se tiene E(Xk ) = P (Xk =
1) = 1/n. Sea Y una variable aleatoria que cuenta la cantidad de n
umeros
que se encuentran en su posicion correcta. Es facil ver que Y = X1 +. . .+Xn ,
de donde se sigue que
E(Y ) =

n
X
k=1

E(Xk ) =

n
X
k=1

1/n = 1.

L. Arenas-Carmona

definici
on 1.9. Dos variables aleatorias X y Y se dicen independientes si
para todo par de n
umeros reales r y s los conjuntos Ar (X) y As (Y ) son
independientes. En este caso se tiene
P (X = s|Y = r) = P (X = s)
para cada par de n
umeros reales s y r tales que P (Y = r) 6= 0. Se sigue que
X
X
E(X|Y = r) =
sP (X = s|Y = r) =
sP (X = s) = E(X)
sR

sR

para todo real r tal que P (Y = r) 6= 0. En particular


X
X
E(XY ) =
E(XY |Y = r)P (Y = r) =
E(Xr|Y = r)P (Y = r)
rR(Y )

rR(Y )

rE(X|Y = r)P (Y = r) =

rR(Y )

rE(X)P (Y = r) = E(X)E(Y ),

rR(Y )

para todo par de variables aleatorias independientes X e Y .


Sean ahora (1 , P1 ) y (2 , P2 ) dos espacios de probabilidad finitos, y sea
= 1 2 . Entonces la funcion p(1 , 2 ) = p1 (1 )p1 (1 ) es una funcion
de probabilidad en el espacio , de hecho
!
!
X
X
X
p(1 , 2 ) =
p1 (1 )
p2 (2 ) = 1.
1 1

(1 ,2 )

2 2

La medida de probabilidad P definida por p satisface


X
P (B1 B2 ) =
p(1 , 2 ) =
(1 ,2 )B1 B2

!
X

p1 (1 )

1 B1

!
X

p2 (2 )

= P1 (B1 )P2 (B2 ).

2 B2

Dado que
(B1 2 ) (1 B2 ) = B1 B2 ,
se tiene que los eventos
B 1 = B1 2 y B 2 = 1 B2
son independientes. En particular, tomando B1 = Ar1 (X1 ) y B1 = Ar1 (X1 )
para variables aleatorias X1 y X2 y n
umeros reales r1 y r2 cualesquiera, se
tiene el siguiente resultado:

L. Arenas-Carmona

Si cada Xi es una variable aleatoria que depende solo de la coordenada i , las variables X1 y X2 son independientes con respecto
a la medida de probabilidad producto.
Por otro lado se tiene que, si X depende solo de 1 , es decir X(1 , 2 ) =
Y (1 ), entonces
X
EP (X) =
X(1 , 2 )p(1 , 2 ) =
(1 ,2 )

X
1 1

Y (1 )p1 (1 )

p2 (2 ) =

2 2

Y (1 )p1 (1 ) = EP1 (Y ).

1 1

En general uno puede identificas una variable aleatoria que depende solo de
la primera variable con una variable aleatoria en el espacio 1 . Del mismo
modo, todo evento de la forma B1 2 se identifica con el evento B1 en 1 .
Todas estas consideraciones se aplican a productos de mas de dos factores.
ejemplo 1.10. La variable aleatoria X : {0, 1} R definida por X() =
recibe el nombre de V.A. de Bernouilli. Supongamos que cada conjunto
i = {0, 1} tiene dada la funcion de probabilidad definida por p(1) = q,
p(0) = 1 q con p y q fijos. Esto induce una probabilidad producto en el
producto cartesiano
n

.
i

i=1

Con respecto a esta medida, la probabilidad de obtener una secuencia dada


de ceros y unos (a1 , . . . , an ) es q r (1 q)s , donde r es el n
umero de unos y
s el n
umero de ceros de la secuencia. La probabilidad de obtener r unos y
s ceros (si r + s = n) es por lo tanto nr q r (1 q)s . Esta es realmente una
funcion de probabilidad en el conjunto {0, 1, . . . , n}, puesto que
n  

n
X
n r
q (1 q)nr = q + (1 q) = 1.
r
r=0
Si X es la variable aleatoria que cuenta el n
umero de ceros y unos en la
secuencia, se tiene X = X1 + . . . + Xn , donde cada Xi es una V.A. de
Bernouilli en la coordenada correspondiente. Se dice que X es una V.A.
Binomial o con distribucion binomial. Notese que
E(X) = E(X1 ) + . . . + E(Xn ) = np.

L. Arenas-Carmona

10

La Varianza de una variable aleatoria X se define por




V (X) = E [X E(X)]2 = E(X 2 ) E(X)2 .
Es una medida de la dispersion de los valores de la variable aleatoria. Dejamos al lector la tarea de mostrar que V (X) = 0 si y solo si X es una
constante.
ejemplo 1.11. Si X : {0, 1} R es una V.A. de Bernouilli, se tiene
V (X) = (1 p)2 p + (0 p)2 q = q 2 p + p2 q = pq(q + p) = pq.
Tambien puede realizarse el calculo como sigue:
V (X) = E(X 2 ) E(X)2 = E(X) E(X)2 = p p2 = pq,
donde se usa el hecho de que X 2 = X, pues esa variable aleatoria toma solo
valores 0 y 1.
La Varianza de una suma X + Y satisface

 
2
V (X + Y ) = E [X + Y ]2 E(X) E(Y ) =


V (X) + V (Y ) + 2 E(XY ) E(X)E(Y ) .
El termino E(XY ) E(X)E(Y ) recibe el nombre de covarianza (o coeficiente de correlacion) de las variables X e Y y se denota cov(X, Y ). Si la
covarianza es nula, las variables X e Y se dicen incorrelacionadas, en cuyo
caso V (X + Y ) = V (X) + V (Y ). Este es el caso, en particular, si X e Y son
independientes.
ejemplo 1.12. Si X = X1 + . . . + Xn donde las Xi son V.A. independientes
de Bernouilli, se tiene
V (X) = V (X1 ) + . . . + V (Xn ) = npq.
Esta es, en particular, la varianza de una V.A. con distribucion binomial

Chapter 2
Espacios de Probabilidad
Numerables.
En este captulo extenderemos las definiciones anteriores al caso en el cual el
espacio = {1 , . . .} es numerable. En este caso una funcion de probabilidad
en es una funcion p : [0, 1] tal que

p(i ) = 1,

i=1

donde la suma debe entenderse como una serie convergente, y por lo tanto
absolutamente convergente ya que se trata de una serie de terminos positivos.
En particular, el orden de los terminos es irrelevante y puede escribirse simplemente
X
p() = 1.

Del mismo modo, para cada subconjunto B de se define


X
P (B) =
p().
B

Esta suma es tambien absolutamente convergente por ser una sub-suma de la


anterior. Puede tambien expresarse en terminos de la funcion caracterstica
B de B mediante
X
P (B) =
B ()p().

Las propiedades 1-6 del captulo anterior se extienden facilmente a este caso.
Por ejemplo se tiene
11

L. Arenas-Carmona

12

Proposici
on 2.1. Si B1 y B2 son subconjuntos de , entonces
P (B1 B2 ) = P (B1 ) + P (B2 ) P (B1 B2 ).
Demostraci
on Sigue inmediatamente de la formula
B1 B2 () = B1 () + B2 () B1 B2 ().
Las restantes propiedades se deducen facilmente de esta o se generalizan
de manera similar. De hecho, la propiedad 5 se generaliza a familias numerables, es decir:
Proposici
on 2.2. Si {Bi }iN 
es una familia
numerable de conjuntos disjun
S
P
tos, entonces i=1 P (Bi ) = P
i=1 Bi .
Demostraci
on Enumeremos = {1 , . . . , } como al comienzo y sea
RM = {M , M +1 , . . . , }. Notese que P (RS
M ) 0 cuando M por ser la
cola de una serie convergente. Sea U =
i=1 Bi . Para cada entero positivo
SN
N considerese el conjunto UN = i=1 Bi . Observese que P (UN ) P (U ) por
la propiedad 6. Por otro lado, si N es suficientemente grande todo j con
j < M que esta contenido en alg
un Bi , esta de hecho contenido en un Bi con
i N . Se sigue que el conjunto diferencia U UN esta contenido en RM , de
donde
0 P (U UN ) P (RM ) 0.
Como U = UN (U UN ), se tiene P (UN ) = P (U )P (U UN ) P (U ).
ejemplo 2.3. Se lanza una moneda todas las veces necesarias hasta obtener
una cara por primera vez. En este caso, el conjunto es el conjunto de todas
las secuencias finitas
cara , sello cara , sello sello cara , sello sello sello cara, . . .

Llamaremos i al i-esimo termino de la sucesion precedente. Para una moneda equilibrada se tiene p(i ) = 2i . En este caso, la probabidad de obtener
un n
umero par de lanzamientos es

X
i=1

p(2i ) =

X
i=1

22i = 1/3.

L. Arenas-Carmona

13

Notese que en este caso existe el evento de un n


umero infinito de tiradas,
evento que llamaremos . Notese que
p( ) = 1

p(i ) = 1

i=1

2i = 0.

i=1

En este caso diremos que el evento es improbable. Esto no quiere decir que
sea imposible realizar un n
umero infinito de tiradas, sino que la probabilidad
de que eso ocurra es 0. Esta distincion sera mas clara en el proximo captulo.
La variable aleatoria que cuenta el n
umero de tiradas necesarias hasta obtener
la primera cara recibe el nombre de tiempo de espera asociado al evento cara.
ejemplo 2.4. Si = {1 , 2 , . . .} de modo que p(i ) =
tiene una distribucion de Poisson. Notese que la formula
1++

i
,
i!

se dice que

2
+ . . . = e
2!

implica que = e . La distribucion de Poisson aparece naturalmente como


un caso lmite de la distribucion binomial. Si cada uno de n objetos se coloca
aleatoriamente en
cajas, la probabilidad de obtener r objetos en una
 una de m
n r
nr
caja dada es r q (1 q)
donde q es la probabilidad que tiene un objeto
dado de caer en esa caja. Si cada caja es equiprobable, se tiene q = 1/m. Si
se toma un n
umero cada vez mayor de cajas, entonces q 0. Supongamos
que la proporcion = n/m = nq es constante (o tiende a una constante).
Entonces se tiene
 
r1
nr r Y n i
e r
n r
1
nr
1

.
q (1 q)
=
r!
n
n
r!
r
i=0
La Distribucion de Poisson se utiliza por ejemplo para estimar la probabilidad
de encontrar un n
umero dado n de peces en una peque
na porcion de un
estanque (que hace el papel de caja), asumiendo que la densidad de peces
en el estanque es conocida. Tambien puede utilizarse inversamente, para
conocer la densidad de peces en el estanque observando la distribucion del
n
umero de peces en una region peque
na.
Una variable aleatoria se define como una funcion arbitraria X :
R {}. Diremos que es finita si su imagen esta contenida en R. La
probabilidad P (X = r) se define como antes. En el caso numerable no es

L. Arenas-Carmona

14

necesariamente cierto que P (X = r) es no nula para un n


umero finito de
valores de r (solo puede afirmarse que el n
umero de tales r es numerable).
Sin embargo, si se obtiene el siguiente resultado.
Proposici
on 2.5. Si X es una variable aleatoria finita en un espacio de
probabilidad numerable, entonces P (X > t) 0 cuando t .
Demostraci
on Sea  > 0. Se sigue de la definicion que si R(X) denota
el rango de X, entonces
X
P (X = r) = 1.
rR(X)

Enumeremos los elementos de R(X) = {r1 , . . .}. Existe un N > 0 tal que
N
X

P (X = ri ) > 1 .

i=1

Ahora si T > r1 , . . . , rN , se tiene que X > T implica T 6= r1 , . . . , rn , por lo


que P (X > T ) < P (X 6= r1 , . . . , rn ) < .
definici
on 2.6. La esperanza E(X) de una variable aleatoria X se define
mediante

X
E(X) =
X(i )p(i ),
i=1

si esta serie resulta ser absolutamente convergente. En tal caso diremos que
la variable aleatoria X tiene esperanza definida o que es integrable. Si X es
integrable el orden de los sumandos no interesa y puede escribirse
X
E(X) =
X()p().

Notese que este es siempre el caso si X es una variable aleatoria acotada,


ya que la serie de termino general p() es absolutamente convergente. Si es
necesario recordar la medida P correspondiente a la funcion de probabilidad
p, puede utilizarse la notacion EP (X) = E(X), o bien la notacion analtica
Z
E(X) =
X()dP ().

L. Arenas-Carmona

15

ejemplo 2.7. Notese que resulta muy sencillo definir variables aleatorias
finitas cuya esperanza no converge: Por ejemplo, si se lanza una moneda
simetrica i veces para obtener una cara, se tiene que la variable aleatoria
X(i ) = 2i no tiene esperanza definida, ya que la serie

X(i )p(i ) =

i=1

2i 2i =

i=1

i=1

no converge.
ejemplo 2.8. Si B es un evento, la funcion caracterstica B es una
variable aleatoria. Su esperanza esta dada por
E(B ) =

B (i )p(i ) =

p(i ) = P (B).

i B

i=1

ejemplo 2.9. Si X es una variable aleatoria y F : R {} R {} es


una funcion arbitraria, entonces F (X) = F X es una variable aleatoria. Su
esperanza esta dada por
E[F (X)] =

F [X(i )]p(i ),

i=1

si dicha serie converge. Un caso particular importante es el de la funcion


F (x) = |x|. En este caso
E(|X|) =

|X(i )|p(i ).

i=1

Notese que en particular la condicion de convergencia absoluta en la definicion


de variable aleatoria integrable implica que X es integrable si y solo si |X|
es integrable.
Proposici
on 2.10. La funci
on X 7 E(X) es lineal en su dominio de
definicion y la esperanza de la funci
on constante c es E(c) = c.
Demostraci
on Tal como en el caso finito, podemos escribir
X
E(X + Y ) =
[X() + Y ()]p() =

L. Arenas-Carmona

16

X()p() +

Y ()p() = E(X) + E(Y ),

donde la convergencia absoluta de la primera suma esta garantizada por la


convergencia absoluta de las restantes. Por otro lado
X
X
E(c) =
cp() = c
p() = c 1 = c.

Proposici
on 2.11. La funci
on X 7 E(X) es mon
otona, en el sentido de
que si X() < Y () para todo , se tiene E(X) < E(Y ).
Demostraci
on
E(X) =

X()p()

Y ()p() = E(Y ).

ejemplo 2.12. Si K1 < X() < K2 para todo , se tiene K1 < E(X) <
K2 .
ejemplo 2.13. Si X es una variable aleatoria integrable arbitraria se tiene
|X| X |X|, por lo que E(|X|) E(X) E(|X|), es decir |E(X)|
E(|X|).
ejemplo 2.14. Si X es una variable aleatoria finita no negativa, entonces se
tiene XA XB para todo par de subconjuntos A y B de con A B,
por lo que E(XA ) E(XB ). En particular, tomando B = se tiene
E(XA ) E(X).
ejemplo 2.15. Si X es una variable aleatoria integrable, entonces se tiene
para todo subconjunto B de la identidad
X
X
E(XB ) =
X()B ()p() =
X()p(|B)P (B) = E(X|B)P (B).

Los conceptos de independencia de conjuntos y variables aleatorias, as


como las definiciones de probabilidad y esperanza condicionada se traducen
literalmente al caso numerable. Tambien se traduce literalmente la formula
X
E(X) =
E(X|Bi )P (Bi ),
Bi P

L. Arenas-Carmona

17

si P = {B1 , . . . , Bn } es una particion finita de . Esta formula puede demostrarse alternativamente utilizando las funciones caractersticas. De hecho, siendo P una particion finita se tiene
n
X

Bi = 1,

i=1

de donde
E(X) = E

n
X

!
Bi

i=1

n
X
i=1

E(XBi ) =

n
X

E(X|Bi )P (Bi ).

i=1

Diremos que una sucesion {Xn }nN de variables aleatorias converge a una
variable aleatoria X si para todo se tiene Xn () X().
Proposici
on 2.16. Supongamos que la sucesi
on {Xn }nN de variables aleatorias acotadas por una misma constante K converge a una variable aleatoria
X. Entonces E(Xn ) converge a E(X).
Demostraci
on Sea  > 0. Para cada , sea N = N (, ) el
menor entero tal que |Xn () X()| <  para todo n > N . La funcion
7 N (, ) es una variable aleatoria finita (por hipotesis) que denotaremos
N . En particular, P (N > n) 0 cuando n . Ahora bien:




E(|Xn X|) = E |Xn X| N > n P (N > n)+




E |Xn X| N n P (N n) 2KP (N > n) +  .
Como  > 0 era arbitrario, se concluye E(|Xn X|) 0 cuando n .
Esto implica




0 E(Xn ) E(X) E(|Xn X|) 0,
de donde E(Xn ) E(X).
Proposici
on 2.17. Supongamos que sucesi
on {Xn }nN de variables aleatorias converge uniformemente a una variable aleatoria X. Entonces E(Xn )
converge a E(X).

L. Arenas-Carmona

18

Demostraci
on Basta tomar Yn = Xn X y observar que |Yn | esta
acotado por 1 para n suficientemente grande, por lo que E(Yn ) 0.
Notese que es posible dar una demostracion directa del corolario observando que para n suficientemente grande se tiene X  < Xn < X + . Los
detalles se dejan al lector.
Hay un segundo teorema de convergencia mas fuerte que el de convergencia acotada que utilizaremos en lo que sigue. Para ello necesitamos alguna
preparacion.
Proposici
on 2.18. Sea Y una V.A. positiva e integrable. Existe una medida
de probabilidad PY tal que para toda variable aleatoria X se tiene EY (X) =
E(XY )/E(Y ) si alg
un lado de la ecuaci
on converge.
Demostraci
on Para cada se define pY () = Y ()p()/E(Y ).
Dejamos al lector la tarea de comprobar que esta formula define una funcion
de probabilidad. La esperanza de X con respecto a esta medida esta dada
por
X
X
EY (X) =
X()pY () =
X()Y ()p()/E(Y ),

de donde se sigue lo pedido.


Proposici
on 2.19. Supongamos que la sucesi
on {Xn }nN de variables aleatorias acotadas por una misma V.A. positiva e integrable Y converge a una
variable aleatoria X. Entonces E(Xn ) converge a E(X).
Demostraci
on Se define Zn = Xn /Y cuando Y 6= 0, y Zn = 0 en caso
contrario. Notese que Xn = Zn Y . Se define Z del mismo modo, as que
X = ZY . La definicion implica que Zn Z para todo punto . Como
Xn esta acotado por Y , se tiene que Zn 1. Ahora se tiene
E(Xn ) = E(Zn Y ) = EY (Zn ) EY (Z) = E(X).

Proposici
on 2.20. Si X es una variable aleatoria y F : R R es una
funcion, entonces toda variable aleatoria Y que es independiente con X es
independiente con F (X).

L. Arenas-Carmona

19

Demostraci
on Sean r, s R. Basta probar que




P F (X) = r, Y = s = P F (X) = r P (Y = s).
Para eso observamos que F (X) = r implica X = t para alg
un t F 1 (r).
Se sigue que


X
P F (X) = r, Y = s =
P (X = t, Y = s)
tF 1 (r)

P (X = t)P (Y = s) = P F (X) = r P (Y = s).

tF 1 (r)

definici
on 2.21. Una variable aleatoria X : R se dice simple si existe
una particion P = {B1 , . . . , Bn } de tal que X es constante en cada conjunto
Bi . En este caso puede considerarse a X como una funcion definida en P
y el calculo de su esperanza se reduce al calculo de la esperanza de una
variable aleatoria definida en un espacio finito. Utilizaremos a menudo esta
observacion en lo que sigue.
Proposici
on 2.22. Si X e Y son variables aleatorias independientes e integrables y al menos una es simple, se tiene E(XY ) = E(X)E(Y ).
Demostraci
on Suponiendo que Y es simple, se tiene que su rango R(Y )
es finito y se tiene, tal como en el caso finito:
X
E(XY ) =
E(XY |Y = r)P (Y = r)
rR(Y )

E(Xr|Y = r)P (Y = r) =

rR(Y )

rE(X|Y = r)P (Y = r)

rR(X)

rE(X)P (Y = r) = E(X)E(Y ).

rR(Y )

Proposici
on 2.23. Toda variable aleatoria acotada X es lmite uniforme de
variables aleatorias simples que son funciones en X.

L. Arenas-Carmona

20

Demostraci
on Sea X una variable aleatoria tal que para todo
se tiene K X() K. Se define Xn () = nk si nk X() < k+1
es
n
inmediato que para todo n y todo se tiene |Xn () X()| < n1 . El
hecho de que cada Xn es simple sigue si observamos que Xn toma solo valores
de la forma nk con K n1 < nk < K por lo que hay solo una cantidad finita
de valores posibles. Por otro lado, es inmediato que Xn = n1 [nX] donde [a]
denota la funcion parte entera de a.
Proposici
on 2.24. Si X e Y son variables aleatorias independientes e integrables y al menos una es acotada, se tiene E(XY ) = E(X)E(Y ).
Demostraci
on Si K X K escribimos X como un lmite uniforme de variables aleatorias Xn que son tambien independientes de Y .
Como |Y Xn | esta acotada por la V.A. integrable KY , se tiene por un lado
E(Xn Y ) E(XY ) y por otro E(Xn Y ) = E(Xn )E(Y ) E(X)E(Y ).
El resultado anterior es valido bajo la hiptesis de independencia e integridad de ambas variables solamente. A fin de demostrarlo, necesitaremos
un teorema de descomposicion de la esperanza para particiones numerables.
Proposici
on 2.25. Sea X una variable aleatoria integrable. Entonces
E(X|X n)P (X n) 0, cuando n .
Demostraci
on Sea Yn la variable aleatoria que vale 0 si X < n y 1 si
no. Entonces
E(XYn ) = E(XYn |X n)P (X n) + E(XYn |X < n)P (X < n)
= E(X|X n)P (X n).
Se sigue que
E(X|X n)P (X n) = E(XYn ) = EX (Yn )E(X) = PX (X n),
y el resultado sigue de la Proposicion 2.5 que el u
ltimo termino tiende a
cero.
Proposici
on 2.26. Sea X una variable aleatoria integrable. si = {B1 , B2 . . .}
es una particion numerable de , se tiene

X
E(X) =
E(X|Bi )P (Bi ),
i=1

y esta serie es absolutamente convergente.

L. Arenas-Carmona

21

Demostraci
on Notese que


 



E(X|Bi )P (Bi ) E |X| Bi P (Bi ).
Remplazando X por |X| si es necesario podemos asumir que X es positiva.
Sea T una variable aleatoria tal que T () = n si y solo si Bn . Para cada
n
umero natural N la particion
N = {B1 , . . . , BN , CN }
donde CN =

i=N +1

Bi , satisface

E(X) =

N
X

E(X|Bi )P (Bi ) + E(X|CN )P (CN ),

i=1

por lo que basta probar que E(X|CN )P (CN ) converge a 0. Observese que
CN si y solo si T () > N por lo que el resultado sigue de la proposicion
precedente.
En particular, si tomamos la particion formada por los conjuntos
Ar (X) = { |X() = r},
se tiene:
Corolario 2.26.1. Si X una variable aleatoria integrable, entonces
X
E(X) =
rP (X = r),
rR(X)

donde el rango esencial R(X) puede remplazarse por cualquier conjunto mayor.
Tal como en el caso finito, podemos escribir
X
E(X) =
rP (X = r),
rR

con el entendido de que esta suma tiene un n


umero numerable de terminos
no nulos y es absolutamente convergente.
Mas generalmente, con las mismas convenciones, se tiene:

L. Arenas-Carmona

22

Corolario 2.26.2. Si X una variable aleatoria tal que F (X) es integrable,


entonces
X
E[F (X)] =
F (r)P (X = r).
rR

Proposici
on 2.27. Si X e Y son variables aleatorias independientes e integrables, entonces XY es tambien integrable y se tiene E(XY ) = E(X)E(Y ).
Demostraci
on Supongamos primero que se sabe de antemano que XY
es integrable. Entonces podemos escribir como en el caso finito:
X
X
E(XY ) =
E(XY |Y = r)P (Y = r) =
E(Xr|Y = r)P (Y = r)
rR(Y )

rR(Y )

rE(X|Y = r)P (Y = r) =

rR(Y )

rE(X)P (Y = r) = E(X)E(Y ),

rR(Y )

utilizando el resultado precedente. En el caso general, basta probar que


|XY | = |X||Y | es integrable, por lo que podemos suponer que X e Y son positivas. Ademas, si definimos Xn = min{X, n}, se tiene que el producto Xn Y
es integrable ya que Xn es acotada y por lo tanto E(Xn Y ) = E(Xn )E(Y )
E(X)E(Y ). Como cada sub-suma finita de la suma
X
X()Y ()p()
(2.1)

que define E(XY ) es sub-suma de la suma correspondiente que define a


E(Xn Y ) para alg
un n, esta esta acotada por E(X)E(Y ) por lo que (2.1)
converge.

Chapter 3
Espacios de probabilidad.
La teora desarrollada hasta aqu permite estudiar un gran n
umero de problemas, pero hay situaciones que no nos permite describir. Por ejemplo si
queremos construir un espacio asociado al problema siguiente:
Se arroja una moneda indefinidamente. Cual es la probabilidad
de que el n
umero de caras nunca supere al de sellos durante todo
el proceso?
Nos gustara estudiar este problema definiendo un espacio de probabilidad en
el cual se tuviera un punto por cada posible sucesion (infinita) de resultados
cara o sello. Notese que el conjunto de tales sucesiones no es numerable.
Otro problema de este tipo es el siguiente:
Se escoge un n
umero al azar entre 0 y 1 de modo que para cada
intervalo [a, b] la probabilidad de escoger un elemento de este es
b a.
En este captulo desarrollaremos una teora de probabilidades mas general,
que puede aplicarse a problemas de este tipo. Por simplicidad damos aqui
solamente las definiciones generales, posponiendo los resultados de existencia
(por ejemplo, de los espacios antes mencionados) a un captulo posterior (a
un
no escrito).
-Algebras
Antes de dar la definicion general de espacio de probabilidad, es necesario
hacer una observacion. Hasta aqu la probabilidad era una funcion definida
23

L. Arenas-Carmona

24

en un subconjunto arbitrario del espacio muestral . Sin embargo, es posible


demostrar que no existe ninguna medida de probabilidad definida en todos
los subconjuntos de [0, 1] tal que la medida de un intervalo [a, b] sea b a. Es
necesario por lo tanto restringir nuestra definicion a una coleccion menor de
subconjuntos. Esta coleccion debe, sin embargo, ser lo bastante amplia para
incluir uniones numerables. A continuacion formalizaremos este concepto:
definici
on 3.1. Sea un conjunto arbitrario. Una -algebra en es una
coleccion de subconjuntos de que satisface las condiciones siguientes:
1. .
2. Si A entonces su complemento Ac esta en .
3. Si {Ai }iN S
es una familia numerable de conjuntos en , entonces su
union A = iN Ai esta en .
Notese que las leyes de De Morgan implican que una -algebra es tambien
cerrada bajo intersecciones numerables, puesto que si {Ai }iN es una familia
numerable de conjuntos en , entonces
!c
\
[
A=
Ai =
Aci .
iN

iN

definici
on 3.2. Un espacio medible es un par (, ) donde es un conjunto
y es una -algebra en .
ejemplo 3.3. Si es un conjunto arbitrario, la coleccion () de todos los
subconjuntos de es una -algebra. Si es finito o numerable, esta es la
u
nica -algebra que contiene a todos los conjuntos unitarios {}.
ejemplo 3.4. Si es un conjunto arbitrario, la coleccion X de todos los
subconjuntos A de tales que uno de los conjuntos A o Ac es numerable es
una -algebra.
ejemplo 3.5. Si f : es una funcion arbitraria, y si A es un subconjunto de , su pre-imagen f 1 (A) se define por:
f 1 (A) = { |f () A}.

L. Arenas-Carmona

25

Dejamos al lector la comprobacion de las propiedades basicas de la preimagen:


!
[
[
f 1 () = ,
f 1 (Ac ) = f 1 (A)c ,
f 1
Ai =
f 1 (Ai ).
iN

iN

Si es una -algebra en , su pre-imagen es la coleccion


f () = {f 1 (A)|A }.
De hecho, f () es una -algebra en , como se deduce de las identidades
precedentes.
ejemplo 3.6. Si f : es una funcion arbitraria, y si es una -algebra
en , la coleccion
f () = {B |f 1 (B) }
es una -algebra en .
ejemplo 3.7. Toda interseccion de -algebras es una -algebra. En particular, si T es una coleccion de subconjuntos de , existe una menor -algebra
(T ) que contiene a T y se llama la -algebra generada por T . De hecho
(T ) puede caracterizarse como la interseccion de todas las -algebras que
contienen a T . Los elementos de (T ) se obtienen a partir de los elementos
de T mediante sucesivos complementos y uniones numerables.
ejemplo 3.8. La -algebra en R generada por el conjunto de todos los intervalos del tipo [a, b[ se denomina la -algebra de Borel de R. Los elementos
de esta -algebra se llaman borelianos. Observese que los siguientes tipos de
conjuntos son borelianos:
T
1. {r} =
n=1 [r, r + 1/n[.
T
2. [a, b] =
n=1 [a, b + 1/n[.
S
3. ]a, b[= n=1 [a + 1/n, b[.
Lo mismo sucede para cualquier otro tipo de intervalo.

L. Arenas-Carmona

26

Medidas de Probabilidad
definici
on 3.9. Sea (, ) un espacio medible. Una medida en este espacio
es una funcion P : [0, ] que satisface las condiciones siguientes:
1. P () = 0.
2. Si {Ai }iN es una familia
S numerable de conjuntos disjuntos en , entonces su union A = iN Ai satisface
P (A) =

P (Ai ).

i=1

En este caso el tro (, , P ) se denomina un espacio de medida. Si P () = 1


se dice que (, , P ) es un espacio de probabilidad.
ejemplo 3.10. Si es numerable, cada funcion de probabilidad p definida
en define una medida de probabilidad
P P en la -algebra () de todos los
subconjuntos de mediante P (B) = B p().
ejemplo 3.11. Mas generalmente, si es una particion numerable de , la
coleccion de todos los subconjuntos de que pueden escribirse como union
de elementos de forman una -algebra . Toda funcion de probabilidad
en define una medida de probabilidad en (, ).
ejemplo 3.12. Si f : es una funcion arbitraria, y si P es una medida
de probabilidad en (, ), entonces existe una medida de probabilidad en
f () definida por Pf (B) = P [f 1 (B)].
ejemplo 3.13. Si P es una medida de probabilidad definida en (, ), y si
es una -algebra contenida en , la restriccion de P a define una medida
en (, ).
ejemplo 3.14. Si es la -algebra definida el ejemplo 3.4, sobre un espacio
muestral no numerable , entonces se define una medida de probabilidad en
mediante P (A) = 0 si A es numerable y P (A) = 1 en caso contrario.
definici
on 3.15. Una Variable Aleatoria en un espacio medible (, ) es
una funcion X : R {}, tal que para cada intervalo [a, b[ se tiene
n
o
X 1 [a, b[= |X() [a, b[ .

L. Arenas-Carmona

27

En otras palabras, si (, , P ) es un espacio de medida, la funcion X : R


es una variable aleatoria si la probabilidad




P (a X < b) = P X [a, b[ = PX [a, b[
esta definida.Aqu PX esta definida en el ejemplo 3.12. Notese que los conjuntos B para los cuales
X 1 (B) = { |X() B}
forman una -algebra por el ejemplo 3.6, de modo que en particular P (X
B) esta definida para cualquier boreliano B. Como
{ |a X() < b} = { |X() < b} { |X() < a}c ,
es suficiente con probar que { |X() < b)} , o en otras palabras
que la probabilidad P (X < b) esta definida. La funcion definida por F (b) =
P (X < b) recibe el nombre de funcion de distribucion de X.
Observaci
on 3.16. Si denotamos por B la -algebra en R formada por
todods los borelianos, entonces para toda variable aleatoria X la funcion PX
definida por
PX (B) = P (X B)
es una medida de probabilidad en el espacio (R, B). Se llama la medida de
Borel asociada a la variable aleatoria X.
Proposici
on 3.17. Sumas de variables aleatorias son variables aleatorias.
Demostraci
on Notese que si x + y < b, se tiene y < b x. Sea ahora
{rn }n una sucesion de n
umeros racionales que converge a x por la derecha.
Entonces y < b rn para n suficientemente grande. Se sigue que existe alg
un
n
umero racional r tal que x < r e y < b r. Se concluye que
{ |X() + Y () < b} =
[

{ |X() < r} { |Y () < b r} .

rQ

Proposici
on 3.18. Si X es una variable aleatoria y G : R R es una
funcion monotona, entonces G(X) = G X es una variable aleatoria.

L. Arenas-Carmona

28

Demostraci
on Basta ver que si G es creciente entonces para todo intervalo I en R, su preimagen G1 (I) es un intervalo, ya que entonces
{ |G[X()] I} = { |X() G1 (I)} .
Si a y b son elementos de G1 (I), entonces para todo c entre a y b el elemento
G(c) debe estar entre G(a) y G(b) por la monotona de G y por lo tanto
G(c) I, de donde c G1 (I).
Corolario 3.18.1. Si X es una variable aleatoria, entonces X tambien lo
es para toda constante . En particular combinaciones lineales de variables
aleatorias son variables aleatorias.
Corolario 3.18.2. Si X es una variable aleatoria y G : R R es una
funcion continua con un n
umero finito de m
aximos o mnimos, entonces
G(X) = G X es una variable aleatoria.
Demostraci
on Supongamos que G es monotona en cada uno de los
intervalos ] , x0 ], [x0 , x1 ], . . . , [xn1 , xn ], [xn , [. Basta escribir
G(x) =

n+1
X

Gi (x),

i=0

donde las funciones monotonas Gi se definen por




G(x) if x x0
,
G0 (x) =
G(x0 ) if x x0

0 if
x xi1

G(x) G(xi1 ) if xi1 x xi


Gi (x) =

G(xi ) G(xi1 ) if
x xi
para 1 i n, y finalmente

Gn+1 (x) =

0 if x xn
G(x) G(xn ) if x xn

Demostraremos al final de este captulo que G(X) es una variable aleatoria para toda funcion continua G.
Proposici
on 3.19. Productos de variables aleatorias son variables aleatorias.

L. Arenas-Carmona

29

Demostraci
on Si b, x, e y son positivos, entonces xy < b es equivalente
a x < r e y < b/r para alg
un racional positivo r, por lo que si X e Y fuesen
variables aleatorias positivas el resultado sigue como en el caso de la suma.
Para el caso general, escribimos X = G1 (X) G2 (X) e Y = G1 (Y ) G2 (Y ),
donde
G1 (t) = 1 + max{0, t},
G2 (t) = 1 + max{0, t},
y observamos que
XY = G1 (X)G1 (Y ) G1 (X)G2 (Y ) G1 (X)G2 (Y ) + G1 (X)G2 (Y ).

definici
on 3.20. Una Variable Aleatoria se dice discreta si su imagen
X() = {X()| }
es numerable. La esperanza de una variable aleatoria discreta X se define
por:
X
X
E(X) =
rP (X = r) =
rP (X = r).
rR

rX()

La probabilidad P (X = r) esta definida ya que {r} es un boreliano.


Una particion (numerable) se dice mas fina que una particion 0 si
todo conjunto de esta contenido en un conjunto de 0 . Denotemos por
X la particion formada por los conjuntos Ar (X). Entonces para cualquier
particion mas fina que X se tiene
X
E(X) =
X(a)P (A),
A

donde a es un elemento arbitrario de A. Notese que si es cualquier particion


numerable contenida en , entonces
X = {A AX |A , AX X }
es tambien una particion numerable contenida en y es mas fina que que
X . La variable aleatoria X puede interpretarse como una variable aleatoria
definida en el conjunto numerable X , de donde se obtiene, utilizando
los resultados del captulo anterior, que
X
E(X) =
E(X|A)P (A).
A
P (A)6=0

L. Arenas-Carmona

30

La esperanza condicional en la formula precedente se define como la esperanza con respecto a la probabilidad condicional, la que tambien se interpreta como una probabilidad en el conjunto numerable X . Del mismo
modo se demuestra que si X e Y son variables aleatorias discretas, podemos
considerarlas como variables aleatorias en el conjunto numerable X Y ,
de modo que cualquier combinacion lineal X + Y es discreta y se tiene
E(X + Y ) = E(X) + E(Y ). Asimismo, la definicion de independencia
se extiende facilmente a variables aleatorias discretas. Si X e Y son variables
aleatorias discretas, integrables, e independientes, entonces la esperanza de
XY esta definida y se tiene
E(XY ) = E(X)E(Y ).
definici
on 3.21. Se dice que una variable aleatoria X es integrable si


X
nP X [n, n + 1[
nZ

es absolutamente convergente. En otras palabras, una variable aleatoria


arbitraria X es integrable si y solo si la variable aleatoria discreta X1 =
[X] tiene esperanza bien definida. En particular, si X es discreta, se tiene
[X] X [X] + 1, por lo que X tambien tiene esperanza bien definida. De
hecho si definimos Xn = n1 [nX], entonces 0 E(X Xn ) n1 , de modo que
E(X) = lim E(Xn ).
n

(3.1)

Sin embargo, las variables aleatorias Xn = n1 [nX] estan definidas y son discretas para toda variable aleatoria X. Se sigue que podemos utilizar la ecuacion
(3.1) para definir la esperanza de una variable aleatoria arbitraria. La desigualdad Xn X1 +1 prueba que cada variable aleatoria Xn tiene esperanza
bien definida y las desigualdades
1
1
Xm X Xm + ,
Xn X Xn + ,
n
m
1 1
implican |Xn Xm | Max{ n , m }, por lo que se tiene


1 1
|E(Xn ) E(Xm )| E|Xn Xm | Min
,
n m
para todo par de enteros m y n. Se sigue que la sucesion {E(Xn )} es de
Cauchy y por lo tanto converge.
Proposici
on 3.22. La esperanza es lineal.

L. Arenas-Carmona

31

Demostraci
on Probaremos primero que E(X) = E(X). Para esto
observamos que si nk x < k+1
entonces k1
< x k
. Se sigue que
n
n
n
para todo , (X)n () es igual a Xn () o a Xn () n1 . En todo
caso
1
(X)n Xn (X)n + ,
n
de donde
1
E(X)n E(X)n E(X)n + ,
n
y el resultado sigue. Supongamos ahora que y son positivos. Se sigue de
la definicion que
X + Y (X + Y )n X + Y +

1
,
n

y del mismo modo




1
X + Y Xn + Yn X +
n

1
+ Y +
n


,

de donde


1
(X + Y )n (Xn + Yn ) ,
n
n
y la esperanza del termino central converge a E(X +Y )E(X)E(Y ).
El caso general sigue ahora facilmente. Por ejemplo, si es negativo y
positivo, escribimos
E(X + Y ) = E[()(X) + Y ] =
()E(X) + E(Y ) = E(X) + E(Y ).

Proposici
on 3.23. Si X es una variable aleatoria integrable, y si es una
particion numerable arbitraria, entonces
X
E(X) =
E(X|A)P (A).
A

L. Arenas-Carmona

32

Demostraci
on Basta ver que como Xn X Xn + n1 , se tiene
E(Xn ) =

E(Xn |A)P (A)

X
A

E(X|A)P (A)

1
E(Xn |A) +
n


P (A) = E(Xn ) +

1
,
n

y cada extremo de esta desigualdad converge a E(X).


En particular, para todo evento fijo C de probabilidad no nula puede
aplicarse esta formula a la probabilidad condicional P (|C) y obtener
X
E(X|C) =
E(X|A C)P (A|C).
A
P (A|C)6=0

En particular, si C es la union de alguna subcoleccion de la particion , se


tiene
X
P (A)
,
E(X|C) =
E(X|A)
P
(C)
A
P (A)6=0
AC

es decir
E(X|C)P (C) =

E(X|A)P (A).

A
P (A)6=0
AC

Notese que C es la union de una subcoleccion de la particion si y solo si


esta en la -algebra generada por .
definici
on 3.24. Dos variables aleatorias X e Y se dicen independientes, si
para todo par de intervalos I = [a, b[ y J = [c, d[ los eventos
A = { |X() I},

B = { |Y () J},

son independientes, es decir P (A B) = P (A)P (B).


Lema 3.25. Si X e Y son independientes, tambien lo son Xn e Yn .

L. Arenas-Carmona

33

Demostraci
on Basta observar que

 


k
k
k+1


Xn () =
= X() <
,
n
n
n
y del mismo modo

 


k
k
k+1


Yn () =
= Y () <
,
n
n
n
por lo que estos conjuntos son independientes.
Proposici
on 3.26. Si X e Y son variables aleatorias integrables e independientes, entonces XY es integrable, y se tiene E(XY ) = E(X)E(Y ).
Demostraci
on Para la integrabilidad, remplazando X, Y , y XY por
|X|, |Y |, y |XY |, de ser necesario, podemos suponer que ambas variables
aleatorias son positivas y se tiene
(XY )1 XY (X1 + 1)(Y1 + 1) = X1 Y1 + X1 + Y1 + 1,
y cada una de las variables aleatorias del lado izquierdo es integrable. Como
Xn e Yn son independientes, se tiene E(Xn Yn ) = E(Xn )E(Yn ) E(X)E(Y ),
por otro lado



1
1
1
1
Yn +
= Xn Yn + (Xn + Yn ) + 2 ,
Xn Yn XY Xn +
n
n
n
n
por lo que al tomar esperanzas se tiene
E(Xn Yn ) E(XY ) E(Xn Yn ) +

1
1
[E(Xn ) + E(Yn )] + 2 ,
n
n

y el resultado sigue.
Apendice 1: Tiempos de espera
El teorema de convergencia acotada se extiende al caso general con la misma
demostracion utilizada en el captulo precedente si demostramos que la funcion
n
o

N (, ) = min m n m |X() Xn ()| 

L. Arenas-Carmona

34

es una variable aleatoria. Esta funcion es un ejemplo de lo que llamaremos


un tiempo de espera.
Sea Y1 , Y2 , . . . una sucesion de variables aleatorias tomando valores 0 y 1.
El tiempo de espera asociada a la sucesion es la funcion
n
o

N () = min m n m Y( ) = 1 .
La funcion N se denomina en ocasiones el tiempo de espera del primer acierto
de la sucesion.
Proposici
on 3.27. Todo tiempo de espera es una variable aleatoria discreta.
Demostraci
on Sea X1 , X2 , . . . es una sucesion de variables aleatorias
en un espacio medible (, ) tomando valores 0 y 1. Basta observar que
N = k Xk = 1 y X1 = = Xk1 = 0,
de donde
{|N () = k} = {|Xk () = 1}

k1
\

{|Xi () = 0}

i=1

y este u
ltimo conjunto pertenece a la -algebra .
Observese que si X1 , X2 , . . . , Xm es una coleccion finita de variables aleatorias discretas en un espacio medible, estas pueden considerarse variables
aleatorias en un espacio numerable, por lo que cualquier funcion que dependa
de ellas es una variable aleatoria discreta. En particular, Si X1 , X2 , . . . es una
sucesion de variables aleatorias en un espacio medible (, ) tomando valores
0 y 1, podemos definir una nueva sucesion de V.A.s Y1 , Y2 , . . . donde Yi = 1
si y solo si Xi es el n-esimo termino de la sucesion que toma el valor 1. El
tiempo de espera de correspondiente recibe el nombre de tiempo de espera
del n-esimo acierto de la sucesion original.
Del mismo modo es posible definir el tiempo de espera del u
ltimo acierto
(recuerdese que como toda variable aleatoria, un tiempo de espera puede
tomar el valor infinito). Dada una sucesion de variables aleatorias a valores
0 y 1 X1 , X2 , . . ., definimos una segunda sucesion de V.A.s Y1 , Y2 , . . . donde
Yi = 1 si 0 = Xi+1 = Xi+1 = . . .. Cada Yi es una variable aleatoria ya que
{|Yi ) = 1} =

\
j=i+1

{|Xj () = 0}.

L. Arenas-Carmona

35

Notese que, as definido, el tiempo de espera del u


ltimo acierto se anula si
no hay aciertos.
Mas generalmente, Si X1 , X2 , . . . es una sucesion arbitraria de variables
aleatorias en un espacio medible y si B es un boreliano (en las aplicaciones, B
es generalmente un intervalo), podemos definir una nueva sucesion de V.A.s
Z1 , Z2 , . . . donde Zi = 1 si y solo si 0 = Xi B, y hablar as del tiempo de
espera del primer ingreso (o del n-esimo, o el u
ltimo) a B. El hecho de que
cada Zi es una variable aleatoria sigue de la observacion de que el conjunto
{|Xi () B} esta el la -algebra.
Apendice 2: Variables aleatorias y funciones continuas
En esta seccion demostraremos el resultado siguiente:
Proposici
on 3.28. Si X es una variable aleatoria finita y G : R R es
una funcion continua, entonces G(X) es una variable aleatoria.
Para demostrar este resultado necesitaremos algunos lemas sobre la topologa
del conjunto de n
umeros reales. Recordemos que un subconjunto U R se
dice abierto si para todo elemento x de U existe un real  > 0 tal que el intervalo ]x , x + [ esta contenido en U . En particular, los intervalos abiertos
son conjuntos abiertos.
Lema 3.29. Si G : R R es una funci
on continua y U es un conjunto
1
abierto, entonces G (U ) es un conjunto abierto.
Demostraci
on Sea x G1 (U ). Por definicion esto significa G(x)
U . Como U es abierto, existe  > 0 tal que
i
h
G(x) , G(x) +  U.
Como G es continua en x, existe > 0 tal que |x y| < implica |G(x)
G(y)| < . En particular, si y ]x , y + [ se tiene |x y| < , por lo que
|G(x) G(y)| < , es decir
i
h
G(y) G(x) , G(x) +  U,
de donde, por definicion, se tiene y G1 (U ). Como y era un punto arbitrario de ]x , x + [, se tiene ]x , x + [ G1 (U ).
Lema 3.30. Todo subconjunto abierto de R es uni
on numerable de intervalos.

L. Arenas-Carmona

36

Demostraci
on Basta probar que un conjunto abierto U es la union de
todos los intervalos de extremos racionales ]r, q[ tales que ]r, q[ U , ya que
existe solo una cantidad numerable de tales intervalos. Sin embargo, para
cada elemento x U existe un intervalo ]x , x + [ contenido en U , por
lo que basta encontrar un racional r entre x  y x, as como un racional q
entre x y x + .
Corolario 3.30.1. Todo subconjunto abierto de R es un boreliano.
Demostraci
on de la proposici
on. Sea G : R R una funcion continua. Entonces para todo conjunto de la forma I =] , b[ el conjunto
G1 (I) es abierto y por lo tanto boreliano. Se sigue que
{ |G(X)() I} = { |X() G1 (I)} .

Apendice 3: El Teorema de Convergencia Dominada.


En este apendice generalizaremos los teoremas de convergencia dominada y
acotada para variables aleatorias no discretas.
Proposici
on 3.31. Supongamos que la sucesi
on {Xn }nN de variables aleatorias acotadas por una misma constante K converge a una variable aleatoria
X. Entonces E(Xn ) converge a E(X).
Demostraci
on Sea  > 0. Para cada , sea N = N (, ) el
menor entero tal que |Xn () X()| <  para todo n > N . La funcion
7 N (, ) es un tiempo de espera finito, luego en particular una variable
aleatoria finita. El resultado sigue como en el captulo anterior una vez que
probemos el siguiente lema:
Lema 3.32. Si X es una variable aleatoria finita en un espacio de probabiln
idad arbitrario, entonces P (X > t) 0.
n

Demostraci
on Observemos que P (Y > t) 0 para toda V.A. discreta Y por los resultados del captulo precedente. Por otro lado, para toda
V.A. X se tiene


1
1
[nX] > t
,
0 P (X > t) P
n
n

L. Arenas-Carmona

37

de donde se sigue lo pedido.


Para deducir el teorema de convergencia dominada del de convergencia
acotada, se define la medida PY , para toda V.A. positiva integrable Y mediante
PY (A) = EY (Y A )/E(Y ).
Comprobaremos que PY define una medida. Es inmediato que PY () = 1
y que PY (A B) = PY (A) + PY (B)
S si A y B son disjuntos. Consideremos
ahora una union numerable A = i=1 Ai de conjuntos Ai tales que Ai Aj
para i 6= j. En este caso, {Ac , A1 , A2 , . . .} es una particion numerable de ,
por lo que se tiene
c

PY (A)E(Y ) = E(Y A ) = E(Y A |A )P (A ) +

E(Y A |Ai )P (Ai )

i=1

E(Y |Ai )P (Ai ) =

i=1

E(Y Ai ) =

i=1

PY (Ai )E(Y ).

i=1

Si X es cualquier V.A. discreta finita, se tiene


X
X
rE(Y {X=r} ).
rPY (X = r)E(Y ) =
EY (X)E(Y ) =
rR

rR

Y por otro lado,


X
X
rE(Y |X = r)P (X = r),
E(XY |X = r)P (X = r) =
E(XY ) =
rR

rR

de donde sigue que EY (X)E(Y ) = E(XY ). El caso general sigue ahora si


recordamos que
1
1
1
[nX] X [nX] + .
n
n
n
Dejamos los detalles al lector. El siguente resultado sigue ahora como en el
captulo anterior.
Proposici
on 3.33. Supongamos que la sucesi
on {Xn }nN de variables aleatorias acotadas por una misma V.A. positiva e integrable Y converge a una
variable aleatoria X. Entonces E(Xn ) converge a E(X).

Chapter 4
Variables aleatorias
absolutamente continuas.
definici
on 4.1. Sea X una variable aleatoria que satisface
Z b
f (x)dx
P (a X < b) =
a

donde f es una funcion Riemann integrable y no negativa en cada intervalo


finito. Se sigue que para todo par de n
umeros reales a y b, con a < b se tiene
Z b
f (x)dx P () = 1.
a

Por otro lado,


Z
X
X Z n+1
f (x) dx =
P (n X < n + 1) = P () = 1,
f (x)dx =

nZ

nZ

y en particular esta integral es absolutamente convergente en R. En este caso


se dice que X es una variable aleatoria absolutamente continua. La funcion
f recibe el nombre de funcion de densidad de X. Notese que en particular
la funcion de densidad de X esta definida por
Z t
FX (t) =
f (s) ds

por lo que

FX0 (t)

= fX (t) en todo punto de continuidad de fX .

Proposici
on 4.2. Sea X una variable aleatoria absolutamente continua.
Para todo r R, se tiene P (X = r) = 0.
38

L. Arenas-Carmona

39

Demostraci
on Basta ver que
0 P (X = r) P (r X r + ) < K,
donde K es una cota para f en una vecindad de r.
Proposici
on 4.3. Sea X una variable aleatoria
R absolutamente continua con
funcion de densidad f . entonces E(X) = xf (x) = I. si alg
un lado de
esta identidad esta definido.
Demostraci
on Notese que

E

1
[nX]
n



Z i+1

X
X
n
i
i+1
i
i
=
P
X<
=
P
f (x) dx
i
n
n
n
n
i=
i=
n
Z

1
[nx]f (x) dx.
n

De este modo, si In = n1 [nx]f (x) dx, se tiene In E(X) In + n1 . Por


otro lado, es inmediato que In I In + n1 si alguna de estas integrales
converge, por lo que E(X) = I.
ejemplo 4.4. Sea Xi una sucesi
P oXni de V.A.s de Bernouilli independientes de
umero racional de
parametro 1/2 y sea X = i=1 2i . Entonces para cada n
PN ai
la forma a + i=1 2i donde a1 , . . . , aN es una sucesion de 0s y 1s se tiene


1
1
P a X a+ N = N.
2
2
De aqui no es dificil ver que para cada par de racionales en [0, 1] cuyo denominador es una potencia de 2 se tiene P (a X b) = b a, y ya que
el conjunto de tales n
umeros racionales es denso, la misma relacion es valida
para n
umeros racionales cualesquiera. Se sigue que X es absolutamente continua con funcion de densidad 1 en el intervalo [0, 1] y 0 en su complemento,
o como diremos en lo sucesivo, con funcion de densidad [0,1] .
ejemplo 4.5.PSea Xi la misma sucesion de V.A.s del ejemplo precedente
Xi
umero racional tiene a lo mas 2
y sea y = 23
i=1 3i . Dado que cada n
representaciones en base 3, se ve facilmente que P (Y = r) = 0 para cada
n
umero racional r. Se sigue que Y no es discreta, sin embargo cada valor

L. Arenas-Carmona

40

y = Y () de Y tiene solo 0s y 2s en su representaci


T on en base 3. Se sigue
que y es un elemento del conjunto de cantor C = k=0 Ck , donde C0 = [0, 1] y
cada Cn+1 se obtiene removiendo el tercio central (abierto) de cada intervalo
componente de Cn . Notese que si Y tuviese una funcion de densidad f K,
se tendra P (Y C) P (Y Cn ) ( 23 )n K para todo n en Z y por lo tanto
P (Y C) = 0. Se sigue que Y no es absolutamente continua.
ejemplo 4.6. Sea X una V.A. absolutamente continua con funcion de densidad [0,1] . Sea G una funcion continua en [0, 1]. Entonces para todo entero
n se tiene
 X
 
  
 
n1
n1
 X
k
k+1
1
k
k 1
=
P
X<
=
.
E G [nX]
G
G
n
n
n
n
n n
k=0
k=0
La suma de la derecha
es una suma de Riemann de la funcion G y por lo

R1
1
tanto E G( n [nX]) 0 G si n por otro lado, como G es continua,
se tiene G( n1 [nX]) G(X). Ademas G esta acotada por una constante K
por ser una funcion continua en un intervalo
cerrado,
 por lo que el teorema

1
de convergencia dominada prueba que E G( n [nX]) E G(X) . Se sigue
que

 Z 1
G.
E G(X) =
0

Antes de continuar necesitamos algunos lemas tecnicos. Recordemos que


una sucesion de funciones {fn }nN definidas en un intervalo I se dice converger uniformemente a una funcion f definida en I si para todo  > 0 existe
N N tal que
n>N

|fn (x) f (x)| <  x I.

Lema 4.7. Si una sucesion de funciones reales {gn }nN definidas en un intervalo I = (a, b), no necesariamente finito, convergen uniformemente a una
Rb
funcion real g, y si f es una funci
on no negativa cuya integral a f converge,
entonces
Z b
Z b
n
gn (x)f (x) dx
g(x)f (x) dx,
a

si todas las integrales consideradas convergen.

L. Arenas-Carmona

41

Demostraci
on Sea  > 0. Basta ver que para n suficientemente grande
se tiene
g(x)  < gn (x) < g(x) + ,
de donde
Z b

Z
[g(x) ]f (x) dx <

es decir

Z
gn (x)f (x) dx <

Z
gf 

[g(x) + ]f (x) dx,


a

Z
f<

Z
gn f <

Z
gf 

f,

de donde se tiene que


Z
Z
Z
Z
Z
Z
gf  f lim inf gn f lim sup gn f gf  f,
n

y tomando  0 se tiene lo pedido.


Lema 4.8. Sea G una funcion absolutamente continua definida en un intervalo finito y cerrado [c, d]. Entonces para todo  > 0 existe > 0 tal que si
x, y [c, d] satisfacen |x y| < entonces se tiene |G(x) G(y)| < .
Demostraci
on Supongamos que es falso. Entonces existe  > 0 tal
que para cada > 0 podemos escoger x e y en [c, d] con |x y| < n1 pero,
sin embargo, |G(x) G(y)| . En particular, para todo n existen xn e
yn en [c, d] tales que |xn yn | < n1 y |G(xn ) G(yn )| . Tomando una
subsucesion si es necesario, podemos suponer que xn x [c, d] cuando
n . La desigualdad |xn yn | < n1 implica que tambien yn x, pero
entonces por la continuidad de G se tiene G(xn ) G(x) y G(yn ) G(x),
de donde 0 = |G(x) G(x)| , una contradiccion.
Lema 4.9. Supongamos que una sucesi
on de funciones {tn }nN definidas en
un intervalo I = (a, b), no necesariamente finito, toman valores en un intervalo finito [c, d] y convergen uniformemente a una funci
on real t. Supongamos
Rb
ademas que f es una funcion no negativa cuya integral a f converge y G es
una funcion continua definida en [c, d]. Entonces
Z b
Z b
n
G[tn (x)]f (x) dx
G[t(x)]f (x) dx,
a

si todas las integrales consideradas est


an definidas.

L. Arenas-Carmona

42

Demostraci
on Basta probar que Gtn converge uniformemente a Gt.
Sea  > 0. Por el lema anterior, existe > 0 tal que |x y| < implica
|G(x) G(y)| < . Por otro lado, existe un entero N tal que si n > N se
tiene |tn (x) t(x)| < para todo x I, por lo que |G[tn (x)] G[t(x)]| < 
para todo x I y el resultado sigue.
Proposici
on 4.10. Sea X una variable aleatoria absolutamente continua y
sea G una funcion continua que se anula fuera de un intervalo de la forma
[N, N ]. Se tiene

 Z N
G(x)f (x)dx.
E G(X) =
N

Demostraci
on Observemos que en general
 

k

 X 
k+1
k
k+1

E G(X) =
E G(X) X <
X<
P
.
n
n
n
n
k


, se tiene
Si mk y Mk son el maximo y el mnimo de G en el intervalo nk , k+1
n


k
k+1

mk E G(X) X <
Mk ,
n
n
por lo que debe existir un elemento tk,n en este intervalo tal que


k
k+1

.
G(tk,n ) = E G(X) X <
n
n
x < k+1
, se tiene
n
 Z N


 X
k+1
k
X<
G[tn (x)]f (x)dx,
E G(X) =
G(tk,n )P
=
n
n
N
k

Poniendo tn (x) = tk,n si

k
n

RN
y esta u
ltima integral converge a N G(x)f (x)dx cuando n por el lema
precedente.
Probaremos ahora que un resultado similar se obtiene sin la hipotesis en
G. Para ello necesitaremos algunos lemas previos.
Lema 4.11. Sea X una variable aleatoria absolutamente continua. Para
toda funcion continua G se tiene
Z N




E G(X) a X b P (a X b) =
G(x)f (x)dx.
N

L. Arenas-Carmona

43

Demostraci
on Definimos una funcion continua H por


0 if
xa

G(a)

a +  (r a) if a  < x < a
G(x) if
a x b .
H(x) =

G(b)

b +  (b r) if b < x < b + 

0 if
xb+
Consideremos la descomposicion correspondiente a la particion que define
H, es decir
n
o
= , a , a, b, b + , .
Entonces la esperanza tiene la descomposicion:






E H(X) = E H(X) X a  P (X a ) + . . . .
Como H vale 0 en los intervalos extremos y coincide con G en el intervalo
central, se tiene






E H(X) = E H(X) a  < X < a P (a  < X < a)+


E G(X)|a X b P (a X b)+




E H(X) b < X < b +  P (b < X < b + ).
Como H es acotada y las probabilidades de los extremos tienden a 0 cuando
 0, se tiene




E H(X) E G(X)|a X b P (a X b),
pero por otro lado,

 Z
E H(X) =

H(x)f (x)dx

G(x)f (x)dx.
N

Lema 4.12. Sea X una variable aleatoria absolutamente continua. Para


toda funcion continua G tal que G(X) es integrable, se tiene




E G(X) |X| N P (|X| N ) 0,
cuando N .

L. Arenas-Carmona

44

Demostraci
on Basta probar que dada cualquier sucesion creciente {Nk }k
de n
umeros reales, se tiene




E G(X) |X| Nk P (|X| Nk ) 0.
Para ello observamos que






E G(X) = E G(X) |X| < N1 P (|X| < N1 )+




X

E G(X) Nk |X| Nk+1 P (Nk |X| Nk+1 ),
k=1

por lo que en particular esta suma es convergente. Por otro lado






E G(X) |X| Nt P (|X| Nt ) =




X

E G(X) Nk |X| Nk+1 P (Nk |X| Nk+1 ),
k=t

es una cola de esta suma y por lo tanto converge a 0.


Proposici
on 4.13. Sea X una variable aleatoria absolutamente continua.
Para toda funcion continua G se tiene que G(X) es integrable si y s
olo si la
integral en R de G(x)f (x) converge absolutamente y en tal caso:

 Z
G(x)f (x)dx.
E G(X) =

Demostraci
on Supongamos primero que G(X) es integrable. Basta
ver que






E G(X) = E G(X) |X| < N P (|X| < N )+




E G(X) |X| > N P (|X| > N ) =
Z N




G(x)f (x)dx + E G(X) |X| > N P (|X| > N ),
N

y utilizar el resultado precedente. Supongamos ahora que la integral converge


absolutamente, es decir, que
Z
|G(t)|f (t) dt

L. Arenas-Carmona

45

converge. Necesitamos probar que |G(X)| es integrable. En otras palabras,


necesitamos probar la convergencia de la serie

X
nP (n |G(X)| < n + 1).
n=0

De hecho si An denota el evento {n |G(X)| < n + 1}, entonces



X
X 

nP (An )
E |G(X)| An P (An )
nN

nN


 


= E |G(X)| |G(X)| < N + 1 P |G(X)| < N + 1 .


Sea ahora H(x) = min{|G(x)|, n + 1}. Entonces H(X) es acotada y por lo


tanto integrable. Por otro lado

 





E H(X) = E |G(X)| |G(X)| < n + 1 P |G(X)| < n + 1


+(n + 1)P |G(X)| n + 1 ,
y es claro que
 Z
E H(X) =


H(x)f (x)dx

G(x)f (x)dx,

por lo que concluimos


X
nN

nP (An )

G(x)f (x)dx

para todo N .
ejemplo 4.14. Sea X una V.A. distribuida uniformemente en [0,R 1], i.e. su
1
funcion de densidad es [0,1] . Entonces su esperanza es E(X) = 0 t dt = 12 .
2
R1
Ademas se tiene E(X 2 ) = 0 t2 dt = 31 . Se concluye que V (X) = 31 12 =
1
.
12
ejemplo 4.15. Sea X una V.A. absolutamente continua
funcion de denR con
t
sidad et [0,) . Entonces
su
esperanza
es
E(X)
=
te
dt
= 1. Ademas
0
R 2 t
2
se tiene E(X ) = 0 t e dt = 2. Se concluye que V (X) = 2 (1)2 = 1.
ejemplo 4.16. Sea X una V.A. absolutamente continua
R con2 funcion de den2
sidad 1 et . Entonces su esperanza es E(X) = 1 tet dt = 0. Ademas
R
2
se tiene E(X 2 ) = 1 t2 et dt = 12 . Se concluye que V (X) = 21 (0)2 = 12 .

Chapter 5
Vectores aleatorios.
En todo este captulo, (, , P ) es un espacio de probabilidad arbitrario.

Sean X1 , . . . , Xn variables aleatorias. La funcion X : Rn definida por





X () = X1 (), . . . , Xn ()
se denomina un vector aleatorio. Notese que si a1 , . . . , an y b1 , . . . , bn son
n
umeros reales tales que a1 < b1 entonces
{ |a1 Xi () < bi , i = 1, . . . , n} =

n
\

{ |a1 Xi () < bi }

i=1

es un elemento de la -algebra . En particular, si


n
Y
R=
[ai , bi ),
i=1

la probabilidad P (X () R) esta definida.


Denotaremos por B(Rn ) la menor -algebra de Rn que contiene a todos
los rectangulos R del tipo mencionado arriba. Sus elementos se llamaran

borelianos de Rn . Se sigue de lo anterior que la -algebra X [B(Rn )] esta

contenida en y en particular { | X () A} pertenece a para

cualquier boreliano A en Rn . Por consiguiente, P (X A) esta definida.


Lema 5.1. Todo conjunto abierto o cerrado de Rn es un boreliano.
46

L. Arenas-Carmona

47

Demostraci
on Basta probarlo para conjuntos abiertos, ya que los cerrados son sus complementos. Afirmamos que todo abierto es union (necesariamente numerable) de rectangulos con extremos racionales. Sea U un
conjunto abierto, y sea x U un elemento arbitrario. Por definicion existe
 > 0 tal que la bola B = B(x; ) esta contenida en U , pero entonces existe
un rectangulo R tal que x R B (ver figura).
B
R rx

ejemplo 5.2. Si X es un vector aleatorio, entonces las probabilidades






P |XA|<r ,
P X A< r

estan definidas para todo vector constante A y toda constante real r.

Si X es un vector aleatorio, su funcion de distribucion F : Rn [0, 1]


X
esta definida mediante
F (t1 , . . . , tn ) = FX1 ,...,Xn (t1 , . . . , tn ) = P (Xi < ti , i = 1, . . . , n).
X

Tambien recibe el nombre de funcion de distribucion conjunta de las V.A.s


X1 , . . . , Xn . Esta funcion puede ser utilizada para calcular probabilidades
relacionadas con las V.A.s X1 , . . . , Xn como lo muestra el siguiente ejemplo:
ejemplo 5.3. Sean X e Y dos V.A.s y sea F = FX,Y su funcion de dis-

L. Arenas-Carmona

48

tribucion conjunta. Considerense las regiones A, B, C, D en el diagrama.


6

...............................r....................r (b,d)
...
...
B
..
...
A
................................r......................r
...
(a,c)....
D
...
...
...
.
...
C
...
...
....
...
...
...
...
...
...
.
.

No es dificil ver que:




F (b, d) = P (X, Y ) A B C D ,


F (a, d) = P (X, Y ) A C ,


F (b, d) = P (X, Y ) A B ,


F (b, d) = P (X, Y ) C .
Donde por convencion, cada rectangulo contiene sus bordes inferior e izquierdo
pero no el superior o el derecho. Se sigue que


P (a X < b c Y < d) = P (X, Y ) B =
F (b, d) F (a, d) F (b, c) + F (a, c).
De hecho se tiene una version generalizada de este resultado:
Proposici
on 5.4. Sean X1 , . . . , Xn variables aleatorias. Si a1 , . . . , an y
b1 , . . . , bn son n
umeros reales que satisfacen ai < bi para i = 1, . . . , n, se
tiene:
X

P (ai Xi < bi ; i = 1, . . . , n) =
(1)k( c ) F ( c ),

c =(c1 ,...,cn )

donde la suma se extiende sobre todas las n-tuplas c = (c1 , . . . , cn ) tales que

cada ci es ai o bi y k( c ) es el n
umero de as en la tupla.

L. Arenas-Carmona

49

Demostraci
on Basta ver que
n
Y

P (ai Xi < bi ; i = 1, . . . , n) = E

!
{ai Xi <bi }

i=1

=E

!
n
Y
({Xi <bi } {Xi <ai } ) = E
i=1

(1)k( c )

n
Y

k( c )

(1)

!
{Xi <ci }

i=1

c=(c1 ,...,cn )

{Xi <ci }

i=1

c=(c1 ,...,cn )

n
Y

(1)k( c ) F ( c ).
X

c=(c1 ,...,cn )

Proposici
on 5.5. Las V.A.s X1 , . . . , Xn son independientes si y s
olo si

F (b) =

n
Y

FXi (bi )

i=1

para todo b = (b1 , . . . , bn ) Rn .


Demostraci
on Recordemos que X1 , . . . , Xn son independientes cuando

para todo a= (a1 , . . . , an ) y b = (b1 , . . . , bn ) en Rn se tiene


P (ai Xi < bi ; i = 1, . . . , n) =

n
Y

P (ai Xi < bi ).

i=1

Se sigue que F ( b ) =
X

FXi (bi ) implica


X

P (ai Xi < bi ; i = 1, . . . , n) =

(1)k( c ) F ( c ) =
X

c =(c1 ,...,cn )

(1)k( c )

n
Y
i=1

c =(c1 ,...,cn )

n
Y
i=1

FXi (ci ) =

n
Y

(FXi (bi ) FXi (ai ))

i=1

P (ai Xi < bi ).

L. Arenas-Carmona

50

Lo que prueba que las V.A.s son independientes. La conversa es inmediata


tomando ai .

Un vector aleatorio X se dice absolutamente continuo si existe una funcion

f : Rn R integrable, llamada la funcion de densidad de X , tal que


X

bn

b1

f (s1 , . . . , sn ) ds1 dsn

F ( b ) =
X

para cada b = (b1 , . . . , bn ) Rn . Es inmediato de la definicion que en cada


punto de continuidad de f se tiene
X

f (s1 , . . . , sn ) =
X

n
F (s1 , . . . , sn ).
xn x1 X

Ademas, las funciones de densidad de cada variable es la integral de f con


X
respecto a las variables restantes, por ejemplo
Z
Z
f (t1 , s2 , . . . , sn ) ds2 dsn .
fX1 (t1 ) =

Estas funciones reciben el nombre de distribuciones marginales del vector


aleatorio.

Proposici
on 5.6. Sea X = (X1 , . . . , Xn ) un vector aleatorio absolutamente
continuo. Las V.A.s X1 , . . . , Xn son independientes si y s
olo si

f ( b ) =

n
Y

fXi (bi )

i=1

para todo b = (b1 , . . . , bn ) Rn .

Qn
Demostraci
on La independencia equivale a F ( b ) =
i=1 FXi (bi ),
X
pero entonces
!
Z bn
Z b1 Y
n Z bi
n
Y

F ( b ) =
fXi (si ) dsi =

fXi (si ) ds1 dsn


X

i=1

i=1

de donde el resultado sigue. La conversa es similar.

L. Arenas-Carmona

51

Proposici
on 5.7. Si X es un vector aleatorio absolutamente continuo con
umeros reales a1 , . . . , an y b1 , . . . , bn
funcion de densidad f , entonces para n
X
tales que ai < bi para i = 1, . . . , n se tiene
Z b1
Z bn
f (s1 , . . . , sn ) ds1 dsn .

P (ai Xi < bi ; i = 1, . . . , n) =
an

a1

Rb
Demostraci
on Basta escribir cada integral de la forma ann h en la
R bn
R an
forma
h
h y razonar como en la demostracion de la Proposicion
5.4.

Proposici
on 5.8. Sea G : Rn R una funci
on continua. Entonces G(X )
es una variable aleatoria.
Demostraci
on Basta ver que
n
o

{G(X ) (, b)} = X {x Rn |g(x) (, b)} ,


ya que el conjunto {x Rn |g(x) (, b)} es abierto y por lo tanto boreliano.
Proposici
on 5.9. Sea G : Rn R una funci
on continua y sea A un conjunto acotado cuyo borde es una curva diferenciable a trozos. Entonces
Z




E G(X ) X A P (X A) =
G( x)f ( x) d x .
A

Demostraci
on Observese que si R es un rectangulo que contiene a A
y = {R1 , . . . , Rn } es una particion de R en rectagulos menores, se tiene





E G(X ) X A P (X A) = E G(X ) A
X
n



X

=
E G(X ) A X Ri P (X Ri ),
X

i=1

dado que X A implica X R. Sea t : R R definida por







t( x) = E G(X ) A X Ri , si x Ri .
X

L. Arenas-Carmona

52

Entonces se tiene
Z
n

Z

X


t( x)f ( x) d x=
E G(X ) A X Ri
X

Ri

i=1

f ( x) d x=
X

n





X


E G(X ) A X Ri P (X Ri ) = E G(X ) X A P (X A).
X

i=1

Sean ahora Mi y mi el maximo y el mnimo de la funcion G( x)A ( x). Se


tiene




mi E G(X ) A X Ri Mi .
X

Se sigue que si x Ri entonces |t( x) G( x)A ( x)| Mi mi . Se concluye


que
Z

Z


t( x)f ( x) d x G( x)A ( x)f ( x) d x


X
X
R

n
X

(Mi mi )Area(Ri ),

i=1

para cualquier cota K de f en R. Esta u


ltima suma puede hacerse arbiX

trariamente peque
na ya que G( x)A ( x) es Riemann-integrable en R.
ejemplo 5.10. Sea (X, Y ) un vector aleatorio con funcion de densidad
f (x, y) = (x + y)[0,1]2 (x, y). Entonces se tiene
2

P (X + Y 1) =

/2

(x + y) dxdy =
D

2
(r cos + r sen )r drd = ,
3

donde D es la region de la figura siguiente


f iguraaki.
Por otro lado
Z
E(X) =

x(x + y) dxdy =
R

(x2 + xy) dxdy =

7
.
12

L. Arenas-Carmona

53

ejemplo 5.11. Si X es una variable aleatoria, el vector aleatorio X = (X, X)


no es absolutamente continuo, ya que de ser f su funcion de densidad se
tendra
Z

f (x, y) dxdy = 0,
1 = P (X ) =

donde es la diagonal.

ejemplo 5.12. Diremos que un vector aleatorio X esta uniformemente distribuido al interior de un conjunto acotado A cuyo borde es una curva derivable a trozos si la funcion de densidad del vector aleatorio esta dada por

A ( t )
f( t ) =
.
Area(A)

En este caso se tiene, para cada subconjunto B de similares caractersticas


la relacion

Area(A B)
.
P (X B) =
Area(A)
A continuacion removemos la condicion de que A sea acotado.
Proposici
on 5.13. Sea G : Rn R una funci
on continua y sea A un
conjunto cuyo borde es una uni
on finita de curvas diferenciables. Entonces
Z




E G(X ) X A P (X A) =
G( x)f ( x) d x .
A

Demostraci
on Se sigue que para todo real positivo N , si AN = A
B(0; N ), se tiene
Z




E G(X ) X AN P (X AN ) =
G( x)f ( x) d x,
AN

y el lado derecho converge a


Z

G( x)f ( x) d x
A

cuando N . Por otro lado, se tiene








E G(X ) X A P (X A) = E G(X ) X AN P (X AN )+

L. Arenas-Carmona

54




E G(X ) X A AN P (X A AN ).
Basta por lo tanto probar que el ultimo termino tiende a 0 cuando N .

Esto es inmediato si |G(X )|A (X ) es integrable por el teorema de convergencia dominada. Esto es cierto en particular si G es acotada. El caso general

sigue de remplazar G por una funcion acotada H( x) = max{|G( x)|, K} y


razonar como en la demostracion de la Proposicion 4.13.
Apendice: Probabilidad Condicional
Definiremos una version continua de la probabilidad condicional para pares
de V.A.s (X, Y ) con una densidad conjunta f como sigue: Si fX (x) 6= 0 se
define
f (x, y)
fY |X (y|x) =
.
fX (x)
Notese que con esta definicion se tiene
Z
Z
fY |X (y|x)fX (x) dx =

f (x, y) dx = fY (y).

Lo que puede interpretarse como


de la descomposicion
R una version continua
X (x)
= 1, por lo que la
por casos. De hecho, se tiene fY |X (y|x) dy = ffX
(x)
funcion fY |X (y|x) as definida tiene las propiedades que caracterizan a una
funcion de densidad. Se la interpreta normalmente como la densidad de la
V.A. Y para un valor dado de la V.A. X.
ejemplo 5.14. Si X es una V.A. aleatoria distribuida uniformemente en
[1, 2] y para cada valor de X, la V.A. Y esta distribuida uniformemente,
entonces
[0,x] (y)
fY |X (y|x) =
.
x
De aqu se tiene
[1,2] (x)[0,x] (y)
f (x, y) =
.
x
Notese que la integral
Z

FY |X (a|x) =

fY |X (y|x) dy,

L. Arenas-Carmona

55

satisface la relacion
Z

FY |X (a|x)fX (x) dx = FY (a),

y mas generalmente
Z

FY |X (a|x)fX (x) dx = F (a, b),

Mas generalmente, considerese un vector aleatorio arbitrario (X, Y ) con funcion


de densidad F (a, b) tal que existe una funcion FY |X (a|x) que satisface esa
identidad, entonces diremos que FY |X (a|x) es la funcion de distribucion condicional de Y para un valor dado de la V.A. X.
ejemplo 5.15. Si X es una V.A. aleatoria distribuida uniformemente en [1, 2]
y para cada valor r de X, la V.A. Y toma el valor 0 o r con probabilidad
1/2, entonces FY |X (y|x) es una funcion escalonada con un escalon de tamao
1/2 en 0 y un escalon de tamao 1/2 en r. Se sigue que para b entre 0 y 1,
Z 2
FY |X (b|x) dx = 1/2,
FY (b) =
1

mientras que para b entre 1 y 2 se tiene


Z 2
Z b
Z
FY (b) =
FY |X (b|x) dx =
1 dx +
1

1
1
b
dx = (b 1) + (2 b) = .
2
2
2

Si Y es una V.A. acotada, digamos 0 Y 1, se tiene en el caso anterior




 

 
n
n
X
X
i
i+1
i
i
i+1
i
E(Y ) = lim
P
Y <
= lim
FY
FY
=
n
n
n
n
n
n
n
n
i=0
i=0
 

 
Z X
n
i
i + 1
i
lim
FY
x FY
x fX (x) dx.
n
n
n
n
i=0
Mediante un argumento de convergencia uniforme puede probarse como antes
que esta integral converge a
Z
E(Y |x)fX (x) dx,

donde E(Y |x) es la esperanza de Y con respecto a la funcion de probabilidad


condicional. Formulas similares pueden darse para V.A.s del tipo G(Y ) o
incluso para funciones de verias variables aleatorias. Dejamos al lector la
tarea de explorar dichos analogos.

Chapter 6
La ley de los grandes n
umeros.
Sea X una variable aleatoria. Por una muestra de tamao n de la variable
aleatoria X queremos decir una sucesion X1 , . . . , Xn de variables aleatorias
independientes definidas en un mismo espacio muestral , cada una con
la misma funcion de distribucion que X. En este captulo estudiaremos el
comportamiento de la variable aleatoria promedio cuando el tamao de la
muestra tiende a infinito.
Sea X1 , . . . , Xn , . . . es una sucesion de variables aleatorias en un mismo
espacio muestral . Diremos que Xn converge en probabilidad (o en medida)
a una variable aleatoria X, o que X es el lmite en probabilidad (o en medida)
de la sucesion si para cada , > 0 existe un entero N = N () tal que
n > N P (|X Xn | > ) < .
Equivalentemente, para cada  > 0, la sucesion de n
umeros reales
P (|X Xn | > )
converge a 0.
Lema 6.1 (Desigualdad de Chevychev). Sea X una variable aleatoria
con esperanza y varianza finitas. Para todo  > 0 se tiene


 V (X)


.
P X E(X) >  <
2
Demostraci
on Sea A el evento |X E(X)| > . En particular, A = 1
si y solo si |X E(X)| > . De aqu se sigue la desigualdad
A |X E(X)|.
56

L. Arenas-Carmona

57

Elevando al cuadrado la desigualdad precedente y tomando esperanzas se


tiene

2 
2
 P (A) E X E(X)
= V (X).

Proposici
on 6.2. Si X1 , . . . , Xn , . . . es una sucesi
on de variables aleatorias tales que V (Xn ) converge a 0 cuando n tiende a infinito, y E(Xn ) converge a alg
un lmite finito a cuando n tiende a infinito, entonces la sucesi
on
X1 , . . . , Xn , . . . converge a la variable aleatoria constante a en probabilidad.
Demostraci
on Se sigue de la desigualdad de Chevychev que
  4V (X )



n n
<
0 P Xn E(Xn ) >
0.
2
2

Para n suficientemente grande se tiene |E(Xn ) a| < 2 . En tal caso


|Xn E(Xn ) |Xn a| .
2
Se sigue que





n




0,
0 P Xn a >  P Xn E(Xn ) >
2
y el resultado sigue.
Proposici
on 6.3 (Ley debil de los grades n
umeros). Si X1 , . . . , Xn , . . .
es una sucesion de variables aleatorias independientes, cada na con la misma
esperanza
on de promedios
P E, y con varianzas acotadas, entonces la sucesi
Yn = n1 nk=1 Xk converge a E en probabilidad.
Demostraci
on El resultado sigue de la proposicion precedente si demostramos P
que la sucesion Y1 , . . . , Yn , . . . cumple las hipotesis. La esperanza
E(Yn ) = n1 nk=1 E(Xk ) = E converge a E trivialmente. Por otro lado, sea
K una cota para las varianzas. Por ser las variables aleatorias X1 , . . . , Xn , . . .
independientes, se tiene
n
1 X
K n
X(Yn ) = 2
V (Xk )
0,
n k=1
n

y el resultado sigue.
Un refinamiento de nuestro resultado precedente es el siguiente:

L. Arenas-Carmona

58

Proposici
on 6.4. Si X1 , . . . , Xn , . . . es una sucesi
on de variables aleatorias
independientes cuyas esperanzas convergen a un lmite
P E, y con varianzas
acotadas, entonces la sucesion de promedios Yn = n1 nk=1 Xk converge a E
en probabilidad.
Su demostracion es similar a la precedente una vez demostrado el siguiente
lema:
Lema 6.5. Si {an }nPes una sucesi
on de n
umeros reales que converge a un
n
1
lmite L, entonces n k=1 ak converge a L.
Demostraci
on Por definicion de convergencia se tiene que para todo
 > 0 existe un entero N tal que n > N implica |an L| < . En particular,
si n > N se tiene


n
n
N
n

1X
X
1
1X
1 X


ak
|ak L| =
|ak L| +
|ak L|.
L

n k=1 n k=1
n k=1
n k=N +1
El primer termino de esta suma converge a 0 si n tiende a infinito y el segundo
 < . Se sigue que
esta acotado por nN
n


n

1 X

lim sup L
ak .

n
n
k=1

Como esto se cumple para todo  > 0, el lmite existe y es 0.


Diremos que una sucesion de variables aleatorias X1 , . . . , Xn , . . . converge
a una variable aleatoria X en distribucion, o que la distribucion de X es la
distribucion lmite de la sucesion, si se tiene
n

FXn (t) FX (t)


para todo punto t donde FX es continua. Notese que esto implica que para
todo intervalo I
P (Xn I) P (X I).
La comprobacion de esta afirmacion se deja al lector.
Proposici
on 6.6. Si X1 , . . . , Xn , . . . es una sucesi
on de variables aleatorias
que convergen en probabilidad a un lmite X, entonces la sucesi
on X1 , . . . , Xn , . . .
converge en distribucion a X.

L. Arenas-Carmona

59

Demostraci
on Sea t un punto de continuidad de FX . Basta probar
que
n
P (Xn < t) P (X < t).
Sea N tal que para n > N se tiene P (|Xn X| > ) < . Entonces para
n > N se tiene
P (Xn < t) P (X < t + ) P (X t + , Xn < t) P (|Xn X| > ) < .
Por otro lado
P (X < t ) P (Xn < t) P (X < t , Xn t) P (|Xn X| > ) < .
De ambas desigualdades se tiene
P (X < t )  P (Xn < t) P (X < t + ) + .
En particular, se tiene
P (X < t) lim inf P (Xn < t) lim sup P (Xn < t) P (X < t+)+.
n

Tomando  0 el resultado sigue.


La implicacion inversa no es cierta en general, dado que una sucesion de
variables aleatorias X1 , . . . , Xn , . . . que converge a una variable aleatoria X
en distribucion no tiene por que estar definida en el mismo espacio muestral,
y aunque lo este no hay manera de distinguirla, como lmite, de cualquier
otra variable aleatoria con la misma distribucion. Existe, sin embargo, un
caso importante en que la conversa es cierta:
Proposici
on 6.7. Si X1 , . . . , Xn , . . . es una sucesi
on de variables aleatorias
que convergen en distribucion a un lmite constante a, entonces la sucesi
on
X1 , . . . , Xn , . . . converge en probabilidad a a.
Demostraci
on Sea X1 , . . . , Xn , . . . es una sucesion de variables aleatorias que convergen en distribucion a la constante a. Sean , > 0. La funcion
de distribucion Fa es continua en todo punto distinto de a, luego se tiene que
para n suficientemente grande
P (Xn > a + ) P (a > a + ) +



= ,
2
2

L. Arenas-Carmona

60

P (Xn < a ) P (a < a ) +



= .
2
2

De ambas desigualdades se tiene


P (|Xn a| > ) = P (Xn > a + ) + P (Xn < a ) .
Necesitaremos el siguiente criterio cuya demostracion omitimos aqui por
ser demasiado tecnica.
Proposici
on 6.8. Si X1 , . . . , Xn , . . . es una sucesi
on de variables aleatorias,
entonces la sucesion X1 , . . . , Xn , . . . converge en distribuci
on a una variable
itXn n
aleatoria X si y solo si para cada n
umero real t se tiene E(e
) E(eitX ).
La funcion GX (t) = E(eitX ) = E(cos tX) + iE(sen tX) recibe el nombre
de funcion caracterstica de la variable aleatoria X. Es siempre finita ya que
las funciones trigonometricas son acotadas. Tomando Xn = X para todo n
se tiene el siguiente corolario:
Corolario 6.8.1. La funcion caracterstica GX (t) determina completamente
la varable aleatoria X.
Proposici
on 6.9. Si X1 , . . . , Xn son variables aleatorias independientes, entonces se tiene
n
Y
GXk (t).
GX1 ++Xn (t) =
k=1

Demostraci
on Basta ver que
it(X1 ++Xn )

GX1 ++Xn (t) = E(e

)=

n
Y

itXk

E(e

)=

k=1

n
Y

GXk (t).

k=1

ejemplo 6.10. Si X es una variable aleatoria cuyos valores son enteros, se


tiene
X
GX (t) = E(eitX ) =
enti P (X = n) = gX (ei t),
nZ

donde gX es la funcion generatriz de X. Por ejemplo:

L. Arenas-Carmona

61

1. Si Y es una variable aleatoria de Bernouilli de parametro p se tiene


GY (t) = (1 p) + pei t.
2. Si Z es una variable aleatoria Binomial de parametros n y p se tiene
GZ (t) = [(1 p) + pei t]n .
3. Si X es una variable aleatoria de Poisson de parametro se tiene
it
GY (t) = e(e 1) .
En particular, Si Xn es una variable aleatoria binomial de parametros n y
p = n se tiene

n
(eit 1) n (eit 1)
it n
GXn (t) = [(1 p) + pe ] = 1 +
e
.
n
Como esta u
ltima es la funcion caracterstica de una variable aleatoria de
Poisson de parametro , esa es la distribucion lmite en ese caso.
ejemplo 6.11. Si X es una variable aleatoria con distribucion normal de
parametros a y , se tiene
Z
(sa)2
1
itX
eist e 22 ds.
GX (t) = E(e ) =
2
Un cambio de variable u =
eati
GX (t) =
2

sa

demuestra que
(t)2

iut

u2
2

eati 2
du =
2

e 2 (u+it) du.

Si probamos que esta u


ltima integral es independiente de , entonces se tiene
GX (t) = eati

(t)2
2

.
R

Ahora probaremos la afirmacion Sea T () = e 2 (u+it) du. Si pudiesemos derivar bajo el signo integral tendramos


Z

12 (u+it)2
0
12 (u+it)2
= 0.
du = it e
(u + it)e
T () = it

Para justificar la derivacion bajo el signo integral escribimos que por teorema
de Fubini


Z 
Z
Z 
Z
12 (u+it)2
12 (u+it)2
it
(u + it)e
du d =
it
(u + it)e
d du
0

L. Arenas-Carmona
Z

21 (u+it)2

62
Z

e 2 (u+i0 t) du = T () T (0 ),

du

y derivamos a ambos lados.


Proposici
on 6.12. Si X es una variable aleatoria, entonces se tiene
GaX (t) = GX (at).
Demostraci
on Basta ver que
GaX (t) = E(eit(aX) ) = E(ei(at)X ) = GX (at).

Proposici
on 6.13. Si X1 , X2 , . . . es una sucesi
on de variables aleatorias
independientes y con la misma distribuci
on que X, la cual tiene esperanza y
varianza finitas, y si
Pn
Xk nE(X)
,
Yn = k=1
n
entonces Yn converge
on a una variable aleatoria normal de
p en distribuci
par
ametros 0 y = V (X).
Demostraci
on
n
Y

itE(X) n

GYn (t) = e

k=1

itE(X) n

G Xi (t) = e
n

itE(X) n

n
Y


GX

k=1


GX


=

n
.

La condicion en la varianza implica que la funcion caracterstica tiene la


expansion de Taylor
GX (t) = 1 + iE(X)t

E(X 2 ) 2
t + o(t2 ).
2

De aqu se tiene
"
2
 #


E(X 2 )
1
t
t

ln[GYn (t)] = itE(X) n+n ln 1 + iE(X)


+o
=
2
n
n
n

L. Arenas-Carmona

63

"
2
2
 #



t
E(X)2
1
E(X 2 )
t
t

itE(X) n + n iE(X)
+
+o
2
2
n
n
n
n
n

V (X)t2
.
2

Demostraremos ahora una version mas fuerte de la ley de los grandes


n
umeros. Para esto necesitaremos algunos resultados previos.
Proposici
on 6.14. Si X1 , X2 , . . . es una sucesi
on creciente de variables
aleatorias integrables que converge a una variable aleatoria X no necesariamente finita. Entonces E(Xn ) E(X) cuando n .
Demostraci
on Remplazando Xk por Xk X1 se puede suponer que
Xk 0. Si E(X) es finita, el resultado se reduce al teorema de convergencia
dominada. Supongamos ahora que E(X) = . En particular, esto implica
que, o bien P (X = ) > 0 o bien la suma

kP (k X < k + 1)

k=0

no converge. En cualquier caso, para cada constante N > 0, existe una


constante M > 0 tal que si Y = Min{X, M } se tiene E(Y ) > N . Como
n
E(Y ) es finita, si se define Yn = Min{Xn , M }, se tiene E(Yn ) E(Y ). En
particular,
lim E(Xn ) lim E(Yn ) = E(Y ) > M.
n

Como M es arbitraria, limn E(Xn ) = .


Proposici
on 6.15. Si A1 , . . . , An , . . . es una sucesi
on de eventos tales que
P
n=1 P (Ai ) < y
A = { | Ai para infinitos valores de i},

entonces P A = 0.

L. Arenas-Carmona

64

Pn
P
Demostraci
on Sea Xn =
k=1 Ak y sea Xn =
k=1 Ak . Como
Pn
E(X) = k=1 P (A
Pk ), se sigue del resultado anterior que E(X) es finita (y
de hecho igual a
n=1 P (Ai ) < ). En particular

P A = P (X = ) = 0.

Proposici
on 6.16 (Desigualdad de Kolmogorov). Sean X1 , . . . , Xn vari2
ables aleatorias independientes con E(Xi ) = P
. Sea Yk =
i y V (Xi ) = iP
k
2
X1 + . . . + Xk para k = 1, 2, . . . , n. Sea ak = i=1 i y s = ni=1 i2 . La
probabilidad de que se cumplan simultaneamente las n desigualdades
|Yk ak | < ts,
es al menos 1

k = 1, . . . , n

1
.
t2

Demostraci
on Sea Ak el evento de que la k-esima desigualdad sea la
primera que no se cumpla. Los eventos A1 , . . . , An son disjuntos y queremos
probar que P (A1 An ) t2 . Observemos que Uk = (Yn an ) (Yk ak )
es independiente de Ak (Yk ak ) y de esperanza nula, por lo que esperanza
del termino central al lado derecho de la identidad
Ak (Yn an )2 = Ak (Yk ak )2 2Ak Uk (Yk ak ) + Ak Uk2 ,
es nula. Se sigue que


E Ak (Yk ak )2 E Ak (Yn an )2 .
Notese que por definicion del evento Ak , se tiene


P (Ak )s2 t2 = E(Ak )s2 t2 E Ak (Yk ak )2 E Ak (Yn an )2 .
Sumando sobre k se tiene
!
!
n
n
[
X

P
Ak s2 t2 E
Ak (Yn an )2 E (Yn an )2 = V (Yn ) = s2 .
k=1

k=1

Proposici
on 6.17 (Ley fuerte de los grandes n
umeros). Sean X1 , X2 , . . .
variablesPaleatorias independientes con E(Xi ) = y V (Xi ) K. Sea
Zn = n1 nk=1 Xk . Entonces


n
P Zn = 1.

L. Arenas-Carmona

65

Demostraci
on Basta ver que para cada  > 0 la desigualdad |Zn |
 puede complirse solo para un n
umero finito de valores de n fuera de un
conjunto de probabilidad nula. Sea A el evento de que se tenga |Zn | ,
o equivalentemente
|X1 + . . . + Xn n| n
para alg
un n entre 21 y 2 . De hecho esto implica que
|X1 + . . . + Xn n| 21 
Se sigue de la desigualdad de Kolmogorov que
P (A )
por lo que la suma

=1

12 + . . . + 22
2 K
4K

= 2,
22
2
22
2
2

2

2 

P (A ) converge.

Chapter 7
Estimaci
on de par
ametros.
Sea X una variable aleatoria con una distribucion dada FX . Una muestra
aleatoria de tama
no n de X es una sucesion de n variables aleatorias independientes X1 , . . . , Xn cada una con la misma distribucion que X, es decir
FX (t) = FXi (t),

i = 1, . . . , n.

En particular, la distribucion del vector aleatorio X = (X1 , . . . , Xn ) esta dada


por
n
Y
F (t1 , . . . , tn ) =
FX (ti ).
X

i=1

Si X es absolutamente continua con funcion de densidad fX , tambien lo es

el vector aleatorio X y su funcion de densidad esta dada por


f (t1 , . . . , tn ) =

n
Y

fX (ti ).

i=1

Si X es discretse tiene
P (X1 = t1 , . . . , Xn = tn ) =

n
Y

P (Xi = ti ).

i=1

ejemplo 7.1. Si lanzamos una moneda n veces y Xi es el suceso se obtiene cara en el i-esimo lanzamiento, entonces (X1 , . . . , Xn ) es una muestra
aleatoria de la variable aleatoria de Bernouilli de Parametro p.

66

L. Arenas-Carmona

67

ejemplo 7.2. La duracion de una maquina producida en una fabrica puede


estudiarse escogiendo una muestra de n maquinas y midiendo su duracion
(T1 , . . . , Tn ). Esta es una muestra de tama
no n de laa variable aleatoria T
que representa el tiempo de vida de una sola maquina.
Una funcion G(X1 , . . . , Xn ) se denomina un estadstico. Ejemplos importantes son el promedio o media muestral
n

X
= 1
X
Xk ,
n k=1
y la varianza muestral
n

1 X
2.
(Xk X)
s =
n 1 k=1
2

Supondremos en lo que sigue que la funcion de distribucion FX depende de


uno o mas parametros desconocidos 1 , . . . , n . En otras palabras, conocemos
la distribucion de X excepto que necesitamos determinar 1 , . . . , n . Un
ejemplo de esta situacion se tiene al lanzar una moneda sin saber a priori
si es simetrica. Se sabe que la variable aleatoria que cuenta el n
umero de
caras tiene una distribucion de bernouilli, pero desconocemos el parametro
p. En tal caso se quiere estimar el o los parametros desconocidos en terminos
de la muestra. Un estadstico = G(X1 , . . . , Xn ) utilizado para estimar el
valor del parametro se denomina un estimador. Por cierto que con esta
definicion existen muchos estimadores de un mismo parametro. La idea es
encontrar estimadores que se ajusten (en alg
un sentido) al parametro que se

desea estimar. Un estimador del parametro se dice insesgado si satisface


= .
E()
sino tambien del
Notese que esta definicion depende no solo del estimador ,
parametro que se desea estimar.
Una medida de la precision de un estimador de un parametro es la
cantidad
!



 
 2
+ E()

E ( )2 = E
E()

L. Arenas-Carmona

=E



68

2 


 
2

E()
+ E()

E()
2E E()

2
+ E()
.
= V ()

En particular, entre dos estimadores insesgados es mejor el que tiene menor


varianza.
ejemplo 7.3. Sea X una variable aleatoria cuya distribucion depende de
un parametro desconocido , y supongamos que E(X) = . Entonces los
estimadores
n
1X

Xk ,
2 = X1 ,
1 =
n k=1
son insesgados, sin embargo
V (X)
,
V (2 ) = V (X),
V (1 ) =
n
por lo que el primer estimador es mucho mejor que el segundo.
ejemplo 7.4. Sea X una variable aleatoria con distribucion exponencial de
t/
parametro 1/, es decir X tiene una funcion de densidad fX (t) = [0,) (t) e .
En este caso E(X) = como en el ejemplo anterior. Definamos
3 = n [MIN(X1 , . . . , Xn )] .
En este caso se tiene
P (3 t) = P

t
X1 , . . . , Xn
n

Se sigue que

1 F3 (t) =
Como FX (t) =

Rt
0

es/


=P

t
X
n

n
.

 n
t
1 FX
.
n

ds = 1 et/ , se tiene
n
1 F3 (t) = et/n = et/ .

Se concluye que 3 tiene la misma distribucion que X1 y por lo tanto la


misma esperanza y varianza. En particular es un estimador insesgado de
y no mejor que X1 . Sin embargo, si X es una variable temporal como
el tiempo que tarda una maquina en fallar o una bombilla al apagarse, el
tiempo necesario para calcular el estimador 3 es mucho menor.

L. Arenas-Carmona

69

ejemplo 7.5. Probaremos que la varianza muestral s2 es un estimador insesgado de la varianza 2 = V (X). Observemos que
n

X
1
n1
i) = 1
E(X)2 + E(X 2 ),
E(XX
E(Xk Xi ) =
n k=1
n
n
 

n
1X
n1
1
1
2
2
2

E(X ) =
n
E(X) + E(X )
E(XXk ) =
n k=1
n
n
n
=

1
n1
E(X)2 + E(X 2 ).
n
n

Por definicion se tiene


2

(n 1)E(s ) =

n
X

n
 X

2
2 ) 2E(XX
k ) + E(X 2 )]

[E(X
E (X Xi ) =
k
k=1

k=1

= nE(X 2 ) [(n 1)E(X)2 + E(X 2 )] = (n 1)[E(X 2 ) E(X)2 ] = (n 1) 2 .


Un estimador del tipo
=

n
X

ak Xk ,

k=1

se dice lineal.
Proposici
on 7.6. Sea X una variable aleatoria no constante cuya distribuci
on
depende de un parametro 6= 0, y supongamos que E(X) = . Entonces la
media muestral es el mejor estimador lineal insesgado del par
ametro .
P
Demostraci
on Basta ver que si = nk=1 ak Xk es insesgado, entonces
= E(X) Pn ak = E(X), de donde Pn ak = 1. Se sigue que
E()
k=1
k=1
!

2
n
n 
n
X
X
X
1
1
2
V
ak Xk = V (X)
ak = V (X)
ak
+
n
n
k=1
k=1
k=1

n 
2V (X) X
1
1
+
ak
+ 2
= V (X)
n
n
n
k=1
k=1
2
n 
X
1
1
= V (X)
ak
+ 2,
n
n
k=1
n 
X

1
ak
n

2

L. Arenas-Carmona

70

lo que alcanza su mnimo cuando cada ak es 1/n.


La condicion de que es insesgado es totalmente necesaria, por ejemplo
si X toma los valores 0 y 2 con probabilidad 1/2, se tiene E(X) = V (X) = 1.
= 1/3, sin embargo
En particular, si n = 3 la media muestral satisface V (X)
el estimador
1
= (X1 + X2 + X3 )
4
3
= y varianza V ()
= 3 . Se sigue que
tiene esperanza E()
4

16

+ E()

V ()

2

3
+
=
16

2
3
1
4
1 =
= ,
4
16
4

con lo que el estimador esta mas cerca en promedio al valor real que la
media muestral.
Supongamos ahora que se tiene un estimador n para cada n, donde n es el
tama
no de la muestra. Diremos que la sucesion de estimadores es consistente
si la sucesion {n }n converge a en probabilidad. Como es una constante,
es suficiente probar la convergencia en distribucion. Diremos que la sucesion
de estimadores es asintoticamente insesgada si E(n ) converge a cuando n
tiende a infinito.
Proposici
on 7.7. Toda sucesi
on consistente de estimadores n tales que
n K para alguna constante fija K es asint
oticamente insesgada.
Demostraci
on Basta ver que
|E(n )| E(|n |) P (|n | < ) + KP (|n | )
para todo  > 0 y el u
ltimo termino tiende a 0 por definicion de convergencia
en probabilidad.

Sea X una variable aleatoria con una distribucion dada FX (t) = F (t, )

donde = (1 , . . . , r ) es un parametro. Suponga que los momentos


E(X), E(X 2 ), . . . , E(X r )
de r pueden escribirse en terminos de los parametros mediante
E(X j ) = Gj (1 , . . . , r ),

L. Arenas-Carmona

71

y que este sistema tiene solucion u


nica


k = Fk E(X), . . . , E(X r ) ,
para cada valor de los momentos E(X), . . . , E(X r ). Entonces los estimadores


k = Fk X, X 2 , . . . , X r ,
donde por definicion
n

Xj

1X j
=
X ,
n k=1 k

se denominan los estimadores de momentos de .


Proposici
on 7.8. Suponga que la variable aleatoria X tiene momentos
E(X), . . . , E(X 2r )
finitos. Si las funciones F1 , . . . , Fr obtenidas arriba son uniformemente continuas, entonces los estimadores de momentos son consistentes.
Notese que la hipotesis de continuidad uniforme sigue de la continuidad
si el rango en el cual los parametros estan definidos es compacto.
Demostraci
on Como las variables aleatorias X1j , . . . , Xnj son independientes y equidistribuidas, se tiene que X j converge en probabilidad a E(X j )
para todo j por la ley de los grandes n
umeros. Notese que la condicion en
los momentos asegura la finitud de las varianzas. El resultado sigue ahora
del lema siguiente:

Lema 7.9. Suponga que X n que converge en probabilidad a un vector aleato


rio X cuando n (coordenada a coordenada). Entonces para toda

funcion uniformemente continua F : Rn Rn la variable aleatoria F (X n )

converge a F (X ) en probabilidad.

L. Arenas-Carmona

72

Demostraci
on Basta observar que, por definicion de convergencia uniforme, para cada  > 0 existe > 0 tal que

| X n X | < |F (X n ) F (X )| < .
En particular se tiene





P | X n X | < P |F (X n ) F (X )| <  1.
Puesto que los extremos de la igualdad anterior convergen a 1 tambien lo
hace el termino central.
ejemplo 7.10. Sea X una variable aleatoria de Bernouilli de parametro p
donde p es desconocido. Como p = E(X), el estimador de momentos de p es

p = X.
ejemplo 7.11. Sea X una variable aleatoria de distribucion exponencial
de parametro . Como E(X) = 1/, el estimador de momentos de es
= 1/X.

ejemplo 7.12. Sea X una variable aleatoria normal de parametros a y 2


desconocidos. Las ecuaciones que deben resolverse son
E(X) = a,

E(X 2 ) = 2 + a2 .

Se sigue que los estimadores de momentos son:


a
= X,

2
2 = X 2 X .

En particular
n
n
n
1X
1 X 2 2X X
2
Xk
Xk + X =
(Xk X)2
2 =
n k=1
n k=1
n k=1

no es insesgado.
ejemplo 7.13. Sea X una variable aleatoria binomial de parametros n y p
desconocidos. Las ecuaciones que deben resolverse son
E(X) = pn,

E(X 2 ) = np(1 p).

L. Arenas-Carmona

73

Con algo de manipulacion algebraica se obtienen las soluciones


p=

E(X) E(X 2 )
,
E(X)

n=

E(X)2
.
E(X) E(X 2 )

Se sigue que los estimadores de momentos son:


2

X X2
,
p =
X

X
.
n=
X X2

ejemplo 7.14. Sea X una variable aleatoria distribuida uniformemente en el


intervalo (a, b) con a y b desconocidos. Las ecuaciones que deben resolverse
son
a+b
a2 + ab + b2
E(X) =
,
E(X 2 ) =
.
2
3
Se obtiene facilmente que ab = 4E(X)2 3E(X 2 ). Esto implica que a y b
son raices de la ecuacion cuadratica


2
2
2
T 2E(X)T + 4E(X) 3E(X ) = 0.
Como a < b se tiene
a = E(X)

p
3V (X),

b = E(X) +

3V (X).

Se sigue que los estimadores de momentos son:


v
v
u n
u n
X
u3
u3 X
2
t

a
=X
(Xk X) ,
(Xk X)2 .
b=X +t
n k=1
n k=1

Sea X una variable aleatoria con una distribucion dada FX (t) = F (t,

) donde Rr es un parametro. Supongamos que X es absolutamente

continua con funcion de densidad fX (t) = f (t, ). Para cada elemento t =


(t1 , . . . , tn ) Rn se define la funcion de verosimilitud mediante

Lt ( ) =

n
Y
k=1

f (tk , ).

L. Arenas-Carmona

74

Suponga que existe una funcion G= (G1 , . . . , Gr ) : Rn Rr tal que para


nico maximo de la funcion de


cada valor de t Rn el valor =G ( t ) es el u
verosimilitud. Entonces los estimadores
k = Gk (X1 , . . . , Xn )
se denominan los estimadores de maxima verosimilitud de 1 , . . . , r .
Probaremos ahora que los estimadores de maxima verosimilitud son insesgados. Para ello necesitaremos el siguiente resultado cuya demostracion
omitimos aqu por ser demasiado tecnica. Se trata de una version uniforme
de la ley de los grandes n
umeros.
Lema 7.15. Sea X1 , X2 , una sucesi
on de variables aleatorias independi
entes y equidistribuidas. Sea U (t, ) una funci
on continua que satisface:

1. |U (t, )| K(t) para alguna funci


on K tal que E[K(X)] < .

2. U (t, ) es uniformemente continua en la variable .

Si ( ) = E[U (X, )], entonces se tiene




!
n
1 X



P lim sup
U (Xn , ) ( ) = 0 = 1.
n
n

k=1

Lema 7.16. Sean p y q dos funciones de densidad. Sea X una variable


aleatoria absolutamente continua con funci
on de densidad p. Entonces


q(X)
0.
E ln
p(X)
Con igualdad si y solo si p y q coinciden.
Demostraci
on Sigue de la desigualdad de Jensen que


 

Z

q(X)
q(X)
q(t)
E ln
ln E
= ln
p(t) dt = 0.
p(X)
p(X)
p(t)
Como el logaritmo es estrictamente concava, la igualdad se alcanza solo si la
q(X)
varriable aleatoria p(X)
es constante.

L. Arenas-Carmona

75

Proposici
on 7.17. Sea X una variable aleatoria absolutamente continua

con funcion de densidad fX (t) = f (t, 0 ) de modo que la funci


on

U (t, ) = ln[f (t, )] ln[f (t, 0 )]


satisface las hipotesis del lema 7.15. Supondremos ademas que los estimaderes de maxima verosimilitud de 1 , . . . n est
an definidos para cada n

y que el parametro identifica univocamente la funci


on de densidad f (t, ).
En este caso los estimadores de m
axima verosimilitud son consistentes.
Demostraci
on Supongamos que Sea > 0 y sea An el evento


n
1 X



sup
U (Xn , ) ( ) < .

k=1

Entonces se tiene que limn P (An ) = 1 y por lo tanto para todo > 0
se tiene que para todo n suficientemente grande, se tiene P (An ) > 1 .
Observese que por el lema precedente,


E U (X, ) = () > 0

para todo 6= 0 . Sea  > 0, y sea V = B( 0 , ) . Tomamos igual al

mnimo de ( ) en V . El evento An implica


n
X

ln[f (Xn , )] ln[f (Xn , 0 )] < 0.

k=1

Notese que la suma de la izquierda es el logaritmo de

L ( )
X

L ( 0 )
X

por lo que el vector


= (1 , . . . , r ) no puede encontrarse en V . Se



concluye que P V 1 y el resultado sigue.

L. Arenas-Carmona

76

ejemplo 7.18. Suponga que el tiempo que tarda una ampolleta en fallar
es una variable aleatoria T con distribucion exponencial de parametro , es
decir fT (t) = e para t 0. Suponga que se toma una muestra (T1 , . . . , Tn )
de T . Entonces la funcion de verosimilitud esta dada por
L = L(T1 ,...,Tn ) () =

n
Y

(eTk ) = n e

Pn

k=1

Tk

k=1

Se sigue que
ln L = n ln()

n
X

Tk .

k=1

Derivando e igualando a 0 se tiene n


de maxima verosimilitud es = T.

Pn

k=1

Tk = 0, por lo que el estimador

ejemplo 7.19. Suponga que X es una variable aleatoria distribuida uniformemente en un intervalo (0, ). en particular se tiene fX (t) = 1 para
0 t . Suponga que se toma una muestra (X1 , . . . , Xn ) de X. Entonces
la funcion de verosimilitud esta dada por
L = L(X1 ,...,Xn ) () =

1
, si X1 , . . . , Xn .
n

Se sigue que el estimador de maxima verosimilitud es


= MAX(X1 , . . . , Xn ).
Notese que en particular, este estimador no es insesgado puesto que
P (
< t) = P (X1 , . . . , Xn < t) = (t/)n
por lo que su funcion de densidad es n (t/)n1 y se tiene
Z
n
n
t (t/)n1 dt =
.
E(
) =

n+1
0
ejemplo 7.20. Suponga que X es una variable aleatoria con distribucion
normal de parametros a y 2 , es decir
1 ta 2
1
fX (t) = e 2 ( ) .
2

Suponga que se toma una muestra (X1 , . . . , Xn ) de X. Entonces la funcion


de verosimilitud esta dada por
2

1
n/2 2

L = L(X1 ,...,Xn ) (a, ) = (2 )

Pn

k=1

Xk a

2

L. Arenas-Carmona

77

En particular
n

n
1X
ln(L) = ln(2 2 )
2
2 k=1

Xk a

2
.

Derivando con respecto a a y 2 , respectivamente, se obtienen las ecuaciones:


n
X
Xk a
k=1

= 0,
n

n
1
2 X (Xk a)2

(4)
+
= 0.
2 2 2
2 k=1
3

De la segunda se deduce
De la primera de estas ecuaciones se obtiene a
= X.
2

n =

n
X

(Xk a)2 ,

k=1

por lo que el estimador es


n

1X
2.
(Xk X)
2 =
n k=1

7.0.1

Tests de Hip
otesis estadisticas.

Supondremos ahora que queremos decidir entre dos o mas hipotesis sobre
una variable aleatoria (lo que puede expresarse en terminos del valor de
un parametro). Comenzaremos con un ejemplo: Se tiene un n
umero r de
monedas con dos caras junto a una cantidad m de monedas normales. Se
escoge una de estas monedas al azar. Queremos determinar cuantas caras
es necesario obtener antes de asumir que la moneda escogida tena de hecho
dos caras.
Existen dos alternativas posibles:
1. La moneda tiene dos caras.
2. La moneda tiene una cara.
Exactamente una de estas hipotesis es la real y debemos escoger exactamente
una. Esto define cuatro eventos.

L. Arenas-Carmona

78

1. El evento H1 en el que la primera alternativa es la correcta.


2. El evento H2 en el que la segunda alternativa es la correcta.
item El evento B1 en el que nosotros creemos que la primera alternativa
es la correcta.
3. El evento B2 en el que nosotros creemos que la segunda alternativa es
la correcta.
Si uno comete un error, esto tendra un costo. Denotaremos por Cij el costo
de escoger la alternativa i siendo que la alternativa j es la correcta. Por
cierto supondremos Cjj < Cij , es decir, es preferible no equivocarse. En tal
caso, el costo total esperado es
X
X
C=
Cij P (Bi Hj ) =
Cij P (Bi |Hj )P (Hj ).
i,j

i,j

Necesitamos ahora describir el procedimiento que se usara para escoger la


alternativa correcta. En general, dispondremos solo de alg
un esperimento,
o sucesion de ellos, cuyo resultado depende de la hipotesis correcta Hj . Sea
{Ak }kK el conjunto de dichas observaciones.
En tal caso, las observaciones
S
se distribuyen en subconjuntos Sj con i Si = K, de modo que k Si si y
solo si al hacer la observaci
S on Ak se piensa que la alternativa i es la correcta.
En otras palabras Bi = kSi Ak . Para simplificar los calculos denotaremos
por i (k) la funcion caracterstica Si (k). Con estas notaciones se tiene:
!
X
X
X X
C=
Cij
P (Ak |Hj )P (Hj ) =
Cij i (k)P (Ak |Hj )P (Hj ) .
i,j

kSi

i,j

Bastara por lo tanto, para cada valor de k minimizar la suma que se encuentra entre parentesis. De hecho, en el caso de que tengamos solamente dos
hipotesis como en el problema de las monedas, escogemos la primera opcion
para una observacion dada Ak si y solo si
C11 P (Ak |H1 )P (H1 ) + C12 P (Ak |H2 )P (H2 ) <
C21 P (Ak |H1 )P (H1 ) + C22 P (Ak |H2 )P (H2 ).
Tras algo de manejo algebraico, esta condicion se traduce a
P (Ak |H2 )
(C21 C11 )P (H1 )
<
.
P (Ak |H1 )
(C12 C22 )P (H2 )

L. Arenas-Carmona

79

Notese que la fraccion al lado izquierdo es el cociente de las verosimilitudes


de la observacion obtenida Ak en los dos casos posibles. Por esta razon, este
test recibe el nombre de Test de Raz
on de Verosimilitud. En el caso de las
monedas se tiene que si la moneda tuviese dos caras (hipotesis 1) entonces
la probabilidad de obtener n caras seguidas es 1, mientras que si la moneda
tuviese una sola cara (hipotesis 2) entonces la probabilidad de obtener n
caras seguidas es 2n . Dado que la probabilidad de que la primera hipotesis
r
, se tiene que debemos aceptar que la moneda tiene dos
sea la correcta es r+m
caras si y solo si
2n
(C12 C22 )m
<
,
1
(C21 C11 )r
o equivalentemente:
r
2n m

<

(C12 C22 )
.
(C21 C11 )

Si suponemos que los costos por equivocarse (o no) en cualquier sentido son
los mismos, debemos escoger n > log2 (r/m).
Veremos ahora que la misma idea se aplica en el caso en que la observacion

A = A( ) depende de un parametro continuo Rn . En este caso el costo


total se calcula mediante
Z
X

C=
Cij fA ( |Hj )P (Hj ) d
Si

i,j

Z
=

Si

Cij i (k)fA ( |Hj )P (Hj ) d .

i,j

Aqu basta con minimizar la suma entre parentesis, por lo que se tiene, en el
caso de dos hipotesis, que la primera hipotesis se acepta si y solo si:

fA ( |H2 )

fA ( |H1 )
como antes.

<

(C21 C11 )P (H1 )


(C12 C22 )P (H2 )

Вам также может понравиться