Notas de Probabilidades

Notas de Probabilidades y Estad stica
Cap tulos 1 al 12
V ctor J. Yohai
vyohai@dm.uba.ar Basadas en apuntes de clase tomados por Alberto Dboli, durante el a o 2003 e n Versin corregida durante 2004 y 2005, con la colaboracin de Mar Eugenia Szretter o o a 20 de Marzo de 2006
Indice general
1. Espacios de Probabilidad. 1.1. Experimentos aleatorios. Algunas consideraciones heur sticas. 1.2. Axiomas de probabilidad. . . . . . . . . . . . . . . . . . . . . 1.2.1. Algebras. . . . . . . . . . . . . . . . . . . . . . . . 1.2.2. Espacios de Probabilidad. . . . . . . . . . . . . . . . . 1.3. Algebra generada por una familia de conjuntos. . . . . . . 1.4. Espacios de probabilidad nitos o numerables. . . . . . . . . . 1.5. Probabilidad condicional. . . . . . . . . . . . . . . . . . . . . 1.6. Independencia de eventos. . . . . . . . . . . . . . . . . . . . . 7 7 8 8 10 18 21 23 25
2. Variable Aleatoria. 31 2.1. Concepto de variable aleatoria. . . . . . . . . . . . . . . . . . 31 2.2. Espacio de probabilidad asociado a una variable aleatoria. . . 32 2.3. Funcin de distribucin de una variable aleatoria. . . . . . . . 35 o o 3. Variables aleatorias discretas y continuas. 41 3.1. Variables aleatorias discretas. . . . . . . . . . . . . . . . . . . 41 3.2. Ejemplos de distribuciones discretas. . . . . . . . . . . . . . . 43 3.2.1. Distribucin Binomial. . . . . . . . . . . . . . . . . . . 43 o 3.2.2. Distribucin Binomial Negativa (o Distribucin de Paso o cal). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 3.2.3. Distribucin Geomtrica. . . . . . . . . . . . . . . . . 46 o e 3.2.4. Distribucin Hipergeomtrica. . . . . . . . . . . . . . . 47 o e 3.2.5. Distribucin de Poisson. . . . . . . . . . . . . . . . . . 48 o 3.2.6. Grco de la funcin de distribucin asociada a una a o o variable aleatoria discreta. . . . . . . . . . . . . . . . . 49 3.3. Variables aleatorias absolutamente continuas. . . . . . . . . . 49 3.4. Ejemplos de distribuciones continuas. . . . . . . . . . . . . . . 53 3.4.1. Distribucin uniforme en un intervalo. . . . . . . . . . 53 o 3.4.2. Generacin de distribuciones a partir de la distribuo cin uniforme en [0,1] . . . . . . . . . . . . . . . . . . 55 o 3.4.3. Distribucin Normal N , 2 . . . . . . . . . . . . . . 59 o 3.4.4. Distribucin Exponencial. . . . . . . . . . . . . . . . . 62 o 3
3.5. Variables aleatorias mixtas. . . . . . . . . . . . . . . . . . . . 4. Vectores aleatorios. 4.1. Denicin de vector aleatorio. . . . . . . . . . . . . . . . . . . o 4.2. Espacio de probabilidad inducido. . . . . . . . . . . . . . . . . 4.3. Funcin de distribucin conjunta de un vector aleatorio. . . . o o 4.4. Algunas propiedades de vectores aleatorios. . . . . . . . . . . 4.5. Independencia de variables aleatorias. . . . . . . . . . . . . . 4.5.1. Algunas consideraciones heur sticas. . . . . . . . . . . 4.5.2. Conservacin de la independencia por transformaciones. o 4.5.3. Independencia de vectores aleatorios. . . . . . . . . . .
65 69 69 70 71 78 80 80 86 86
5. Vectores aleatorios discretos y continuos. 89 5.1. Vectores aleatorios discretos. . . . . . . . . . . . . . . . . . . 89 5.1.1. Funcin de densidad de probabilidad conjunta. . . . . 91 o 5.1.2. Caracterizacin de la funcin de densidad marginal o o asociada a un subconjunto de variables. . . . . . . . . 92 5.2. Ejemplos de vectores aleatorios con distribucin discreta. . . 94 o 5.2.1. Distribucin Multinomial. . . . . . . . . . . . . . . . . 94 o 5.2.2. Distribucin Hipergeomtrica Multivariada. . . . . . . 96 o e 5.3. Vectores Aleatorios de tipo absolutamente continuo. . . . . . 98 6. Transformaciones de variables y vectores aleatorios. 6.1. Transformaciones montonas de variables aleatorias. . . . . o 6.1.1. Distribucin Normal . . . . . . . . . . . . . . . . . . o 6.2. Transformaciones inyectivas de vectores aleatorios. . . . . . 6.3. Algunas aplicaciones a la distribucin normal. . . . . . . . . o 6.4. Transformaciones no inyectivas . . . . . . . . . . . . . . . . 6.4.1. Distribucin Chi-cuadrado con un grado de libertad. o 6.5. Algunas distribuciones complementarias. . . . . . . . . . . . 6.5.1. Distribucin Gamma. . . . . . . . . . . . . . . . . . o 6.5.2. Distribucin beta. . . . . . . . . . . . . . . . . . . . o 6.5.3. Distribucin Chi-cuadrado. . . . . . . . . . . . . . . o 6.5.4. Distribucin t de Student . . . . . . . . . . . . . . . o 105 105 107 109 112 114 115 . 116 . 116 . 121 . 123 . 123 . . . . .
7. Esperanza Matemtica. a 125 7.1. Integral de Riemann-Stieltjes. . . . . . . . . . . . . . . . . . . 125 7.1.1. Denicin de la integral. . . . . . . . . . . . . . . . . . 125 o 7.2. Denicin de Esperanza Matemtica. . . . . . . . . . . . . . . 128 o a 7.2.1. Algunas consideraciones heur sticas. . . . . . . . . . . 128 7.2.2. Esperanza de una variable aleatoria discreta. . . . . . 129 7.2.3. Denicin general de esperanza matemtica. . . . . . 129 o a 7.2.4. Esperanza matemtica para una variable absolutamente a continua. . . . . . . . . . . . . . . . . . . . . . . . . . 133 4
7.2.5. Algunas propiedades de la esperanza matemtica . . . 134 a 7.3. Esperanza del producto de variables aleatorias independientes. 149 7.4. Una frmula general para la esperanza de una variable transo formada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 7.5. Esperanza de distribuciones simtricas . . . . . . . . . . . . . 154 e 7.6. Mediana de una variable aleatoria. . . . . . . . . . . . . . . . 158 7.7. Varianza de una variable aleatoria. . . . . . . . . . . . . . . . 161 7.7.1. Esperanzas y varianzas de distribuciones normales . . 163 7.8. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 7.9. Distribucin Normal Bivariada. . . . . . . . . . . . . . . . . . 167 o 8. Teor de la Prediccin. a o 173 8.1. Error cuadrtico medio y predictores ptimos. . . . . . . . . . 173 a o 8.2. Predictores constantes. . . . . . . . . . . . . . . . . . . . . . . 175 8.3. Predictores lineales. . . . . . . . . . . . . . . . . . . . . . . . 176 9. Esperanza y distribucin condicional. o 9.1. Caso discreto. . . . . . . . . . . . . . . 9.2. Caso general . . . . . . . . . . . . . . 9.3. Caso continuo . . . . . . . . . . . . . . 9.4. Varianza condicional . . . . . . . . . . 179 179 187 190 192 195 195 196 199 204 207 213
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
10.Convergencia de Variables Aleatorias. 10.1. Convergencia de funciones. . . . . . . . . . . . . . . . . 10.2. Convergencia casi segura y en probabilidad. . . . . . . . 10.3. Preservacin de la convergencia por funciones continuas. o 10.4. Ley dbil de los grandes nmeros. . . . . . . . . . . . . . e u 10.5. Ley fuerte de los grandes nmeros. . . . . . . . . . . . . u 10.6. Teorema de la Convergencia Dominada . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
11.Convergencia en Distribucin. o 217 11.1. Denicin de convergencia en distribucin. . . . . . . . . . . . 217 o o 11.2. Funciones caracter sticas. . . . . . . . . . . . . . . . . . . . . 220 11.2.1. Variables aleatorias complejas. . . . . . . . . . . . . . 220 11.2.2. Denicin de funcin caracter o o stica y propiedades. . . 221 11.3. Momentos y funcin caracter o stica. . . . . . . . . . . . . . . . 226 11.3.1. Derivacin dentro del signo esperanza. . . . . . . . . . 226 o 11.3.2. Derivadas de la funcin caracter o stica y momentos. . . 227 11.4. Funcin caracter o stica de una distribucin normal. . . . . . . 229 o 11.5. Teorema Central del L mite. . . . . . . . . . . . . . . . . . . . 233 11.5.1. Caso de variables independientes idnticamente dise tribuidas . . . . . . . . . . . . . . . . . . . . . . . . . 233 11.5.2. Teorema Central del L mite para variables no idntie camente distribuidas. . . . . . . . . . . . . . . . . . . . 236 5
11.5.3. Una Aplicacin a la Binomial. . . . . . . . o 11.6. Teorema de Slutsky. . . . . . . . . . . . . . . . . 11.7. Aplicacin a intervalos de conanza. . . . . . . . o 11.8. Un teorema util de Convergencia en Distribucin o 12.Procesos de Poisson. 12.1. Procesos de punto. . . . . . . . . . . . 12.2. Axiomtica de los Procesos de Poisson a 12.3. Distribucin de un proceso de Poisson. o 12.4. Tiempos de espera . . . . . . . . . . . 12.5. Procesos de Poisson en el plano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
240 242 253 255 257 257 257 259 264 265
Cap tulo 1
Espacios de Probabilidad.
1.1. Experimentos aleatorios. Algunas consideraciones heur sticas.
Se llamar experimento aleatorio a un experimento tal que (i) no se puede a preveer el resultado de un solo experimento, (ii) si se repite el experimento varias veces, la frecuencia con la cual el resultado est en un conjunto A a converge a un nmero. u
Ejemplo 1.1 El experimento consiste en arrojar una moneda. En este caso el conjunto de todos los posibles resultados ser a = {0, 1}, 0 corresponde a ceca y 1 a cara. Si se repite experimento muchas veces, la frecuencia con que sale por ejemplo cara, tiende a 0.5 Ejemplo 1.2 El experimento consiste en lanzar un dado. En este caso el conjunto de todos los posibles resultados ser a = {1, 2, 3, 4, 5, 6}. Si se tira el dado muchas veces, por ejemplo la fecuencia con que el resultado est en el conjunto A ser #A/6, donde #A representa el cardinal de a a A. Ejemplo 1.3 El experimento consiste en lanzar una jabalina y registrar la marca obtenida. En este caso el conjunto de todos los posibles resultados ser el conjunto de reales positivos y la frecuencia con que el resultado est, a e por ejemplo en un intervalo [a, b], depender del atleta. a 7
V ctor J. Yohai
Ejemplo 1.4 Se elige al azar un alumno de primer grado de un colegio y se anota su peso en kilos, x y la altura en metros y En este caso = {(x, y) R2 : x > 0, y > 0}. Como puede apreciarse los resultados pueden conformar un conjunto nito o innito de cualquier cardinalidad. Supongamos ahora que se hacen n repeticiones del experimento aleatorio. Si A , sea Cn (A) el nmero de veces que el resultado est en A, luego u a la frecuencia relativa del conjunto A se dene por fn (A) = Cn (A) . n
En el caso de un experimento aleatorio, cuando n crece, esta frecuencia se aproxima a un nmero que se llamar probabilidad de A y que denotaremos u a por P (A). Claramente 0 fn (A) 1, de manera que P (A) = l fn (A) , m
n
y entonces 0 P (A) 1. Como veremos, en algunos casos, no se puede denir la probabilidad para todo subconjunto de resultados. Para precisar este concepto y estudiar sus propiedades formularemos la teor axiomtica de probabilidades. a a
1.2.
Axiomas de probabilidad.
En primer lugar deniremos algunas propiedades que tendr la familia a de todos los conjuntos para los cuales est denida su probabilidad. Esto a nos lleva al concepto de -lgebra. a
1.2.1.
Algebras.
Sea un conjunto. Deniremos el conjunto partes de , por P() = {A : A }. Dado un conjunto A, denotaremos por Ac el complemento de A. Denicin 1.1 Sea una familia A de subconjuntos de , es decir A o P().Se dice que A es una -lgebra sobre si satisface las siguientes a propiedades.
1.2. Axiomas de probabilidad.
A1. A. A2. Dado A A se tiene Ac A. A3. Sea A1 , . . . , An , . . . una sucesin de elementos de A. Entonces o
A=
i=1
Ai A.
Propiedades de lgebras a Propiedad 1.1 A. Demostracin. Resulta de A1 y A2. 2 o Propiedad 1.2 Si A1 , ..., An son elementos de A entonces
n i=1
Ai A.
Demostracin. o Para ver esto supongamos que Ai A ; i = 1, 2, ..., n. Probaremos que

n
A=
i=1
Ai A.
Denamos una sucesin numerable (Bi )i1 agregando el conjunto de la o siguiente manera Bj = Aj , 1 j n,
i=1
Bk = si k > n.
Entonces por ser A una -lgebra se tendr que a a

n
Bi A y por lo tanto
A=
i=1
Ai =
i=1
Bi A. 2
elementos de A entonces A =
Propiedad 1.3 Si A es una -lgebra, y A1 , ..., An , ... es una sucesin de a o

i=1
Ai A.
Demostracin. Esto resulta de que A = ( o

i=1
Ac )c . 2 i
10
V ctor J. Yohai
entonces A =
Propiedad 1.4 Si A es una -lgebra, y A1 , ..., An son elementos de A a

n i=1
Ai A.
Demostracin. Se demuestra igual que la Propiedad 1.2. 2 o Propiedad 1.5 Si A es una -lgebra, y A1 y A2 son elementos de A, a entonces A1 A2 A. Demostracin. En efecto A1 A2 = A1 Ac A. 2 o 2 Propiedad 1.6 La lgebra sobre ms chica posible es a a A0 = {, }, y la ms grande es a A1 = P () . Luego si A es una -lgebra sobre , se tendr a a A0 A A1 . 2
Observacin. En el contexto de la teor de la medida, un elemento de la o a lgebra A se llama un conjunto medible. a Como veremos en la prxima subseccin, la probabilidad estar denida o o a para los elementos de una lgebra. a
1.2.2.
Espacios de Probabilidad.
Denicin 1.2 Un espacio de probabilidad es una terna (, A, P ) donde o es un conjunto, A es una -lgebra sobre , y P : A [0; 1] es una a funcin que satisface: o 1. 2. P () = 1. ( -aditividad). Si (An )n1 es una sucesin de elementos de A disjuntos o dos a dos (Ai Aj = , si i = j), entonces

P(
i=1
Ai ) =
i=1
P (Ai ).
Observaciones.
11
1. El conjunto se denomina espacio muestral y se interpreta como el conjunto de resultados posibles del experimento, los elementos de A se denominan eventos, y corresponden a los subconjuntos de para los cuales la probabilidad est denida. Finalmente P se denomina a funcin de probabilidad, y dado A A, P (A) se interpreta como la o probabilidad de que el resultado del experimento est en A. e 2. En el contexto de la teor de la medida, la terna (, A, P ) corresponde a a un espacio de medida donde la medida P asigna el valor uno al espacio total. 3. Si queremos formalizar la idea intuitiva de la probabilidad como l mite de la frecuencia relativa es importante observar que la frecuencia tiene la propiedad de -aditividad. En principio veamos que deber a ser aditiva Sean A1 , A2 , ..., Ak eventos disjuntos tomados de a dos, esto es, Ai Aj = si i = j entonces
k
fn
i=1
Ai
Cn
k i=1 Ai
k i=1 Cn (Ai )
=
i=1
fn (Ai ) .
La -aditividad ahora se deduce pasando al l mite. Ejemplos de espacios de probabilidad. Ejemplo 1.5 Sea un conjunto, A = P(). Dado x0 , denimos: A 1 si x0 A P (A) = 0 si x0 A. /
a P se denota x0 y se dice que la probabilidad est concentrada en x0 o bien que el unico punto de probabilidad positiva es x0 . Ejemplo 1.6 Sea = {x1 , x2 , ..., xn , ...} cualquier conjunto numerable, A = P(X), y sea ai 0, i = 1, 2, ..., una sucesin tal que o
ai = 1.
i=1
Denimos para todo A P (A) =

{i: xi A}
ai
En este caso P dene una probabilidad y est completamente determinada a por las probabilidades ai asignadas a cada elemento xi .
12 Propiedades de la funcin de probabilidad. o Propiedad 1.7 P () = 0.
V ctor J. Yohai
Demostracin. Es inmediata, pues si tomamos Ai = , para todo i N o entonces por la -aditividad

0 P () = P
Ai
i=1
=
i=1
P (Ai ) =
i=1
P () 1,
y esto slo se cumple en el caso de que P () = 0. 2 o

n n i=1 P
Propiedad 1.8 Sean A1 , ...., An eventos disjuntos. Luego P (

i=1
Ai ) =
(Ai ) .
Demostracin. Tomemos la sucesin Bj = Aj si j = 1, ..., n y Bj = si o o j > n. Aplicando la propiedad de aditividad se obtiene el resultado. 2 Propiedad 1.9 Si A A entonces P (Ac ) = 1 P (A) . Demostracin. Esto sale teniendo en cuenta que A y Ac son disjuntos y o 1 = P () = P (A Ac ) = P (A) + P (Ac ) . 2 Propiedad 1.10 Consideremos dos eventos A1 y A2 . Entonces P (A1 A2 ) = P (A1 ) P (A1 A2 ) . Demostracin. Como o A1 = (A1 A2 ) (A1 A2 ) se obtiene P (A1 ) = P (A1 A2 ) + P (A1 A2 ), y de ah sigue el resultado. 2 Proposicin 1.1 Si A1 , A2 son eventos y A2 A1 entonces o P (A1 A2 ) = P (A1 ) P (A2 ). y adems a
13
P (A2 ) P (A1 ). Demostracin. Por la Propiedad 1.1 y el hecho de que A1 A2 = A2 tenemos o P (A1 A2 ) = P (A1 ) P (A1 A2 ) = P (A1 ) P (A2 ) Adems de aqu resulta a P (A1 ) = P (A2 ) + P (A1 A2 ) P (A2 ). 2
Propiedad 1.11 Si A1 , A2 son eventos entonces P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) . Demostracin. Escribimos A1 A2 como la siguiente unin disjunta o o A1 A2 = (A1 A2 ) (A1 A2 ) (A2 A1 ) . Entonces usando la Propiedad 1.10 resulta P (A1 A2 ) = P (A1 A2 ) + P (A1 A2 ) + P (A2 A1 ) = + P (A2 ) P (A1 A2 ) = P (A1 ) P (A1 A2 ) + P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) . 2
Propiedad 1.12 Sean Ai A, i = 1, 2, ..., k. Entonces

k k
P
i=1
Ai
P (Ai ) .
i=1
Demostracin. De la Propiedad 1.11 se obtiene o P (A1 A2 ) = P (A1 ) + P (A2 ) P (A1 A2 ) , y el resultado vale para k = 2. El resto de la demostracin se hace por o induccin y se deja como ejercicio. o
14
V ctor J. Yohai
n1 An .
Propiedad 1.13 (-subaditividad) Sea (An )n1 A y A =
Entonces
P (A) Demostracin. Denamos o B0 = , B1 = A1 ,
P (An ).
n=1
B2 = A2 A1 ,
B3 = A3 (A1 A1 ), . . .
n1
Bn = An
Ai .
i=1
Luego es inmediato que los Bi son disjuntos dos a dos y
A=
Bn .
n=1
Por la aditividad y el hecho de que Bn An , resulta P (Bn ) P (An ) y entonces

P (A) =
n=1
P (Bn )
P (An ) . 2
n=1
Propiedad 1.14 Sea (An )n1 una sucesin de eventos tales que An An+1 o para todo n y
A=
i=1
Ai .
Luego P (A) = l m P (An ).

n+
Demostracin. Como la sucesin es creciente entonces podemos transformar o o la unin en una unin disjunta deniendo: B0 = A0 = , B1 = A1 o o A0 , B2 = A2 A1 , ...., Bk = Ak Ak=1 , ... Luego
A=
Bk ,
k=1
15
y por lo tanto usando la aditividad y la Propiedad 1.1 se tiene

n n
P (A) =
k=1
P (Bk ) = l m
n
P (Bk ) = l m
k=1 n k=1
k=1
P (Ak Ak1 )
= l m
k=1
P (Ak )
P (Ak1 )
= l P (An ) . 2 m
n
Propiedad 1.15 Sea (An )n1 una sucesin de eventos tal que An An+1 o para todo n y
A=
i=1
Ai .
Entonces P (A) = l m P (An ).

n+
Demostracin. Sea Bn = Ac . Luego (Bn )n1 es una sucesin creciente de o o n eventos y Ac =
Bi . Luego por la propiedad anterior tenemos

i=1
1 P (A) = P (Ac )
n+
= l m P (Bn )
n+
= l m (1 P (An )) = 1 l m P (An ),
n+
de donde se obtiene el resultado deseado. 2 Denicin 1.3 Se llama l o mite superior de una sucesin de conjuntos (An )n1 o al conjunto

A=
k=1 n=k
An ,
y l mite inferior de la sucesin al conjunto o

A=
k=1 n=k
An .
Adems a
c
(A) = =
k1 n=k
Ac = Ac . n
An =
An
k1 n=k
k1 n=k
16
V ctor J. Yohai
Es decir el complemento del l mite inferior de la sucesin (An )n1 es el l o mite superior de la sucesin (Ac )n1 . o n Propiedad 1.16 (Caracterizacin de los l o mites superiores e inferiores) (i) Sea Luego A = A . (ii) Sea A = { : est en todos los An salvo en un nmero nito}. a u Luego A = A . (iii) A A Demostracin. o (i) Supongamos que A entonces para todo k N se tiene que
n=k
A = { : est en innitos conjuntos An }. a
An de manera que A. Rec procamente si A entonces se /
encuentraen a lo sumo un nmero nito de conjuntos An . Supongamos u a / que An0 sea el ultimo en el que est, es decir si n > n0 entonces An para todo n > n0 de manera que
/ y entonces A. /
An
n=n0 +1
(ii) Consideremos la sucesin de los complementos, es decir (Ac )n1 . Por o n la observacin hecha anteriormente y el punto (i) se tiene que o A = (Ac )c = { : pertence a innitos Ac }c n = { : no pertenece a innitos Ac } n
= { : pertenece a lo sumo a un nmero nito de conjuntos Ac } u n = { : pertenece a todos a todos los An salvo un nmero nito} u = A .
(iii) Se obtiene del hecho de que claramente A A . 2
17
En lo que sigue l n an y l n an denotarn respectivamente el m m a l mite superior e inferior de la sucesin an . o Propiedad 1.17 Dada una sucesin de eventos (An )n1 , se tiene o m (i) P A l n P (An ) . (ii) P (A) l n P (An ) . m (iii) Se dice que existe el lmite de la sucesin (An )n1 de conjuntos sii o A = A . En tal caso se tiene P A = P (A) = l P (An ) . m
n
Demostracin. o (i) Como lo hicimos anteriormente consideremos
A=
k=1 ik
Ai
y escribamos Bk =
ik
Ai .
Entonces la sucesin (Bn )n1 es decreciente y o A=

k1
Bk .
Luego, como para todo i k se tiene Ai Bk , podemos escribir P (Bk ) sup{P (Ai )}
ik
y entonces
k1
inf {P (Bk )} inf sup{P (Ai )}

k1 ik
Luego, como P (Bk ) es decreciente, se tiene P A = l P (Bk ) = inf {P (Bk )} m

k k1
inf sup{P (Ai )} = l i P (Ai ) . m

k1 ik
(ii) Se deja como ejercicio.
18 (iii) De (i) y (ii) tenemos que
V ctor J. Yohai
P (A) l n P (An ) l n P (An ) P A . m m Luego si A = A, resulta P (A) = P A y entonces P (A) = l n P (An ) = l n P (An ) = P A . m m Luego P (A) = P A = l n P (An ) . 2 m
1.3.
Algebra generada por una familia de conjuntos.
En general no se puede tomar como lgebra A a P() para denir el a espacio de probabilidad. Esto siempre es posible si es a lo sumo numerable. El siguiente teorema muestra que dada una familia de subconjuntos de , existe una menor lgebra que contiene a . a Teorema 1.1 Dado un conjunto y una familia de subconjuntos de , existe una lgebra A sobre tal que (i) a A y (ii) Si A es otra lgebra sobre tal que A, entonces A A. Se dice entonces que A a es la lgebra sobre generada por . a Demostracin. Denotaremos a la familia de todas las lgebras sobre que o a contienen a por R . Entonces R = {A : A es una lgebra sobre y A a }.
Claramente R es no vac ya que P() R. Denamos ahora a, A =

AR
A.
Primero mostraremos que A es una lgebra sobre . a Veamos que A .En efecto, A, para toda A R, luego A . Sea ahora A A , mostraremos que Ac A . En efecto, como A A, para toda A R, se tiene Ac A, para toda A R. Luego Ac A . Sea una sucesin numerable de eventos A1 , A2 , ...., An , ... que estn en o a A . Mostraremos que Ai A . Dado A R, se tiene Ai A para todo i=1 e i, y luego Ai A tambin. Luego Ai A, para todo A R y i=1 i=1 entonces
i=1
Ai
AR
A = A .
Esto prueba que es una -lgebra. Por otro lado si A es una lgebra a a y A , entonces A R, y esto implica que A A. 2
1.3. Algebra generada por una familia de conjuntos.
19
lgebra de Borel sobre los reales. Si tenemos un espacio de proa babilidad cuyo espacio muestral es el conjunto de nmeros reales R, parece u natural que la lgebra contenga los conjuntos de la forma (, x].Esto a permitir calcular la probabilidad de que el resultado del experimento aleatoa rio correspondiente sea menor o igual que x. Esto motiva la siguiente denicin. o Denicin 1.4 La lgebra de Borel sobre R, que denotaremos por B, es o a la lgebra sobre R generada por los conjuntos de la forma Ax = (, x], a para todo x R. Un conjunto B B se denomina boreliano. Propiedades de los borelianos. Propiedad 1.18 Todo intervalo (a, b] es un boreliano. Demostracin. Como o (a, b] = (, b] (, a], por la Propiedad 1.5 (a, b] es un boreliano 2 Propiedad 1.19 Dado x R, {x} B. Demostracin. Para esto se observa que para todo n N o In = (x Puesto que x resulta que {x} = 1 , x] B. n
1 x n In B,
n=1
y el resultado se obtiene por las propiedades 1.18 y 1.12. 2 De las propiedades 1.18 y 1.19, se deducen inmediatamente las propiedades 1.20-1.22 Propiedad 1.20 (a, b) = (a, b] {b} B.
20 Propiedad 1.21 [a, b] = {a} (a, b] B. Propiedad 1.22 [a, b) = {a} (a, b) B. Propiedad 1.23 Todo abierto es un boreliano
V ctor J. Yohai
Demostracin. Sea G R un abierto. Para todo x G existe un intervalo o (ax , bx ) tal que x (ax , bx ) G con ax y bx racionales. Por lo tanto G puede escribirse como la unin numerable de borelianos o G=
xG
(ax , bx ),
y por lo tanto G B. 2 Propiedad 1.24 Todo cerrado es un boreliano Demostracin. Sea F un cerrado. Entonces F c = G es un abierto y por o Propiedad 1.23 se tiene que F c B. Ahora por ser lgebra se obtiene a que F = (F c )c B. 2 lgebra de Borel en Rn . a Denicin 1.5 La lgebra de Borel sobre Rn es la algebra sobre Rn o a generada por los conjuntos de la forma A(x1 ,x2 ,...,xn) = (, x1 ] (, x2 ] ... (, xn ], donde (x1 , ..., xn ) es una n-upla de nmeros reales. Ser denotada por B n . u a Observacin. De manera anloga al caso de la lgebra de Borel sobre R, o a a se pueden mostrar las propiedades 1.25-1.26 cuyas demostraciones se dejan como ejercicio. Propiedad 1.25 Cualquier rectngulo en Rn de la forma a (a1 , b1 ] (a2 , b2 ] (an , bn ] (a1 , b1 ) (a2 , b2 ) (an , bn ) [a1 , b1 ) [a2 , b2 ) [an , bn ) es un boreliano. Propiedad 1.26 Todo abierto y todo cerrado en Rn es un boreliano.
1.4. Espacios de probabilidad nitos o numerables.
21
1.4.
Espacios de probabilidad nitos o numerables.
Denicin 1.6 Sea (, A, P ) un espacio de probabilidad con a lo sumo o numerable. En este caso podemos tomar como A el conjunto de partes de (P()). Denimos la funcin de densidad p, asociada a la probabilidad P o por p : [0, 1] de la siguiente manera p () = P ({}) . Propiedades de la funcin de densidad o Propiedad 1.27 La funcin de densidad determina la funcin de probabio o lidad. Para todo A se tiene P (A) =
wA
p () .
Demostracin. Si A entonces A se puede escribir como la siguiente unin o o disjunta A= {},

A
donde cada conjunto {} A. Luego P (A) =

A
P ({}) =
A
p () . 2
Propiedad 1.28 Si es nito o numerable se cumple que p () = 1.
Demostracin. En efecto por la Propiedad 1.27 o 1 = P () =

w
p () . 2
Denicin 1.7 Decimos que un espacio nito = {1 , .., n } es equiprobo able sii p (i ) = p (j ) , i, j.
22
V ctor J. Yohai
Observacin. Un espacio de probabilidad innito numerable no puede ser o equiprobable. En efecto, supongamos que = {1 , 2 , ..., n , ...}, y p() = c. Luego por la Propiedad 1.27 se tendr a

1=
i=1
p(i ) =
i=1 i=1 c
c,
lo que es un absurdo puesto que
= 0 segn c > 0 c = 0. o u o
Propiedad 1.29 Si es un espacio de probabilidad equiprobable entonces, la probabilidad de cualquier evento A se calcula por P (A) = donde #A denota el cardinal de A. Demostracin. Para ver esto supongamos que para todo se tenga o p () = c, entonces 1=
#A , #
p() =
c=c
1 = c #,
y luego, c= Adems a P (A) =

wA
1 . # #A . #
p() =
wA
c=c
wA
1 = c (#A) =
Ejemplo 1.7 Hallar la probabilidad de que dado un conjunto de n personas, dos personas cumplan aos el mismo da. Se supondr que todos los aos n a n tienen 365 das y que las probabilidades de nacimiento en cualquier fecha son iguales. Supongamos que a cada persona se le asigna un nmero entre 1 y n y u sea xi el d del cumpleaos de la persona i. Luego 1 xi 365, y podemos a n considerar el siguiente espacio muestral = {(x1 , x2 , ..., xn ) : xi N : 1 xi 365} . donde N es el conjunto de nmeros naturales. u
1.5. Probabilidad condicional.
23
En vez de calcular la probabilidad de que dos personas cumplan el mismo d calculemos la del complemento, es decir la probabilidad de que todas a, cumplan aos en d distintos n as Ac = {(x1 , x2 , ..., xn ) : 1 xi 365, xi = xj i = j} . Se tiene # = 365n Adems a #Ac = 365 n!. n
La importancia de la combinatoria se ve en este punto; es necesario contar con principios de enumeracin. En este caso, primero seleccionamos o los n dias distintos entre los 365 d posibles y luego por cada muestra se as obtienen n! formas distintas de distribuirlos entre n personas. Las probabilidades que se obtienen usando est formula pueden cona tradecir la intuicin. Por ejemplo, si n = 20, P (A) 0,41, si n = 30, o P (A) 0,76 y si n = 40, P (A) 0,89.
1.5.
Probabilidad condicional.
Sea (, A, P ) un espacio de probabilidad, y consideremos dos eventos A, B A, y supongamos que P (B) = 0. Queremos estudiar como cambia la probabilidad de ocurrencia de A cuando se conoce que otro evento B ha ocurrido. En este caso habr que rea denir el espacio muestral considerando solamente los elementos de B como posibles resultados. Por ejemplo, consideremos el experimento de tirar un dado y preguntmosnos acerca de la probabilidad de que salga un seis, sabiendo que e el dado escogido es un nmero par. En este caso la probabilidad no es 1/6, u puesto que tenemos la certeza de que el resultado est en el conjunto {2, 4, 6} a Como cada uno de estos tres resultados tienen idntica probabilidad, como e se ver, la probabilidad de obtener el 6 sabiendo que el resultado es par a ser 1/3. a Vamos a tratar de determinar cual debe ser la probabilidad de un evento A condicional a que se conoce que B ha ocurrido, utilizando interpretacin o heur stica de la probabilidad como limite de la frecuencia con la cual un evento ocurre. Para esto supongamos que se han hecho n repeticiones independientes del experimento y denotemos con nB : el nmero de veces en el que ocurre el resultado B, u nAB : el nmero de veces en el que ocurre el resultado A B. u
24
V ctor J. Yohai
Heur sticamente la probabilidad condicional de A dado B,ser el l a mite de la frecuencia con la cual A ocurre en los experimentos donde B ocurre, es decir el l mite de nAB . nB Luego, la probabilidad de que ocurra A condicional B ser a nAB = l m n nB n l m
nAB n nB n
l n nAB m P (A B) n . nB = l n n m P (B)
Esto justica la siguiente denicin. o Denicin 1.8 Sea (, A, P ) un espacio de probabilidad A, B A tal que o P (B) > 0. Se dene la probabilidad condicional de A dado B por P (A|B) = P (A B) . P (B)
El siguiente teorema muestra que para cada B jo, P (.|B) es una funcin o de probabilidad. Teorema 1.2 Fijado el evento B , tal que P (B) > 0, denamos P : A [0, 1] por P (A) = P (A|B) para todo A A . Luego P es una probabilidad. Demostracin. o (i) P () = P (|B) = P (B) P ( B) = =1 P (B) P (B)
(ii) Sea (An )n1 , una sucesin de eventos disjuntos dos a dos, es decir si o i = j, entonces Ai Aj = . Luego

P An |B An B =
An
n=1
An
n=1
=P P =
n=1
P (B)
n=1 P
n=1
P (B)
=
n=1
(An B) = P (B)
=
n=1
P (An B) = P (B)
P (An |B) =
P (An ) . 2
n=1
1.6. Independencia de eventos.
25
1.6.
Independencia de eventos.
Denicin 1.9 Sea (, A, P ) un espacio de probabilidad y consideremos o A, B A. Se dice que A y B son independientes si P (A B) = P (A) P (B). Propiedad 1.30 (i) Si P (B) > 0, entonces A y B son independientes si y slo si P (A|B) = P (A). o (ii) Si P (B) = 0, dado cualquier A A se tiene que A y B son independientes. Demostracin. La demostracin es inmediata. 2 o o La propiedad de independencia se generaliza para un nmero nito de u eventos.
Denicin 1.10 Se dice que los eventos A1 , ..., Ak son independientes sii o para cualquier sucesin de subndices (i1 , ...ih ), h k, con ir = is si r = s o se tiene que
h h
j=1
Aij =
P Aij .
j=1
Observaciones. 1. Para que tres eventos A1 , A2 y A3 sean independientes se deben cumplir las siguientes igualdades P (A1 A2 ) = P (A1 ) P (A2 )
P (A1 A3 ) = P (A1 ) P (A3 )
P (A1 A2 A3 ) = P (A1 ) P (A2 ) P (A3 ) . 2. No alcanza la independencia tomados de a dos. Como ejemplo tomemos = {1 , 2 , 3 , 4 } espacio de probabilidad equiprobable, es decir 1 P ({i }) = 4 . Entonces los conjuntos A1 = {1 , 2 } A2 = {1 , 3 }
P (A2 A3 ) = P (A2 ) P (A3 )
A3 = {2 , 3 }
26
V ctor J. Yohai
son independientes tomados de a dos pero no en forma conjunta. Ms a precisamente, se cumple que 1 2 Ai Aj = {k } para algn k u j : P (Aj ) = y luego P (Ai Aj ) = Pero A1 A2 A3 = , y por lo tanto 1 0 = P (A1 A2 A3 ) = P (A1 ) P (A2 ) P (A3 ) = . 8 1 1 1 = = P (Ai ) P (Aj ) . 4 2 2
Teorema 1.3 A1 , ..., Ak son eventos independientes si y slo si para cualquier o sucesin (i1 , ...ih ), h k, con ir = is si r = s y tal que o
h
se tiene que
j=2
Aij > 0,
P Ai1
h j=2
Aij = P (Ai1 ) .
(1.1)
Demostracin. Supongamos primero que A1 , ..., Ak son independientes y demostraremos o que se cumple (1.1). Sean Ai1 , Ai2 , ..., Aih tales que ir = is si r = s y P
h j=2 Aij
> 0. Entonces
h j=2
P Ai1
Aij =
P P
h j=1 Aij h j=2 Aij
h j=1 P h j=2 P
Aij Aij
= P (Ai1 ) .
Supongamos ahora que A1 , ..., Ak son eventos que satisfacen la propiedad del enunciado. Queremos probar que entonces son independientes, es decir que
h h
j=1
Aij =
P Aij .
(1.2)
j=1
27
Lo probaremos por induccin sobre h. Comenzaremos con h = 2. Dados Ai1 o y Ai2 con i1 = i2 , puede suceder que (a) P (Ai2 ) = 0 o que (b) P (Ai2 ) > 0. En el caso (a) se tiene que como Ai1 Ai2 Ai2 , resulta P (Ai1 Ai2 ) = 0 y luego P (Ai1 Ai2 ) = P (Ai1 )P (Ai2 ) (1.3) En el caso (b) como vale (1.1) se tiene P (Ai1 |Ai2 ) = y luego tambin vale e P (Ai1 Ai2 ) = 0 = P (Ai1 )P (Ai2 ). Esto muestra que (1.2) vale para h = 2. Supongamos ahora que (1.2) vale para h y probemos que tambin vale e para h+ 1. Elegimos Ai1 , Ai2 , ..., Aih , Aih+1 eventos. Consideramos dos casos
h+1 o (a) Supongamos que P j=2 Aij = 0. En tal caso por la suposicin que (1.2) vale para h conjuntos se tiene que h+1 j=2 h+1 j=2
P (Ai1 Ai2 ) = P (Ai1 ) P (Ai2 )
Luego
0=P
Aij =
P Aij .
h+1
P Aij = 0,
j=1
(1.4)
y como
h+1 j=1 Aij
h+1 j=2 Aij
De (1.4) y (1.5) obtenemos que

h+1 j=1
se tendr que a
h+1 j=1
Aij = 0.
h+1
(1.5)
Aij =
P Aij .
j=1
h+1 (b) Supongamos ahora que P > 0. Entonces como estamos j=2 Aij suponiendo que (1.1) vale se tiene h+1 j=2
P Ai1
Aij = P (Ai1 ) ,
28 y luego P P Equivalentemente P
h+1 j=1 h+1 j=1 Aij h+1 j=2 Aij
V ctor J. Yohai
= P (Ai1 ) .
y como por la hipteisis inductiva (1.2) vale para h, se deduce o

h+1 j=1 h+1 j=2 h+1 j=1
Aij = P (Ai1 ) P
h+1 j=2
Aij ,
Aij = P (Ai1 )
P Aij
P Aij . 2
Denicin 1.11 Sea I un conjunto nito o numerable, una sucesin {Ai }iI o o se dice una particin de sii o 1. Ai =
iI
2.
Si i = j entonces Ai Aj =
Teorema 1.4 (Teorema de la Probabilidad Total) Sea (, A, P ) un espacio de probabilidad, {An }nI A una particin de con P (Ai ) > 0, para o todo i I y B A tal que P (B) > 0. Entonces P (B) =
iI
P (Ai )P (B|Ai )
Demostracin. Como B se puede escribir como la siguiente unin disjunta o o B=

iI
(B Ai ) ,
entonces como P (B|Ai ) = P (BAi )/P (Ai ), se tiene P (BAi ) = P (Ai )P (B|Ai ) y por lo tanto P (B) = P (Ai )P (B|Ai ) . 2
iI
29
Teorema 1.5 (Bayes) Sea (, A, P ) un espacio de probabilidad y {Ai }1ik A una particin de con P (Ai ) > 0, 1 i k. Sea B A con P (B) > 0. o Supongamos conocidas a priori las probabilidades P (B|Ai ) y P (Ai ) para todo i. Entonces P (Ai |B) = P (Ai ) P (B|Ai )
k j=1 P
(Aj ) P (B|Aj )
Demostracin. Usando el teorema de la probabilidad total teniendo en cuenta o que {Aj }1jk es una particin y aplicando la denicin de probabilidad o o condicional y el Teorema 1.4 se obtiene P (Ai |B) = = P (Ai B) P (B) P (Ai ) P (B|Ai )
k j=1 P
(Aj ) P (B|Aj )
.2
Ejemplo de aplicacin del Teorema de Bayes. o Consideremos un test que detecta pacientes enfermos de un tipo espec co de enfermedad. La deteccin corresponde a que el test de positivo. El reo sultado de un test negativo se interpreta como no deteccin de enfermedad. o Sea A1 : el evento el paciente seleccionado no tiene la enferemedad A2 : el evento el paciente seleccionado tiene la enfermedad Entonces {A1 , A2 } constituye una particin del espacio de probabilidad o Consideremos adems a T+ : el evento el test da positivo T : el evento el test da negativo Supongamos conocidas las probabilidades de ser sano o enfermo antes de hacer el test (probabilidades apriori). P (A1 ) = 0,99; P (A2 ) = 0,01. Ademas supongamos que P (T+ |A1 ) = 0,01; P (T+ |A2 ) = 0,99. Observemos que para un test perfecto se pedir a P (T+ |A1 ) = 0; P (T+ |A2 ) = 1. Es decir, estamos suponiendo que el test no es perfecto. Calculemos la probabilidad de que dado que el test detecta enfermedad el paciente sea efectivamente enfermo (esta probabilidad se denomina probabilidad a posteriori). De acuerdo al Teorema de Bayes se tiene
30
V ctor J. Yohai
P (A2 |T+ ) = y
P (A2 ) P (T+ |A2 ) = 0,5. P (A1 ) P (T+ |A1 ) + P (A2 ) P (T+ |A2 )
P (A1 |T+ ) = 1 P (A2 |T+ ) = 0,5 La conclusin es que si el test da positivo, no hay una evidencia fuerte o de que el paciente est enfermo o sano ya que ambas probabilidades condie cionales son iguales a 0.50. Luego un test como el descripto no es util para detectar la enfermedad. Si logramos tener P (T+ |A1 ) = 0,001; P (T+ |A2 ) = 0,999 la situacin cambia; en tal caso resulta P (A2 |T+ ) = 0,91, que es ms acepto a able que la anterior.
Cap tulo 2
Variable Aleatoria.
2.1. Concepto de variable aleatoria.
En muchos casos interesa conocer solamente alguna caracter stica numrie ca del resultado del experimento aleatorio. Demos dos ejemplos: 1. El experimento consiste en tirar dos dados y los posibles resultados son = { (x, y) : x I6 , y I6 } donde Ik = {1, 2, ..., k} y para cada resultado (x, y) interesa solo la suma de los dados x + y. 2. El experimento consiste en un tiro al blanco y el conjunto de los resultados es = { (x, y) : x R, y R}, x e y son la abcisa y ordenada del punto donde peg el tir tomando origen (0, 0) el punto o o correspondiente al blanco. En este ejemplo solo interesa la distancia al blanco, es decir (x2 + y 2 )1/2
Denicin 2.1 Sea (, A, P ) un espacio de probabilidad. Una variable aleatoo ria es una funcin X : R tal que para todo x R o X 1 ((, x]) A. Observaciones. 1. La condicion (2.1) permite calcular P ({ : X() x}) = P (X 1 ((, x])). 2. El concepto de variable aleatoria es esencialmente el mismo que el de funcin medible en teor de la medida. Si (, A, ) es un espacio o a de medida f : A R se dice medible sii para todo x vale que f 1 ((, x])) A. 31 (2.1)
32
V ctor J. Yohai
3. Si A es el conjunto de partes de , como es usual cuando es nito o numerable, la condicin (2.1) se cumple trivialmente. o Teorema 2.1 Sea X una variable aleatoria sobre un espacio de probabilidad (, A, P ). Entonces vale que X 1 (B) A para todo B B. (B es el conjunto de borelianos en R). Demostracin. Como por denicin X 1 ((, x]) A, basta con vericar o o que = {A R : X 1 (A) A} es una lgebra. Si esto es cierto se tendr que B , puesto que la a a lgebra de Borel es la ms chica que contiene a las semirectas. Veamos a a que esto es cierto. (a) R pues X 1 (R) = A.
(b) Si A , entonces Ac . Como X 1 (A) A, se tendr que a
(c) Sea {An }n . Luego X 1 (An ) A para todo n y como A es un lgebra se tendr que a a X 1 (An ) A.
Luego
(a), (b) y (c) prueban que es una -lgebra. 2 a
2.2.
Espacio de probabilidad asociado a una variable aleatoria.
Sea un espacio de probabilidad (, A, P ) y sea X : R una variable aleatoria. Asociada a esta variable podemos denir un nuevo espacio de probabilidad (R, B, P ) donde para todo B B se dene PX (B) = P X 1 (B) .
Obsrvese que P X 1 (B) est denido ya que X 1 (B) est en A. e a a Vamos a mostrar que PX es efectivamente una probabilidad. La funcin PX o se denomina probabilidad inducida por X o distribucin de X. o

X 1 (Ac ) = X 1 (A)
c
A.
X 1
An
X 1 (An ) A.
2.2. Espacio de probabilidad asociado a una variable aleatoria.
33
Si a uno le interesa slo el resultado de la variable aleatoria, esto permite o trabajar en un espacio de probabilidad donde el espacio muestral es R y la lgebra es B, la lgebra de Borel. a a Teorema 2.2 PX es efectivamente una funcin de probabilidad. o Demostracin. o (a)
o (b) Si {Bi }i B es una sucesin disjunta dos a dos, entonces {X 1 (Bi )}i tambin lo es. Luego e PX Bi =P = X 1 Bi =P X 1 (Bi ) =
Deniremos el concepto de funcin medible o
Denicin 2.2 Una funcin g : R R, se dice medible Borel sii para todo o o xR g1 ((, x]) B. Observaciones.
1. Trabajaremos en este curso con funciones medibles Borel, de manera que a veces nos referiremos a ellas simplemente con el nombre de medibles. 2. Si B B resultar g1 (B) B. Este resultado se demuestra como el a anlogo para variables aleatorias. a 3. Considerando un espacio de probabilidad con = R y A = B es inmediato que g es medible Borel es equivalente a que g es una variable aleatoria. Ejercicio. Demostrar los siguientes resultados: Propiedad 2.1 Si g : R R es continua entonces g es medible.

PX (R) = P X 1 (R) = P () = 1.
i i i
P X
(Bi ) =
PX ((Bi )) . 2
34
V ctor J. Yohai
Propiedad 2.2 Si g : R R es montona entonces g es medible. o Propiedad 2.3 Si B es boreliano, su funcin caracterstica IB es medible. o Propiedad 2.4 Sea {fn }n1 es una sucesin de funciones medibles. Eno tonces (i) Las siguientes funciones son medibles
n
f (x) = inf {fn (x)}, f (x) = sup{fn (x)}.

n
1.
Tambin son medibles e
f (x) = l n fn (x) , m f (x) = l n fn (x) . m En particular si existe el lmite puntual

n
f (x) = l fn (x) m es medible.
El siguiente teorema muestra que la composicin de una variable aleatoo ria con una funcin medible es una variable aleatoria. o Teorema 2.3 Si g : R R es medible y X : R es una variable aleatoria, entonces g (X) : R es tambin una variable aleatoria. e Demostracin. Basta con observar que dado B B o [g (X)]1 (B) = X 1 g1 (B) Como C = g1 (B) B, resulta que tambin X 1 g1 (B) B. 2 e Como consecuencia de este teorema si g es continua y X es una variable aleatoria resulta que g(X) tambien una variable aleatoria. Por ejemplo si X es una variable aleatoria, entonces seno(X) , coseno(X) , aX , con a constante son variables aleatorias. Teorema 2.4 Si X, Y son variables aleatorias entonces (i) X + Y , X Y son variables aleatorias. (ii) Si P (Y = 0) = 1 entonces X/Y es una variable aleatoria. Demostracin. Las demostraciones de (i) y (ii) se vern ms adelante. o a a
2.3. Funcin de distribucin de una variable aleatoria. o o
35
2.3.
Funcin de distribucin de una variable aleatoo o ria.
Denicin 2.3 Sea X una variable aleatoria. Se dene la funcin de diso o tribucin asociada a X como la funcin FX : R [0, 1] dada por o o FX (x) = PX ((, x]) = P X 1 ((, x]) . Observacin. Como veremos, la importancia de FX es que caracteriza la o distribucin de X. Es decir FX determina el valor de PX (B) para todo o BB Propiedades de la funcin de distribucin. o o Las cuatro propiedades que probaremos en el Teorema 2.5 van a caracterizar a las funciones de distribucin. o Teorema 2.5 Sea X una variable aleatoria sobre (, A, P ) y sea FX su funcin de distribucin. Entonces se tiene o o 1. 2. 3. 4. FX es montona no decreciente, es decir x1 < x2 implica FX (x1 ) o FX (x2 ) . l x FX (x) = 1. m l x FX (x) = 0. m FX es continua a derecha en todo punto de R.
Demostracin. o 1. Si x < x entonces (, x] (, x ], y por lo tanto FX (x) = P ((, x]) P (, x ] = FX x . 2. En primer lugar veamos que
n
l FX (n) = 1. m
Consideremos la sucesin montona creciente de conjuntos o o
Entonces
n
An = R.
An = (, n], n N.
36
V ctor J. Yohai
Luego de acuerdo con la propiedad para sucesiones crecientes de eventos l FX (n) = l PX (An ) = PX m m
n n
Ahora veamos que efectivamente l n FX (x) = 1, esto es para todo m > 0 existe x0 > 0 tal que si x > x0 entonces se cumple |FX (x) 1| < . O equivalentemente 1 < FX (x) < 1 + .
Por 0 FX (x) 1, se cumple que para cualquier > 0, FX (x) < + 1. Por lo tanto slo tenemos que mostrar que existe x0 > 0 tal que o si x > x0 entonces se cumple 1 < FX (x) . Sabemos que dado > 0 existe un n0 N tal que si n > n0 entonces 1 < FX (n) . Tomando x0 = n0 y teniendo en cuenta la monoton de FX , se a tendr que si x > x0 entonces a 1 < FX (n0 ) FX (x) . 3. Se demuestra de manera similar a (2). En primer lugar se prueba que
n
l FX (n) = 0. m
Luego se considera la sucesin montona decreciente que converge a o o An = (, n], y se obtiene

n
l PX (An ) = 0. m
Luego se procede como en (2). 4. Queremos ver que FX es continua a derecha en cualquier punto x0 R. Es decir, dado > 0 existe > 0 tal que si 0 < x x0 < entonces FX (x0 ) FX (x) FX (x0 ) + .
An
= PX (R) = 1.
37
La primer inecuacin es vlida siempre ya que como x0 < x entonces o a FX (x0 ) FX (x0 ) FX (x). Basta entonces probar que FX (x) FX (x0 ) + . Consideremos la sucesin decreciente de conjuntos o An = que satisface
n
Entonces l FX m x0 + 1 n
Luego existe n0 N tal que si n > n0 entonces FX x0 + 1 n
Si tomamos < 1/n0 , entonces para todo x tal que 0 < x x0 < se tendr a FX (x) FX (x0 + ) FX x0 + 1 n0 FX (x0 ) + .2
Dada una funcin g : R R, denotemos por l xx0 g(x) el l o m mite de g(x) cuando x tiende a x0 por la izquierda. Entonces tenemos la siguiente propiedad de la funcin de distribucin. o o Propiedad 2.5 Para todo x0 R se tiene que l m FX (x) = FX (x0 ) PX ({x0 }) .
xx0
Demostracin. Sea a = FX (x0 ) PX ({x0 }) . Tenemos que mostrar que dado o > 0 existe > 0 tal que si x0 < x < x0 , entonces a FX (x) a + . Tenemos que a = PX ((, x0 ]) PX ({x0 }) = PX ((, x0 )). (2.2)

An = (, x0 ]. = l PX (An ) = PX m
n
, x0 +
1 n
An
= PX ((, x0 ]) = FX (x0 )
FX (x0 ) +
38
V ctor J. Yohai
Como x0 < x < x0 implica que (, x] (, x0 ), se tendr que a FX (x) = PX ((, x]) PX ((, x0 )) = a. Luego, para probar (2.2) bastar probar que x0 < x < x0 implica a
Como la sucesin de intervalos An = (, x0 1/n] es creciente y o An = (, x0 ),

n
se tendr a
n
l FX (x0 1/n) = l PX (An ) = PX ((, x0 )) m m

n
Luego existe n0 tal que FX (x0 1/n0 ) a . Sea = 1/n0 y tomemos x0 < x < x0 . Por la monoton de FX se tendr a a a FX (x0 1/n0 ) = FX (x0 ) FX (x), y por lo tanto (2.3) se cumple. Esto prueba la Propiedad 2.5. 2 Propiedad 2.6 FX es continua a izquierda en x0 si y slo si PX ({x0 }) = 0. o Demostracin. El resultado es inmediato a partir de la Propiedad 2.5. 2 o Demostracin. o Teorema 2.6 Sea FX la funcin de distribucin de una v.a X. Entonces el o o conjunto de puntos de discontinuidad de FX es a lo sumo numerable. Demostracin. De acuerdo a la Propiedad 2.6, el conjunto de puntos de diso continuidad est dado por a A = {x : PX ({x}) > 0}. Para todo k N sea Ak = Entonces es fcil mostrar que a
= a. Ak = A.
k=1
a FX (x).
(2.3)
x : PX ({x}) >
1 k
39
Luego para demostrar el teorema bastar probar que para k N se tiene a que #Ak < . En efecto, supongamos que para algn k0 existen innitos u puntos {xn }n1 tal que para todo n N se cumpla
Entonces si B=
i
se tendr a PX (B) =
i=1
PX ({xi }) >
lo que es un absurdo. 2
Veremos ahora que toda funcin con las cuatro propiedades del Teorema o 2.5 es una funcin de distribucin para cierta variable aleatoria X (no unica). o o Para eso se requiere el siguiente teorema que daremos sin demostracin. o Teorema 2.7 (de Extensin) Sea F : R [0, 1] una funcin con las o o cuatro propiedades del Teorema 2.5 . Luego existe una unica probabilidad P sobre (R, B) tal que para todo x R se tiene P ((, x]) = F (x) . Este Teorema no se demostrar en este curso ya que requiere teor de a a la medida. La la probabilidad P se denomina extensin de la funcin F. o o Veremos ahora algunas consecuencias del Teorema de Extensin. o Corolario 2.1 Si X y X son variables aleatorias tales que FX = FX . Entonces para todo B B se tendr a PX (B) = PX (B) . Demostracin. Es consecuencia de la unicidad del teorema de extensin. 2 o o Corolario 2.2 Si F satisface las cuatro propiedades del Teorema 2.5 , entonces existe una variable aleatoria X (no necesariamente unica) tal que F = FX . Demostracin. De acuerdo al teorema de extensin se puede denir un espacio o o de probabilidad (R, B, P ) de forma tal que para todo x R F (x) = P ((, x]) . Ahora consideramos la funcin identidad X : R R denida como X (x) = o x para todo x R. Entonces se cumple que FX (x) = PX ((, x]) = P (X 1 ((, x])) = P ((, x]) = F (x) . 2
{xi }
i=1
PX ({xn }) >
1 . k0
1 = , k0
40
V ctor J. Yohai
Cap tulo 3
Variables aleatorias discretas y continuas.

Existen varios tipos de variables aleatorias. En este curso slo estudiareo mos con detalle las discretas y las (absolutamente) continuas.
3.1.
Variables aleatorias discretas.
Denicin 3.1 Se dice que una v.a. X es discreta sii existe A R nito o o numerable tal que PX (A) = 1. Observacin. Ese conjunto A no tiene porque ser unico. Si se le agrega o un conjunto nito o numerable de probabilidad cero, seguir teniendo esta a propiedad. A continuacin vamos a encontrar el conjunto ms chico que o a tiene esta propiedad. Denicin 3.2 Sea X una variable aleatoria discreta. Se dene el rango o de X como el conjunto de los puntos de discontinuidad de la funcin de o distribucin, es decir por o RX = {x R : PX ({x}) > 0}. Teorema 3.1 Sea X una variable aleatoria discreta. Luego (i) PX (RX ) = 1,(ii) Si PX (A) = 1, entonces RX A. Demostracin. o (i) Sea A un conjunto a lo sumo numerable tal que PX (A) = 1. Luego A se puede escribir como la siguiente unin disjunta o A = (A RX ) (A RX ) . 41
42 Entonces 1 = PX (A) = PX ((A RX ) (A RX )) Luego basta probar que PX (A RX ) = 0. = PX (A RX ) + PX (A RX ) .
V ctor J. Yohai
(3.1)
(3.2)
El conjunto A RX es nito o innito numerable. Adems para todo a x A RX se tiene que PX ({x}) = 0. Luego, como A RX = resulta que PX (A RX ) = PX ({x}) = 0.
xPX (ARX ) xARX
{x},
Luego hemos demostrado (3.2). Luego por (3.1) se tiene PX (A RX ) = 1, y luego tambin P (RX ) = 1. e (ii) Sea un conjunto A numerable tal que PX (A) = 1. Supongamos que exista x0 RX tal que x0 A entonces consideramos A = A {x0 } y / se obtiene que PX (A) = PX (A) + PX ({x0 }) > PX (A) = 1, lo cual es un absurdo. 2 La importancia de RX reside en el hecho de que para calcular la probabilidad de un evento B solo interesan los puntos de B que estn en RX . En a este sentido se dice que la probabilidad se concentra en RX . Teorema 3.2 Para todo B B se tiene PX (B) = PX (RX B) . Demostracin. Podemos escribir a B como la siguiente unin disjunta o o B = (RX B) (B RX ) , y tomando probabilidad en ambos miembros se obtiene PX (B) = PX (RX B) + PX (B RX ) . (3.3)
3.2. Ejemplos de distribuciones discretas.
43
Pero de manera que
B RX (RX )c , PX (B RX ) PX ((RX )c ) = 0.
Luego PX (B RX ) = 0 y el teorema resulta de (3.3). 2 Denicin 3.3 Sea X una variable aleatoria discreta. Se dene la funcin o o de densidad de probabilidad asociada a la variable X como la funcin o pX : R [0, 1] tal que pX (x) = PX ({x}) . Tambin pX se suele llamar funcin de probabilidad puntual de X o funcin e o o de frecuencia de X. Observacin. La funcin de densidad satisface pX (x) > 0 sii x RX y o o determina totalmente la probabilidad PX . Para ver esto probaremos el siguiente teorema. Teorema 3.3 Si B B entonces PX (B) =
xBRX
pX (x) .
Demostracin. B RX se puede escribir como la siguiente unin disjunta o o B RX =

xBRX
{x}.
Como B RX es nito o numerable se tiene PX (B) = PX (RX B) = pX (x) 2.

xBRX
3.2.
3.2.1.
Ejemplos de distribuciones discretas.

Distribucin Binomial. o
Supongamos que se repite n veces un experimento que puede dar lugar a dos resultados: xito o fracaso. Supongamos que todos los experimentos son e independientes y tienen la misma probabilidad de xito . Sea X la variable e aleatoria denida como el nmero total de xitos. La distribucin de esta u e o variable se denomina binomial con n repeticiones y probabilidad de xito . e La denotaremos con Bi (, n) .
44
V ctor J. Yohai
donde i = 1 indicar que el i-simo experimento result xito y i = 0 que a e oe fue fracaso. Como es nito podemos tomar como lgebra A el conjunto a de partes de . La variable X se puede denir por
n
Para formalizar este experimento aleatorio tomaremos como espacio muestral = {(1 , 2 , ..., n ) : i {0, 1}} ,
X ((1 , 2 , ..., n )) =
i=1
i .
El rango de esta variable es RX = {0, 1, ..., n}. Obtendremos seguidamente su funcin de densidad. Sea 0 x n, el evento {X = x} est dado o a por
n
Ax = {(1 , 2 , ..., n ) :
i = x}.
i=1
En primer lugar determinaremos la cantidad de elementos del conjunto Ax . Claramente un elemento de Ax queda determinado por los x lugares entre los n posibles donde aparecen los unos. De manera que # (Ax ) = n . x
Obsrvese que el espacio muestral no es equiprobable, por lo que la probae bilidad no se determina con el esquema casos favorables / casos igualmente posibles. Sea el resultado de un experimento cualquiera. Si = 0 entonces P () = 1 y si = 1 entonces P () = . Esto puede escribirse de manera ms compacta de la siguiente manera a P () = (1 )1 . En primer lugar calculemos la probabilidad de un elemento arbitrario del espacio muestral. Teniendo en cuenta la independencia de los resultados de los distintos experimentos y que la ocurrencia de (1 , 2 , ..., n ) involucra una interseccin de eventos se tiene que o
n
P ((1 , 2 , ..., n )) = P
n
i=1
{en el experimento i el resultado es i }
= =
i=1 n
i=1
n
= i=1
P (i ) i (1 )1i =
n
(1 )
i=1
45
Ahora si = (1 , 2 , ..., n ) Ax entonces n i = x y queda que la i=1 probabilidad de ocurrencia de cualquier elemento de Ax es pX () = pX ((1 , 2 , ..., n )) = x (1 )nx En denitiva como Ax se puede escribir como la siguiente unin disjunta o Ax =
Ax
{}
entonces pX () = P ({ : X() = x}) = P (A) =

Ax
P ({}) =
= #(Ax ) x (1 )nx = n x (1 )nx . x
3.2.2.
Distribucin Binomial Negativa (o Distribucin de Paso o cal).
Consideremos, como en el caso de la distribucin binomial, un expero imento aleatorio cuyo resultado es xito con probabilidad y fracaso con e probabilidad 1. Supongamos que se hacen repeticiones independientes del experimento hasta que ocurran k xitos. Los parmetros de esta distribue a cin son : probabilidad de xito y k : el nmero de xitos buscado. o e u e Llamaremos X a la variable aleatoria denida como el nmero de experiu mentos que hay que realizar para obtener los k xitos. La distribucin de e o esta variable se denomina binomial negativa o de Pascal y se la denotar con a BN(, k). El rango de X es RX = {m N : m k} el cual es innito numerable. Consideremos la sucesin variables aleatorias independientes Zi , i N o denidas por Zi = 1 0 si el i-simo experimento es xito e e si el i-simo experimento es fracaso, e
i
y denimos las variables Yi =

j=1
Zj ,
46
V ctor J. Yohai
Claramente Yi cuenta la cantidad de xitos que se alcanzaron en los primeros e i experimentos. Luego su distribucin es Bi(, i). o El evento {X = x}, o sea el evento denido como la cantidad de experimentos necesarios para alcanzar k xitos es x, puede escribirse como una e interseccin de dos eventos o {X = x} = {Yx1 = k 1} {Zk = 1} . Los dos eventos del lado derecho de la ultima ecuacin son independien o tes. Luego, usando el hecho que Yx1 tiene distribucin Bi(, x 1) resulta o para x k. pX (x) = P (X = x) = P (Yx1 = k 1) P (Zk = 1) = = x 1 k1 (1 )xk k1 x1 k (1 )xk . k1
(3.4)
3.2.3.
Distribucin Geomtrica. o e
Se llama distribucin geomtica a la BN(, k), con k = 1. Luego es la o e distribucin de la variable aleatoria X denida como el nmero de expeo u rimentos necesarios para alcanzar el primer xito. A esta distribucin la e o denotarenos como G(). El rango de los valores posibles para la v.a. X es RX = {1, 2, ..., n, ...}. Reemplazando k = 1 en (3.4) se obtiene pX (x) = Podemos vericar que

x1 (1 )x1 = (1 )x1 . 0
pX (x) =
x=1
x=1
(1 )x1 = (1 )j =
x=1
(1 )x1
=
j=0
1 = 1. 1 (1 )
47
3.2.4.
Distribucin Hipergeomtrica. o e
Consideremos una urna que contiene N bolillas de las cuales D son negras y N D blancas. Se extraen secuencialmente (una a una) n bolillas y se dene la variable X como el nmero total de bolilas negras extra u das. Si cada bolilla obtenida es repuesta en la urna antes de obtener la siguiente, el resultado de cada extraccin es independiente de las anteriores, ya que o esos resultados no modican la composicin de la urna. Luego en este caso o X tendr distribucin Bi(, n) con = D/N, ya que este nmero es la a o u probabilidad de sacar cada vez una bolilla negra. Si despus de cada extraccin la bolilla obtenida no se repone, no hay e o independencia en los resultados de las extracciones y la distribucin de X o se denomina hipergeomtrica. La denotaremos por H(N, D, n). e Estudiemos el rango de esta distribucin. Por un lado podemos obsero var que X no puede ser un nmero negativo, ni tampoco mayor que n, la u cantidad total de bolillas extraidas. Por lo tanto: 0 X n. (3.5)
Por otro lado, claramente a lo sumo se pueden extraer D negras, y luego X D. (3.6)
Adems el nmero de total de bolillas blancas extraidas debe ser menor a u que N D. Por lo tanto tambin tenemos e n X N D. En denitiva de (3.5), (3.6) y (3.7) obtenemos RX = {x N : mx (0, n N + D) x m (n, D)}. a n Podemos pensar que las D bolillas negras estn numeradas de 1 a D, y a las blancas de D + 1 a N. Luego si denotamos IN ={x N : 1 x N }, el resultado de extraer n bolillas ser un subconjunto de IN con cardinal n. a Luego, podemos tomar como espacio muestral = {A IN : #A = n}. Como todos estos subconjuntos tienen la misma probabilidad de ser extra dos, estaremos en un caso de resultados equiprobables. El cardinal de es N . n (3.7)
48
V ctor J. Yohai
El evento {X = x} corresponder a aquellos subconjuntos A que cona tienen x bolillas negras y n x blancas. Para obtener el cardinal de {X = x} procedamos de la siguiente manera. Primero consideremos el nmero de subu conjuntos de x bolas negras elegidas entre las D posibles. Este nmero es u D . x Para cada uno de estos subconjuntos de x bolas negras hay N D nx formas de elegir las restantes n x blancas. Luego #{X = x} = y por lo tanto #Ax = pX (x) = # D x N D , nx
D x N D nx N n
Ejercicio. Sea n N jo y consideremos una sucesin de distribuciones hipergeo omtricas H (N, DN , n), N N tales que e DN = . N N l m Entonces si pH es la densidad de probabilidad de una distribucin H (N, DN , n) o N B la de una Bi(, n), se tiene yp
N
l pH (x) = pB (x) . m N
Es decir para N sucientemente grande la distribucin H (N, DN , n) se o puede aproximar por la distribucin Bi(, n) . Heur o sticamente, este resultado puede interpretarse como que debido a que n es pequeo con respecto a n N, la reposicin o no de las bolillas extra o das no cambia substancialmente la composicin de la urna. o
3.2.5.
Distribucin de Poisson. o
La distribucin de Poisson se presenta cuando se considera el nmero o u de veces que ocuurre cierto evento en un intervalo determinado de tiempo. Por ejemplo (a) El nmero de clientes que entran en un determinado banco durante u un d a.
3.3. Variables aleatorias absolutamente continuas.
49
(b) El nmero de accidentes automovil u sticos que ocurren en la ciudad de Buenos Aires por mes. (c) El nmero total de llamadas telefnicas que llegan a una central tefnica u o o entre las 15 hs. y 16 hs. de los d hbiles. as a Para que las distribuciones de estas variables sean de Poisson, se requiere un conjunto de supuestos que trataremos con mayor detalle ms adelante a (ver el cap tulo 12). Por ahora slo indicamos su funcin de densidad. Para cada > 0, se o o dene la distribucin de Poisson con parmetro que simbolizaremos por o a P() por la siguiente densidad de probabilidad pX (x) = e x para x N0 , x!
donde N0 es el conjunto de enteros no negativos. Es claro que

pX (x) =
x=0 x=0
x = e x!
x=0
x = e e = e0 = 1. x!
3.2.6.
Grco de la funcin de distribucin asociada a una a o o variable aleatoria discreta.
Supongamos que el rango de X sea nito RX = {x1 , ..., xn } y x1 < < xn . En tal caso la funcin de distribucin FX es una funcin no decreciente o o o escalonada, en los puntos de probabilidad positiva, xj , 0 j n. Sea
i
ci =
j=1
pX (xj ) ; 1 i n.
Luego se tendr a 0 si x (, x1 ) FX (x) c si x [xi , xi+1 ), 1 i n 1 i 1 si x [xn , ).
Ejercicio. Gracar la FX para una Bi(1/4,10).
3.3.
Variables aleatorias absolutamente continuas.
Denicin 3.4 Se dice que una variable aleatoria X es continua sii FX es o continua para todo x R.
50
V ctor J. Yohai
Observacin. Esto es equivalente a pedir que la probabilidad en todo o punto es cero. Denicin 3.5 Se dice que FX es absolutamente continua sii existe una o funcin fX : R R0 tal que fX es integrable Riemann sobre R y para todo o x R se tiene x FX (x) = fX (t) dt.
La funcin fX se denomina funcin de densidad de la probabilidad asociada o o a X.
Propiedades de las Distribuciones Continuas. Propiedad 3.1 (a) Si fX es una funcin de densidad de probabilidad o para una variable aleatoria X entonces
+
fX (t) dt = 1.
(b) Recprocamente si f 0 es integrable Riemann sobre R y cumple que

+
f (t) dt = 1,
entonces deniendo F (x) =
f (t) dt.
se obtiene una funcin que resulta ser la funcin de distribucin de o o o alguna variable aleatoria X. Demostracin. o (a) Resulta de
+ x
fX (t) dt = l m
x x
fX (t) dt
= l FX (x) = 1. m (b) Usando propiedades de las integrales de Riemann se puede mostrar que FX satisface las cuatro propiedades del Teorema 2.5 . Luego este resultado se obtiene del Corolario 2.2 del Teorema 2.7. 2
3.3. Variables aleatorias absolutamente continuas.
51
Propiedad 3.2 Supongamos que FX es absolutamente continua. Entonces

b
PX ((a, b]) =
a
fX (t) dt.
Demostracin. o PX ((a, b]) = PX ((, b]) PX ((, a]) = FX (b) FX (a)

b a
=
b
fX (t) dt
fX (t) dt
=
a
fX (t) dt. 2
Propiedad 3.3 Si FX es absolutamente continua entonces es continua. Demostracin. Primero supondremos que fX es acotada en un entorno del o punto x. Luego existe > 0 y M positivo tal que f (x) M para todo x [x , x] . Luego para todo tenemos PX ({x}) P ((x , x])
x
=
x
fX (t) dt
M. Como esto vale para todo , resulta PX ({x}) = 0. Luego FX es continua en x. Supongamos ahora que fX no es acotada en ningn entorno del punto u x. Luego
x
FX (x) =
fX (t) dt
se dene por
x y
fX (t) dt = l m
yx yx
fX (t) dt
= l FX (y), m y luego FX es continua en x.2 El nombre densidad nos recuerda la cantidad de masa por unidad de longitud, rea o volumen segn el caso. En este caso se puede decir que a u fX (x) indica la probabilidad por unidad de longitud en las cercan del as punto x. Ms precisamente podemos enunciar el siguiente teorema. a
52
V ctor J. Yohai
Teorema 3.4 Sea fX una funcin de densidad continua en x0 , entonces o PX ([x0 h, x0 + h]) 1 = l m h0 h0 2h 2h l m Demostracin. Sea o Mh = mx{fX (x) : x [x0 h; x0 + h]} a y mh = m X (x) : x [x0 h; x0 + h]}. n{f Por continuidad fX (x0 ) = l Mh = l mh . m m
h0 h0 x0 +h
fX (t) dt = fX (x0 ) .
x0 h
(3.8)
Por otro lado valen las desigualdades

x0 +h
2hmh
x0 h
fX (t) dt 2hMh ,
y dividiendo por 2h en todos los miembros queda: mh 1 2h

x0 +h x0 h
fX (t) dt Mh .
Luego, teniendo en cuenta (3.8) y pasando al l mite cuando h 0 se obtiene fX (x0 ) l m PX ([x0 h; x0 + h]) fX (x0 ) , h0 2h
de donde se deduce el Teorema. 2
Teorema 3.5 Sea fX una funcin de densidad continua en x0 y FX la o distribucin asociada. Entonces FX es derivable en x0 y o FX (x0 ) = fX (x0 ) . Demostracin. Se deduce de la anterior. 2 o Comentario vinculado a la teor de la medida. a En este prrafo el signo corresponde a la integral de Lebesgue. Ms a a generalmente se denen distribuciones absolutamente continuas utilizando funciones Borel medibles. Sea f : R R0 una funcin Borel medible tal o que
f (t) dt = 1.
(3.9)
3.4. Ejemplos de distribuciones continuas.
53
Entonces se puede denir una funcin de distribucin absolutamente cono o tinua por
x
F (x) =
f (t) dt,
(3.10)
Se puede demostrar que la funcin F denida por (3.10) cumple las cuatro o propiedades del Teorema 2.5 y es continua y derivable en casi todo punto con derivada f (x). Adems si P es la correspondiente probabilidad sobre R a asociada a F y garantizada por el Teorema de Extensin, dado cualquier o boreliano B se tendr a
P (B) =
B
f (t) dt =
IB (t)f (t) dt,
donde IB (t) es la funcin indicadora del conjunto B. o
3.4.
3.4.1.
Ejemplos de distribuciones continuas.

Distribucin uniforme en un intervalo. o
Consideremos dos nmeros reales a < b. Luego la distribucin uniforme, u o denotada por U(a, b), tiene como densidad fX (x) = con k = 1 > 0. Claramente ba
b
k si x [a, b] 0 si x [a, b] . /
fX (x)dx =
a
kdx =
k = 1. ba
Ejercicio. Mostrar que la funcin distribucin de U(a, b) es o o 0 xa FX (x) ba 1 si si x (, a) x [a; b)
si x (b, ).
Ejercicio. Mostrar que no existe ninguna distribucin uniforme sobre o toda la recta. En particular consideremos la distribucin uniforme U (0, 1) que tiene o como densidad 1 si x [a; b] fX (x) = 0 si x [a; b] . /
54 La funcin de distribucin es en este caso o o si x (, 0] 0 x si x (0, 1] FX (x) = 1 si x (1, ).
V ctor J. Yohai
(3.11)
Observaciones.
1. Es claro que (3.11) es cierta puesto que si x (0, 1)

x
FX (x) =
0
fX (t) dt
x
fX (t) dt +
0 x
fX (t) dt
=0+
0
1dt
= x. 2. Sea I = (c, d) (0, 1) Cul es la probabilidad de que X (c, d)? a PX ([c < X < d]) = FX (d) FX (c) = d c. Es decir, la probabilidad que esta distribucin asigna a cada intervalo o contenido en [0, 1] es su longitud. 3. Pueden generarse distribuciones uniformes de muchas maneras diferentes. Por ejemplo podemos elegir dos nmeros A1 , A2 de ocho d u gitos, y denir A3 por los ultimos ocho d gitos de A1 A2 . En general si ya hemos denido A1, A2 , ..., Ak como enteros de ocho d gitos, podemos denir recursimamente Ak+1 como los ultimos ocho d gitos de Ak1 Ak . Este proceso lo podemos continuar hasta obtener An para un n dado. Luego generamos n nmeros con distribucin U(0, 1) por u o Ui = Ai 108 , 1 i n. Estos nmeros no sern aleatorios. Sin embargo se comportarn como si u a a fuesen variables aleatorias independientes con ditribucin U(0, 1). En paro ticular, dados a y b tales que 0 < a < b < 1, se tendr que si n es grande a #{i : 1 i n, a < Ui < b} n ser aproximadamente ba. Es decir la frecuencia con la cual los Ui estn en a a un intervalo (a, b) es aproximadamente la probabilidad que la distribucin o U(0, 1) asigna a ese intervalo.
55
3.4.2.
Generacin de distribuciones a partir de la distribuo cin uniforme en [0,1] o
Vamos a mostrar cmo a partir de una variable aleatoria con distribucin o o U (0, 1) se puede generar cualquier otra variable con cualquier funcin de o distribucin. o Para esto en primer lugar necesitamos algunas deniciones. Sabemos que una funcin de distribucin no tiene por qu ser continua y mucho menos o o e biyectiva, de manera que en general su inversa no existe. Pero podemos denir una funcin que tendr propiedades anlogas. o a a Sea F : R [0, 1] una funcin que cumple con las cuatro propiedades o del Teorema 2.5 que caracterizan una funcin de distribucin y consideremos o o y (0, 1) . Denimos Ay = {x R : F (x) y}. Observaciones. 1. Puede ocurrir que exista una preimagen v F del punto y : F 1 (y) = a . Si F es continua por Bolzano podemos asegurar que asume todos los valores intermedios entre el 0 y el 1 y en consecuencia en algn u punto x asumir el valor y. a 2. Puede ocurrir tambin que no exista la preimagen. Por ejemplo si F e no es continua para algunos valores de y ocurrir que F 1 (y) = . a 3. Puede ocurrir que existan innitas preimgenes. Basta con tomar una a funcin con las propiedades de funcin de distribucin que sea cono o o stante en un intervalo. Para y igual a ese valor hay innitas preimgenes. a
Ejercicio. Dar un ejemplo de cada una de las situaciones y dibujar el grco correspondiente. a
Teorema 3.6 Existe el nmo del conjunto Ay . Demostracin. Basta probar que Ay = y est acotado inferiormente. o a Comencemos probando que Ay = .Sabemos que F satisface la propiedad (2) del Teorema 2.5 y por lo tanto
n
l F (n) = 1. m
Como 0 < y < 1 existe n0 N tal que F (n0 ) y,
56
V ctor J. Yohai
de manera que n0 Ay . Ahora probaremos que Ay esta acotado inferiormente. Por la propiedad (3) del Teorema 2.5 se tiene que,
n
l F (n) = 0. m
Como y > 0 entonces existe n0 N tal que F (n0 ) < y. (3.12) Ahora bien si x Ay no puede ser que n0 > x puesto que por monoton a (Propiedad (1) del Teorema 2.5) se cumplir a F (n0 ) F (x) y, en contradiccin con (3.12). En denitiva se tiene que si x Ay , entonces o n0 x, y por lo tanto Ay esta acotado inferiormente. 2 En virtud de la existencia y unicidad del nmo podemos denir la siguiente funcin o Denicin 3.6 Dada o F : R [0, 1] que satisface las propiedades de una funcin de distribucin (Propiedades o o (1)-(4) del Teorema 2.5) se dene F 1 : (0, 1) R por F 1 (y) = inf Ay . Propiedades de la funcin F1 . o Propiedad 3.4 (a) Dada una funcin de distribucin F, se tiene o o F F 1 (y) y. (b) El nmo del conjunto Ay resulta ser el mnimo de Ay , es decir F 1 (y) = m Ay . n
Demostracin. Bastar probar (a), ya que en ese caso F 1 (y) pertenece al o a conjunto Ay . Por denicin de o nmo existe una sucesin (xn )n Ay o 1 (y), es decir tal que decreciente que converge a F
n
l xn = F 1 (y) . m
Por la propiedad de continuidad a derecha de F

n
l F (xn ) = F F 1 (y) . m
(3.13)
57
Ahora, como para todo n N se tiene que xn Ay sabemos que F (xn ) y, y luego por (3.13) resulta F F 1 (y) y, (3.14)
por lo tanto (a) queda demotrado. Esto implica F 1 (y) Ay . Luego hemos mostrado (a) y por lo tanto tambin hemos demostrado (b). 2 e Propiedad 3.5 Si F es continua entonces F F 1 (y) = y. Demostracin. Sabemos que F F 1 (y) y. Ahora supongamos que no se o cumple la igualdad, esto es que F F 1 (y) > y. Veremos que esto contradice el caracter de nmo del elemento F 1 (y) . 1 (y) e y que llamaremos y . Tomemos un punto intermedio entre F F Entonces y < y < F F 1 (y) . Por ser F continua, por el teorema de Bolzano se deduce que existe x (0, 1) tal que F (x ) = y . Luego reemplazando en la inecuacin anterior se obtiene la desigualdad o y < F (x ) < F F 1 (y) . Por un lado esto dice que x Ay y por otro teniendo en cuenta la monoton a de F resulta x < F 1 (y) . Esto contradice que F 1 (y) sea el m nimo, absurdo. 2 Propiedad 3.6 Dada una funcin de distribucin F, se cumple que o o F 1 (F (x)) x. Demostracin. Es claro que para todo x se tiene que x AF (x) puesto que o F (x) F (x) . Sabemos que F 1 (F (x)) es el m nimo de AF (x) y luego a AF (x) implica F 1 (F (x)) a. En particular si tomamos a = x AF (x) se obtiene el resultado buscado. 2
58
V ctor J. Yohai
Teorema 3.7 (Caracterizacin de Ay como semirecta) Sea F una funo cin de distribucin y tomemos y (0, 1) jo. Los conjuntos o o By = {x : x F 1 (y)} = [F 1 (y) , +) coinciden. Demostracin. Sabemos por la Propiedad 3.4 (b) que o F 1 (y) = m Ay . n Por otro lado es fcil ver que si x Ay y x > x, entonces tambin x Ay . a e Luego Ay = [F 1 (y), ). 2 Ejercicio. Probar que F 1 es montona no decreciente y por lo tanto o medible. Veremos ahora que dada cualquier funcin de distribucin F, a partir de o o cualquier variable aleatoria con distribucin U(0, 1), se puede generar otra o variable aleatoria con funcin de distribucin F. o o Teorema 3.8 Sea U una variable aleatoria con distribucin U(0, 1). Luego o si F es una funcin de distribucin (propiedades (1)-(4) del Teorema 2.5) o o se tiene que X = F 1 (U ) tiene funcin de distribucin F o o Demostracin. Usando el Teorema 3.7 y el hecho de que FU (u) = u, 0 u o 1, se tiene FX (x) = PX ((, x]) = P {F 1 (U ) x} = P ({U F (x)}) = FU (F (x)) = F (x) . 2 Ejercicio. Sea X una variable con rango RX = N0 (enteros no nega1 tivos) y sea pj = pX (j) , j N0 . Vericar que FX es de la forma
1 FX (y) =
Ay = {x : F (x) y},
0 si 0 < y p0 i1 i si j=0 pj < y
i j=0 pj ,
i 1.
Comprobar que el resultado anterior vale en este caso. El siguiente teorema de demostracin inmediata es muy importante. o Teorema 3.9 Sean X y X dos variables aleatorias tales que FX = FX . Consideremos una funcin g medible y consideremos las variables aleatorias o obtenidas componiendo Z = g (X) ; Z = g (X ) . Entonces PZ = PZ .
59
Demostracin. Sea B B y probemos que o PZ (B) = PZ (B) . Sabemos que PZ (B) = P Z 1 (B) = P X 1 g1 (B) = PX g1 (B) . Por el Corolario 2.1 del Teorema de Extensin se tiene que PX g1 (B) = o 1 (B) y luego PX g PZ (B) = PX g1 (B) = P X 1 g1 (B) = P Z 1 (B) = PZ (B) . 2 El siguiente resultado vale para funciones de distribucin continuas. o Teorema 3.10 Si X es una variable aleatoria con distribucin FX cono tinua y consideramos la variable aleatoria Y = FX (X) entonces Y tiene distribucin U(0, 1). o Demostracin. Consideremos una variable aleatoria U con distribucin U (0, 1) o o = F 1 (U ) . Sabemos que X tiene distribucin F . Luego por el o y sea X X X Teorema 3.9 las variables Y = FX (X) , Y = FX (X ) tienen la misma distribucin. Pero o
1 Y = FX (X ) = FX FX (U ) , 1 y siendo FX continua por Propiedad 3.5 se tiene FX FX (U ) = U. Luego tiene distribucin U(0, 1) y por lo tanto, de acuerdo al Teorema 3.9 Y o tambin esa es la distribucin de Y. 2 e o
3.4.3.
Distribucin Normal N(, 2 ). o
La distribucin normal es tal vez la ms importante y sin lugar a dudas o a la que se usa con mayor frecuencia. A veces este uso se hace de manera inadecuada sin vericar los supuestos que la identican. Veremos ms adelante la a importancia de esta distribucin. Adelantamos sin embargo, informalmente o
60
que si {Yn }n es una sucesin de variables a independientes tales que ninguo na de ellas prevalezca sobre las otras, entonces la variable aleatoria
n
es aproximadamente normal para n sucientemente grande. Esta distribucin tiene mucha aplicacin en la teor de errores, donde se supone que o o a el error total de medicin es la suma de errores que obedecen a difereno tes causas. La distribucin normal depende de dos parmetros R y o a 2 R>0 . En este cap tulo solo veremos la distribucin normal correspondiente a o 2 = 1. En este caso la funcin de densidad es =0y o fX (x) = K exp x2 2 ,
donde K es una constante y exp(x) es la funcin exponencial ex . Calculareo mos la constante K de forma tal que
+
y por lo tanto K= Sea I=
Para el clculo de esta integral podemos usar o bien residuos (teor a a de anlisis complejo) o bien calcular I 2 como integral doble a traves de un a cambio de variable a cordenadas polares. Optamos por la segunda forma I2 = =
+ + +
Ahora hacemos el cambio de variable x (, ) = x = cos () y (, ) = y = sin ()
1= exp
+ +
V ctor J. Yohai
Sn =
j=1
Yj
K exp
x2 2
dx,
1
+ exp + x2 2
. dx
exp
x2 2
dx.
x2 2 exp exp
dx
exp exp y 2 2
y 2 2
dy
x2 2
dxdy
x2 + y 2 2
dxdy.
61
Claramente se tiene x2 + y 2 = 2 La transformacin del cambio de variable T (, ) = (x (, ) , y (, )) = o ( cos () , sin ()) 0, 0 < 2 tiene matriz diferencial DT (, ) = Entonces su jacobiano J (, ) = det (DT (, )) = det cos () sin () sin () cos () x x y y = cos () sin () sin () cos () .
= cos2 () + sin2 () = . En denitiva |J (, ) | = y aplicando la frmula de cambio de variables o en integrales mltiples resulta u I2 = =
0 0 + + + +
exp
2
x2 + y 2 2
dxdy =
exp exp
0
= 2
2 dd = 2 + 2 exp d = 2 2 0
2 2
d.
Haciendo el cambio de variable 2 , 2 du = d u= se obtiene I 2 = 2

0 +
exp (u) du
= 2, y por lo tanto
= 2 exp (u) |+ 0
I= Luego
2 x2 2
1 fX (x) = exp 2
62
V ctor J. Yohai
3.4.4.
Distribucin Exponencial. o
Esta distribucin depende de un parmetro que puede tomar cualquier o a valor real positivo. Su funcin de densidad es o f (x) = ex 0 si x 0 si x < 0.
Haciendo la transformacin y = x, dy = dx se obtiene o

f (x)dx =
ex dx =
0
ey dy
= [e
0 y
| = 0
0 + 1 = 1.
Se deja como ejercicio vericar que la correspondiente funcin de distribucin o o es 1 ex si x 0 F (x) = (3.15) 0 si x < 0. La distribucin exponencial con parmetro ser denotada por E(). o a a Esta distribucin aparece generalmente cuando se trata de estudiar la o durabilidad de un mecanismo bajo el supuesto de que el sistema no se desgasta a lo largo del tiempo. Como ejemplo suele citarse a veces la duracin o de una lmpara elctrica. Sin embargo en este caso existe un cierto desgaste a e propio de la lmpara y su distribucin no es exactamente exponencial. Esta a o distribucin es ms adecuada para modelar la duracin de los mecanismos o a o electrnicos, ya que estos no tienen prcticamente desgaste. o a Para precisar el concepto de desgaste decimos que la distribucin de X o no tiene desgaste cuando dado a > 0 y b > 0 se tiene P (X a + b|X a) = P (X b) . Esto signica que la probabilidad de que llegue a durar hasta el tiempo a + b, dado que ha llegado hasta el tiempo a, es igual a la probabilidad de que haya durado hasta el tiempo b. Es decir el proceso no tiene memoria del tiempo que estuvo funcionando (no recuerda qu tan viejo es) y por e tanto, mientras funciona lo hace como si fuese nuevo. Decimos por el contrario que hay desgaste si P (X a + b|X a) es una funcin decreciente de a. o Vamos a mostrar que la propiedad de falta de desgaste caracteriza a la distribucin exponencial. Esto signica que las unicas distribuciones contio nuas y no negativas que tienen la propiedad de falta de desgaste son las exponenciales.
63
Como {X a + b} {X a} = {X a + b} resulta que P (X a + b|X a) = P ({X a + b} {X a}) P ({X a + b}) = . P (X a) P (X a)
Por lo tanto la propiedad de falta de desgaste se puede escribir como P (X a + b) = P (X b) , P (X a) o equivalentemente P (X a + b) = P (X b) P (X a) . Si X tiene distribucin continua de P (X a) = FX (a) resulta o 1 FX (a) = P (X > a) = P (X a) . Entonces denimos GX (a) = 1 FX (a) , y como la propiededad de falta de memoria es equivalente (3.16), esta se puede escribir tambin como e GX (a + b) = GX (a) GX (b) (3.17) (3.16)
para todo a 0, b 0. En el caso en que X tiene distibucin exponencial por (3.15) se tiene o GX (x) = ex para todo x 0. El siguiente teorema muestra que la propiedad de falta de memoria caracteriza a las distribuiones exponenciales. Teorema 3.11 Sea X una variable aleatoria continua con valores no negativos. Luego la propiedad de falta de memoria dada por (3.17) se cumple si y slo si GX (x) = ex es decir si X tiene distribucin exponencial. o o Demostracin. Supongamos primero que GX (x) = ex . Probaremos que o (3.17) se cumple. En efecto GX (a + b) = e(a+b) = e(a)+(b) = ea eb = GX (a) GX (b) . Supongamos ahora que (3.17) se cumple. Probaremos que GX (x) = ex para algn > 0. En primer lugar veamos que para todo n, dados a1 u 0, ..., an 0 entonces
n n
GX
i=1
ai
=
i=1
GX (ai ) .
64
V ctor J. Yohai
Probaremos esta proposicin por induccin. Claramente vale para n = 2 por o o hiptesis. o Supongamos que vale para n y probemos que vale para n + 1.
n+1 n
GX
i=1
ai
= GX
i=1 n
ai + an+1 ai
i=1
= GX
n
Gx (an+1 )
=
i=1 n+1
GX (ai ) GX (an+1 ) GX (ai ) .

i=1
Ahora probaremos que para todo a 0 vale que GX (a) = [GX (1)]a . La estrategia es primero probarlo para cuando a es un entero no negativo, luego cuando es un racional no negativo y por ultimo cuando es un nmero u real no negativo. Sea n N entonces GX (n) = GX 1 + 1 + ... + 1
n sumandos
= [GX (1)]n .
Ahora sea a =
m Q el conjunto de los nmeros racionales. Entonces u n m GX (m) = GX n n m n
m m = GX + ... + n n = GX
n sumandos n
Entonces GX
1 m = [GX (m)] n n 1 = [(GX (1))m ] n
= [GX (1)] n .
3.5. Variables aleatorias mixtas.
Por ultimo consideremos a R0 . Elijamos una sucesin (rn )n Q tal o que rn a. Siendo GX continua resulta GX (a) = l GX (rn ) m
n
= l (GX (1))rn m
n m = (GX (1))l n rn
= [GX (1)]a .
Veamos que 0 < GX (1) < 1. Supongamos que GX (1) = 0. Luego por (3.18) GX (a) = 0 para todo a 0. En particular GX (0) = 0 y luego FX (0) = 1. Esto implica que P (X = 0) = 1 y luego X es discreta. Supongamos ahora que GX (1) = 1. Luego por (3.18) tenemos que para todo a 0 se tiene GX (a) = 1. Luego para todo a 0 resulta FX (a) = 0 y entonces l x FX (x) = 0, lo cual es un absurdo, ya que este l m mite es 1. Luego podemos denir = log (GX (1)) , de manera que GX (1) = e Luego, usando (3.18), podemos escribir GX (a) = [GX (1)]a = ea , y el teorema queda probado. 2
3.5.
Variables aleatorias mixtas.
Adems de las variables discretas y absolutamente continuas existen a otros tipos de variables. Un estudio exhaustivo de los tipos de variables aleatorias requiere algunos conocimientos de la teor de la medida. Aqu ina troduciremos las variables mixtas cuya funcin distribucin es una combio o nacin convexa de funciones de una distribucin discreta y otra absolutao o mente continua. Denicin 3.7 Decimos que F es una funcin de distribucin mixta si o o o es una combinacin convexa de una distribucin absolutamente continua y o o otra discreta. Ms precisamente, si existen , 0 < < 1 , F1 funcin de a o distribucin absolutamente continua, F2 funcin de distribucin discreta tal o o o que F = (1 ) F1 + F2 . (3.19)
Teorema 3.12 Si F est dada por (3.19) se tiene que a
65 (3.18)
66 (a) F es una funcin de distribucin. o o
V ctor J. Yohai
(b) F no corresponde a la funcin de distribucin de una variable absoluo o tamente continua ni a una discreta. Demostracin. o (a) Por el Corolario 2.2 de la pgina 39 basta probar que F satisface a las Propiedades 1-4 del Teorema 2.5. Probemos primero que F es montona no decreciente. Sean x < x . Luego como F1 y F2 son o montonas no decrecientes se tendr F1 (x) F1 (x ) y como 1 o a > 0 resulta (1 )F1 (x) (1 ) F1 (x ). (3.20) Del mismo se tiene que F2 (x) F2 (x ). (3.21)
Sumando miembro a miembro (3.20) y (3.21) resulta qie F (x) F (x ).
Multiplicando por una constante se conserva la propiedad de que una funcin es continua a derecha y sumando funciones continuas a derecha o se obtiene otra funcin continua a derecha. Esto prueba que F es o continua a derecha. Por otro lado, tenemos que
x+
l m F (x) = l m ((1 ) F1 + F2 ) (x)

x+
= (1 ) l F1 (x) + l m m F2 (x)
x+ x+
= (1 ) + = 1. Finalmente, tambin vale que: e

x
l m F (x) = l m ((1 ) F1 + F2 ) (x)

x
= (1 ) l F1 (x) + l m m F2 (x)
x x+
= 0. Por lo tanto (a) queda probado. (b) Veamos ahora que F no corresponde a la funcin de de distribucin o o de una variable absolutamente continua o discreta. Sean Pi , las probabilidades inducidas por las distribuciones Fi , i = 1, 2 . Luego si P es la probabilidad asociada a F, usando el Teorema de Extensin de la o 39 se puede probar que P (B) = (1 )P1 (B) + P2 (B) B B1 .
3.5. Variables aleatorias mixtas.
67
Esta comprobacin se deja como ejercicio. Sea R2 el rango de una o variable con distribucin F2 . Por lo tanto R2 es numerable y P2 (R2 ) = o 1. Luego P (R2 ) = (1 ) P1 (R1 ) + P2 (R2 ) P2 (R2 ) = > 0 Por lo que se deduce que F no corresponde a una distribucin absoluo tamente continua, ya que stas asignan probabilidad 0 a todo conjunto e numerable. Para ver que no es discreta veamos que sobre un conjunto numerable arbitrario su probabilidad es menor que 1. Sea A un conjunto numerable, luego, teniendo en cuenta que F1 es absolutamente continua resulta que que P1 (A) = 0. Luego P (A) = (1 ) P1 (A) + P2 (A) = P (A2 ) < 1. Como esto ocurre para todo A arbitrario, F no puede ser discreta. 2
1 Ejemplo 3.1 Sea U U [0, 1] y consideremos V = m U, 2 . Entonces n
FV (u) =
u si u <
1 2 1 2
1 si u
Claramente P (V = 1/2) = P (1/2 U 1) = 1/2 de manera que V no es absolutamente continua. Tampoco es discreta. Es fcil ver que a 1 1 F = F1 + F2 2 2 donde F1 es la distribucin de una U[0, 1/2) y F2 la distribucin de una o o 1 variable discreta que asigna probabilidad 1 a x = 2 . Veremos cmo se puede generar una variable con la distribucin mixta o o (3.19). Teorema 3.13 Consideremos variables aleatorias independientes X1 con distribucin F1 , X2 con distribucin F2 y U que toma valores 0 y 1 con o o probabilidades 1 y respectivamente. Denimos la variable X= X1 si U = 0 X2 si U = 1
68
V ctor J. Yohai
Luego FX (1 )F1 + F2 . Demostracin. Teniendo en cuenta la independencia de las variables resulta o que FX (x) = PX ((, x]) = P ({X x}) = P ({X1 x} {U = 0}) ({X2 x} {U = 1}) = P ({X1 x} {U = 0}) + P ({X2 x} {U = 0})
= (1 )F1 (x) + F2 (x) . 2
= (1 )P (X1 x) + P (X2 x)
= P (X1 x)P (U = 0) + P (X2 x)P (U = 1)
Cap tulo 4
Vectores aleatorios.
4.1. Denicin de vector aleatorio. o
En muchos casos interesa estudiar simultaneamente ms de una cara acter stica del resultado de un experimento aleatorio. Supongamos que el experimento consiste en elegir al azar alumnos de un determinado grado, y que estamos interesados en estudiar el perl biolgico de esos alumnos. o Podr amos considerar que el perl se compone de la talla, el peso, presin o sangu nea, frecuencia card aca y capacidad respiratoria. Por lo tanto interesar cinco variables aleatorias que deber estudiarse simultneamente. an an a Esto motiva la siguiente denicin de un vector aleatorio. o Denicin 4.1 Sea (, A, P ) un espacio de probabilidad. Se dice que o X = (X1 , X2 , . . . , Xk ) es un vector aleatorio de dimensin k si para cada o j = 1, 2, . . . , k se tiene que Xj : R es una variable aleatoria. Obsrvese que si X = (X1 , . . . , Xk ) es un vector aleatorio de dimene sin k, entonces tambin puede ser interpretado como una funcin X : o e o Rk . En efecto dado , el correspondiente valor de la funcin o k. es X() = (X1 (), . . . , Xk ()) R Teorema 4.1 Para todo x = (x1 , x2 , . . . , xk ) Rk se tendr a X1 ((, x1 ] (, x2 ] (, xk ]) A. X1 (B) = { : X () B}
k
Demostracin. Sea B = (, x1 ] (, x2 ] (, xk ]. Entonces o
i=1 k
{ : Xi () (, xi ]} = Xi1 ((, xi ]) .
=
i=1
69
70
V ctor J. Yohai
Luego como por denicin de variable aleatoria para todo i se tiene que Xi1 ((, xi ]) o A y A es una lgebra se concluye que X1 (B) A. 2 a Recordemos que B k denota la lgebra generada por los conjuntos de a k de la forma R Ax1 ,x2 ,...,xk = (, x1 ] (, x2 ] (, xk ] En R2 es fcil vericar grcamente que los conjuntos de la forma a a (a1 , b1 ] (a2 , b2 ] B 2 ya que se pueden escribir de la siguiente forma (a1 , b1 ] (a2 , b2 ] = Ab1 ,b2 Aa1 ,b2 (Ab1 ,a2 Aa1 ,a2 ) (4.1)
y que diferencias de conjuntos de una lgebra son conjuntos de la lgea a bra. Va a ser util observar que Aa1 ,b2 Ab1 ,b2 Aa1 ,a2 Ab1 ,a2 y (Ab1 ,a2 Aa1 ,a2 ) Ab1 ,b2 Aa1 ,b2 . Ejercicio. Probar el siguiente teorema. Teorema 4.2 Sea X un vector aleatorio de dimensin k. Entonces si B o k se tiene que X1 (B) A. B (4.4) (4.2) (4.3)
4.2.
Espacio de probabilidad inducido.
Denicin 4.2 Dado el espacio de probabilidad (, A, P ) y un vector aleatoo rio X = (X1 , . . . , Xk ) se puede denir un nuevo espacio de probabilidad Rk , B k , PX donde dado B B k se dene PX (B) = P X1 (B) . Ejercicio. Probar el siguiente teorema. Teorema 4.3 PX es una funcin de probabilidad sobre (Rk , B k ). o La demostracin es similar a la correspondiente a PX donde X es una o variable aleatoria. La probabilidad PX se denomina probabilidad inducida por el vector X o distribucin de X. o
4.3. Funcin de distribucin conjunta de un vector aleatorio. o o
71
4.3.
Funcin de distribucin conjunta de un vector o o aleatorio.
Denicin 4.3 Dado un vector aleatorio X = (X1 , . . . , Xk ), se dene la o funcin de distribucin conjunta del vector X como la funcin FX : Rk o o o [0; 1] dada por FX (x1 , x2 , . . . , xk ) = PX ((, x1 ] (, x2 ] (, xk ]) =
k
=P
i=1
{ : Xi () xi } .
Propiedades de FX . Propiedad 4.1 FX es montona no decreciente en cada componente. o Demostracin. Si xi < xi entonces o Ax1 ,...,xi ,...,xn Ax1 ,...,xi ,...,xn , de manera que FX ((x1 , . . . , xi , . . . , xn )) FX x1 , . . . , xi , . . . , xn .2
Propiedad 4.2 Se tiene que

x1 ,...,xk
Demostracin. Sean sucesiones crecientes o
{x1i }i , {x2i }i , . . . , {xki }i . Queremos probar que
Ahora bien la sucesin de conjuntos o
Ci = (, x1i ] (, x2i ] (, xki ] es montona no decreciente. Por otro lado o Ci = Rk ,

i+
l m
FX (x1 , x2 , . . . , xk ) = 1.
l FX (x1i , x2i , . . . , xki ) = 1. m
(4.5)
72 y en consecuencia
i+
V ctor J. Yohai
l FX (x1i , x2i , . . . , xki ) = l PX ((, x1i ] (, x2i ] (, xki ]) = m m

i
Propiedad 4.3 Para todo i, 1 i k, se tiene que

xi
l m
Demostracin. Sin prdida de generalidad lo mostraremos para i = 1. Para o e este caso consideremos una sucesin montona no creciente tal que {yj }j o o . Entonces si denimos {Cj }j por Cj = (, yj ] (, x2 ] (, xk ] se tiene que Cj+1 Cj para todo j N, y adems a
j
Por lo tanto
j
l FX (yj , x2 , .., xk ) = l PX ((, yj ] (, x2 ] (, xk ]) = m m j = PX = 0. 2

j
Propiedad 4.4 FX es continua a derecha.
Demostracin. Sea (x1 , x2 , . . . , xk ) Rk y consideremos sucesiones montonas o o decrecientes tales que {x1i }i x1 ; {x2i }i x2 ; . . . ; {xki }i xk Consideremos los conjuntos
Ci = (, x1i ] (, x2i ] (, xki ].

= PX Ci = PX Rk = 1. 2
i
FX (x1 , x2 , . . . , xi , . . . , xk ) = 0.
(4.6)
Cj = .
= PX ()
Cj
73
Entonces y
i
Luego
i
l FX (x1i , x2i , . . . , xki ) = l P (Ci ) m m

i
Las Propiedades 4.1, 4.2, 4.3 y 4.4 no caracterizan a una funcin de o distribucin de un vector aleatorio como ocurr para el caso de la funcin o a o de distribucin de una variable aleatoria. o Para jar ideas de por qu sucede esto, pensemos en R2 . Sea entonces e un vector aleatorio en R2 X = (X1 , X2 ) y FX su funcin de distribucin o o conjunta. Sea Ax1 x2 = (, x1 ] (, x2 ] y C = (a1 , b1 ] (a2 , b2 ]. El rectngulo C puede ser escrito de la siguiente manera a C = (Ab1 b2 Aa1 b2 ) (Ab1 a2 Aa1 a2 ) . Teniendo en cuenta las inclusiones Aa1 a2 Ab1 a2 , Aa1 b2 Ab1 b2 y (Ab1 a2 Aa1 a2 ) (Ab1 b2 Aa1 b2 ) , resulta que PX (C) = PX (Ab1 b2 Aa1 b2 ) PX (Ab1 a2 Aa1 a2 ) Como PX (Ax1 x2 ) = FX (x1 , x2 ),resulta PX (C) = FX (b1 , b2 ) FX (a1 , b2 ) FX (b1 , a2 ) + FX (a1 , a2 ) . Observaciones. 1. Para vericar las inclusiones (4.7), (4.8) y (4.9), se sugiere hacer un dibujo. = PX (Ab1 b2 ) PX (Aa1 b2 ) PX (Ab1 a2 ) + PX (Aa1 a2 ) . (4.9) (4.7) (4.8)
Ci+1 Ci
Ci = Ax1 ,...,xk .
= P (Ax1 ,...,xk ) = FX (x1 , x2 , . . . , xk ) . 2
74
V ctor J. Yohai
2. Esto muestra que la probabilidad de el rectngulo C se determina por a el valor de FX sobre los vrtices: es la suma de los valores sobre los e vrtices de la diagonal principal menos la suma de los valores sobre los e vrtices de la otra diagonal. e 3. Luego dada una funcin de distribucin FX para todo a1 < b1 y a2 < b2 o o se deber cumplir a FX (b1 , b2 ) FX (a1 , b2 ) FX (b1 , a2 ) + FX (a1 , a2 ) 0. (4.10)
4. Veamos que esta propiedad no se deduce de las propiedades P1, P2, P3 y P4. Para ello damos un ejemplo de una funcin que satisface P1, o 2 [0, 1] denida por P2, P3 y P4 pero no (4.10). Sea F : R F (x1 , x2 ) = 1 si x1 + x2 1, x1 0, x2 0 0 si en otra parte.
Es fcil vericar que esta funcin es (i) montona no decreciente en a o o cada variable, (ii)
x1 , x2
l m
F (x1 , x2 ) = 1,
(iii)
xi
l m F (x1 , x2 ) = 0 para cualquier i = 1, 2,
y (iv) es continua a derecha. Pero si consideramos el rectngulo C = a (0, 1] (0, 1] entonces si F es una funcin de distribucin deber o o amos tener P (C) = F (1, 1) + F (0, 0) (F (0, 1) + F (1, 0)) = 1 2 = 1. Esto muestra que F no puede ser la funcin de distribucin de ningn o o u vector aleatorio en R2 .
Para estudiar las propiedades faltantes vamos a necesitar la siguiente denicin. o Denicin 4.4 Sea F una funcin de k variables. Si ai < bi se dene el o o operador diferencia en la variable i por
i (a, b) F
= F (x1 , x2 , . . . , xi1 , b, xi+1 , . . . , xk )F (x1 , x2 , . . . , xi1 , a, xi+1 , . . . , xk ) .
75
Estos operadores se pueden aplicar en forma sucesiva. Por ejemplo

j
(aj , bj )
j
i (ai , bi ) F
= =
(aj , bj ) (F (x1 , . . . , xi1 , bi , xi+1 , . . . , xk ) (aj , bj ) F (x1 , x2 , . . . , xi1 , bi , xj+1 , . . . , xk )
F (x1 , . . . , xi1 , ai , xi+1 , . . . , xk ))

j j
(aj , bj ) F (x1 , x2 , . . . , xi1 , ai , xi+1 , . . . , xk )
= (F (x1 , . . . , xi1 , bi , xi+1 , . . . , xj1 , bj , xj+1 , . . . , xk )
F (x1 , . . . , xi1 , bi , xi+1 , . . . , xj1 , aj , xj+1 , . . . , xk )) (F (x1 , . . . , xi1 , ai , xi+1 , . . . , xj1 , bj , xj+1 , . . . , xk ) F (x1 , . . . , xi1 , ai , xi+1 , . . . , xj1 , aj , xj+1 , . . . , xk )). (aj , bj )
i (ai , bi ) F
Es fcil ver que estos operadores conmutan, es decir a

j
i (ai , bi )
(aj , bj ) F
Ms generalmente, si a1 < b1 , a2 < b2 , . . . , ak < bk podemos considerar a la diferencia sucesiva

1 (a1 , b1 ) k1 (ak1 , bk1 ) k
(ak , bk ) .
Observacin. Podemos expresar la propiedad (4.10) en trminos del opero e ador diferencia como PX ((a1 , b1 ] (a2 , b2 ]) = (FX (b1 , b2 ) FX (a1 , b2 )) (FX (b1 , a2 ) FX (a1 , a2 )) =
1 (b1 , a1 ) FX (x1 , b2 ) 2 (b2 , a2 )
1 (b1 , a1 ) FX (x1 , x2 )
1 (b1 , a1 ) FX (x1 , a2 )
En general se puede probar el siguiente Teorema Teorema 4.4 Sea FX la funcin de distribucin conjunta del vector aleatoo o rio X = (X1 , . . . , Xk ) y sean a1 < b1 , a2 < b2 , . . . , ak < bk . Entonces se tiene que PX ((a1 , b1 ] (a2 , b2 ] (ak , bk ]) =
1 (b1 , a1 ) . . . k1 (bk1 , ak1 ) k
(bk , ak ) FX (x1, x2 , . . . , xk ) 0.
Demostracin. Para probar el teorema, consideremos para cada h, 0 h o k los conjuntos de la forma Ch = (a1 , b1 ] (a2 , b2 ] (ah , bh ] (, xh+1 ] (, xk ]. Se prueba por induccin que para todo h k o PX (Ch ) =
1 (b1 , a1 ) . . . h1 (bh1 , ah1 ) h (bh , ah ) F
(x1 , x2 , . . . , xh , xh+1 , . . . , xk ) . (4.11)
76 Probaremos primero (4.11) para h = 1. Sea C1 = (a1 , b1 ] (, x2 ] (, xk ]. Luego
V ctor J. Yohai
C1 = (, b1 ](, x2 ] (, xk ](, a1 ](, x2 ] (, xk ], y como el segundo conjunto est incluido en el primero, se tiene a PX (C1 ) = PX ((, b1 ] (, x2 ] (, xk ] (, a1 ] (, x2 ] (, xk ]) = FX (b1 , x2 , . . . , xk ) FX (a1 , x2 , . . . , xk ) =
1 (b1 , a1 ) F
(x1 , x2 , . . . , xk ) .
Supongamos ahora que (4.11) vale para h = i < k. Probaremos que tambin e vale para h = i + 1. Sea Ci+1 = (a1 , b1 ] (a2 , b2 ] (ai+1 , bi+1 ] (, xi+2 ] (, xk ]. Claramente Ci+1 = Ci Ci
(1) (2)
Ci , donde
(1)
= (a1 , b1 ](a2 , b2 ] (ai , bi ](, ai+1 ](, xi+2 ] (, xk ]
y Ci = (a1 , b1 ](a2 , b2 ] (ai , bi ](, bi+1 ](, xi+2 ] (, xk ]. (2) (1) a Como adems se tiene Ci Ci , se tendr a PX (Ci+1 ) = PX (Ci ) PX (Ci ). Como (4.11) vale para h = i tendremos PX (Ci+1 ) =
1 (b1 , a1 ) . . . 1 (b1 , a1 ) . . . i (bi , ai ) F i (bi , ai ) F (2) (1)
(2)
(x1 , x2 , . . . , xi , bi+1 , xi+2 , . . . , xk ) (x1 , x2 , . . . , xi , ai+1 , xi+2 , . . . , xk ) .
Luego (4.11) vale para h = i + 1. Esto muestra que (4.11) vale para todo h k. Haciendo h = k se obtiene el Teorema. 2 Luego podemos enunciar una propiedad adicional que satisface una funcin de distribucin conjunta o o Propiedad 4.5 Si FX es la funcin de distribucin conjunta del vector o o aleatorio X = (X1 , . . . , Xk ) para todo a1 < b1 , , ak < bk se debe cumplir que
1 (b1 , a1 ) . . . k1 (bk1 , ak1 ) k
(bk , ak ) FX (x1, x2 , . . . , xk ) 0.
El siguiente Teorema generaliza para vectores aleatorios el Teorema de Extensin para variables aleatorias. o
77
Teorema 4.5 Sea F : Rk [0, 1] una funcin que satisface las propiedades o 4.1, 4.2, 4.3, 4.4 y 4.5. Luego existe una unica funcin de probabilidad P : o B k [0, 1] , tal que para todo (x1 , x2 , . . . , xk ) Rk se cumple P ((, x1 ] (, x2 ] (, xk ]) = F (x1 , x2 , . . . , xk ) . Demostracin. No se dar la demostracin en este curso. Utiliza argumentos o a o de la Teor de la Medida. 2 a
Corolario 4.1 Sean X = (X1 , X2 , . . . , Xk ) y X = (X1 , X2 , . . . , Xk ) dos vectores aleatorios. Supongamos que para todo x1 , x2 , . . . xk se tiene que
FX (x1 , . . . , xk ) = FX (x1 , . . . , xk ). Luego tambin se cumple que para todo B B k e PX (B) = PX (B). Demostracin. Basta con observar que para todo (x1 , . . . , xk ) Rk o FX (x1 , x2 , . . . , xk ) = FX (x1 , x2 , . . . , xk ) = PX ((, x1 ] (, x2 ] . . . (, xk ]) . Por lo tanto como PX y PX son extensiones de FX deben coincidir por unicidad de la extensin. 2 o Corolario 4.2 Si F satisface propiedades 4.1, 4.2, 4.3, 4.4 y 4.5. entonces existe un vector aleatorio X = (X1 , . . . , Xk ) tal que FX = F. Demostracin. Sea Rk , B k , PF el espacio de probabilidad tal que PF es la o extensin de F . Luego para todo (x1 , . . . , xk ) Rk o F (x1 , x2 , . . . , xk ) = PF ((, x1 ] (, x2 ] (, xk ]) . Denimos el vector aleatorio X = (X1 , . . . , Xi , . . . , Xk ) de forma tal que Xi sea la proyeccin sobre la coordenada i-sima. Es decir Xi : Rk R o e est denida por a Xi (x1 , x2 , . . . , xk ) = xi Observemos que para todo i, 1 i k se tiene que Xi1 ((, xi ]) = R R (, xi ] R R,
78 y que FX (x1 , x2 , . . . , xk ) = PX ((, x1 ] (, x2 ] (, xk ])

k
V ctor J. Yohai
= PF (X1 ((, x1 ] (, x2 ] (, xk ])) = PF

i=1
Xi1 ((, xi ])
= F (x1 , x2 , . . . , xk ) . 2
= PF ((, x1 ] (, x2 ] (, xk ])
4.4.
Algunas propiedades de vectores aleatorios.
Sea un vector X = (X1 , . . . , Xk ) con funcin de distribucin FX . El sio o guiente teorema muestra como se obtiene la funcin de distribucin del veco o tor formado con un subconjunto de componentes X = (Xi1 , Xi2 , . . . , Xih ) para cualquier subconjunto de ndices 1 i1 < i2 < < ih k.
Teorema 4.6 Sea X = (X1 , . . . , Xk ) un vector aleatorio de dimensin k. o Sea A = {i1 , . . . , ih } {1, 2, . . . , k} y B = {i : 1 i k, i A} = / {j1 , . . . jr ]. Entonces, si X = (Xi1 , Xi2 , . . . , Xih ), se tiene FX (xi1 , . . . xih ) =
Demostracin. Para facilitar la notacin supongamos que A = {1, 2, . . . , h} o o y luego B = {h + 1, . . . , k}. Sean {yh+1,j }jN , . . . , {yk,,j }jN , sucesiones crecientes tendiendo a . Luego bastar probar que a
j
l FX (x1 , . . . xh , yh+1,j , . . . , yk,j ]) = FX (x1 , . . . , xh ). m
Consideremos la sucesin de eventos o
Cj = (, x1 ] (, xh ] (, yh+1,j ] (, yk,j ] es creciente y

j=1
Cj = (, x1 ] (, xh ] R R.
xj1 ,...,xjr
l m
FX (x1 , x2 , . . . , xk ).
(4.12)
4.4. Algunas propiedades de vectores aleatorios.
79
Luego
FX (x1 , . . . , xh ) = PX ((, x1 ] (, xh ])
h
y luego (4.12) vale. 2 Denicin 4.5 Diremos que g : Rk R es medible Borel si para todo x R o se tiene que g1 ((, x]) B k . Observacin. Una funcin medible Borel puede interpretarse como una vao o riable aleatoria en el espacio (Rk , B k ). Como en este curso solo consideramos funciones medibles Borel, se las llamar simplemente funcones medibles a En particular se tendr a Teorema 4.7 Si g : Rk R es continua entonces g es medible. Demostracin. Siendo (, x] cerrado se tiene que g1 ((, x]) B k y por o lo tanto es medible. 2 Ejercicio. Probar el siguiente teorema. Teorema 4.8 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio sobre un espacio de probabilidad (, A, P ) y g : Rk R una funcin medible. Entonces o Y = g (X) : R es una variable aleatoria. Ahora podemos probar lo siguiente. Teorema 4.9 Si X e Y son varibles aleatorias, entonces (i) Z = X + Y es una variable aleatoria. (ii) Z = XY es una variable aleatoria.
=P
i=1 h
{ : Xi () xi }
k
=P
i=1
{ : Xi () xi }
i=h+1
{ : Xi () R}
= l PX (Cj ) m
j j
= PX ((, x1 ] (, xh ] R R)
= l PX ((, x1 ] (, xh ] (, yh+1,j ] (, yk,j ]) m = l FX (x1 , . . . xh , yh+1,j , . . . , yk,j ]). m

j
80
V ctor J. Yohai
(iii) Si P (Y = 0) = 0 entonces Z = X/Y es una variable aleatoria. Demostracin. Se trata de escribir a Z como imagen de X e Y usando una o funcin g medible. o (i) Denimos g : R2 R, g (x, y) = x + y. Como g es continua es medible. Luego si tomamos W = (X, Y ) se tiene que Z = g (W) = X + Y es una variable aleatoria. (ii) y (iii) La demostracin de (ii) y (iii) se deja como ejercicio. 2 o
Denicin 4.6 Sea g : Rk Rh , es decir g = (g1 , g2 , . . . , gh ) tal que para o cada j = 1, 2, . . . , h, gj : Rk R. Diremos que g es medible sii gj es medible para cada j = 1, 2, . . . , h. Teorema 4.10 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio y g : Rk Rj una funcin medible. Entonces Z = g (X) es un vector aleatorio de dimeno sin j. o Demostracin. Se deja como ejercicio.2 o
4.5.
4.5.1.
Independencia de variables aleatorias.

Algunas consideraciones heur sticas.
Hemos visto con anterioridad lo que signicaba la independencia de eventos. Brevemente recordemos que una familia de eventos es independiente si la ocurrencia de algunos de ellos no incide sobre la probabilidad de ocurrencia del otro. Ms precisamente, un conjunto de eventos A1 , A2 , . . . , Ak son a independientes si para toda eleccin 1 i1 < i2 < < ih k o
h
P (Ai1 Ai2 Aih ) =
P Aij .
j=1
Ahora queremos denir la independencia de un conjunto de variables aleatorias. Queremos dar respuesta a la pregunta en qu medida la infore macin referida a una variable aleatoria X incide en el conocimiento de los o valores de la variable aleatoria Y . Por ejemplo la inacin y la emisin o o monetaria son independientes ? El peso de un individuo y su presin sano gu nea son independientes? Para denir el concepto de independencia de variables aleatorias utilizaremos la nocin de independencia de eventos. o
4.5. Independencia de variables aleatorias.
81
Denicin 4.7 Sean X1 , X2 , , Xk variables aleatorias, denidas sobre o un mismo espacio de probabilidad (, A, P ) . Diremos que dichas variables son independientes sii cualquiera sean los conjuntos B1 , B2 , , Bk 1 B (Borelianos en R), los eventos Xj (Bj ) , j = 1, 2, .., k son independientes. Los dos siguientes teoremas dan caracterizaciones de la propiedad de independencia de un conjunto de variables aleatorias.
Teorema 4.11 Las variables aleatorias X1 , , Xk son independientes si y slo si para toda eleccin de conjuntos borelianos B1 , B2 , , Bk vale que o o
k k
j=1
1 Xj (Bj ) =
1 P Xj (Bj ) .
(4.13)
j=1
Demostracin. Primero mostraremos que (4.13) es una condicin necesaria. o o En efecto, si X1 , , Xk son independientes, (4.13) debe cumplirse por denicin de independencia de eventos. Ahora probaremos la suciencia de o (4.13). Debemos probar que (4.13) implica para cualquier subconjunto de ndices i1 < i2 < < ih , h k que
h h
Consideremos los conjuntos Ci , 1 i k, denidos de la siguiente manera Ci = Bi R si i coincide con algn ij u en caso contrario.
Xi1 j
Bij
j=1
P Xi1 Bij j
j=1
Entonces dado que Xi1 (R) = y P () = 1, se tiene que

h k
j=1
Xi1 Bij = P j =
Xi1 (Ci )
i=1
P Xi1 (Ci )
j=1 h
=
j=1
P Xi1 Bij j
. 2
Ahora escribiremos la misma proposicin de otra manera o
82
V ctor J. Yohai
Teorema 4.12 Las variables aleatorias X1 , . . . , Xk son independientes si y slo si para toda coleccin de borelianos B1 , B2 , . . . , Bk vale que o o
k
PX (B1 B2 Bk ) = donde X = (X1 , X2 , . . . , Xk ) .
PXj (Bj ) ,
j=1
1 Demostracin. Como PXj (Bj ) = P (Xj (Bj )) por el Teorema 4.11 baso tar mostrar que a h
Para eso observamos que
PX (B1 B2 Bk ) = P
j=1
1 Xj (Bj ) .
PX (B1 B2 Bk ) = P (X1 (B1 B2 Bk ))
= PX ({ : X () B1 B2 Bk })
k
=P =P
= PX ({ : (X1 () , X2 () , . . . , Xk ()) B1 B2 Bk })
j=1 h
{ : Xj () Bj }
1 Xj (Bj ) . 2
j=1
El siguiente teorema, da una condicin necesaria y suciente para la o independencia de un conjunto de variables que es ms simple de vericar. a
Teorema 4.13 Una condicin necesaria y suciente para que las variables o aleatorias X1 , X2 , . . . , Xk sean independientes es que para todo (x1 , x2 , . . . , xk ) Rk se cumpla que FX (x1 , x2 , . . . , xk ) = FX1 (x1 ) FX2 (x2 ) . . . FXk (xk ) , donde X = (X1 , X2 , . . . , Xk ) . Demostracin. o Para ver que (4.14) es una condicin necesaria para la independencia de o X1 , . . . , Xk , basta aplicar el Teorema 4.12 a los conjuntos B1 = (, x1 ], B2 = (, x2 ], . . . , Bk = (, xk ]. (4.14)
83
Probaremos ahora la suciencia. Consideremos los conjuntos del tipo B1 B2 Br (, xr+1 ] (, xr+2 ] (, xk ], donde B1 B2 Br son borelianos en R. Probaremos por induccin o sobre r que vale la siguiente propiedad que llamamos Ar : PX (B1 B2 Br (, xr+1 ] (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 ((, xr+1 ]) PXk ((, xk ]) .
(4.15)
Para r = 0, la condicin (4.15) vale por hiptesis, puesto que se reduce a un o o producto de semirectas. Supongamos que vale para r y probemos que vale para r + 1. En primer lugar probemos que si (4.15) vale para r, tambin vale e reemplazando (, xr+1 ] por R, esto es PX (B1 B2 Br R (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (R) PXk ((, xk ]) = = PX1 (B1 ) PXr (Br ) PXr+2 ((, xr+2 ]) PXk ((, xk ]) . (4.16)
Para mostrar esto podemos considerar una sucesin creciente de semirectas o Cn = (, n]. Luego
R=
Cn
n=1
y la sucesin {B1 B2 Br Cn (, xr+2 ] (, xk ]}, n = o 1, 2, . . . es montona no decreciente en Rk y vale o
= B1 B2 Br R (, xr+2 ] (, xk ] Luego usando que vale Ar tenemos que PX (B1 B2 Br R (, xr+2 ] (, xk ])

n
= l PX (B1 B2 Br Cn (, xr+2 ] (, xk ]) m
n
= l PX (B1 )PX (B2 ) PX (Br )PX (Cn )PX ((, xr+2 ]) PX ((, xk ]) m = PX (B1 )PX (B2 ) PX (Br )PX (R)PX ((, xr+2 ]) PX ((, xk ]), que es lo que quer amos probar. Ahora probaremos Ar+1 . Es decir debemos probar que dados borelianos B1 , . . . ., Br+1 y reales xr+2 , . . . , xk se tiene PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (Br+1 ) PXk ((, xk ]) .
B1 B2 Br Cn (, xr+2 ] (, xk ]
(4.17)
84 Consideremos el conjunto
V ctor J. Yohai
A = B1 B2 Br R (, xr+2 ] (, xk ], y distinguimos dos casos: (a) PX (A) = 0, (b) PX (A) > 0. Consideremos primero el caso (a). Por (4.16) 0 = PX (A) = PX (B1 B2 Br R (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (R) PXk ((, xk ]) se tiene que PX (Bi ) = 0 para algn 1 i r u o bien PXi ((, xi ]) = 0 para algn r + 2 i k. u En cualquiera de los dos casos el miembro derecho de (4.17) es 0. Supongamos que PX (Bi ) = 0 podemos suponer que i = 1, para jar ideas. Entonces teniendo en cuenta que B1 B2 Br Br+1 (, xr+2 ] (, xk ] B1 R R, obtenemos que PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ]) PX (B1 R R) = PX1 (B1 ) = 0, y luego el miembro izquierdo de (4.17) tambin es 0 y la igualdad se cumple. e Ahora si PXi ((, xi ]) = 0, podemos suponer que i = k y proceder de manera anloga. Luego (4.17) vale para el caso (a). a Consideremos el caso (b), es decir que PX (A) > 0. Denimos un nuevo espacio de probabilidades (R, B, P ) de la siguiente manera: Para todo B B denimos P (B) = PX (B1 B2 Br B (, xr+2 ] (, xk ]) . PX (A)
Obsrvese que los borelianos B1 , B2 , . . . Br y los reales xr+2 , . . . , xk pere manecen jos cuando se cambia B. Veamos en primer lugar que efectivamente P : B [0, 1] es una probabilidad. (i) Claramente PX (A) P (R) = =1. PX (A)
85
(ii) Supongamos que (Cn )n1 B es una sucesin de borelianos disjuntos o dos a dos. Entonces P
n
PX = PX = =
n=1 PX (B1
=
n=1
PX (B1 B2 Br Cn (, xr+2 ] (, xk ]) PX (A) P (Cn ) .
=
n=1
Esto prueba que P es una probabilidad. Observemos que en la deduccin anterior se us, adems de que P es o o a una probabilidad, una propiedad de la teor de conjuntos, fcil de probar: a a B1 B2 Br =
n
Ahora calcularemos el valor de P sobre una semirecta. Dado que Ar es vlida (hiptesis inductiva), si x R se tiene a o P ((, x]) PX (B1 B2 Br (, x] (, xr+2 ], (, xk ]) = PX (A) PX1 (B1 ) PXr (Br ) PXr+1 ((, x]) PXk ((, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (R) PXk ((, xk ]) = PXr+1 ((, x]) . Entonces por la unicidad de la extensin como PXr+1 y P coinciden en las o semirectas (, x] se tendr por el Teorema de Extensin que para todo a o B B, P (B) = PXr+1 (B) .

Cn B1 B2 Br
n
Cn (, xr+2 ] (, xk ]
PX (A)
(B1 B2 Br Cn (, xr+2 ] (, xk ]) PX (A) B2 Br Cn (, xr+2 ] (, xk ]) PX (A)
Cn (, xr+2 ], (, xk ]
(B1 B2 Br Cn (, xr+2 ], (, xk ]) .
86 En particular P (Br+1 ) = PXr+1 (Br+1 ) , y luego PXr+1 (Br+1 ) =
V ctor J. Yohai
PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ]) . PX1 (B1 ) PXr (Br ) PXr+1 (R) PXk ((, xk ]) .
Despejando de la ecuacin anterior y usando que PXr+1 (R) = 1 obtenemos o PX (B1 B2 Br Br+1 (, xr+2 ] (, xk ]) = PX1 (B1 ) PXr (Br ) PXr+1 (Br+1 ) PXk ((, xk ]) ,
= PXr+1 (Br+1 ) PX1 (B1 ) PXr (Br ) PXr+2 (Br+2 ) PXk ((, xk ])
y luego tambin vale Ar+1 . 2 e
4.5.2.
Conservacin de la independencia por transformaciones. o
El siguiente teorema prueba que la independencia se conserva por transformaciones. Teorema 4.14 Sea (, A, P ) un espacio de probabilidad sean X1 , X2 , . . . , Xh variables aleatorias independendientes. Si gj : R R, j = 1, 2, . . . , h son funciones medibles entonces Y1 = g1 (X1 ) , Y2 = g2 (X2 ) , . . . , Yh = gh (Xh ) tambin e son variables aleatorias independientes. Demostracin. Aplicamos la denicin de independencia. Dados B1 , B2 , . . . , Bh o o borelianos arbitrarios queremos probar que los conjuntos
1 Y11 (B1 ) , Y21 (B2 ) . . . , Yh (Bh )
son eventos independientes. Ahora bien para cada j = 1, 2, . . . , h se tiene

1 1 1 Yj1 (Bj ) = Xj gj (Bj ) = Xj (Cj ) , 1 donde Cj = gj (Bj ) . Como los Cj , j = 1, 2, . . . , h son borelianos, la inde1 pendencia de las variables Xj implica que los eventos Xj (Cj ) son independientes. Luego las variables Y1 , . . . Yh son independientes. 2
4.5.3.
Independencia de vectores aleatorios.
Denicin 4.8 Denicin. Sea (, A, P ) un espacio de probabilidad. Sean o o X1 , X2 , . . . , Xh vectores aleatorios de dimensiones k1 , k2 , . . . , kh respectivamente, esto es Xi : Rki , i = 1, 2, . . . , h
87
son vectores aleatorios. Diremos que el sistema de vectores es independiente si dados B1 B k1 , B2 B k2 , . . . , Bh B kh , borelianos arbitrarios en sus respectivos espacios, los conjuntos X1 (Bj ) , j = 1, 2, . . . , h son eventos j independientes. Las siguientes dos proposicines dan condiciones necesarias y sucientes o para que un conjunto de vectores aleatorios sean independientes. Las dos condiciones son anlogas a las obtenidas para variables aleatorias. a Propiedad 4.6 Una condicin necesaria y suciente para que el conjunto o de vectores X1 , X2 , . . . , Xh , donde Xi es de dimensin ki sean independieno tes es que para todo B1 B k1 , B2 B k2 , . . . , Bh B kh se cumpla PX (B1 B2 Bh ) = PX1 (B1 ) PX2 (B2 ) . . . PXh (Bh ) , donde X = (X1 , X2 , . . . , Xh ) . Demostracin. Anloga a la demostracin de la proposicin correspondiente o a o o para variables aleatorias. 2 Propiedad 4.7 Una condicin necesaria y suciente para que un conjunto o de vectores X1 , X2 , . . . , Xh sean independientes es que para todo (x1, x2 , . . . , xh ) Rk1 Rk2 Rkh se tenga FX (x1, x2 , . . . , xh ) = FX1 (x1 ) FX2 (x2 ) . . . FXh (xh ) ,
donde X = (X1 , X2 , . . . , Xh ) . Demostracin. Anloga a la demostracin de la proposicin correspondiente o a o o para variables aleatorias.2 Propiedad 4.8 Sean X1 , X2 , . . . , Xh un sistema de vectores aleatorios de dimensiones k1 , k2 , .., kh respectivamente. Sean g1 , g2 , . . . , gh funciones medibles, gi : Rki Rji , i = 1, 2, . . . , h. Entonces los vectores aleatorios Y1 = g1 (X1 ) , Y2 = g2 (X2 ) , . . . , Yh = gh (Xh ) son independientes. Demostracin. Anloga a la demostracin de la proposicin correspondiente o a o o para variables aleatorias. 2
88
V ctor J. Yohai
Cap tulo 5
Vectores aleatorios discretos y continuos.

Tal como ocurre con las variables aleatorias, existen distintos tipos de vectores aleatorios.
5.1.
Vectores aleatorios discretos.
Denicin 5.1 Sea X = (X1 , X2 , . . . , Xh ) un vector aleatorio. Si dice que o X es discreto o bien que tiene distribucin discreta sii para cada i = o 1, 2, . . . , h, Xi es un variable aleatoria discreta. Esto implica, de acuerdo a lo estudiado, que para cada i = 1, 2, . . . , h existe un conjunto nito o innito numerable RXi tal que PXi (RXi ) = 1. La Propiedad 5.2 que enunciaremos en breve muestra que el conjunto
RX = RX1 RXh
es nito o innito numerable y que PX (R ) = 1. Necesitamos previamente demostrar la siguiente propiedad Propiedad 5.1 Sean A1 , . . . , Ah una sucesin nita de eventos tal que para o todo i, 1 i h, tal que P (Ai ) = 1. Entonces
h
P
i=1
Ai
= 1.
Demostracin. Basta probar que la probabilidad del complemento es cero. o Eso se sigue inmediatamente dado que la probabilidad es subaditiva y P (Ac ) = i 0. En efecto, se tiene
h c h h
0P
Ai
i=1
=P
i=1
Ac i 89
P (Ac ) = 0. i
i=1
90 Luego
h h
V ctor J. Yohai
P
i=1
Ai
=1P
Ai
i=1
= 1. 2
Observacin. La Propiedad 5.1 tambin vale para una sucesin numerable o e o de eventos y su demostracin es anloga. o a Propiedad 5.2 Sea X = (X1 , X2 , . . . , Xh ) un vector aleatorio. Entonces el conjunto RX = RX1 RXh es nito o innito numerable y PX (R ) = 1.
Demostracin. RX es a lo sumo numerable, porque un producto cartesiano o nito de conjuntos a lo sumo numerables es a lo sumo numerable. Adems a h
{: X () RX1 RXh } = Luego por la Propiedad 5.1
i=1
{ : Xi () RXi }.
PX (RX ) = PX (RX1 RXh ) = P ({: X () RX1 RXh }) h
=P
i=1
{ : Xi () RXi }
= 1,
ya que P ({ : Xi () RXi }) = PXi (RXi ) = 1. 2 De manera anloga a como lo hicimos para una sola variable se puede a buscar el m nimo conjunto que tiene probabilidad 1. Este conjunto puede ser distinto de RX . Ejemplo 5.1 Consideremos un vector aleatorio X = (X1 , X2 ) que asume los valores {(0, 0) , (1, 1)} con la misma probabilidad 0,5. De esto se deduce que las variables aleatorias X1 , X2 a su vez asumen los valores 0 y 1 con probabilidad 0,5 para ambos. Ahora bien
RX = RX1 RX2 = {(0, 0) , (1, 1) , (0, 1) , (1, 0)}.
Se ve que el conjunto RX puede ser reducido a RX = {(0, 0) , (1, 1)}.
Ms generalmente si X es un vector discreto de dimensin k, podemos a o considerar el conjunto de los tomos de la probabbilidad, a RX = {x :PX ({x}) > 0} RX1 RXh . El siguiente Teorema, cuya demostracin es anloga al Teorema 3.1 mueso a tra que RX es el minimo conjunto de probabilidad 1.
5.1. Vectores aleatorios discretos.
91
Teorema 5.1 Se tiene que PX (RX ) = 1. Adems si B B k es tal que a PX (B) = 1, entonces RX B.
5.1.1.
Funcin de densidad de probabilidad conjunta. o
Una vez obtenido el conjunto RX donde se concentra la probabilidad de un vector aleatorio discreto, vamos a mostrar que de igual manera que en el caso de una variable aleatoria, podemos determinar una funcin denida o k que determina totalmente a P . ahora sobre R X Denicin 5.2 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio discreto. Se o dene la funcin densidad de probabilidad conjunta pX : Rk [0, 1] , asoo ciada al vector X por pX (x) = PX ({x}) . Observacin. De acuerdo a la denicin de RX se tendr o o a pX (x) = >0 0 si x RX si x RX . /
Como consecuencia de las anteriores observaciones y de manera anloga a a como lo hemos hecho para una sola variable se tiene el siguiente teorema. Teorema 5.2 Para todo B B k se tiene PX (B) =
xBRX
pX (x) pX (x) .
xBR X
Muchas veces es conveniente considerar el conjunto RX = RX1 RX2 RXk en vez de RX .
Teorema 5.3 Sea B = B1 B2 Bk , donde B1 , . . . , Bk son borelianos en R. Entonces (a) PX (B) =

xk Bk RXk xk1 Bk1 RXk1
...
x1 B1 RX1
pX (x1 , x2 , . . . , xk ) .
(b) ...
xk RXk xk1 RXk1 x1 RX1
pX (x) = 1.
92 Demostracin. o PX (B) =
xBRX
V ctor J. Yohai
pX (x) pX (x)
xBR X
= =
pX (x)
xB(RX1 RX2 RXk )
=
xB1 RX1 B2 RX2 Bk RXk
pX (x) ...
xk Bk RXk xk1 Bk1 RXk1 x1 B1 RX1
pX (x1 , x2 , . . . , xk ) .
Luego (a) vale. En particular si tomamos Bi = R, luego B = Rk y 1 = PX Rk =

xRX1 RX2 RXk
pX (x) ...
xk RXk xk1 RXk1 x1 RX1
pX (x) ,
y luego (b) vale. 2
5.1.2.
Caracterizacin de la funcin de densidad marginal o o asociada a un subconjunto de variables.
Se trata de determinar a partir de la funcin de densidad conjunta, la o marginal asociada a un subconjunto arbitrario de variables. Para jar ideas, consideremos un vector aleatorio X = (X1 , X2 , . . . , Xh , Xh+1 , . . . , Xk ) y un subvector X = (X1 , X2 , . . . , Xh ) . Propiedad 5.3 La funcin de densidad marginal asociada al vector X o viene dada por la frmula o pX (x) =
xh+1 RXh+1 xh+2 RXh+2
...
xk RXk
pX (x1 , . . . , xh , xh+1 , . . . , xk ) .
Demostracin. Aplicando la denicin de pX o o pX ((x1 , x2 , . . . , xh )) = PX ({(x1 , x2 , . . . , xh )}) = PX ({{x1 } {x2 } {xh } R R) .
5.1. Vectores aleatorios discretos.
93
Entonces de acuerdo al resultado anterior pX ((x1 , x2 , . . . , xh )) = PX ({x1 } {x2 } {xh } R R) = = ... pX (x1 , . . . , xh , xh+1 , . . . , xk )
xk RXk xh+1 RXk+1
xk RXk
Ahora vamos a dar una condicin necesaria y suciente de independencia o para el caso de variables aleatorias con distribucin discreta, en trminos de o e la funcin de densidad conjunta y sus marginales. o Para esto recordemos que una condicin necesaria y suciente para que o el sistema de variables aleatorias X1 , X2 , . . . , Xh sea independiente es que dados borelianos arbitrarios B1 , B2 , . . . , Bh PX (B1 B2 Bh ) = PX1 (B1 ) PX2 (B2 ) . . . PXh (Bh ) . (5.1)
Teorema 5.4 Sea X = (X1 , X2 , . . . , Xh ) un vector aleatorio con distribucin discreta. Una condicin necesaria y suciente para que el conjunto de o o variables aleatorias X1 , X2 , . . . , Xh con distribucin discreta sea independio h ente es que para todo x = (x1 , . . . , xh ) R pX (x) = pX1 (x1 ) pX2 (x2 ) . . . pXh (xh ) . (5.2)
Demostracin. o Es fcil ver que (5.2) es necesaria. Tomando en particular los borelianos a Bj = {xj }, j = 1, 2, . . . , h y aplicando (5.1) se obtiene pX (x) = PX ({(x1 , x2 , . . . , xh )}) = PX ({x1 } {x2 } {xh }) = PX1 ({x1 }) PX2 ({x2 }) . . . PXh ({xh }) = pX1 (x1 ) pX2 (x2 ) . . . pXh (xh ) .
Ahora veamos la suciencia. Tenemos que probar que si ocurre (5.2) entonces las variables X1 , . . . , Xh son independientes. Como (5.1) implica la suciencia, bastar probar que (5.2) implica (5.1). a Como la demostracin para k = 2 es similar a la demostracin general o o pero la notacin es ms simple, lo probaremos en este caso. Consideremos un o a
...
xk+1 RXk+1
pX (x1 , . . . , xh , xh+1 , . . . , xk ). 2
94
V ctor J. Yohai
vector de dos componentes X = (X1 , X2 ) y sean B1 , B2 borelianos, entonces PX (B1 B2 ) = =

x1 B1 RX1 x2 B2 RX2
pX (x1 , x2 )
x1 B1 RX1 x2 B2 RX2
pX1 (x1 ) pX1 (x2 ) pX1 (x2 ) . 2
Observacin. En la ultima igualdad hemos usado la frmula o o ab =

(a,b)AB aA bB
x1 B1 RX1
pX1 (x1 )
x2 B2 RX2
ab =
aA
b
bB
5.2.
5.2.1.
Ejemplos de vectores aleatorios con distribucin discreta. o

Distribucin Multinomial. o
Supongamos que un experimento que tiene k posibles resultados se repite n veces en forma independiente. Sean Ai , i = 1, 2, . . . , k, los posibles resultados del experimento y pi la probabilidad que el resultado sea Ai . Luego
k
pi = 1.
i=1
Existen una gran cantidad de ejemplos de este tipo de experimentos. Por ejemplo si se tira un dado hay seis posibles resultados con la misma probabilidad . Luego pi = 1/6, i = 1, . . . , 6. Otro experimento puede ser se registra el voto de n ciudadanos elegidos al azar en una eleccin donde o hay k candidatos. En este caso en principio los valores de los pi pueden ser arbitrarios. Denotamos con Xi a la variable aleatoria cantidad de veces que ocurre el resultado Ai a lo largo de los n experimentos i = 1, 2, . . . , k y formemos el vector aleatorio X = (X1 , X2 , . . . , Xk ) . Se dice que el vector aleatorio X = (X1 , . . . , Xk ) tiene distribucin multinomial con k resultados distino tos con probabilidades p1 , . . . , pk y n repeticiones y ser simbolizada por a Mk (p1 , . . . , pk , n). Como espacio muestral consideremos = {(i1 , i2 , . . . , in ) : ij N, 1 ij k}, donde ij indica el resultado que ocurri en la jsima repeticin del expero e o imento.
5.2. Ejemplos de vectores aleatorios con distribucin discreta. o
95
Por ejemplo si n = 4 y k = 3 la 4-upla (1, 3, 2, 3) indica que el resultado A1 ocurri la primera vez y nunca ms, el resultado A3 la segunda y cuarta o a vez y el resultado A2 la tercera. Con este espacio muestral, las variables aleatorias Xj : N estn a denidas por Xi ((i1 , i2 , . . . , in )) = #{j : ij = i}. y se tiene que
k
Xi ((i1 , i2 , . . . , in )) = n.
i=1
El espacio no es equiprobable. Vamos a encontar ahora la probabilidad de cada elemento (i1 , . . . , in ) de .Consideremos los eventos Bj = {en el experimento j el resultado fue ij }, j = 1, . . . , n Vamos ahora encontrar la probabilidad P denida sobre .Luego el resultado (i1 , i2 , . . . , in ) es equivalente a la interseccin de Bj , 1 j n. Como o suponemos independencia de los experimentos y el evento Bj tiene probabilidad pj ,resulta P ({(i1 , i2 , . . . , in )}) = pi1 pi2 . . . pin = p1 1 El rango de X es
n X ((i1 ,i2 ,...,in )) X2 ((i1 ,i2 ,...,in )) p2
pk k
X ((i1 ,i2 ,...,in ))
. (5.3)
RX =
(x1 , . . . , xk ) : 0 xi n,
xi = n
i=1
Fijado x = (x1 , . . . xk ) RX , calcularemos la probabilidad del evento A = X1 (x) = {(i1 , i2 , . . . , in ) : X ((i1 , i2 , . . . , in )) = (x1 , x2 , . . . , xk )}. El evento A ocurre cuando para cada i, 0 xi k, el resultado Ai ocure xi veces en las n repeticiones del experimento. En particular si (i1 , i2 , . . . , in ) A, de acuerdo a (5.3) se tendr a P ({(i1 , i2 , . . . , in )}) = px1 px2 pxk . 1 2 k Luego todo los elementos de A tienen la misma probabilidad y por lo tanto la probabilidad de A estar dada por la probabilidad de un elemento a
96
V ctor J. Yohai
por su cardinal . Un argumento simple de combinatoria muestra que #A = n x1 n x 1 x2 xk xk x2 x3 n! (n x1 )! (n x1 x2 )! = .,1 (x1 )! (n x1 )! (x2 )! (n x1 x2 )! (x3 )! (n x1 x2 x3 )! n! = . (x1 )! (x2 )! (x3 )! . . . (xk )! n x1
Esto resulta del hecho de que para elegir un elemento de A hay que elegir los x1 lugares donde ocurri A1 entre los n, hay que elegir los x2 lugares en o los que ocurrin A2 entre los n x1 restantes, etc. o Luego tendremos pX (x1 , x2 , . . . , xk ) = PX (A) = n! .px1 px2 . . . pxk . k (x1 )! (x2 )! (x3 )! . . . (xk )! 1 2
5.2.2.
Distribucin Hipergeomtrica Multivariada. o e
Consideremos N objetos que pueden clasicarse en k clases distintas A1 , A2 , . . . , Ak . Supongamos conocida la cantidad de objetos de cada clase, digamos D1 de la clase A1 , D2 de la clase A2 , . . . , Dk de la clase Ak , y por lo tanto k i=1 Di = N. Supongamos que se realizan extracciones de n objetos y sea Xi la cantidad de objetos de la clase i que se obtuvieron en las n extracciones. Consideremos el vector aleatorio X = (X1 , X2 , . . . , Xk ) . Existen dos posibilidades (a) Las extracciones se hacen con reposicin. En este caso, el experimento o tiene distribucin multinomial con parmetros p1 , p2 , . . . , pk y n, donde o a pi = Di /N. (b) Las extracciones se hacen sin reposicin. En este caso la distribuo cin se denomina hipergeomtrica multivariada y ser denotada por o e a HGMk (D1 , . . . , Dk , n). El rango del vector X estar dado por a RX = {(x1 , x2 , . . . , xk ) : 0 xi Di , x1 + x2 + + xk = n}. Como cada n-upla tiene una probabilidad distinta, no ser conveniente a tomar como espacio muestral el conjunto de estas kuplas. Para construir un espacio de probabilidad equiprobable procedemos de la siguiente manera. Comenzamos enumerando todos los objetos de la siguiente manera. Los de clase 1 por M1 = {1, 2, . . . , D1 }.
5.2. Ejemplos de vectores aleatorios con distribucin discreta. o
97
Los de la clase 2 por M2 = {D1 + 1, D1 + 2, . . . , D1 + D2 }. Los de la clase 3 por M3 = {D1 + D2 + 1, D1 + D2 + 2, . . . , D1 + D2 + D3 }. y nalmente los de la clase k por
k1 k1 k
Mk =
i=1
Di + 1,
i=1
Di + 2, . . . ,
i=1
Di
Denamos entonce el espacio muestral por = {A : A {1, . . . , N }, #A = n}, Si el conjunto A se interpreta como el conjunto de los nmeros de las bolillas u obtenidas, resultar que todos los elementos de son equiprobables. Por a ejemplo si N = 20 y n = 3 la probabilidad de extraer los elementos {1, 2, 17} o {2, 6, 8} es la misma. El nmero de elementos de es la cantidad de subconjuntos de n eleu mentos que se pueden formar con los N dados. Luego # () = N n
Dado A , se dene Xi (A) = # (A Mi ) , 1 i k, y X(A) = (X1 (A), . . . , Xk (A)). Consideremos ahora el evento C = {A : X (A) = (x1 , x2 , . . . , xk )}. El evento C representa todas las extracciones en las que resulta que hay exactamente x1 elementos de la clase A1 , x2 de la clase A2 , ..., xk de la clase A. Un argumento combinatorio simple muestra que el cardinal de C es # (C) = de manera que pX (x1 , x2 , . . . , xk ) = P (C) =
D1 x1 D2 Dk x2 xk N n
D1 x1
Dk D2 , xk x2
98
V ctor J. Yohai
5.3.
Vectores Aleatorios de tipo absolutamente continuo.
Denicin 5.3 Sea (, A, P ) un espacio de probabilidad y X = (X1 , X2 , . . . , Xk ) o un vector aleatorio. Se dice que el vector es absolutamente continuo si existe una funcin integrable sobre Rk , fX : Rk R0 llamada funcin de o o densidad de la probabilidad PX tal que
xk xk1 x1
FX (x1 , x2 , . . . , xk ) =
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk
fX (t) dt,
(,x1 ](,x2 ](,xk ]
donde t = (t1 , t2 , . . . , tk ) y dt = dt1 dt2 . . . dtk . Tomando l mite cuando x1 , . . . , xk , se tendr a

+ + +
fX (t) dt = PX (Rk ) = 1.
El siguiente teorema da la probabilidad que un vector aleatorio tome valores en un rectngulo k-dimensional. a Teorema 5.5 Supongamos que X = (X1 , . . . , Xk ) sea un vector aleatorio absolutamente continuo con densidad fX . Sean a1 < b1 , a2 < b2 , a3 < b3 , . . . , ak < bk . Luego se tiene PX ((a1 , b1 ] (a2 , b2 ] (ak , bk ])
bk bk1 b1
=
ak ak1
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk .

a1
fX (t) dt,
(a1 ,b1 ](a2 ,b2 ](ak ,bk ]
Demostracin. Tenemos que mostrar que o

k
(ak , bk )
bk bk1 ak ak1
1 (a1 , b1 ) FX (x1 , x2 , . . . , xk ) b1
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk .

a1
Para esto bastar probar que para todo 1 h k se tiene a

h (ah , bh ) 1 (a1 , b1 ) FX (x1 , x2 , . . . , xh, xh+1 , . . . xk ) xk xh+1 bh b1
ah
fX (t1 , t2 , . . . , th, th+1 , . . . tk ) dt1 dt2 . . . dth ,

a1
5.3. Vectores Aleatorios de tipo absolutamente continuo.
99
y esto se prueba por induccin en h. 2 o Observacin. Usando la integral de Lebesgue, se puede probar, mediante o teor de la medida e integracin que para todo boreliano B B k a o PX (B) = fX (t) dt.
B
(5.4)
Si se usa la integral de Riemman, la integral del segundo miembro de (5.4) puede no existir. Unicamente existe si el borde de B tiene medida de Riemman 0. En cambio la correspondiente integral de Lebesgue siempre existe. Desde el punto de vista prctico en este curso solo se va a trabajar con a conjuntos B para los cuales la integral de Riemman existe. La funcin de densidad de probabilidad tiene una interpretacin anloga o o a a la que hemos visto para el caso univariado. La siguiente propiedad dice que en un punto de continuidad, el l mite de la probabilidad de un entorno de un punto sobre su volumen, cuando el entorno se aproxima al punto es el valor de la densidad en el punto. Ms precisamente a Teorema 5.6 Sea fX la funcin densidad asociada al vector aleatorio o X = (X1 , X2 , . . . , Xk ) continua en el punto x0 = (x10 , x20 , . . . , xk0 ) . Entonces
h0
l m
PX ([x10 h, x10 + h] [xk0 h, xk0 + h]) (2h)k
= fX (x0 ) .
Demostracin. Es anloga al caso univariado y se deja como ejercicio. 2 o a Observacin. Los entornos cbicos se pueden reemplazar por otro tipo o u de entornos, por ejemplo entornos esfricos. En el denominador habr que e a poner el volumen correspondiente. Bajo el supuesto de que la densidad sea continua, se puede escribir la densidad como la derivada parcial cruzada de orden k de la funcin de o distribucin. o Teorema 5.7 Supongamos que fX sea continua en x0 . Entonces fX (x0 ) = k FX (x1 , x2 , . . . , xk ) xk xk1 x1
xk1 xk x1
.
x=x0
Demostracin. Por Fubini se tiene o

xk
FX (x1 , x2 , . . . , xk ) =
x1
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk

x1
xk1
fX (t1 , t2 , . . . , tk ) dt2 . . . dtk dt1
100 y aplicando el teorema fundamental del clculo resulta a FX (x1 , x2 , . . . , xk ) = x1 =

xk x2 xk1 xk x2
V ctor J. Yohai
fX (x1 , t2 , . . . , tk ) dt2 . . . dtk .

x3
xk1
fX (x1 , t2 , . . . , tk ) dt3 . . . dtk dt2
y aplicando nuevamente el teorema fundamental del clculo obtenemos a FX (x1 , x2 , . . . , xk ) = x2 x1

xk xk1 x2
fX (x1 , x2 , t3 , . . . , tk ) dt3 . . . dtk .
Repitiendo lo mismo k veces se demuestra el teorema. 2 Denicin 5.4 Dado un boreliano B B k se dene su volumen de la o siguiente manera V ol (B) = dx1 dx2 . . . dxk =
B
dx.
B
Observacin. Un caso t o pico de conjuntos con volumen 0 resulta ser un punto en R, una recta en R2 , un plano en R3 y en general un hiperplano en Rk . Las uniones a lo sumo numerables de conjuntos de volumen cero tienen volumen cero. En general cualquier subconjunto de Rk de dimensin j con o j < k tendr volumen 0. Por ejemplo las curvas en R2 o las supercies en a R3 . Veremos que si el vector aleatorio es absolutamente continuo la funcin o de probabilidad asociada asigna probabilidad 0 a conjuntos cuyo volumen es 0. Teorema 5.8 Sea X un vector aleatorio de dimensin k. Si B B k tal que o Vol(B) = 0 entonces PX (B) = 0. Demostracin. Sea o Cn = {x Rk : fX (x) > n}. Es claro que si x Cn+1 entonces fX (x) > n+1 > n de manera que x Cn , es decir la sucesin de conjuntos {Cn }n1 es decreciente y adems, puesto o a que la funcin fX es nita en todo punto, se tiene Cn = . Luego o n=1 tambin se tendr e a l PX (Cn ) = 0. m
n c Podemos descomponer a B = (B Cn ) (B Cn ) . Como esta unin es o disjunta, se tiene c PX (B) = PX (B Cn ) + PX (B Cn ) .
101
c Ahora calculamos PX (B Cn ). Para ello observemos que para todo n N c P (B Cn ) =
fX (x) dx
c BCn
dx
c BCn c Cn )
= nVol (B = 0.
nVol (B) Entonces para todo n N resulta
PX (B) = PX (B Cn ) PX (Cn ) , de manera que pasando al l mite se concluye que PX (B) = 0. 2 Observacin. Existe una diferencia importante entre los vectores discretos o y los absolutamente continuos. Recordemos que un vector es discreto si y slo si sus componentes son variables discretas. Esto no ocurre en el caso de o los vectores aleatorios absolutamente continuos. Para demostrarlo daremos un contraejemplo. Consideremos una variable aleatoria X1 , con distribucin absolutamente o continua y sea X2 = X1 de manera que el vector X = (X1 , X2 ) tiene como componentes variables aleatorias con distribuciones absolutamente continuas. Ahora veamos que el vector X no puede tener distribucin absolutao mente continua. Para ello observemos que B = {(x1 , x2 ) R2 : x1 = x2 } es una recta en R2 de manera que tiene volumen cero. Pero sin embargo PX (B) = P ({ : X1 () = X2 ()) = P () = 1.
Teorema 5.9 Sea X = (X1 , X2 , . . . , Xh , Xh+1 , . . . , Xk ) un vector aleatorio de dimensin k. Consideremos un subconjunto de coordenadas y formemos o el vector aleatorio asociado X = (X1 , X2 , . . . , Xh ). Entonces X tambin es e absolutamente continuo y fX (x1 , x2 , . . . , xh )
+ + +
(5.5) fX (x1 , x2 , . . . xh , th+1 , . . . , tk ) dth+1 dth+2 . . . dtk .
102 Demostracin. Tenemos que o FX (x1 , x2 , . . . , xh ) = PX ((, x1 ] (, x2 ] (, xh ]) = =

V ctor J. Yohai
= PX (, x1 ] (, x2 ] (, xh ] R R R
(,x1 ](,x2 ]...(,xh ] ... + + xh x1 +
kh factores
fX (t1 , t2 , . . . , tk ) dt1 . . . dth dth+1 dth+2 . . . dtk
Por lo tanto, usando Fubini, se tendr a FX (x1 , x2 , . . . , xh )

+ + x1 + xh + x1
=
xh
fX (t1 , t2 , . . . , tk ) dt1 . . . dth dth+1 dth+2 . . . dtk

+
Luego tenemos que

xh x1
FX (x1 , x2 , . . . , xh ) =
a donde fX est dada por (5.5). Esto prueba el Teorema. 2 Observacin. Por comodidad hemos escogido las primeras h componentes o pero lo mismo puede hacerse para una coleccin arbitraria de ellas. En el o caso de una distribucin bivariada X = (X1 , X2 ) , X = X1 o
+
fX1 (x1 ) =
El siguiente Teorema da una condicin necesaria y suciente para que o un conjunto de variables absolutamente continuas sean independientes. Teorema 5.10 Sean X1 , . . . , Xk variables aleatorias absolutamente continuas con densidades fX1 , . . . , fXk . Luego estas variables son independientes si y slo si el vector X = (X1 , . . . Xk ) tiene como densidad conjunta a la o funcin o
k
f (x1 , . . . , xk ) =
i=1
fX (t1 , t2 , . . . , tk ) dt1 dt2 . . . dtk
fX (t1 , t2 , . . . , tk ) dth+1 dth+2 . . . dtk dt1 . . . dth
fX (t1 , t2 , . . . , th ) dt1 . . . dth ,
fX (x1 , x2 ) dx2 .
fXi (xi ).
103
Demostracin. Como sabemos, por el Teorema 4.13, que X1 , . . . , Xk son ino dependientes si y slo si o
k
FX (x) =
i=1
FXi (xi ),
(5.6)
por el Teorema 4.5 (Teorema de Extensin para vectores aleatorios) baso tar probar que la funcin de distribucin F correspondiente a f est dada a o o a por (5.6). Vamos a mostrar que esto es cierto. En efecto, tenemos
xk x1 k
F (x1 , . . . , xk ) =
k
..
i=1 xi
fXi (xi )dx1 . . . dxk
=
i=1 k
fXi (xi )dxi
=
i=1
FXi (xi ),
y luego el Teorema queda probado. 2 El siguiente Teorema que se deja como ejercicio prueba una propiedad similar para vectores. Teorema 5.11 Sean X1 , . . . , Xk vectores aleatorios absolutamente continuos con densidades fX1 , . . . , fXk . Luego estos vectores son independientes si y slo si el vector X = (X1 , . . . Xk ) tiene como densidad a la funcin o o
k
f (x1 , . . . , xk ) =
i=1
fXi (xi ).
104
V ctor J. Yohai
Cap tulo 6
Transformaciones de variables y vectores aleatorios.

En esta seccin estudiaremos cmo se obtienen las distribuciones de vao o riables o vectores aleatorios obtenidos a partir de otros a travs de cierto e tipo de transformaciones.
6.1.
Transformaciones montonas de variables aleatoo rias.
Sea (, A, P ) un espacio de probabilidad y X una variable aleatoria. Consideremos una funcin g : R R continua y estrictamente montona, o o es decir, estrictamente creciente o bien estrictamente decreciente. Sabemos que Y = g (X) es otra variable aleatoria. Queremos estudiar la relacin que o existe entre FX y FY . Caso de g estrictamente creciente. La imagen de g (R) es un intervalo abierto (a, b) de longitud nita o bien innita, es decir tambin puede ser y b = .El siguiente teorema da la e relacin entre FX y FY . o Teorema 6.1 Sea g : R R una funcin estrictamente creciente y sea o (a, b) = g(R). Entonces si X es una variable aleatoria con funcin de diso tribucin FX , la funcin de distribucin de Y = g(X) ser o o o a 0 FY (y) = F g1 (y) X 1 105 si y a si y (a, b) si y b. (6.1)
106
V ctor J. Yohai
Demostracin. Sea a < y < b. Como g es estrictamente creciente se tendr o a FY (y) = P (Y y) = P (g (X) y) = P X g1 (y) = FX g1 (y) . Si y a se tendr que { : g(X()) y} = y luego a FY (y) = P ({ : g(X()) y}) = 0. Del mismo modo, si y b se tendr { : g(X()) y} = , y luego a FY (y) = P ({ : g(X()) y}) = 1. 2 Caso de g estrictamente decreciente. Nuevamente la imagen de g es un abierto (a, b) de longitud nita o innita. En este caso tenemos el siguiente teorema. Teorema 6.2 Sea g : R R una funcin estrictamente decreciente (a, b) = o g(R). Entonces se tiene (a) Si X es una variable aleatoria con funcin de distribucin FX , la funo o cin de distribucin de Y = g(X) ser o o a si y a 0 FY (y) = 1 P X < g1 (y) si y (a, b) (6.2) 1 si y b. (b) Si adems FX es continua se tendr a a 0 FY (y) = 1 FX g1 (y) 1 si y a si y (a, b) si y b.
(6.3)
Demostracin. o
(a) Como g es estrictamente decreciente se tiene para a < y < b que FY (y) = P (Y y) = P (g (X) y)
= P X g1 (y) = 1 P X < g1 (y) .
Los casos y a y y b se demuestran como en el Teorema 6.1. (b) En este caso se tiene P X < g1 (y) = P X g1 (y) = 1 FX g1 (x) . 2
6.1. Transformaciones montonas de variables aleatorias. o
107
Ahora caracterizaremos la funcin de densidad asociada a Y . Supongao mos que X tiene distribucin absolutamente continua con densidad fX y o adems que g es derivable. a Teorema 6.3 Sea g : R R una funcin estrictamente creciente o decreo ciente y derivable con g (y) = 0. Sea (a, b) = g(R), entonces si X es una variable aleatoria absolutamente continua con funcin de densidad fX , la o funcin de densidad de Y = g(X) ser o a 0 f g1 (y) X fY (y) = |g (g1 (y)) | 0 si y a si y (a, b) si y b. (6.4)
Demostracin. En el caso de que g es estrictamente creciente, (6.4) se obtiene o derivando (6.1) y observando que g > 0. En el caso que g sea estrictamente decreciente, derivando (6.3) y observando que g < 0. 2 Un caso especial de inters ocurre cuando g es una transformacin af e o n, es decir cuando g (x) = cx + d con c = 0. En este caso Y = g (X) = cX + d y g (x) = c. Como a = y b = +, teniendo en cuenta que g1 (y) = yd obtenemos c yd 1 . (6.5) fX (y) = fX |c| c
6.1.1.
Distribucin Normal o
Hemos visto la distribucin de una variable normal standarizada X o N (0, 1) cuya funcin densidad es o 1 fX (x) = exp x2 . 2 Ahora vamos a denir para todo R y para todo R>0 la distribucin normal con media y varianza 2 que indicaremos con N(, 2 ). Esta o distribucin es la que corresponde a Y = X + , donde X es N (0, 1) . o De acuerdo a (6.5) tendremos fY (y) = = 1 fX y y .
2
1 1 1 exp 2 2
1 (y )2 exp 2 2 2
108
V ctor J. Yohai
0.0
0.2
0.4
0.6
0.8
-4
-2
Figura 6.1: Densidad de la normal estndar (en l a neal llena), de la N(0, 4) (en l nea nea de puntos y rayas). de puntos) y de la N 0, 1 (en l 4 El signicado de los parmetros y se estudiar en la seccin 7.7.1. a a o Adelantemos que representa un desplazamiento horizontal de la densidad e indica el centro de simetr de la misma. La densidad alcanza su mximo a a en y a medida que nos alejamos de , la densidad va decreciendo. El parmetro , indica la dispersin de la variable respecto del centro. Un factor a o grande achata la curva hacia el eje de abcisas, y en este caso la dispersin o es grande . Cuando es chico, la probablidad esta ms concentrada cerca a de . En la Figura 6.1 se muestran densidades normales con diferentes valores de ilustrando el signicado de este parmetro. a Ejercicio. Se deja como ejercicio mostrar que si Y tiene distribucin o 2 ), entonces Z = (Y )/ tiene distribucin N(0, 1). Esta transforN(, o macin se llama estandarizacin de la variable Y y permite calcular las probo o abilidades de cualquier distribucion N(, 2 ) usando la distribucin N(0, 1). o Por ejemplo, sea Y con distribucin N(3, 4) y supongamos que queremos o encontrar P (3 < Y < 5). Luego Z = (Y 3)/2 es N(0, 1) y tendremos P (3 < Y < 5) = P = P (0 < Z < 1) = (1) (0) donde es la funcin de distribucin de una N(0, 1). Usando una tabla de o o 33 Y 3 53 < < 2 2 2
6.2. Transformaciones inyectivas de vectores aleatorios.
109
la N(0, 1) encontramos que (0) = 0,50 y (1) = 0,8413 Luego P (3 < Y < 5) = 0,8413 0,50 = 0,3413.
6.2.
Transformaciones inyectivas de vectores aleatorios.
Entonces si y V y Jg g1 (y) = 0, resulta que g1 es diferenciable en y y se tiene 1 Jg1 (y) = . 1 (y)) Jg (g El siguiente teorema permite realizar un cambio de variables para integrales mltiples. u
Recordemos algunos resultados de clculo integral en varias variables. a Sea U Rk un abierto y g : U Rk una funcin inyectiva de manera que o g : U V = g (U ) resulta biyectiva. Podemos representar g = (g1 , . . . , gk ), donde gi : U R. Luego existe g1 : V U. Supongamos que g es diferenciable en cada punto x U. El jacobiano de g se dene por g1 (x) g1 (x) g1 (x) x1 x2 xk g2 (x) g2 (x) g2 (x) x2 xk = 0. Jg (x) = det x1 . . . .. . . . . . . . gk (x) gk (x) gk (x) x1 x2 xk
Teorema 6.4 Sea A U Rk un conjunto tal que el borde tiene medida de Riemann 0, f : U R una funcin continua, g : Rk Rk una funcin o o inyectiva y diferenciable tal que Jg (x) = 0 para todo x A . Entonces f (x) dx =
A
g(A)
f g1 (y) |Jg1 (y) |dy.
donde dx = dx1 dx2 . . . dxk y dy = dy1 dy2 . . . dyk . Sea ahora X = (X1 , X2 , . . . , Xk ) un vector aleatorio con distribucin o absolutamente continua y sea fX su densidad. El siguiente teorema permitir encontrar la distribucin del vector Y = g (X) . a o Teorema 6.5 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio absolutamente continuo con densidad fX tal que PX (U ) = 1, donde U es un abierto en Rk . Sea g : U Rk una funcin inyectiva diferenciable tal que para todo x U o
110
V ctor J. Yohai
se tiene Jg (x) = 0. Luego el vector Y = g (X) tambin es absolutamente e continuo y su densidad est dada por a fY (y) = fX g1 (y) |Jg1 (y) |IV (y) , donde V = g(U ), e IV es la funcin indicadora del conjunto V. o Demostracin. Para esto bastar demostrar que para todo B B k o a PY (B) =
B
fX g1 (y) Jg1 (y) IV (y) dy.
(6.6)
Por denicin de funcin de densidad de X se tiene que o o PY (B) = P (Y B V )
= P (g (X) B V ) =
)
= P X g1 (B V ) fX (x) dx.
g 1 (BV
Usando la frmula de cambio de variables en integrales mltiples resulta o u PY (B) = fX (x) dx fX g1 (y) Jg1 (y) dy.
g 1 (BV )
g(g 1 (BV ))
Sea g : U W y H W . Es fcil ver que una condicin necesaria y a o suciente para que g g1 (H) = H es que H g (U ). Como B V V = g(U ) resulta g(g1 (B V )) = B V y por lo tanto PY (B) =
BV
fX g1 (y) Jg1 (y) dy fX g1 (y) Jg1 (y) dy fX g1 (y) Jg1 (y) IV (y)dy.
g(g 1 (BV ))
= =
Esto muestra que vale (6.6). 2 El resultado anterior vale cuando g es diferenciable y biun voca de un abierto de Rk en Rk . Veamos ahora que ocurre cuando g es una funcin o
6.2. Transformaciones inyectivas de vectores aleatorios.
111
diferenciable de un abierto de Rk en Rj con j = k. Si j > k nada podemos hacer puesto que en tal caso el conjunto g(U ) es un conjunto de dimensin o k y por lo tanto tiene volumen 0. Luego como PY (g(U )) = 1, Y no puede ser un vector absolutamente continuo. Consideremos ahora j < k y sea U un abierto en Rk . Supongamos que g = (g1 , . . . , gj ) : Rk Rj , donde cada gi : U R, 1 i j, es una funcin o diferenciable. Trataremos de derivar la densidad fY de Y = g(X). Esto es posible si se pueden encontrar funciones diferenciables gi : Rk R, i = j + 1, . . . , h tales que si llamamos g = (g1 , . . . , gj , gj+1 , . . . ., gk ) la funcin o g : Rk Rk resulte inyectiva y Jg (y) =0 para todo y U. En, efecto en este caso por el teorema anterior podremos encontrar la densidad de Y = g(X) que denominaremos fY . Luego la densidad de Y ser a fY (y1 , . . . yj ) =
Veamos un ejemplo del uso de este procedimiento. Sea X = (X1 , X2 ) y consideremos Y = X1 +X2 . Si denimos g : R2 R por g (x1 , x2 ) = x1 +x2 , vemos que Y = g (X) . En este caso 1 = j < k = 2. Ahora consideremos g : R2 R2 , denida por g (x1 , x2 ) = (x1 + x2 , x2 ) e Y = (Y1 , Y2 ) con Y1 = g (X) e Y2 = X2 . Luego estamos en las condiciones del teorema puesto que g : R2 R2 es biyectiva, diferenciable y su Jacobiano es Jg (x1 , x2 ) = det 1 1 0 1 = 1.
Luego tenemos g1 (y1 , y2 ) = (y1 y2 , y2 ). En este caso U = V = R2 , y entonces acuerdo al Teorema 6.5, se tendr a fY (y) = fX g1 (y) |Jg1 (y) | = fX (y1 y2 , y2 )
fY (y) =
En el caso que X1 y X2 son independientes con densidades fX1 y fX2 , se tendr a fX (x1 , x2 ) = fX1 (x1 )fX2 (x2 ), y entonces fY est dado por a
fY (y) =
La funcin fy dada por (6.7) se denomina convolucin de fX1 (x1 ) y o o fX2 (x2 ).
...
fY (y1 , . . . , yj , yj+1 . . . , yk )dyj+1 . . . dyk .
fX (y y2 , y2 ) dy2 .
fX1 (y y2 )fX2 (y2 ) dy2 .
(6.7)
112
V ctor J. Yohai
6.3.
Algunas aplicaciones a la distribucin normal. o
Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio tal que sus componentes son variables aleatorias independientes con idntica distribucin N(0, 1). Sea e o kk una matriz ortogonal, es decir tal que A1 = A donde A denota AR la traspuesta de la matriz A. Denimos la funcin g : Rk Rk dada por o g (x) = xA y consideramos el vector aleatorio Y = XA. El siguiente teorema muestra que la distribucin de Y es la misma que la del vector X. o Teorema 6.6 La distribucin de vector Y es la misma que la del vector X. o Demostracin. La funcin de densidad del vector X es o o fX (x) = 1 (2)k 1 (2) = 1 (2)
k k k i=1
1 exp x2 2 i
k
exp
x2 i
i=1
1 exp ||x||2 . 2
Sea g : Rk Rk denida por g (x) = xA, luego g1 (y) = yA1 = yA . Calculando el Jacobiano de g vemos que Jg (x) = det A = 1, de manera que por el Teorema 6.5 y el hecho de que por ser A ortogonal ||g1 (y) || = ||yA || = ||y||, la densidad de Y est dada por a fY (y) = fX g1 (y) |Jg1 (y) |I = fX g1 (y)
1 = exp ||g1 (y)||2 2 1 1 = exp ||y||2 . 2 (2)k Esto prueba el teorema. 2
El siguiente teorema prueba que combinaciones lineales de variables aleatorias normales independientes son normales. Teorema 6.7 (i) Sean X1 , X2 , . . . , Xk variables aleatorias independientes con distribucin N(0, 1). Sean b1 , . . . , bk nmeros reales, tales que o u k 2 = 1, es decir el vector b = (b , . . . , b ) Rk tiene norma 1 k i=1 bi unitaria. Luego la variable Z = b1 X1 + + bk Xk tambin distribucin e o N(0, 1).
(y)
6.3. Algunas aplicaciones a la distribucin normal. o
113
(ii) Sean Y1 , Y2 , . . . , Yk variables aleatorias independientes tales que Yi tiene 2 distribucin N(i , i ), luego dados nmeros reales 1 . . . , k y , la o u k distribucin de Z = i=1 i Yi + es o
k k
N
i=1
i i + ,
i=1
2 2 i i
Demostracin. o (i) Sea a1 = (b1 , b2 , . . . , bk ) , donde indica traspuesto . Entonces ||a1 || = 1. Podemos extender {a1 } a una base ortonormal de Rk . Es decir existen vectores columnas a2 , a3 , . . . , ak ortogonales y de norma 1 tales que {a1 , a2 , . . . , ak } es una base de Rk . Luego la matriz B cuyas columnas son los vectores aj , j = 1, 2, . . . , k es una matriz ortogonal. Denamos el vector aleatorio Y = XB, y sea Yi la componente isima de Y. e Por lo visto anteriormente las variables aleatorias Yi , (i = 1, 2, . . . , k) tambin son independientes con distribucin N (0, 1) . En particular e o k Y1 = i=1 bi Xi = Z tiene distribucin N (0, 1) . Luego (i) queda probao do. (ii) Podemos escribir
k
Z=
i=1
Yi i i + + i
i i =
i=1 i=1
i i Xi + ,
donde Xi = (Yi i )/i y =+ i i . (6.8)
Sabemos que para i = 1, 2, . . . , k las variables Xi son independientes con distribucin N (0, 1) . Luego podemos escribir a Z de la siguiente o manera k i i Xi + , Z=A A
i=1
donde A est dada por a

k
1 2
A=
i=1
2 2 i i
(6.9)
Sea bi =
i i , luego A
k k
b2 = i
i=1 i=1
i i A
1 A2
(i i )2 = 1.
i=1
114
V ctor J. Yohai
Denamos W = k bi Xi . Luego de acuerdo a la parte (i) de este i=1 teorema se tendr que a
k
W =
i=1
bi Xi
tiene distribucin N (0, 1). Por lo tanto como o

k
Z=A
i=1
i i Xi + = AW + A
en virtud de la denicin de distribucin normal se tendra que Z tiene o o distribucin N , A2 . Luego el teorema se deduce de (6.8) y (6.9). 2 o
6.4.
Transformaciones no inyectivas
Vamos a tratar el caso donde g no es inyectiva. En ese caso tenemos el siguiente teorema. Teorema 6.8 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio absolutamente continuo con densidad fX . Sean U1 , U2 , . . . , Uh abiertos disjuntos en Rk tales que PX ( h Ui ) = 1 . Sea g : h Ui Rk una funcin tal que es inyectiva o i=1 i=1 y diferenciable en Ui con Jg (x) = 0 para todo x Ui . Luego el vector Y = g (X) tambin es absolutamente continuo y su densidad est dada por e a
h
fY (y) =
i=1
1 fX gi (y) |Jg1 (y) |IVi (y) ,

i
1 donde Vi = g (Ui ) , gi = g|Ui , gi : Vi Ui es la inversa de gi .
Demostracin. Bastar probar probar que para todo B B k se tiene o a

h
PY (B) =
i=1
1 fX gi (y) |Jg1 (y) |IVi (y) dy.

i
(6.10)
Usando que los Ui son disjuntos, que

k
P y que
Ui
i=1
=1
1 {Y B} {X Ui } = {Y B Vi } {X Ui } = {X gi (B Vi )}
6.4. Transformaciones no inyectivas
115
obtenenemos PY (B) = P (Y B)
h
=P
h
i=1
{Y B} {X Ui }
=
i=1 h
P ({Y B} {X Ui })
1 P X gi (B Vi ) 1 PX gi (B Vi )
=
i=1 h
=
i=1 h
i=1 1 gi (BVi )
fX (x) dx
Como las funciones gi son biun vocas en cada Ui , usando la frmula de o cambio de variables en integrales mltiples se tiene u
h
PY (B) =
i=1 h

BVi
1 gi (BVi )
fX (x) dx
=
i=1 h
1 fX gi (y) |Jg1 (y) | dy

i
=
i=1
B h
1 fX gi (y) | Jg1 (y) |IVi (y) dy

i
i=1
1 fX gi (y) | Jg1 (y) | IVi (y) dy,

i
y por lo tanto se cumple (6.10). 2
6.4.1.
Distribucin Chi-cuadrado con un grado de libertad. o
Sea X N (0, 1) y consideremos g : R R g (x) = x2 . Denimos Y = g (X) = X 2 . Sean U1 = {x : x < 0} y U2 = {x : x > 0}. Luego 1 1 g1 (y) = y y g2 (y) = y. En este caso V1 = V2 = R>0 y 1 1 Jg1 (y) = y 2 , 1 2 1 1 Jg1 (y) = y 2 . 2 2
116 Luego teniendo en cuenta que 1 x2 fX (x) = exp 2 2 ,
V ctor J. Yohai
y que V1 = V2 = R>0 , por el teorema anterior se tiene 1 1 y 1 1 y 1 1 y 2 IV1 (y) + exp y 2 IV2 (y) fY (y) = exp 2 2 2 2 2 2 1 y 1 = exp y 2 I{y: y>0} (y) . 2 2 A la distribucin de la variable Y la denominaremos distribucin Chi-cuadrado o o con un grado de libertad, y lo notaremos por 2 . 1
6.5.
6.5.1.
Algunas distribuciones complementarias.

Distribucin Gamma. o
En primer lugar introducimos la funcin Gamma (que denotaremos con o ), que resulta ser una extensin a los reales positivos de la funcin factorial o o denida sobre los nmeros naturales. La funcin : R>0 R0 se dene u o por
+
() =
0
exp (x) x1 dx.
Para probar la existencia de este integral la descomponemos como

1
() =
0
exp (x) x1 dx +
1
exp (x) x1 dx
= I1 + I 2 . Es fcil ver que I1 es nita, teniendo en cuenta que exp (x) 1 sobre a (0, 1) 1 1 x 1 1 1 1 I1 = exp (x) x dx x dx = = . 0 0 0 Estudiaremos ahora la convergencia de I2 . Observemos que el desarrollo de Taylor de exp(x/2) est dado por a x = exp 2
k=0
1 x k! 2
Luego como todos los trminos son positivos, tenemos e exp x 1 x 2 k! 2

k
6.5. Algunas distribuciones complementarias.
117
para todo k N. Entonces xk Ck exp

+
x , 2
donde Ck = k!2k . Tomamos ahora k0 > 1, luego se obtiene I2 =

1 +
exp (x) x1 dx exp (x) xk0 dx exp (x) Ck0 exp

+
1 + 1
x dx 2
Ck 0
exp
1
x 2
dx < .
Propiedad 6.1 Si > 0 entonces ( + 1) = (). Demostracin. Para probarlo integraremos por partes tomando u = x ; dv = o exp (x) dx. Luego se tiene v = exp (x) y du = x1 , de donde resulta
+
( + 1) =
0 +
exp (x) x dx udv
=
0
= xa exp (x) | 0 = x exp (x) | + 0
+ 0 + 0
( exp (x)) x1 dx exp (x) x1 dx.
Como l x x exp(x) = 0, resulta que ( + 1) = () . 2 m
Propiedad 6.2 es una extensin del factorial. Ms precisamente para o a todo n N se tiene (n) = (n 1)! Demostracin. La prueba se hace por induccin. Si n = 1 entonces (1) = o o 1 = 0!. Supongamos ahora que la propiedad que vale para n y veamos que entonces vale para n + 1. Usando la Propiedad 6.1 y la hiptesis inductiva o tenemos (n + 1) = n(n) = n((n 1)!) = n!, con lo cual la propiedad queda demostrada. 2
118
V ctor J. Yohai
Denicin 6.1 Dado > 0, se dene la distribucin Gamma con parmeo o a tros y 1 (ser denotada por (, 1)) como la distribucin absolutamente a o continua cuya funcin densidad es o f (x) = 1 exp (x) x1 I[0,) (x) . ()
De acuerdo con la denicin de la funcin Gamma es claro que f es una o o densidad ya que
+
f (x) dx = 1.
Denicin 6.2 Dado > 0 y > 0 deniremos la distribucin Gamo o ma con parmetros y (que denotaremos por (, )), a la distribucin a o de Y = X/ donde X tiene distribucin (, 1) . Como g (x) = x/, De o acuerdo a (6.5) y teniendo en cuenta que > 0 tendremos fY (y) = fX (y) = exp (y) (y)1 I[0,) (y) = = () = exp (y) y 1 I[0,)(y). () Obsrvese que como (1) = 0! = 1, la distribucin (1, ) tiene como e o densidad f (y) = exp (y) I[0,)(y) que es la distribucin exponencial con parmetro . En la Figura 6.2 mueso a tran varias densidades gamma Recordemos que si X N (0, 1) entonces Y = X 2 tiene, de acuerdo a lo probado en la subseccin anterior, una distribucin chi-cuadrado con un o o grado de libertad. Ms precisamente probamos que a
1 1 y I (y). fY (y) = y 2 exp 2 [0,) 2
(6.11)
Ahora bien si consideramos Z (1/2, 1/2) entonces su densidad es

1 2
1 2
fZ (z) =
1 2
exp
1 2
1 2
z 1 y 2 I[0,) (z) 2 1 z exp y 2 I[0,)(z). 2
(6.12)
Las densidades (6.11) y (6.12) dieren slo en una constante, luego deben o ser iguales Esto se muestra integrando las densidades sobre R, ya que ambas
119
0.0
0
0.2
0.4
0.6
0.8
neal de puntos y rayas), de la (5, 1)(en Figura 6.2: Densidad de la 2, 1 (en l 2 l nea llena) y de la (3, 3) (en l nea de puntos).
integrales deben ser iguales a 1. Por lo tanto la distribucin 2 con un o 1 grado de libertad coincide con la distribucin 2 , 1 . Adems igualando o a 2 las constantes de ambas densidades se tiene la identidad 1 1 = 2 2 o equivalentemente 1 = . 2 Necesitaremos el siguiente teorema Teorema 6.9 Sea W = (W1 , W2 ) un vector aleatorio y supongamos que fW (w) = g1 (w1 ) g2 (w2 ) , donde g1 es una funcin de densidad. Entonces o o (i) fW2 = g2 , y por lo tanto g2 es una funcin de densidad. (ii) fW1 = g1 . (iii) Las variables W1 y W2 son independientes. Demostracin. Como o
+ 1 2
g1 (w1 ) dw1 = 1,
120 se tiene que

+
V ctor J. Yohai
fW2 (w2 ) =
g1 (w1 ) g2 (w2 ) dw1 =

+
= g2 (w2 )
g1 (w1 ) dw1 = g2 (w2 ) .
Esto prueba (i). Para ver (ii) se usa el mismo argumento. Como (i) y (ii) implican que fW (w1 , w2 ) = fW1 (w1 )fW2 (w2 ), resulta que por el Teorema 5.10 W1 y W2 son independientes. 2 Teorema 6.10 Sean Y1 , Y2 variables aleatorias independientes con distribuciones (1 , ) y (2 , ) respectivamente. Denamos W1 = Y1 + Y2 , W2 = Y1 /(Y1 + Y2 ). Entonces se tiene (i) La distribucin de W1 es W (1 + 2 , ) . o (ii) W2 tiene densidad (1 + 2 ) 1 1 w (1 w2 )2 1 I[0,1] (w2 ). (1 ) (2 ) 2 (iii) W1 y W2 son independientes. Demostracin. La demostracin se basa en el Teorema 6.5. Sea el abierto o o 2 denido por U = {(y , y ) : y > 0, y > 0}. Luego P (U ) = 1 con U R 1 2 1 2 Y Y = (Y1 , Y2 ) . Consideremos la transformacin g : U R2 denida por o g (y1 , y2 ) = y1 + y2 , y1 y2 + y1 .
Es fcil ver que V = g(U ) = (0, ) (0, 1) y a g1 (w1 , w2 ) = (w1 w2 , w1 w1 w2 ) Luego Jg1 (w1 , w2 ) = det w2 1 w2 w1 w1 = (w1 w2 , w1 (1 w2 )) .
= w1 w2 w1 (1 w2 ) = w1 , y por lo tanto |Jg1 (w1 , w2 ) | = w1 .
121
Consideramos ahora la densidad del vector Y = (Y1 , Y2 ) . Como se supuso independencia entre Y1 e Y2 , esta densidad es el producto de las densidades marginales y luego fY (y1 , y2 ) = 1 +2 exp ( (y1 + y2 )) y1 1 1 y2 2 1 I(0,) (y1 )I(0,) (y2 ). (1 ) (2 )
Luego de acuerdo al Teorema 6.5 y por el hecho de que IV (w1 , w2 ) = I(0,)(0,1) (w1 , w2 ) = I(0,) (w1 )I(0,1) (w2 ) se tiene fW (w1 , w2 ) = 1 +2 exp (w1 ) (w1 w2 )1 1 (w1 (1 w2 ))2 1 w1 IV (w1 , w2 ) (1 ) (2 ) 1 +2 = w1 +2 1 exp (w1 ) I(0,) (w1 ) (1 + 2 ) 1 (1 + 2 ) 1 1 w (1 w2 )2 1 I(0,1) (w2 ) (1 ) (2 ) 2 = g1 (w1 )g2 (w2 ) 1 +2 w1 +2 1 exp (w1 ) I(0,) (w1 ) (1 + 2 ) 1 (1 + 2 ) 1 1 (1 w2 )2 1 I(0,1) (w2 ). w (1 ) (2 ) 2
donde g1 (w1 ) = y
g2 (w2 ) =
El primer factor g1 corresponde a una densidad (1 + 2 , ) . Por el Teorema 6.9 resulta que W1 tiene distribucin (1 + 2 , ) y W2 tiene como o funcin de densidad a o g2 (w2 ) = (1 + 2 ) 1 1 (1 w2 )2 1 I(0,1) (w2 ). w (1 ) (2 ) 2
Este teorema tambin implica que W1 y W2 son independientes. 2 e
6.5.2.
Distribucin beta. o
Denicin 6.3 Se dene la distribucin beta con parmetros 1 y 2 , que o o a denotaremos por (1 , 2 ) , como la distribucin absolutamente continua o cuya funcin de densidad es: o f (w) = (1 + 2 ) 1 1 w (1 w)2 1 I(0,1) (w). (1 ) (2 )
122
V ctor J. Yohai
0
0.0
0.2
0.4
0.6
0.8
1.0
Figura 6.3: Densidad de la (10, 3) (en l neal de puntos y rayas), de la (2, 2)(en l nea llena) y de la (3, 6) (en l nea de puntos). Observacin. Esta funcin es una densidad por el Teorema 6.10. Por lo o o tanto podemos deducir que
1 0
(1 + 2 ) 1 1 w (1 w)2 1 dw = 1, (1 ) (2 )
y entonces se tiene
1 0
w1 1 (1 w)2 1 dw =
(1 ) (2 ) . (1 + 2 )
En la Figura 6.3 se muestran varias densidades Beta, para distintos valores de los parmetros 1 y 2 . a Teorema 6.11 Sean Y1 , Y2 , . . . , Yn variables aleatorias independientes tales que Yi tiene distribucin (i , ) . Entonces n Yi tiene distribucin o o i=1 n ( i=1 i , ) . Demostracin. Se deduce de de la proposicin anterior usando induccin. 2 o o o A continuacin denimos las distribuciones chi-cuadrado con n grados o de libertad y la t de Student. Ambas distribuciones son de gran importancia en Estad stica. Volveremos ms adelante sobre ellas. a
123
0.0
-3
0.1
0.2
0.3
0.4
-2
-1
Figura 6.4: Densidad de la t1 (en l neal llena), de la t5 (en l nea de puntos) y de la t25 (en l nea de puntos y rayas).
6.5.3.
Distribucin Chi-cuadrado. o
Supongamos que se tienen n variables independientes Xi , i = 1, 2, . . . , n con distribucin N (0, 1) . Sabemos que cada Yi = Xi2 tiene distribucin 2 o o con 1 grado de libertad, la cual que coincide con la distribucin (1/2, 1/2) . o Se dene la distribucin chi-cuadrado con n grados de libertad, que o simbolizaremos por 2 , como la distribucin de la variable aleatoria Y = o n n Xi2 . i=1 o 1 De acuerdo al Teorema 6.11, como cada Xi2 tiene distribucin 2 y estas variables son independientes, se obtiene que Y tiene distribucin (n/2, 1/2) . o Por lo tanto la distribucin 2 coincide con la distribucin (n/2, 1/2) . o n o
6.5.4.
Distribucin t de Student o
Supongamos que U tiene distribucin N (0, 1) y V distribucin 2 con o o n U y V independientes. Luego se dene la distribucin de t de Student con o n grados de libertad, que simbolizaremos con tn , como la distribucin de o T = U V /n .
En la Figura 6.4 se muestran varias densidades de Student para diferentes grados de libertad
124
V ctor J. Yohai
Se deja como ejercicio de la prctica mostrar que la densidad de T es a n+1 2 fT (t) = n n 2 t2 1+ n

n+1 2
El grco de esta densidad es simtrico respecto al origen (funcin par) a e o y con forma de campana. Se puede probar que cuando n tiende a , fT converge a la densidad de la normal.
Cap tulo 7
Esperanza Matemtica. a
7.1.
7.1.1.
Integral de Riemann-Stieltjes.
Denicin de la integral. o
Sea f : [a, b] R y consideremos una particin del intervalo [a, b] que o llamaremos = {x0 , x1 , . . . , xn } tal que a = x0 < x1 < < xn = b. Sea = {i }1in una coleccin de puntos tal que i (xi1 , xi ] para o i = 1, 2, . . . , n, que se denominar seleccin en . a o Denimos la suma de Riemann
n b Sa (, ,f ) = i=1
f (i ) (xi xi1 ) .
Se llama norma de la particin o |||| = mx {xi xi1 }. a

1in
Denicin 7.1 Se dice que f es integrable Riemann sobre [a, b] con valor o b b I = a f = a f (x) dx sii para todo > 0 existe > 0 tal que si |||| < entonces b |Sa (, ,f ) I| < . Anlogamente se dene la integral de Riemann-Stieltjes. Dadas g, F funa ciones denidas sobre [a, b] se dene la suma de Riemann-Stieltjes asociada a la particin = {xi }0in y la seleccin = {i }1in de por o o
n b Sa (, ,g, F ) = i=1
f (i ) (F (xi ) F (xi1 )) .
125
126
V ctor J. Yohai
Denicin 7.2 Se dice que existe la integral de Riemann-Stieltjes sobre [a, b] o b b con valor I = a gdF = a g (x) dF (x) sii para todo > 0 existe > 0 tal que si es una particin de [a, b] con |||| < y es cualquier seleccin en o o entonces b |Sa (, ,g, F ) I| < . Observaciones. 1. Si F (x) = x, entonces la integral de Riemann-Stieltjes es la integral de Riemann. 2. Una condicin suciente, aunque no necesaria, para que exista la inteo gral de Riemann-Stieltjes, es que g sea continua en [a, b] y F montona o en [a, b]. Si tomamos como F una funcin de distribucin el ultimo reo o quisito se cumplir. a 3. Otra condicin suciente (tampoco necesaria) para que exista la inteo gral de Riemann-Stieltjes es que (i) g sea continua en (a, b], (ii) existe l xa g (x), (iii) F sea montona en [a, b] y (iv) F es continua en a. m o En tal caso, vale que
b b
gdF = l m
a ca c
gdF.
A continuacin damos algunas propiedades de la integral de Riemann o Stieltjes. Propiedad 7.1 (Linealidad de la Integral de R-S respecto de g) Si b b b a g1 dF y a g2 dF existen y 1 , 2 R entonces a (1 g1 + 2 g2 ) dF existe y adems a
b b b
(1 g1 + 2 g2 ) dF = 1
a a
g1 dF + 2
a
g2 dF.
Propiedad 7.2 (Linealidad de la Integral R-S respecto de F ) Si b b b a gdF1 y a gdF2 existen y 1 , 2 R entonces a gd (1 F1 + 2 F2 ) existe y adems a
b b b
gd (1 F1 + 2 F2 ) = 1
a a
gdF1 + 2
a
gdF2 .
7.1. Integral de Riemann-Stieltjes.
127
Propiedad 7.3 (Aditividad respecto del dominio de integracin) Sean o b c c a < b < c y supongamos que a gdF, b gdF y a gdF existen. Entonces
c b c
gdF =
a a
gdF +
b
gdF.
Propiedad 7.4 Si F es no decreciente y g1 g2 sobre [a, b] entonces

b a b
g1 dF
g2 dF.
a
En particular teniendo en cuenta que |g| g |g| se obtiene la siguiente Propiedad 7.5 Si las dos integrales existen, entonces
b a b
gdF
|g| dF
Estamos interesados en extender el dominio de integracin a toda la recta o o a semirectas. Esto lleva a la siguiente denicin. o Denicin 7.3 Supongamos que a gdF existe para todo a, b R. Decimos o + u que la integral impropia gdF existe y es igual al nmero real I sii
b a; b+ a b
l m
gdF = I. y
b gdF.
(7.1) Tendremos el siguiente
De manera anloga se dene a teorema.
+ gdF a
Teorema 7.1 Sea g 0 y F no decreciente. Entonces pueden ocurrir dos cosas (i)
a,b
M = sup
En este caso el lmite (7.1) existe y es nito.
b a
gdF <
128 (ii)
V ctor J. Yohai
M = sup
a,b
En este caso el lmite (7.1) existe y es . Luego podemos denir + gdF = . Sea ahora g de signo arbitrario y F no decreciente. El siguiente teorema es vlido. a Teorema 7.2 Una condicin necesaria y suciente para que o ista es que
b + gdF
M = sup
a,b
7.2.
7.2.1.
Denicin de Esperanza Matemtica. o a

Algunas consideraciones heur sticas.
Sea X una variable aleatoria discreta. Para jar ideas supongamos que toma un nmero nito de valores, x1 , x2 , ..., xk , con probabilidades pX (x1 ), pX (x2 ), u . . . , pX (xk ). Supongamos que se repite un experimento asociado a la variable aleatoria X, n veces en forma independiente y que el resultado xi se obtiene ni veces, 1 i k. Entonces el promedio de todos los valores es xn = n1 x1 + n2 x2 + + nk xk n n1 n2 nk = x1 + x2 + + xk . n n n
nj n
Luego pasando al l mite y dado que la frecuencia observada xima a pX (xj ) obtenemos
n+
l m xn = l m
n1 n2 nk x1 + x2 + ... + xk n n n n1 n2 nk = x1 l m + x2 l m + ... + xk l m n+ n n+ n n+ n
n+ k
=
j=1
xj pX (xj ) .
Esto motiva la denicin de la esperanza matemtica de una variable diso a creta.

b a
gdF =
ex-
|g| dF < .
se apro-
7.2. Denicin de Esperanza Matemtica. o a
129
7.2.2.
Esperanza de una variable aleatoria discreta.
Denicin 7.4 Sea X una variable aleatoria con rango RX y distribucin o o de probabilidad pX . Supongamos que |x|pX (x) < .
xRX
En tal caso denimos la esperanza matemtica de la variable X de la siguiente a manera xpX (x) . E (X) =
xRX
Observaciones. 1. Se sabe que la convergencia absoluta de la serie garantiza la convergencia de la serie. 2. Supongamos
xRX
|x|pX (x) = . Denotemos con

RX = {x RX : x < 0}. + RX = {x RX : x > 0}
Entonces pueden ocurrir tres casos distintos. a) b) c)

xR+ X xR+ X xR+ X
xpX (x) = + y xpX (x) = + y xpX (x) < + y
xR X xR X xR X
xpX (x) = . xpX (x) > . xpX (x) = .
En el caso (a) no se puede denir la esperanza de X. En el caso (b) se puede denir E(X) = + en el (c) E(X) = . Es decir para que la esperanza est denida se requiere que xR+ xpX (x) o bien e X xpX (x) sea nita. xR
X
7.2.3.
Denicin general de esperanza matemtica. o a
Ahora queremos denir la esperanza matemtica, de manera ms gena a eral. Supongamos primero que X es una variable aleatoria concentrada en [a, b]. Es decir, supongamos que P (a < X < b) = 1. La idea que se utiliza para la denicin de la esperanza de esta variable es o la siguiente. Se dene una sucesin de variables aleatorias discretas Xn que o la aproximan y luego como E(Xn ) est denida para cada Xn la esperanza a de X se dene por un paso al l mite.
130
V ctor J. Yohai
Consideremos para cada n, una particin del intervalo [a, b] formada o por n intervalos de longitud (b a)/n. Para esto consideramos la particin o ba . n = {xn , xn , ..., xn } tal que a = xn < xn < ... < xn = b y xn xn = n n 0 1 0 1 i i1 n n (x Elegimos para cada i, 1 i n, i i1 , xi ] y denimos la variable aleatoria n Xn () = i si X() (xn , xn ]. i1 i
n Esta variable toma unicamente un nmero nito de valores: i , 1 i u n. Adems a n pXn (i ) = FX (xn ) FX xn . i1 i
Luego la esperanza de la variable Xn viene dada por

n
E (Xn ) =
i=1 n
n n i pXn (i )
=
i=1
n i FX (xn ) FX xn i i1
b = Sa ( n , n , id, F ) ,
con id (x) = x y se obtiene

b l m E (Xn ) = l m Sa ( n , n , id, FX ) = n+ b
n+
xdFX .
a
Por lo tanto denimos la esperanza matemtica de X por a

b
E (X) =
a
xdFX .
Siendo la funcin id (x) = x continua y F montona no decreciente, reo o b sulta que a xdF existe siempre y por lo tanto tambin E (X) existe siempre. e Supongamos ahora que X es una variable aleatoria no acotada. El proble+ ma que ahora surge es que podr no existir xdF. Sin embargo sabemos a + que M = |x| dF siempre est bien denida, eventualmente con el valor a +. Si M < + denimos la esperanza de la variable X similarmente al caso anterior por
E (X) =
xdF.
Si M = + hay tres casos y el anlisis es anlogo al que realizamos a a anteriormente para variables discretas. Los tres casos son: (a) (b)
0 xdF 0 xdF
= + y = + y
0 xdF 0 xdF
= . > .

0 xdF 0 xdF
131
(c)
< + y
= .
En el caso (a) la esperanza matemtica de X no est denida. En el caso a a (b) se dene E(X) = + y en el (c) E(X) = . Nuevamente la esperanza puede estar no denida y para su denicin se requiere que al menos una de o 0 de las dos integrales 0 xdF xdF converja. o Con esta denic general de esperanza matemtica, para el caso de una on a variable discreta se tienen dos deniciones diferentes. Probaremos ahora que la denicin general de esperanza es una extensin de la primera denicin o o o dada para el caso discreto, es decir que para variables aleatorias discretas ambas deniciones coinciden. Teorema 7.3 Sea FX la funcin de distribucin de una variable discreta y o o g : R R continua. Luego
b
g(x)dFX (x) =
a xRX [a,b]
g(x)pX (x) .
(7.2)
Observacin. Este resultado vale siempre, pero para facilitar la demostracin o o vamos a probarlo para el caso en que RX [a, b] es nito para todo a y b. Esto se cumple cuando las variables toman valores enteros como sucede, por ejemplo, con las distribuciones Poisson, binomial, etc. Demostracin. Por la hiptesis supuesta RX [a, b] es un conjunto nito, o o digamos RX [a, b] = {z1 , z2 , ..., zk }. Llamemos a = m {zi zi1 }. n
2ik
(7.3)
Consideremos una particin n = {xn }0in del intervalo [a, b], en n intero i valos iguales. Luego tenemos a = xn < xn < < xn = b y xn xn = n 0 1 i i1 (b a)/n . Teniendo en cuenta que || n || = (b a)/n es claro que
n+
l m || n || = 0.
Sea n0 tal que (b a)/n0 < . Tomemos n > n0 , luego n < , luego por (7.3) en cada intervalo de n hay a lo sumo un elemento de RX [a, b] .Va a ser fundamental para esta demostracin la eleccin de la seleccin n = o o o n {i }1in de n . Procedemos de la siguiente manera. (i) Si
n se elige como i el unico punto de esta interseccin. o
(RX [a, b]) (xn , xn ] = i1 i
132 (ii) Si
n i es cualquier punto de (xi1 , xi ].
V ctor J. Yohai
(RX [a, b]) (xn , xn ] = i1 i
Sea A = {i : (RX [a, b]) (xn , xn ] = } i1 i y por lo tanto Ac = {i : (RX [a, b]) xn , xn = } i1 i
b Entonces podemos realizar la siguiente descomposicin de Sa ( n , n , g, F ) o n b Sa ( n , n , g, F ) = i=1 n g(i ) FX (xn ) FX xn i1 i n g(i ) FX (xn ) FX xn i1 i n g(i ) FX (xn ) FX xn i i1
=
iA
+
iAc
c Observemos que FX (xn ) FX xn i i1 = 0 si i A ya que el intervalo (xi1 , xi ] no contiene elementos de RX . Luego n g(i ) FX (xn ) FX xn i i1
= 0,
iAc
y se obtiene
b Sa ( n , n , g, FX ) = iA n g(i ) FX (xn ) FX xn i1 i
(7.4)
n Adems, como para i A, el valor i es el unico punto de RX en el intervalo a n , xn ], resulta (xi1 i n pX (i ) = PX ((xn , xn ]) = FX (xn ) FX xn . i1 i1 i i
Luego de (7.4) obtenemos

b Sa ( n , n , g, FX ) = iA n Pero (i )iA coincide con {zj }1jk = RX [a, b], y entonces para todo n n0 k b Sa ( n , n , g, FX ) = j=1 n n g(i ) pX (i ).
g(zj )pX (zj ) =

xRX [a,b]
g(x)pX (x) .
(7.5)
133
Como el miembro derecho de (7.5) no depende de n, obtenemos

b a
xdF = l Sa ( n , n , g, FX ) = m b
n xRX [a,b]
xpX (x) .
Esto prueba (7.2) y por lo tanto el teorema queda demostrado. 2 Teorema 7.4 Supongamos que X es una variable aleatoria discreta y que E (X) existe y es nita. Entonces
+
xpX (x) =
xRX
xdFX
Demostracin. Teniendo en cuenta que o xpX (x) =

xRX a; b+
l m
xpX (x) ,
xRX [a,b]
y que
+ b
xdFX =
a; b+ a
l m
xdFX ,
bastar probar que para todo a < b a

b
xpX (x) =
xRX [a,b] a
xdFX .
Pero esto resulta del teorema 7.3 poniendo g(x) = x. 2
7.2.4.
Esperanza matemtica para una variable absolutamente a continua.
El siguiente Teorema prueba que en el caso de que X sea una variable aleatoria absolutamente continua la E(X) se puede calcular a travs de una e integral de Riemann. Teorema 7.5 Supongamos que E (X) =
|x|fX
(x) dx < . Luego
xfX (x) dx.
Demostracin. El teorema vale en general. Sin embargo, para facilitar la o demostracin, lo probaremos slo para el caso en que fX es continua. o o
134 Bastar ver que para todo intervalo [a, b] , a < b vale que a
b b
V ctor J. Yohai
xfX (x) dx =
a a
xdFX ,
(7.6)
ya que en tal caso el resultado se obtiene pasando al l mite. Consideremos para cada n una particin de puntos equidistantes del o intervalo [a, b] n = {xn , xn , ..., xn } 0 1 n tales que a = xn < xn < ... < xn = b satisfaciendo xn xn = n 0 1 i i1
ba . n Sabemos que FX (x) = fX (x) . Por el Teorema del Valor Medio, para n todo i, 1 i n, existe i (xn , xn ] tal que i i1
n n n FX (xn ) FX xn i i1 = fX (i ) xi xi1 .
(7.7)
n Elegiremos la seleccin = (i )1in para formar las sumas de Riemanno Stieltjes. Luego n b Sa ( n , n , id, FX ) b Sa ( n , n , x, FX ) n i FX (xn ) FX xn i1 i
=
i=1
, (7.8)
y se tendr que a
n
l Sa ( n , n , x, FX ) = m b
xdFX .
a
(7.9)
b Usando (7.7) y (7.8) obtenemos que Sa ( n , n , x, FX ) es tambin una suma e de Riemann correspondiente a la funcin xfX (x) . En efecto o n b Sa ( n , n , x, FX ) n n i fX (i ) xn xn i i1
= =
i=1 b Sa ( n , n , xfX (x), x) .
Luego
n
l Sa ( n , n , x, FX ) = m b
xfX (x) dx.

a
(7.10)
De (7.9) y (7.10) se obtiene (7.6). 2
7.2.5.
Algunas propiedades de la esperanza matemtica a
Propiedad 7.6 Sea X una variable aleatoria tal que PX ({a}) = 1. Entonces E (X) = a.
135
Demostracin. Esto es inmediato teniendo en cuenta X es una variable diso creta con RX = {a} y pX (a) = 1. Luego E (X) =
xRX
xpX (x) = a.2
Propiedad 7.7 Sea (, A, P ) un espacio de probabilidad y A A. Entonces E(IA ) = P (A). Demostracin. Como o IA () = 1 si A 0 si A. /
En este caso RX = {0, 1}, pX (1) = P (A) , y pX (0) = 1 P (A) . Entonces E (IA ) = 0 (1 P (A)) + 1P (A) = P (A) .2
El siguiente teorema permite la integracin por partes de una integral o de Riemann-Stieltjes. Teorema 7.6 (Integracin por partes) Sean g y F funciones denidas o b sobre [a, b] tales que a gdF existe. Supongamos que g sea continua en a y b que F es acotada en [a, b] . Entonces a F dg existe y
b a
gdF = g (x) F (x) |b a
F dg.
a
Demostracin. Tenemos que mostrar que o

b a
F dg = g (x) F (x) |b a
gdF.
a
(7.11)
Para eso habr que probar que dado > 0 existe > 0 tal que para toda a = {xi }0in particin de (a, b] con |||| y toda = {i }0in seleccin o o de puntos en , se tendr que a
b Sa (, , F, g) g (x) F (x) |b + a b b
gdF < .
a
(7.12)
Como a gdF existe, dado 2 podemos encontrar un 1 tal que si |||| 1 para toda seleccin en tendremos que o b Sa (g, f, , ) b a
gdF . 2
(7.13)
136
V ctor J. Yohai
Como F es acotada en [a, b] existe un nmero real M > 0 tal que u |F (x)| M para todo x [a, b] . Por la continuidad de g en a, sabemos que existe 2 > 0 tal que si |x a| 2 entonces |g(x) g(a)| < . 4M
Pongamos = m 2 , 2 ). Sea = {xi }0in una particin de (a, b], tal n( 1 o que |||| y sea = {i }0in una seleccin en la particin. o o Vamos a mostrar que (7.12) vale. Sabemos que xn1 < n b. Supondremos que n < b. El caso n = b se demuestra anlogamente. Tenemos a que a = x0 < 1 x1 < < i1 xi1 < i xi < < xn1 < n < xn = b. Podemos construir una nueva particin = {x }0in+1 con o i x = a, 0 x = i , 1 i n, i xn+1 = b,
y denimos la seleccin = (i )1in+1 en por o 1 = 1 , i = xi1 , 2 i n + 1.
Como |x x | = |i i1 | |i xi1 | + |xi1 i1 | i i1 |xi1 xi | + |xi1 xi+1 | < + = 2 1 , para 2 i n
|x x | 0 1 |x x | n+1 n
= |1 a| = |1 x0 | |x1 x0 | < 1
= |b n | = |xn n | |xn xn1 | < 1
tenemos que || || 1 y entonces por (7.13) resulta

b Sa ( , , g, F ) b a
gdF < . 2
(7.14)
137
Por otro lado tenemos

n+1 b Sa ( , , g, F )= i=1 g(i ) F (x ) F (x ) i i1 n g(i )F (x ) + g(n+1 )F (x ) i n+1 i=2 n+1 g(1 )F (x ) 0 g(i )F (x ) i1 i=2 n
g(1 )F (x ) + 1
= g(1 )F (1 ) +
i=2
g(xi1 )F (i ) + g(b)F (b)
g(1 )F (a) = g(1 )F (1 ) g(1 )F (a) +

n
g(xi1 )F (i )
i=2
+ g(b)F (b)
g(xi )F (i )
i=1 n
= g(1 ) [F (1 ) F (a)]
n
i=1
[g(xi1 ) g(xi )] F (i )
+ g(b)F (b) g (x0 ) F (1 ) =

i=1
F (i ) [g(xi1 ) g(xi )] + g(b)F (b) g(a)F (a)
+ g(1 ) [F (1 ) F (a)] + g(a)F (a) g (a) F (1 ) + g(1 ) [F (1 ) F (a)] + g(a) [F (a) F (1 )]

b = Sa (F, g, , )+ g(x)F (x)|b + r, a b = Sa (, ,F, g)+ g(x)F (x)| b a
b = Sa (, ,F, g)+ g(x)F (x)| b + [g(1 ) g(a)] [F (1 ) F (a)] a
(7.15)
donde r = [g(1 ) g(a)] [F (1 ) F (a)] . Luego, como < y |x x | = 0 1 |a 1 | < 2 se tendr a |g(a) g(1 )| /4M. Adems |F (x)| M, y entonces obtenemos a |r| = |F (1 ) F (a)||g(1 ) g(a)| = . 2M 4M 2 Luego de (7.15) resulta.
b b Sa ( , , g, F ) g(x)F (x)|b + Sa (, ,F, g) a
. 2
(7.16)
138
V ctor J. Yohai
De (7.14) y (7.16) resulta (7.12) y el teorema queda demostrado.2 Propiedad 7.8 Dada una funcin F montona se tiene o o
b a
dF = F (b) F (a) .
Demostracin. Aplicando integracin por partes con g = 1 y dado que dg = 0, o o obtenemos

b a
dF = 1F (x) |b a
b a
F dg = FX (x) |b = F (b) F (a) .2 a
Teorema 7.7 Supongamos que
+ |x|dFX
< . Entonces vale
(i) l x+ x (1 FX (x)) = 0. m (ii) l x xFX (x) = 0. m Demostracin. o (i) A partir del hecho de que |x|dFX es nita se deduce que las colas tienden a cero, es decir
+ b+ b
l m
xdFX = 0,
a
(7.17)
y l m
xdFX = 0.
(7.18)
Usando la Propiedad 7.8 obtenemos

+ d
dFX = l m
b
d b
dFX = l FX (d) FX (b) = 1 FX (b), m

d
y entonces si b 0
+ b +
xdFX b
+
dFX = b (1 FX (b)) 0 .
Luego 0 = l m
b b
xdFX l b (1 FX (b)) 0. m
b
Luego se deduce (i). (ii) Se prueba de manera anloga y se deja como ejercicio. 2 a
139
Ahora estamos en condiciones de dar una expresin de la esperanza como o sumas de integrales de Riemann. Teorema 7.8 Supongamos que
+ |x|dFX
< . Entonces
0
E (X) =
0
(1 FX (x)) dx
FX (x) dx.
(7.19)
Demostracin. Sabemos que o

+ 0
E (X) =
0
xdFX +
xdFX .
Estudiaremos cada integral por separado. Integrando por partes tenemos que
b 0
xdFX = xFX (x)|b 0

b
FX (x) dx
0
= bFX (b)
FX (x) dx
0 b
= bFX (b) + b b
FX (x) dx
0 b
= b (1 FX (b)) + b
b
FX (x) dx
0 b
= b (1 FX (b)) + = b (1 FX (b)) +
0 b 0
dx
FX (x) dx
0
(1 FX (x)) dx.
Luego pasando al l mite y teniendo en cuenta el Teorema 7.7 se obtiene

+ +
xdFX =
0 0
(1 FX (x)) dx.
Anlogamente se prueba a
0 0
xdFX =
FX (x) dx.
De estas dos ultimas igualdades se obtiene el teorema. 2 Propiedad 7.9 Sean X e Y dos variables aleatorias tal que P (X Y ) = 1, y tal que sus esperanzas E (X) , E (Y ) existen. Entonces (i) FX (t) FY (t), t, y
140 (ii) E (X) E (Y ) . Demostracin. o
V ctor J. Yohai
(i) Consideremos el evento U = { : X () Y ()}. Claramente P (U ) = 1 y P (U c ) = 0. Podemos escribir {Y t} = ({Y t} U ) ({Y t} U c ) . y luego como P ({Y t} U c ) P (U c ) = 0, resulta P ({Y t}) = P ({Y t} U ) + P ({Y t} U c ) = P ({Y t} U ) . Si {Y t} U entonces X () Y () t de manera que {Y t} U {X t}. Tomando probabilidades y teniendo en cuenta (7.21) se obtiene que P ({Y t}) = P ({Y t} U ) P ({X t}) , o bien FY (t) FX (t) y por lo tanto (i) se cumple. (ii) Tambin se tiene e 1 FX (t) 1 FY (t) , y usando el Teorema 7.8 resulta
+ 0
(7.20)
(7.21) (7.22)
(7.23)
(7.24)
E (X) =
0 +
(1 FX (t)) dt (1 FY (r)) dt
FX (t) dt,
0
E (Y ) =
0
FY (t) dt.
Luego la Propiedad 7.9 se deduce de (7.23) y (7.24). 2 Supongamos que P (X = 0) = 1. Por la Propiedad 7.6 es claro que E (X) = 0. Ahora bien, del hecho de que E (X) = 0 no se deduce que P (X = 0) = 1. Qu condicin podemos agregar para que se cumpla? La propiedad 7.10 e o responde a esta pregunta. Propiedad 7.10 E (X) = 0 y P (X 0) = 1 implica que P (X = 0) = 1.
141
Demostracin. Supongamos que esta propiedad no fuera cierta, luego teno dr amos una variable aleatoria X tal que E (X) = 0, P (X 0) = 1 y P (X = 0) < 1. Luego teniendo en cuenta que P (X 0) = 1 obtenemos que P (X > 0) = P (X 0) P (X = 0) = 1 P (X > 0) = a > 0. 1 o Ahora consideremos los eventos An = X > n . La sucesin {An } es montona creciente ya que An An+1 y adems o a {X > 0} = de manera que
n n
l P (An ) = P ({X > 0}) = a > 0. m
Por lo tanto existe un nmero natural n0 tal que P (An0 ) > a/2 y entonces u
+
E (X) =
+
xdFX xdFX
0
1 n0
= =
0 +
xdFX + xdFX
+
1 n0
1 n0
1 n0
dFX
1 1 1 FX n0 n0 1 1 1 a = P X> = > 0. n0 n0 n0 2 lo cual es un absurdo ya que contradice la hiptesis. 2 o Observacin. La igualdad xdFX = o en cuenta que P (X 0) = 1. que E (X) =
xRX + + xdFX 0
Sea X una variable aleatoria discreta, RX su rango y pX su densidad. Sabemos xpX (x) .
El siguiente teorema permite hallar la esperanza de una variable aleatoria Y que es funcin medible de otra variable aleatoria X sin necesidad de de o hallar antes la funcin de probabilidad puntual de la variable Y. o
An ,
+
1 n0
xdFX
se justica teniendo
142
V ctor J. Yohai
Teorema 7.9 Consideremos X un vector aleatorio discreto de dimensin k o y sea g : Rk R una funcin medible . Denamos Y = g (X). Entonces o E (Y ) =
xRX
g (x) pX (x) .
Demostracin. Sea y g (RX ) = RY y denamos o
Ay = {x RX : g (x) = y} = g1 ({y}) .
Es fcil ver que la familia de subconjuntos {Ay }yRY es una particin de a o RX , es decir RX = yRY Ay y si y = y entonces Ay Ay = . Teniendo en cuenta que pY (y) = PX (Ay ) =
xAy
pX (x) ,
y que para todo x Ay se tiene g(x) = y, obtenemos E (Y ) =

yRY
ypY (y) y
yRY xAy
= =
pX (x) ypX (x)
yRY xAy
=
yRY xAy
g (x) pX (x) g (x) pX (x) ,

xRX
y por lo tanto queda demostrado el Teorema. 2 Ahora pasamos al caso absolutamente continuo. Sea X una variable aleatoria absolutamente continua y fX su funcin de densidad. Sabemos o que
+
E (X) =
xfX (x) dx.
El siguiente teorema es el anlogo al teorema anterior cuando X es un vector a absolutamente continuo. Teorema 7.10 Sea X un vector aleatorio absolutamente continuo de dimensin k, con densidad fX . Sea g : Rk R una funcin medible que toma o o un conjunto a lo sumo numerable de valores y denamos Y = g (X) . Luego
+ +
E (Y ) =
...
g (x) fX (x) dx1 ...dxk .
(7.25)
143
Demostracin. Como en el teorema anterior consideramos la particin o o Ay = {x RX : g (x) = y} = g1 ({y}) . En este caso Rk = yRY Ay y si y = y entonces Ay Ay = . Adems a 1 ({y}) = P (A ) . Entonces usando que para x A se pY (y) = PX (g X y y tiene g(x) = y, que adems a IAy (x) = 1
yRY
y que PX (Ay ) = obtenemos E (Y ) =

yRY
fX (x) dx1 . . . dxk

Ay
(7.26)
ypY (y) yPX (Ay )

yRY
= =
yRY
fX (x) dx1 . . . dxk

Ay
=
yRY
yfX (x) dx1 . . . dxk

Ay
=
yRY
=
yRY
= =
Observacin. En la demostracin usamos (7.26). Como se comenta en la o o observacin que sigue al Teorema 5.5, para demostrar esta propiedad para o todo boreliano se requiere teor de la medida y se debe usar la integral de a Lebesgue. Propiedad 7.11 Sea X una variable aleatoria con esperanza nita. Entonces E (X + c) = E (X) + c.

Ay
g (x) fX (x) dx1 . . . dxk
g (x) fX (x) IAy (x)dx1 . . . dxk
g (x) fX (x)
yRY
g (x) fX (x) dx1 . . . dxk . 2
IAy (x) dx1 . . . dxk =
144
V ctor J. Yohai
Demostracin. Sea Y = X + c. Supongamos primero que c > 0. Sabemos que o FY (x) = FX (x c) . Utilizando el Teorema 7.8 tenemos
0
E(Y ) =
(1 FY (y))dy
FY (y)dy
0
=
0
(1 FX (y c))dy
FX (y c)dy.
Haciendo el cambio de variable x = y c dentro de las integrales, resulta

c
E(Y ) =
c 0
(1 FX (x))dx (1 FX (x))dx +
0
FX (x)dx
0 0
=
c
(1 FX (x))dx
0
FX (x)dx +
c
FX (x)dx
= E(X) +
c 0
(1 FX (x))dx +
0
FX (x)dx
c 0
= E(X) +
c 0
dx dx
FX (x)dx +
c c
FX (x)dx
= E(X) +
c
= E(X) + x|0 c = E(X) + c. El caso de c < 0 se demuestra de la misma manera. 2 Recordemos el concepto de convergencia uniforme. Denicin 7.5 Sea (fn )n1 una sucesin de funciones denidas sobre A un o o conjunto cualquiera. Se dice que la sucesin de funciones (fn )n1 converge o uniformemente a la funcin f sobre A sii para cada > 0 existe n0 N tal o que si n n0 entonces para todo x A |fn (x) f (x) | < . Observacin. La diferencia con la convergencia puntual es que el n0 en este o caso sirve para todo x, es decir slo depende de . o
145
La convergencia uniforme implica la puntual pero no al revs. En partie cular nos interesa la convergencia uniforme de variables aleatorias. Hacemos notar que el l mite puntual de funciones medibles, y en consecuencia el l mite uniforme, tambin resulta ser una funcin medible. e o Teorema 7.11 Sea (Xn )n1 una sucesin de variables aleatorias denidas o en (, A, P ) que convergen uniformemente a una variable aleatoria X sobre . Supongamos que E (X) existe. Entonces
n+
l m E (Xn ) = E (X) .
Observacin. La existencia de E (X) implica la existencia de E (Xn ) o para todo n a partir de un valor n0 . Se deja como ejercicio. Demostracin. Sea ( A, P ) el espacio de probabilidades donde estn denidas o a las variables aleatorias Xn , n 1 y X. Teniendo en cuenta la convergencia uniforme dado > 0 existe n0 N tal que si n n0 entonces
sup |Xn () X()| < .
Esto signica que si n n0 entonces |Xn () X()| < , , o bien X() < Xn () < X() + , . Por las propiedades 7.9 y 7.11 se obtiene que si n n0 entonces E (X) E (Xn ) E (X) + . Por lo tanto l E(Xn ) = E(X). 2 m El siguiente teorema muestra que cualquier funcin medible puede aproxo imarse por otra que toma un conjunto a lo sumo numerable de valores. Teorema 7.12 (i) Sea g : Rk R una funcin tal que g(Rk ) es un cono junto nito o numerable. Luego una condicion necesaria y suciente para que g sea medible es que para todo y g(Rk ) = Rg , se tenga que g1 (y) pertenezca a B k . (ii) Dada una funcin g : Rk R medible, existe una sucesion gn : Rk o R de funciones medibles tales que Rgn es numerable, y |gn () g()| 1 n para todo . Luego gn converge a g uniformemente.
146
V ctor J. Yohai
(iii) Sea X un vector aleatorio de dimensin k y sea Y = g(X) donde o g : Rk R es una funcin medible. Entonces si gn : Rk R es o una sucesin de funciones medibles que converge uniformemente a g, o resulta que Yn = gn (X) converge uniformemente a Y. (iv) Dada una variable aleatoria X existe una sucesin de variables aleatoo rias discretas Xn , n 1 que converge uniformemente a X. Demostracin. o (i) Sea y Rg . Como {y} B, y Rg , para que g sea medible es necesario que g1 (y) B k .Supongamos ahora que esta condicin se o cumpla. Entonces g1 ((, x]) = g1 ((, x] Rg ) =
y(,x]Rg
g1 (y).
como (, x]Rg es numerable y g1 (y) B k , resulta g1 ((, x]) B k y por lo tanto g es medible. (ii) Dado n, todo y R pertence a un intervalo de la forma (i/n, (i+ 1)/n) para algn i entero Luego denimos gn por u (i + 1) si g(x) (i/n, (i + 1)/n]. n Luego |gn (x) g(x)| 1/n y Rgn es numerable. Por otro lado gn (x) =
1 gn
i+1 n
= g1
i i+1 , n n
pertenece a B k ya que g es medible. Por lo tanto por (i) gn es medible. (iii) Se deja como ejercicio. (iv) Por (ii) podemos encontrar una sucesin de funciones medibles gn : o R R tales que gn converja uniformemente a la funcin identidad o g(x) = x y tal que adems tomen un conjunto a lo sumo numerable a de valores. Luego las variables Xn = gn (X) son discretas y por (iii) Xn = gn (X) converge uniformemente a g(X) = X. 2 El siguiente teorema generaliza el Teorema 7.10 para una funcin g medio ble cualquiera. La estrategia de la demostracin es la siguiente y ser usada o a a menudo: se aproxima uniformemente a la funcin g por una sucesin de o o funciones gn que toman un nmero a lo sumo numerable de valores y que u satisfacen la propiedad pedida. Luego usando que el Teorema 7.12 vale para las funciones gn y pasando al l mite se demuestra que la propiedad vale para g.
147
Teorema 7.13 Sea X = (X1 , X2 , . . . , Xk ) un vector aleatorio absolutamente continuo con funcin de densidad fX y g : Rk R una funcin medible aro o bitraria. Si denimos la variable aleatoria Y = g (X) entonces
+ +
E (Y ) =
g (x) fX (x) dx.
Demostracin. Por el Teorema 7.12 (ii) existe una sucesin de funciones medo o ibles gn tal que Rgn es a lo sumo numerable y que converge uniformemente a g. Denimos las variables aleatorias Yn = gn (X) . Por el Teorema 7.12 (iii), (Yn )n converge uniformemente a Y. Como ya hemos demostrado en el Teorema 7.10 que esta propiedad vale para funciones que toman un conjunto a lo sumo numerable de valores, se tendr a
+ +
E (Yn ) =
gn (x) fX (x) dx.
Adems por el Teorema 7.11 se tiene que l n E(Yn ) = E(Y ). Luego a m bastar probar que a
+ n+ + + +
l m
gn (x) fX (x) dx =

g (x) fX (x) dx.
(7.27)
Para probar esto observemos que

+ + + +
gn (x) fX (x) dx
+
g (x) fX (x) dx
=
+
(gn (x) g (x)) fX (x) dx |(gn (x) g (x))| fX (x) dx
1 n
=1
1 fX (x) dx = , n
y por lo tanto se cumple (7.27). 2 Ahora vamos a probar la linealidad de la esperanza. Teorema 7.14 Sean X1 y X2 dos variables aleatorias con esperanza nita. Entonces para todo escalar y vale que E (X1 + X2 ) = E (X1 ) + E (X2 ) .
148
V ctor J. Yohai
Demostracin. o Primero probaremos el Teorema cuando X1 y X2 son discretas. Sean X1 y X2 variables aleatorias discretas con esperanza nita y sea Z = X1 +X2 . Denamos g : R2 R por g (x1 , x2 ) = x1 + x2 . Entonces si X = (X1 , X2 ) se tiene que Z = g (X) . Denamos gi : R2 R, i = 1, 2 por gi (x1 , x2 ) = xi . Luego g(x) =g1 (x)+g2 (x). Usando el Teorema 7.9 podemos escribir E (Z) =
(x1 ,x2 )RX
g (x) pX (x) [g1 (x) + g2 (x)] pX (x)

(x1 ,x2 )RX
= =
g1 (x)pX (x) +
(x1 ,x2 )RX (x1 ,x2 )RX
g2 (x)pX (x)
= E(g1 (X)) + E(g2 (X)) = E(X1 ) + E(X2 ). Ahora bien, si X1 y X2 son variables aleatorias arbitrarias, entonces por Teorema 7.12 (iii) podemos denir dos sucesiones de variables aleatorias discretas (X1n )n1 e (X2n )n1 tales que convergen uniformemente a X1 y X2 respectivamente.Es fcil ver que tambin se tendr que X1n + X2n a e a converge uniformemente a X1 + X2. . Hemos demostrado que para el caso de variables aleatorias discretas se cumple la linealidad de la esperanza. Luego tenemos E (X1n + X2n ) = E (X1n ) + E (X2n ) . Aplicando el Teorema 7.11 se obtiene
n
(7.28)
l E (X1n + X2n ) = E (X1 + X2 ) , m l E (Xjn ) = E(Xj ), j = 1, 2. m
(7.29) (7.30)
y
n
Luego por (7.28), (7.29) y (7.30) se obtiene E(X1 + X2 ) = l E (X1n + X2n ) m

n
= l (E (X1n ) + E (X2n )) m
n
= l E (X1n ) + l E (X2n ) m m
n n
= E (X1 ) + E (X2 ) , y esto prueba el teorema. 2
7.3. Esperanza del producto de variables aleatorias independientes.
149
7.3.
Esperanza del producto de variables aleatorias independientes.
Otro problema interesante es estudiar la esperanza de un producto de variables aleatorias. Si las variables aleatorias X e Y tienen esperanzas nitas y denimos la variable aleatoria Z = XY entonces nos podemos preguntar: cundo vale que E (Z) = E (XY ) = E (X) E (Y )? Veremos en el siguiente a Teorema que una condicin suciente es la independencia de las variables X o e Y. Teorema 7.15 Sean X e Y variables aleatorias independientes con esperanza nita. Si Z = XY entonces E (Z) = E (XY ) = E (X) E (Y ) . Demostracin. En principio lo probaremos para el caso discreto. Luego aproxo imaremos a X e Y por variables discretas uniformemente y probaremos el teorema para el caso general pasando al l mite. Sean X e Y variables aleatorias discretas independientes con esperanza nita y denamos g : R2 R g (x, y) = xy. Entonces como Z = g (X, Y ) , por el Teorema 7.9 resulta E (Z) =
(x,y)R(X,Y )
g (x, y) p(X,Y ) (x, y) xyp(X,Y ) (x, y)

(x,y)RX RY
= =
(x,y)RX RY
(xpX (x)) (ypY (y))
xRX
= E (X) E (Y ) .
xpX (x)
yRY
ypY (y)
Observemos que R(X,Y ) RX RY pero para (x, y) RX RY R(X,Y ) se tiene p(X,Y ) (x, y) = 0, lo que justica la segunda igualdad. La tercera se justica por el hecho de que dado que X e Y son independientes se tiene p(X,Y ) (x, y) = pX (x)pY (y). Por el Teorema 7.12 (ii) existe una sucesin de funciones medibles gn : o R R que toman un conjunto a lo sumo numerable de valores y que converge uniformemente a la funcin identidad g(x) = x. Consideremos las o
150
V ctor J. Yohai
sucesiones de variables aleatorias discretas gn (X) = Xn e Yn = gn (Y ) . Dado que X e Y son independientes, se tiene que Xn e Yn tambin lo son. e Luego, como ya hemos probado que el teorema vale para el caso discreto, se tiene E (Xn Yn ) = E (Xn ) E (Yn ) . Ahora como por el Teorema 7.12 (iii) Xn converge uniformemente a X e Yn converge uniformemente a Y se tendr a
n
l E (Xn Yn ) = l E (Xn ) l E (Yn ) = E (X) E (Y ) . m m m

n n
Luego basta probar que l n E (Xn Yn ) = E (XY ). Para ver esto obm servemos que |E (Xn Yn ) E (XY ) | = |E (Xn Yn XY ) | = E |Xn Yn Xn Y + Xn Y XY | E |Xn Yn XY |
E (|Xn | |Yn Y |) + E (|Y | |Xn X|) . Por la convergencia uniforme de Xn a X y de Yn a Y tenemos

n
E (|Xn (Yn Y )| + |Y (Xn X)|)
= E |Xn (Yn Y ) + Y (Xn X)|
(7.31)
l mx |Xn () X()| = 0 m a l mx |Yn () Y ()| = 0. m a
(7.32)
y
n
(7.33)
Adems como |Xn | |X| uniformemente, resulta por el Teorema 7.11 a

n
l E(|Xn |) = E(|X|). m
(7.34)
De (7.31), (7.32), (7.33) y (7.34) se obtiene que

n
l |E (Xn Yn ) E (XY ) | = 0, m
y esto prueba el teorema. 2 Damos a continuacin un ejemplo que muestra que la rec o proca es falsa, es decir es falso que E (XY ) = E (X) E (Y ) implique que X e Y son independientes. Ejemplo 7.1 Consideremos un vector (X, Y ) discreto tal que R(X,Y ) = {(1, 0), (1, 0), (0, 1) , (0, 1)}
7.4. Una frmula general para la esperanza de una variable transformada o
151
y tal que p(x, y) = 1/4 para cada (x, y) R(X,Y ) . Como para todo (x, y) R(X,Y ) , se tiene xy = 0, resulta P (XY 0) = 1. Luego E (XY ) = 0. Tambin se ve que RX = {1, 0, 1} y pX (1) = 1/4, e pX (0) = 1/2 y pX (1) = 1/4, por lo tanto resulta E (X) = 1(1/4) + 0(1/2) + 1(1/4) = 0. De manera que se cumple que E (XY ) = E (X) E (Y ) = 0.
1 Pero X e Y no son independientes pues pX (1) = 4 = pY (1) y dado que (1, 1) R(X,Y ) se tiene p(X,Y ) (1, 1) = 0. / Sin embargo si X, Y fueran independientes debiera cumplirse
p(X,Y ) (1, 1) = pX (1)pY (1) =
1 11 = . 44 16
lo cual es una contradiccin. Por lo tanto X e Y no son independientes. o
7.4.
Una frmula general para la esperanza de una o variable transformada
Teorema 7.16 Sea X una variable aleatoria con esperanza nita y g : R R tal que g(X) tiene esperanza nita. Supongamos adems que existen un a nmero nito de puntos = d0 < d1 < < dk = , tales que en Di = u (di , di+1 ] la funcin g es continua y estrictamente creciente o estrictamente o decreciente o constante y que l xdi g (x) existe . Supongamos adems que m a en di , 1 i k 1 la funcin g es continua o FX es continua. Luego se o tiene
E(g(X)) =
gdFX .
Demostracin. Podemos escribir o

k
g(X) =
i=1
g(X)IDi (X).
Vamos a ver que para probar el teorema bastar mostrar que a

di+1
E(g(X)IDi (X)) =
di
gdFX .
(7.35)
152
V ctor J. Yohai
Es importante observar que de acuerdo a las observaciones 2 y 3 de la pgina a 126 la integral de Riemann-Stieltjes en el lado derecho de (7.35) existe. En efecto, si (7.35) se cumple se tendr por el Teorema 7.14 y el hecho de que a en los puntos di , 1 i k 1 la funcin FX o g es continua, que o
k
E (g(X)) =
i=1 k
E(g(X)IDi (X))
di+1
=
i=1 d i
gdFX
gdFX .
Veamos que (7.35) para el caso que g es constante en Di En este caso sea c el valor de la funcin en Di . Luego g(X)IDi (X) toma valores c con proo babilidad FX (di+1 ) FX (di ) y 0 con probabilidad 1 (FX (di+1 ) FX (di )). Luego E(g(X)IDi (X)) = c(FX (di+1 ) FX (di ))
di+1
=
di
gdFX ,
y por lo tanto (7.35) se cumple. Veamos ahora que (7.35) vale en los intervalos Di donde g es estrictamente creciente. Sean a = l xdi g(x) y b = l xdi+1 g(x) donde l xa m m m i i indica l mite cuando x tiende a a por la derecha y l xa indica el l m mite cuando x tiende a a por la izquierda. Sea Yi = g(X)IDi (X). De acuerdo al Teorema 6.1 si y a 0 i 1 FYi (y) = (7.36) FX (gi (y)) si a < y < b i i , 1 si y bi donde gi es la restriccin de g a Di . Luego o E(Yi ) =
b i a i
ydFYi .
1 m Como l aa gi (a) = di y l bb gi (b) = di+1 , para probar (7.35) basm i 1 < a < b < b se tiene tar demostrar que para todo ai a i b
1 gi (b)
ydFY =
a
1 gi (a)
g(x)dFX .
(7.37)
7.4. Una frmula general para la esperanza de una variable transformada o
153
En efecto si (7.37), vale entonces resulta E(Yi ) = =

b i a i
ydFYi
b
aai ,bb i
l m
ydFYi
1 gi (b)
aa ,bb i i 1 gi (a) di+1
l m
g(x)dFX
=
di
g(x)dFX .
y por lo tanto (7.35) vale. Para mostrar (7.37) consideremos una sucesin de particiones n del o n intervalo [a, b] en n intervalos de igual longitud. Entonces tenemos Y = n , y n , ..., y n } con a = y n < y n < < y n = b e y {y0 1 j+1 yj = 1/n, n n 0 1 1 j n. Tomemos una seleccin arbitraria de puntos en esta particin o o n < n y n , la llamamos n = ( n ) yj j 1 jn . Luego por 7.36 tenemos que j+1 j
n b n Sa (Y , n , y, FY ) = j=1 n n n n j (FY (yj+1 ) FY (yj )) 1 n 1 n n j (FX (gi (yj+1 )) FX (gi (yj ))).
=
j=1
(7.38)
Entonces como la funcin id (y) = y es continua en [a, b] y FY es montona, o o b existe la integral de Riemann-Stieltjes a ydFY y se tiene que
n
l Sa (Y , n , y, FY ) = m b n
ydFY .
a
(7.39)
Llamemos ahora
1 n 1 n n xn = gi (yj ), 0 j n, j = gi (j ), 1 j n. j 1 1 Luego por la monoton de gi obtenemos gi (a) = xn < xn < ... < xn = a n 0 1 1 n n o gi (b) y xn < j xn . Por lo tanto X = {xn , xn , ..., xn } es una particin n 0 1 j j+1 1 1 n = ( n ) de [gi (a), gi (b)] y o o a j 1jn una seleccin en esta particin. Adems n ||X || = mx (xn xn ) a j+1 j 1jn 1 n 1 n = mx (gi (yj+1 ) gi (yj )) a 1jn
154
V ctor J. Yohai
1 1 1 tiende a 0 con n por la continuidad uniforme de gi en [gi (a), gi (b)] y el hecho de que n n l mx (yj+1 yj ) = 0. m a n 1jn 1 1 Luego, como g es continua en [gi (a), gi (b)] y FX es montona, existe la o
1 gi (b) g(x)dFX 1 gi (a)
integral de Riemann-Stieltjes
y resulta que
1 gi (b)
1 gi (b) n l Sg1 (a) (X , n , g, FX ) m n i
1 gi (a)
g(x)dFX .
(7.40)
Finalmente observemos de (7.38) que

n b n Sa (Y , n , y, FY
)=
j=1 n
n 1 n 1 n j (FX (gi (yj+1 )) FX (gi (yj ))) 1 n g(gi (j ))(FX (xj+1 ) FX (xj )) n g(j )(FX (xj+1 ) FX (xj ))
=
j=1 n
=
j=1
n i = Sg1 (a) (X , n , g, FX ).
i
g 1 (b)
(7.41)
Luego de (7.39) (7.40) y (7.41) obtenemos (7.37), y por lo tanto (7.35) queda demostrada para el caso que g es estrictamente creciente en Di . Para el caso que g es estrictamente decreciente, tenemos que g es estrictamente creciente. Por lo tanto (7.35) vale para g y entonces
di+1
E(g(X)IDi (X)) =
di
gdFX .
Pero esto es equivalente a

di+1
E(g(X)IDi (X)) =
di
gdFX ,
y luego (7.35) tambin vale. Esto prueba el teorema. 2 e
7.5.
Esperanza de distribuciones simtricas e
El concepto de esperanza matemtica est ligado con el valor central a a de la distribucin. Ciertas variables llamadas simtricas tienen un centro o e
7.5. Esperanza de distribuciones simtricas e
155
natural. Por ejemplo aquellas que tienen densidad simtrica respecto a un e punto. Denicin 7.6 Dada una variable aleatoria X cualquiera, se dice que tiene o distribucin simtrica respecto de si o e PX ([ x, )) = PX ((, + x]). para todo x > 0. (7.42)
Teorema 7.17 X tiene distribucin simtrica respecto de 0 si y slo si o e o FX = FX Demostracin. X tiene distribucin simtrica respecto de 0 si y slo si o o e o PX ([x, 0)) = PX ((0, x]), x > 0. Se tiene PX ((0, x]) = FX (x) FX (0) y PX ([x, 0)) = P (x X < 0) (7.44) (7.43)
= P (x X > 0) = P (0 < X x) = FX (x) FX (0). (7.45)
Luego, de (7.43), (7.44) y (7.45) resulta que X tiene distribucin simtrica o e respecto de 0 si y slo si o FX (x) FX (0) = FX (x) FX (0), x > 0. Tomando l mite cuando x tiende a innito resulta 1 FX (0) = 1 FX (0) y luego FX (0) = FX (0). (7.47) De (7.46) y (7.47) resulta que si X tiene distribucin simtrica respecto de o e 0 entonces FX (x) = FX (x), x. (7.48) Veamos la rec proca. Supongamos que FX (x) = FX (x), x. (7.46)
156 Luego, para todo x R se tiene
V ctor J. Yohai
P (X x) = FX (x) = FX (x) = P (X x) = P (X x) . En particular P (X 0) = P (X 0) . Luego, si x > 0 P (0 < X x) = P (X x) P (X 0) = P (x X < 0) . Es decir, (7.48) implica que PX ([x, 0)) = PX ((0, x]), x > 0, de lo que se deduce que X es simtrica. 2 e Teorema 7.18 X tiene distribucin simtrica respecto de si y slo si o e o Y = X tiene distribucin simtrica respecto de 0. o e Demostracin. Sea x > 0. Se tiene o PX ([ x, )) = P ( x X < ) = P (x Y 0) = PY ([x, 0)),
= P (X x) P (X 0)
= P (x X 0)
y PX ((, + x]) = P ( < X + x) = P (0 < X x) = P (0 < Y x) = PY ((0, x]).
Luego PX ([x, )) = PX ((, +x] es equivalente a PY ([x, 0)) = PY ((0, x]) y por lo tanto el teorema es cierto. 2 Teorema 7.19 Si X tiene esperanza nita y tiene distribucin simtrica o e respecto de , entonces E(X) = .
7.5. Esperanza de distribuciones simtricas e
157
Demostracin. Primero probaremos el teorema cuando = 0. En este caso o por el Teorema 7.14 E(X) = E(X). (7.49) Ademas como FX = FX , y la esperanza depende solamente de la funcin o de distribucin se tendr o a E(X) = E(X). (7.50)
De (7.49) y (7.50) resulta E(X) = E(X) = 0. Supongamos ahora que X tenga distribucin simtrica respecto de . o e Entonces X tiene distribucin simtrica respecto de 0. Luego usando la o e Propiedad 7.11 resulta 0 = E(X ) = E(X) , y el teorema queda demostrado. 2
Teorema 7.20 (i) Si X es absolutamente continua, entonces X tiene distribucin simetrica respecto de si y slo si o o fX ( x) = fX ( + x) . (7.51)
(ii) Si X es discreta, entonces X tiene distribucin simetrica respecto de o si y slo si o pX ( x) = pX ( + x) . Demostracin. o (i) Si llamamos Y = X , como fY (x) = fX (x+), (7.51) es equivalente a fY (x) = fY (x) . Por otro lado por las frmulas de cambio de variable o fY (x) = fY (x). Luego (7.51) es equivalente a fY = fY y esto es equivalente a FY = FY. . Aplicando el Teorema 7.17 esto es equivalente a que Y sea simtrie ca respecto de 0 y por Teorema 7.18 a que X sea simtrica respecto e de . (ii) Es similar a (i). Se deja como ejercicio. 2
158
V ctor J. Yohai
7.6.
Mediana de una variable aleatoria.
Dijimos que la esperanza describe un valor central de una variable aleatoria. En particular, si la variable aleatoria X es simtrica y tiene esperanza e nita, entonces esta coincide con su centro de simetr Una desventaja de a. la esperanza es que es muy inestable, es decir es muy sensible a las pequeas n perturbaciones, pequeos cambios en la distribucin de la variable se ven n o reejados en importantes cambios en los valores de la esperanza. Otra desventaja de la esperanza es que puede ocurrir que no exista. Incluso esto puede darse en el caso de una distribucin simtrica. Un ejemplo o e de distribucin simtrica que no tiene esperanza es la distribucin de Cauchy. o e o Su densidad est dada por a f (x) = 1 1 . 1 + x2
Es fcil ver que efectivamente es una densidad. Tenemos que a 1

1 2 1 = 1 + x2 0 1 + x2 2 = arctg(x)| 0 2 = ( 0) 2 =1
El grco de esta densidad es parecido al de la densidad normal aunque a las colas tienden a 0 ms lentamente. Es una funcin par y por lo tanto a o simtrica respecto del eje y. Esta distribucin no tiene esperanza puesto que e o un clculo sencillo prueba que a 1
+
x
0
1 1 dx = 2 1+x
1 dx = +. 1 + x2
En efecto haciendo la tranformacin y = 1 + x2 en la primer integral se tiene o dy = 2xdx y entonces 1

+
x
0
+ 1 1 1 dx = dy 2 1+x 2 1 y 1 = log(y)| = . 1 2
Por lo tanto la simetr no garantiza la existencia de la esperanza. En a este sentido no es una buena medida de centralidad, puesto que cualquier medida de centralidad debiera coincidir con el centro de simetr de fX en a el caso de existir ste. e
7.6. Mediana de una variable aleatoria.
159
Otra medida de centralidad es la mediana. Si existe un valor que deja la misma probabilidad a su derecha que a la izquierda, ese valor es la mediana. Esto se podr lograr siempre en el caso de una variable aleatoria continua. a Si X es simtrica entonces la mediana coincide con el centro de simetr e a. Una denicin general de mediana es la siguiente. o Denicin 7.7 Se dice que m es una mediana de la variable aleatoria X o si se cumple que
1 (i) P (X m) 2 , y 1 (ii) P (X m) 2 .
Veremos que siempre existe, y que si no es unica, el conjunto de las medianas es conexo, es decir es un intervalo en R. Para mostrar esto necesitaremos recurrir a la funcin o
1 FX (y) = inf Ay ,
donde Ay = {x : FX (x) y}. Hemos visto que el nmo es en verdad un 1 m nimo, de manera que FX FX (y) y es decir
1 P X FX (y) y.
(7.52)
Probaremos ahora una propiedad adicional. Teorema 7.21

1 P X FX (y) 1 y.
(7.53)
1 1 nimo de Demostracin. Sea x < FX (y) , entonces, dado que FX (y) es el m o 1 1 1 Ay se tiene que FX (x) < y. Luego si ponemos x = FX (y) < FX (y) n obtenemos 1 1 FX FX (y) < y, n
es decir P La sucesin de eventos o

1 X FX (y)
1 n
< y.
1 An = {X FX (y)
1 } n
es montona no decreciente y adems o a

n=1 1 An = {X < FX (y)}.
160 Luego pasando al l mite se tiene l P m

1 X FX (y)
V ctor J. Yohai
1 n
y,
y adems a l P m
1 X FX (y)
1 n
1 = P {X < FX (y)} .
Por lo tanto
1 P {X < FX (y)} y,
o equivalentemente
1 P {X FX (y)} 1 y. 2
Teorema 7.22 Sea X una variable aleatoria y FX su distribucin. Eno tonces

1 (i) FX 1 2
es una mediana.
(ii) Si m es mediana de X entonces

1 FX
1 2
m.
(iii) Si m1 y m2 son medianas de X entonces para todo m (m1 , m2 ), m es mediana de X. Demostracin. o (i) Se deduce de (7.52) y (7.53) tomando y = 1 . 2 (ii) Si m es otra mediana, entonces como P (X m) 1 , resulta que 2 1 1 m A 1 . Como FX 1 = inf A 1 resulta F 1 2 m. 2
2 2
(iii) Se deja como ejercicio. 2 Tambin se propone como ejercicio dar ejemplos de distribuciones en las e que el intervalo de las medianas sea cerrado a derecha y ejemplos en los que sea abierto a derecha. En el caso de que se trate de un intervalo podemos denir la mediana central como el punto medio del intervalo. Es decir si el conjunto de medianas a+b es el intervalo [a, b) o el [a, b], la mediana central es mc (X) = . 2
7.7. Varianza de una variable aleatoria.
161
7.7.
Varianza de una variable aleatoria.
La esperanza y la mediana de una variable aleatoria son caracter sticas de su distribucin que describen un valor central. Sin embargo, variables o aleatorias con distribuciones muy distintas pueden tener la misma esperanza. Por ejemplo pueden diferir en cuan dispersos alrededor de la esperanza estn a los valores que toma la variable. Variables con la misma esperanza pueden estar ms o menos dispersas. Esto nos lleva a denir otras caracter a sticas de una variable aleatoria, que midan la dispersin alrededor de un valor central. o Tampoco existe una unica manera de medir dicha dispersin. Consid o eremos una variable aleatoria X. Podr amos considerar la distancia entre los valores que toma X y su esperanza, es decir |X E (X)| y como esto resulta ser una variable aleatoria, calcular su esperanza E (|X E (X)|) . Sin embargo, dado que la funcin valor absoluto no es derivable en el origen, o ser conveniente reemplazarla por la funcin cuadrtica. a o a Denicin 7.8 Denimos la varianza de la variable aleatoria X por o Var (X) = E (X E (X))2 .
2 Se la suele notar por X . La desviacin t o pica o desv estndar de una o a variable aleatoria X es denida como la raz cuadrada de la varianza
ds (X) =
Var (X) = X .
Observacin. Es Inmediato observar que Var (X) 0 pues se trata de o la esperanza de una variable aleatoria no negativa. Tambin es claro que e siempre existe si admitimos como medida el valor +. La varianza tiene las siguientes propiedades. Propiedad 7.12 Si X tiene varianza nita, entonces Var (X) = E X 2 E 2 (X) . Luego para el caso discreto resulta Var (X) =
xRX
y para el continuo
x2 pX (x)
2
xRX
xpX (x) ,
2
Var (X) =
x fX (x)dx
xfX (x)dx
162
V ctor J. Yohai
Demostracin. Teniendo en cuenta las propiedades de la esperanza, se obtiene o que: Var (X) = E (X E (X))2 = E X 2 2E (X) X + E 2 (X) = E X 2 2E 2 (X) + E 2 (X)
= E X 2 2E (X) E (X) + E E 2 (X)
= E X 2 E 2 (X) .2
Propiedad 7.13 Var (X) = 0 es equivalente a P (X = E (X)) = 1. Demostracin. Supongamos que Var (X) = E (X E (X))2 = 0. Como o (X E (X))2 es no negativa, resulta por la Propiedad 7.10 que P (X E (X))2 = 0 = 1. Esto equivale a que P (X E (X) = 0) = 1, o P (X = E (X)) = 1. Se deja como ejercicio probar que si P (X = E (X)) = 1, entonces Var (X) = 0. Para eso obsrvese que la variable aleatoria (X e 2 es cero con probabilidad uno. 2 E (X)) Propiedad 7.14 Sea X una variable aleatoria e Y = X + , con , escalares. Entonces Var (Y ) = 2 Var (X) . Demostracin. Como E(Y ) = E(X) + resulta o Var (Y ) = E (Y E (Y ))2 = E([X + (E(X) + )]2 ) = E [ (X E(X))]2 = 2 E [X E(X)]2 = 2 Var (X) .2
Se mostrar que en el caso de suma de variables aleatorias independiena tes, la varianza es aditiva.
7.7. Varianza de una variable aleatoria.
163
Propiedad 7.15 Sean X e Y variables aleatorias independientes. Luego si Z = X + Y resulta Var (Z) = Var (X) + Var (Y ) . Demostracin. Tenemos o Var (Z) = E [Z E (Z)]2 = E [X + Y E (X) E (Y )]2 = E [(X E (X)) + (Y E (Y ))]2 = E [X E (X)]2 + 2E ([X E (X)] [Y E (Y )]) + E [Y E (Y )]2 = Var (X) + 2E ([X E (X)] [Y E (Y )]) + Var (Y ) . Luego, bastar probar que a E ([X E (X)] [Y E (Y )]) = 0. Usando la independencia de X e Y y teniendo en cuenta que E (X E (X)) = 0 = E (Y E (Y )) , resulta E ([X E (X)] [Y E (Y )]) = E (X E (X)) E (Y E (Y )) = 0. 2 (7.54)
7.7.1.
Esperanzas y varianzas de distribuciones normales
Calcularemos ahora E(Y ) y Var(Y ) para una variable Y con distribucin o 2 . N , Teorema 7.23 Si Y N , 2 entonces E(Y ) = y Var(Y ) = 2 . Demostracin. Tomemos primero una variable X con distribucin N(0, 1). o o Mostraremos que E(X) = 0 y Var(X) = 1. La densidad de X es f (x) = 1 2 ex /2 . 1/2 (2)
Como X es simtrica respecto de 0, para mostrar que E(X) = 0, bastara e mostrar que E(|X|) < . Tenemos que
E(|X|) = =2
0
|x|f (x)dx xf (x)dx

0
2 (2)1/2
xex
2 /2
dx.
(7.55)
164 Denamos u = x2 /2 y entonces du = xdx. Luego E(|X|) =

2 2 xex /2 dx 1/2 (2) 0 2 = eu du (2)1/2 0 2 = eu | 0 (2)1/2 2 = < . (2)1/2
V ctor J. Yohai
(7.56)
Vamos ahora a calcular la integral indenida x2 ex

2 2 /2
dx.
Haciendo u = x y dv = xex /2 dx para integrar por partes, se tiene du = dx 2 y por (7.56) v = ex /2 . Luego x2 ex
2 /2
dx =
udv vdu
2 /2
= uv = xex Luego

ex
2 /2
dx.
x2 ex ]

2 /2
dx = [xex
2 /2
ex
2 /2
dx,
y como [xex
2 /2
= 0, resulta

x2 ex
2 /2
dx =
ex
2 /2
dx.
Entonces se tiene
Var(X) =
x2 f (x)dx

1 (2)1/2 1 = (2)1/2 =
x2 ex ex
2 /2
dx
2 /2
dx
f (x)dx
= 1.
7.8. Covarianza
165
De acuerdo a su denicin, la distribucin N , 2 es la distribucin de o o o Y = X + , con X N , 2 . Luego E (Y ) = E (X) + = y Var (Y ) = 2 Var (X) = 2 . 2 Observacin. De acuerdo a este resultado, los parmetros de una distribuo a cin normal coinciden con la esperanza y la varianza. o
7.8.
Covarianza
La ecuacin (7.54) motiva la denicin del concepto de covarianza. o o Denicin 7.9 Sean X e Y variables aleatorias. Se dene la covarianza de o X e Y como Cov (X, Y ) = E ([X EX] [Y E (Y )]) . La siguientes Propiedades 7.16 y 7.17 son inmediatas Propiedad 7.16 Var (X + Y ) = Var (X) + Var (Y ) + 2Cov(X, Y ).
Propiedad 7.17 Si X , Y son independientes, Cov(X, Y ) = 0 La rec proca es falsa: la covariaza igual a cero no garantiza la independencia de las variables. Se puede dar el mismo contraejemplo que se us luego o del Teorema 7.15 para mostrar que E(XY ) = E(X)E(Y ) no implica que X e Y sean independientes. Diremos que dos variables aleatorias X e Y estn positivamente correlaa cionadas si Cov (X, Y ) > 0 y negativamente correlacionadas si Cov (X, Y ) < 0. Si Cov (X, Y ) = E ([X EX] [Y E (Y )]) > 0, X EX y Y E (Y ) tienden a tener el mismo signo, es decir tienden a situarse del mismo lado de sus respectivas esperanzas. Lo contrario ocurre si Cov (X, Y ) < 0. Propiedad 7.18 Si X e Y son variables aleatorias y ponemos X = X + e Y = Y + entonces Cov X , Y = Cov (X, Y ) .
Demostracin. Para probarlo obsrvese que o e X E X Y E Y = X + (E (X) + ) = (X E (X)) , = Y + (E (Y ) + ) = (Y E (Y )) .
166 Luego E X E X Y E Y
V ctor J. Yohai
= E ( [X E (X)] [Y E(Y )]) = E ([X E (X)] [Y E(Y )])
de donde se obtiene el resultado enunciado. 2 Ahora enunciaremos la desigualdad de Cauchy-Schwarz para variables aleatorias. Teorema 7.24 (Desigualdad de Cauchy-Schwarz) Sean X e Y variables aleatorias. Entonces si las varianzas de ambas variables son nitas se tiene E 2 (XY ) E X 2 E Y 2 , (7.57) y la igualdad ocurre si y slo si existe tal que P (Y = X) = 1. Adems o a Cov2 (X, Y ) Var(X)Var(Y ), y la igualdad ocurre si y slo si existen escalares , tal que o P (Y = X + ) = 1. Demostracin. o Sea Z = Y X. Entonces Q(a) = E Z 2 = 2 E X 2 + E Y 2 2E (XY ) 0. es un polinomio de segundo grado en , no negativo y como tiene a lo sumo una ra su discriminante es no positivo. z = 4E 2 (XY ) 4E X 2 E Y 2 = 4(E 2 (XY ) E X 2 E Y 2 ) 0. Luego E 2 (XY ) E 2 (X) E 2 (Y ) 0, de donde obtiene el resultado. La igualdad se cumple si y slo si = 0. Esto ocurre si y slo si existe o o un unico tal que Q() = 0. Esto es equivalente a que E((Y X)2 ) = 0, y esto a que P (Y = X) = 1. La desigualdad (7.58) se obtiene aplicando (7.57) a X = X E(X) e Y = Y E(Y ). Luego resulta que la correspondiente igualdad se cumple si y slo si existe tal que o P (Y E(Y ) = (X E(X)) = 1. Poniendo = E(Y ) + E(X), esto es equivalente a (7.59). 2 (7.59) (7.58)
7.9. Distribucin Normal Bivariada. o
167
Denicin 7.10 Dadas las variables aleatorias X e Y se dene el cuadrado o del coeciente de correlacin entre ellas, y se denota por 2 (X, Y ) a o 2 (X, Y ) = Cov2 (X, Y ) . Var (X) Var (Y )
Tambin denimos el coeciente de correlacin entre X e Y por e o (X, Y ) = Cov (X, Y ) [Var (X)] 2 [Var (Y )] 2
1 1
De la desigualdad de Cauchy-Schwarz se deduce la siguiente propiedad. Propiedad 7.19 Se tiene que 0 (X, Y )2 1 y por lo tanto 1 (X, Y ) 1. Ademas (X, Y )2 = 1 es equivalente a que para algn y se tenga P (Y = u X + ) = 1, es decir a que haya una relacin lineal perfecta entre las o variables X e Y.
7.9.
Distribucin Normal Bivariada. o
En esta seccin vamos a denir la distribucin normal con medias, vario o anzas y covarianzas arbitrarias. Queremos denir la distribucin conjunta de un vector aleatorio Y = o (Y1 , Y2 ) a partir de jar la distribucin marginal de cada una de sus coo ordenadas y establecer un valor para la covarianza entre sus coordenadas. Es decir que queremos que la distribucin conjunta del vector Y sea tal o 2 , Y N , 2 , y tal que Cov (Y , Y ) = , con las que Y1 N 1 , 1 2 2 2 1 2 12 constantes 1 , 2 , 1 , 2 y 12 prejadas arbitrariamente. Para que esto sea posible se tendrn que cumplir ciertas restricciones sobre estas constantes. a Los valores 1 , 2 no tienen deben cumplir ningn requisito en particular, u 2 2 pero 1 > 0, 2 > 0 y 12 debe cumplir la desigualdad de Cauchy-Schwarz que se puede escribir como 2 2 2 12 1 2 . Ahora bien si queremos una distribucin bivariada absolutamente cono 2 = 2 2 , ya que en este caso (Y , Y ) estar tinua, no podr cumplirse 12 a a 1 2 1 2 sobre una recta que es un conjunto de supercie 0. Luego se deber cumplir a
2 2 2 12 < 1 2 .
168 Sea la matriz denida por =

2 1 12 2 12 2
V ctor J. Yohai
(7.60)
2 2 2 Luego det () = 1 2 12 > 0. Denamos la matriz de covarianza del vector Y por
Y = Luego queremos que
Var(Y1 ) Cov(Y1 , Y2 ) Cov(Y2 , Y1 ) Var(Y2 ) Y = .
2 2 2 2 e Como det() = 1 2 12 > 0 y 1 > 0, resulta simtrica y denida positiva. Luego tiene al menos una ra cuadrada. Es decir existe una z matriz (no unica) a11 a12 A= (7.61) a21 a22
tal que = AAt , donde At designa su traspuesta. Estamos ahora en condiciones de construir el vector aleatorio buscado. Lo haremos en el siguiente teorema. Teorema 7.25 Sea R22 una matriz denida positiva dada por (7.60), = (1 , 2 ) R2 . Sea A R22 dada por (7.61) que cumple (7.62). Sea X = (X1 , X2 ) un vector aleatorio tal que X1 y X2 variables aleatorias independientes con distribucin N (0, 1) . Se dene el vector aleatorio o Y = (Y1 , Y2 ) por Y = XAt + . Entonces resulta que
2 2 (i) Y1 tiene distribucin N 1 , 1 e Y2 tiene distribucin N 2 , 2 . o o
(7.62)
(ii) Cov(Y1 , Y2 ) = 12 . (iii) La densidad del vector Y est dada por a fY (y) = 1 2 det ()
1 2
exp
1 (y ) 1 (y )t . 2
169
(iv) La forma cuadrtica Q(y) = (y ) 1 (y )t es igual a a 1 (y1 1 )2 (y2 2 )2 + 2 (y1 1 ) (y2 2 ) . 2 2 (1 2 ) 1 2 Demostracin. o (i) y (ii) Observemos que el vector Y satisface Y1 = a11 X1 + a12 X2 + 1 , Y2 = a21 X1 + a22 X2 + 2 . Como E(X1 ) = E(X2 ) = 0, resulta E (Y1 ) = 1 , E (Y2 ) = 2 . Ademas como Cov (X1 , X2 ) = 0, Var (X1 ) = Var (X2 ) = 1, resulta Var (Y1 ) = a2 Var (X1 ) + a2 Var (X2 ) 11 12 = De modo anlogo, a Var (Y2 ) = a2 + a2 , 21 22 y como E(X1 X2 ) = 0, resulta Cov (Y1 , Y2 ) = E([a11 X1 + a12 X2 ] [a21 X1 + a22 X2 ])
2 2 = a11 a21 E(X1 ) + a12 a22 E(X2 ) + (a12 a21 + a11 a22 )E(X1 X2 )
(7.63) (7.64)
(7.65)
a2 11
a2 . 12 (7.66)
= a11 a21 + a12 a22 . Luego Y = a2 + a2 a11 a21 + a12 a22 11 12 a11 a21 + a12 a22 a2 + a2 21 22
(7.67)
= AAt = =
2 1 12 2 12 2
(7.68)
De acuerdo al Teorema 6.7, como Y1 e Y2 son combinaciones lineales de normales independientes sern normales. Por (7.63), (7.65) y (7.68) a 2 resulta que la distribucin de Y1 es N 1 , 1 . Por (7.64), (7.66) y o 2 (7.68) resulta que la distribucin de Y2 es N 2 , 2 . Adems, de o a (7.67) y (7.68) resulta que Cov(Y1 , Y2 ) = 12 . Esto prueba (i) y (ii).
170
V ctor J. Yohai
(iii) Vamos a calcular la distribucin conjunta del vector Y. Comencemos o escribiendo la distribucin conjunta del vector X. Como X1 y X2 son o independientes, la distribucin conjunta de X es el producto de las o marginales, fX (x) = = = donde xxt = ||x||2 . 1 exp 2 1 exp 2 1 exp 2 x2 1 2 exp x2 2 2
x2 + x2 1 2 2 1 t xx , 2
Teniendo en cuenta que X = (Y ) At se obtiene que el Jacobiano de esta transformacin es J = 1/ det At . Adems, como = o a AAt se obtiene que (det (A))2 = det () o sea det (A) = det () 2 y por 1 1 1 lo tanto J = 1/ det () 2 . Entonces, a partir de la igualdad At A = 1 usando la frmula para transformaciones de vectores aleatorios o dada en el teorema 6.4, resulta fY (y) = = 1 2 det () 1 2 det ()
1 2 1
exp exp
1 (y ) At 2
A1 (y )t
1 2
1 (y ) 1 (y )t . 2
(iv) Para hallar la forma cuadrtica, calculemos primero el determinante a de

2 2 2 2 2 det () = 1 2 12 = 1 2 1 2 12 2 2 1 2 2 2 = 1 2 1 2 .
Luego la inversa de viene dada por 1 = 1 2 2 (1 2 ) 1 2

2 2 12 2 12 1
Entonces la forma cuadrtica se puede escribir como a (y ) 1 (y )t = (y ) = 1 1 2 2 (1 2 ) 1 2 2 )

2 2 12 2 12 1
(y )t
2 (y1 1 ) (y2 2 ) 12 ] .
2 2 1 2 (1
2 2 (y1 1 )2 2 + (y2 2 )2 1
171
Luego se tiene (y ) 1 (y )t 1 = 1 2 = 1 1 2
12 (y1 1 )2 (y2 2 )2 + 2 2 2 (y1 1 ) (y2 2 ) 2 2 1 2 1 2 (y1 1 )2 (y2 2 )2 (y1 1 ) (y2 2 ) .2 + 2 2 2 1 2 1 2
Observacin. El teorema anterior se demostr para el caso de dos variables. o o Sin embargo la densidad normal multivariada de cualquier dimensin que o se dene para vectores aleatorios Y Rk tiene una expresin similar a la o escrita en el punto (iii). Observacin. El mximo valor de fY se logra cuando se hace m o a nimo el exponente de la exponencial, esto es en y = . Por otro lado las curvas de nivel fY (y) = c (con c constante) son elipses cuyas direcciones principales vienen dadas por los autovectores de 1 . Si la Cov (Y1 , Y2 ) = 0 entonces, la matriz es diagonal y las direcciones son paralelas a los ejes coordenados, dando lugar a circunferencias como curvas de nivel en este caso. Denicin 7.11 Se dice que el vector Y tiene distribucin normal bivario o ada con media y matriz de covarianza denida positiva, que se denotar por N2 (,) si su funcin densidad es a o fY (y) = 1 2 det ()
1 2
exp
1 (y ) 1 (y )t . 2
172
V ctor J. Yohai
Cap tulo 8
Teor de la Prediccin. a o
8.1. Error cuadrtico medio y predictores ptia o mos.
En esta seccin veremos como utilizar ciertas variables conocidas para o predecir otras variables que no se pueden observar en un determinado momento. Por ejemplo se quiere predecir la cantidad de lluvia que maana n caer en determinada regin, utilizaremos otras variables que se puedan a o medir hoy. Quisiramos encontrar el predictor que se aproxime ms a la vae a riable a predecir, entre todos los predictores pertenecientes a un conjunto dado. Sea P un conjunto de predictores para la variable aleatoria Y, que forman un espacio vectorial. Cada elemento de P es una variables aleatoria observable. Supongamos que se quiere predecir a Y a travs de Y P. Cmo se e o puede medir la bondad de un predictor Y cualquiera? Se pueden considerar las siguientes alternativas: Denicin 8.1 El error cuadrtico medio del predictor Y para predecir a o a Y est dado por a ECM Y , Y y el error absoluto medio EAM Y , Y =E Y Y . =E Y Y
2
Si usamos como criterio de bondad de un predictor el error cuadrtico a medio, diremos que Y0 P es es un predictor optimo de Y en P , si dado otro Y P se tiene ECM Y0 , Y ECM Y , Y . A continuacin damos un criterio suciente para obtener un predictor o o ptimo usando el criterio del error cuadrtico medio. a 173
174
V ctor J. Yohai
Teorema 8.1 Una condicin suciente para que Y0 P sea un predictor o optimo usando el criterio del error cuadrtico medio es que a E Y Y0 Y =0 (8.1)
para todo Y P. Adems, si Y0 satisface (8.1), es esencialmente el unico a predictor optimo. Es decir si Y P satisface ECM Y0 , Y = ECM Y , Y entonces P Y = Y0 = 1. Observacin. La condicin (8.1) se puede interpretar como que el error de o o prediccin Y Y0 es ortogonal a todo elemento de P cuando el producto o escalar est denido por Y, X = E(Y X) en el espacio de Hilbert de las a variables aleatorias. Demostracin. Sea Y P. Entonces o ECM Y , Y =E =E + 2E Y Y Y Y0 Y0 Y
2
=E +E Y Y0
Y Y0 + Y0 Y Y0 Y .
2
Usando la condicin de ortogonalidad, como Y0 Y P se tiene o E y luego ECM Y , Y =E E Y Y0 Y Y0

2
Y0 Y
Y Y0
= 0,
+E
Y0 Y
= ECM Y0 , Y , y por lo tanto Y0 es ptimo. o Adems si Y fuera tambin ptimo se tendr E a e o a

2
Y0 Y
= 0 y
siendo Y0 Y 0 resultar P Y = Y0 = 1, en virtud de la Propiedad a 7.10. 2. El siguiente Teorema simplica la vericacin de la condicin (8.1). o o
8.2. Predictores constantes.
175
Teorema 8.2 Sea P un espacio vectorial de predictores de la variable aleatoria Y de dimensin nita y sea {Y1 , ..., Yk } una base de P. La condicin o o necesaria y suciente para que se cumpla (8.1) es que E Y Y0 Yi = 0, 1 i k. (8.2)
Demostracin. Claramente es una condicin necesaria. Veamos que es suo o ciente Sea Y cualquier elemento de P, entonces existen escalares 1, ..., k tal que Y = k i Yi . Luego si para i = 1, 2, ..., k se cumple que i=1 E resulta tambin que e
k
Y Y0 Yi = 0,
Y Y0 Y
=E
k
Y Y0 i E
i Yi
i=1
=
i=1
Y Y0
Yi = 0.
8.2.
Predictores constantes.
Se pueden considerar distintos conjuntos de predictores. Comenzaremos con los predictores constantes. Sea (, A, P ) un espacio de probabilidad, Y una variable aleatoria a predecir y consideremos P1 = {Y : Y es una variable aleatoria constante}. El siguiente Teorema determina el predictor ptimo perteneciente a P1 . o Teorema 8.3 El predictor Y0 = E(Y ) es el de menor error cuadrtico a medio en P1 . Adems ECM(Y0 , Y ) = Var(Y ). a Demostracin. Una base de P1 es {Y1 } donde Y1 = 1. Como o E Y Y0 1 = E (Y E(Y )) = E(Y ) E (Y ) = 0,
resulta Y0 = E(Y ) el predictor de menor error cuadrtico medio. a Adems a ECM(Y0 , Y ) = E((Y Y0 )2 ) = Var(Y ). 2 = E((Y E(Y ))2 )
Designamos el predictor ptimo para Y en P1 por Y0,C . En la prctica o a unicamente se usa un predictor constante si no se observan otras variables vinculadas a Y.
176
V ctor J. Yohai
8.3.
Predictores lineales.
Sea ahora (, A, P ) un espacio de probabilidad, Y una variable aleatoria a predecir y X otra variable aleatoria observada. Consideremos el siguiente conjunto de predictores P2 = {Y : Y = X + , , R}.
P2 es el conjunto de variables aleatorias que se obtiene por una transformacin lineal de la variable X . Claramente P1 P2 , y por lo tanto el error o cuadrtico medio del predictor ptimo en P2 ser menor o igual que el del a o a predictor ptimo en P1 . Por esta razn, si denotamos por Y0,L el predictor o o o ptimo en P2 ,resulta claro que ECM Y, Y0,L ECM Y, Y0,C . El siguiente Teorema caracteriza el predictor ptimo en P2 . o Teorema 8.4 (i) El predictor de menor error cuadrtico medio en P2 a est dado por Y0,L = X + con a = E (Y ) E (X) y = Cov (X, Y ) . Var (X) (8.4) (8.3)
(ii) El error cuadrrico medio de Y0,L est dado por a a ECM Y0,L .Y = Var (Y ) Cov2 (X, Y ) . Var (X) (8.5)
Demostracin. Una base de P2 es {Y1 , Y2 } donde Y1 = X e Y2 = 1. Luego el o predictor ptimo Y0,L debe satisfacer o E ((Y X ) X) = 0 y E ((Y X ) 1) = 0. De la condicin (8.6) se obtiene o E (Y ) E(X) = 0, de donde resulta (8.3). Ahora multiplicando (8.7) por E (X) resulta E ((Y X ) E (X)) = 0, (8.7) (8.6)
8.3. Predictores lineales.
177
y restndola de (8.6) obtenemos a E ((Y X ) (X E (X))) = 0. Reemplazando por (8.3) obtenemos E ((Y X E (Y ) + E (X)) (X E (X))) = 0, y por lo tanto E ((Y E (Y )) (X E (X)) (X E (X)) = 0. Entonces distribuyendo la esperanza se obtiene Cov (X, Y ) = E [(Y E (Y )) (X E (X))] = E (X E (X)2 = Var (X) , y por lo tanto resulta (8.4). Ahora calcularemos el error cuadrtico medio de Y0,L . Usando (8.3) a obtenemos ECM Y0,L , Y = E [Y X ]2 = E [Y X E (Y ) + E (X)]2 = = E [(Y E (Y )) (X E (X))]2 = = E [Y E (Y )]2 + 2 E [X E (X)]2 2E ([Y E (Y )] [X E (X)]) . Luego, usando (8.4) se obtiene ECM Y0,L , Y = Var (Y ) + 2 Var (X) 2Cov (X, Y )
Cov2 (X, Y ) Cov2 (X, Y ) 2 Var (X) Var (X) 2 Cov (X, Y ) = Var (Y ) . 2 Var (X) = Var (Y ) + Para evaluar cunto mejora el error cuadrtico medio cuando se usa Y0,L a a
178 en vez de Y0,C , calculemos su decrecimiento relativo ECM Y0,C , Y ECM Y0,L , Y
Cov2 (X,Y ) Var(X)
V ctor J. Yohai
ECM Y0,C , Y = Var (Y ) Var (Y ) ECM Y0,C , Y =

Cov (X,Y ) Var(X)
2
Var (Y )
Cov2 (X, Y ) = 2 (X, Y ) . Var (X) Var (Y )
Esto permite interpretar el coeciente 2 (X, Y ) como el decrecimiento relativo del error cuadrtico medio cuando se usa un predictor lineal basado a en X en vez de un predictor constante. Por lo tanto 2 (X, Y ) mide la utilidad de la variable X para predecir a Y por una funcin lineal. Observemos que o a partir de esta igualdad puede obtenerse nuevamente la desigualdad de Cauchy-Schwarz. En efecto, como 0 ECM Y0,C , Y ECM Y0,L , Y Veremos ahora el signicado de los casos extremos 2 (X, Y ) = 1 y 2 (X, Y ) = 0. 2 (X, Y ) = 1 es equivalente a ECM Y, Y0,L = 0 y esto es equivalente E Y Y0,L
2
ECM Y, Y0,C , se obtiene 0 2 (X, Y ) 1.
= 0, que a su vez es equivalente a
P Y = Y0,L = P (Y = X + ) = 1, en virtud de la Propiedad 7.10. Es decir 2 (X, Y ) = 1 es equivalente a que hay una relacin lineal pero fecta entre X e Y con probabilidad 1. Existen dos posibilidades para 2 (X, Y ) = 1 : o bien (X, Y ) = 1 o (X, Y ) = 1. El signo de (X, Y ) coincide con el de Cov(X, Y ) que es el mismo que el de la pendiente del predictor linear ptimo. Luego (X, Y ) = 1 o indica que la relacin entre la X y la Y es creciente y (X, Y ) = 1 que la o relacin es decreciente. o Veremos ahora como se interpreta 2 (X, Y ) = 0. En este caso ECM Y0,L , Y = ECM Y0,C , Y
y Cov(X, Y ) = 0. Por lo tanto = 0, y se puede concluir que la variable X no tiene utilidad para predecir a Y cuando se utilizan predictores constantes. Se deja como ejercicio probar que la recta Y = X + pasa por el punto (E (X) , E (Y )) , es decir que cuando la variable X toma el valor E(X) el valor predicho para la variable Y es E(Y ).
Cap tulo 9
Esperanza y distribucin o condicional.

9.1. Caso discreto.
Sean dos variables aleatorias discretas X, Y denidas sobre un mismo espacio de probabilidad (, A, P ). Sea RX = {x : pX (x) > 0} y RY = {y : pY (y) > 0}. Luego, para cada x RX denimos la funcin de probabilidad o de Y condicional a X = x como pY |X (y|x) = pXY (x, y) . pX (x)
Para cada x RX jo esta funcin es una funcin de densidad de proo o babilidad ya que pXY (x, y) 1 = pX (x) pX (x) pX (x) = 1, pX (x)
pY |X (y|x) =
yRy yRy
pXY (x, y) =
yRy
y representa la distribucin de Y una vez conocido que el valor de X = x. o Si se tienen dos vectores discretos X = (X1 , ..., Xk ) , Y = (Y1 , ..., Yh ) podemos denir una nocin anloga. Sea RX = {x Rk : pX (x) > 0}, o a luego para todo x RX denimos pY|X (y|x) = y tambin se tendr e a pY|X (y|x) = 1.
yRY
pXY (x, y) , pX (x)
(9.1)
Esto permite calcular probabilidades que involucran a Y cuando sabemos que el evento {X = x} ha ocurrido. En efecto, si B B h (borelianos de Rh ) 179
180 denimos P (Y B | X = x) = pY|X (y|x).

yRY B
V ctor J. Yohai
Sea ahora Y una variable aleatoria y X un vector aleatorio de dimensin o k, ambos discretos. La esperanza condicional de la variable Y condicional a X = x se dene como la esperanza de Y utilizando como distribucin de o esta variable la distribucin determinada por (9.1). Es decir esta esperanza o condicional se dene por
E(Y |X = x) =
ypY |X (y|x).
yRy
(9.2)
Este valor representa la esperanza de la variable Y cuando se sabe que el vector X ha tomado el valor x. Llamemos g(x) = E(Y |X = x), luego g(x) : RX R. Vamos a denir ahora una variable aleatoria que llamaremos esperanza de Y condicional a X, y que notaremos por E(Y |X). Esta variable se dene por E(Y |X) = g(X). Vamos ahora a mostrar el siguiente teorema, que relaciona las esperanzas de ambas variables aleatorias.
Teorema 9.1 Si Y tiene esperanza nita, entonces se tiene que
E(E(Y |X)) = E(Y ).
Demostracin. Tenemos que o
E(E(Y |X)) = E(g(X)) =
g(x)pX (x).
xRx
9.1. Caso discreto.
181
Utilizando que g(x) viene dado por (9.2), se tiene E(E(Y |X)) = =
xRX xRX
yRY
yRY
=
xRX
=
yRY
=
yRY
yRY
ypXY (x, y)
pXY (x, y) y pX (x) pX (x) pXY (x, y)
ypY |X (y|x) pX (x)
xRX
ypY (y)
= E(Y ). El cambio en el orden de la suma se encuentra justicado pues la suma converge. Luego el teorema queda demostrado. 2 Ejemplo 9.1 Supongamos que se hace una primera serie de n tiradas de una moneda y sea X el nmero de caras obtenido. En base al resultado de u la primera serie de tiradas, se inicia una segunda serie de X tiradas. Sea Y el nmero de caras obtenidas en esta segunda serie. Calcular la E(Y ). u Si X = x, la distribucin de Y condicional a X = x es binomial o Bi(0,50, x). Luego g(x) = E(Y |X = x) = 0,50x. Luego E(Y |X) = g(X) = 0,50X, y por lo tanto E(Y ) = E(E(Y |X)) = 0,50E(X). Como X es Bi(0,50, n), entonces E(X) = 0,5n. Por lo tanto E(Y ) = 0,25n. Teorema 9.2 (i) Si X e Y son dos vectores aleatorios independientes, entonces se tiene a) pY|X (y|x) = pY (y)
b) Si Y es una variable aleatoria y E(Y ) existe y es nita entonces E(Y |X = x) = E(Y ). (ii) Sean X e Y dos vectores aleatorios tales pY|X (y|x) = p(y) para todo x RX . Entonces pY (y) = p(y), y X e Y son independientes. Demostracin. o (i) a) se deduce del hecho de que pY|X (y|x) = pY (y) implica que pXY (x, y) = pX (x)pY (y).
182 b) es inmediata.
V ctor J. Yohai
(ii) Para probar (ii) observemos que pY|X (y|x) = p(y) implica que pXY (x, y) = pX (x)p(y), y por lo tanto pY (y) =
xRX
(9.3)
pX (x)p(y) = p(y)
xRX
pX (x) = p(y).
Luego reemplazando en (9.3) se obtiene pXY (x, y) = pX (x)pY (y), y esto implica que X e Y son independientes. 2 Teorema 9.3 Si P (Y = c) = 1, entonces, cualquiera sea el vector X, se tiene (i) pY |X (c|x) = 1. (ii) E(Y |X = x) = c. Demostracin. Tenemos que o {X = x} = ({X = x} {Y = c}) ({X = x} {Y = c}). Como P ({X = x} {Y = c}) = 0, se tiene pX (x) = P (X = x) = P (X = x, Y = c) = pXY (x, c). Por lo tanto pY |X (c|x) = pXY (x, c) = 1. pX (x) (9.4)
Como en este caso RY = {c}, se tiene E(Y |X = x) = ypY |X (y|x)

yRy
= cpY |X (c|x) = c1 = c, y el teorema queda demostrado. 2
Sean ahora dos vectores aleatorios discretos, X = (X1 , ..., Xk ), Y = (Y1 , ..., Yj ), y sea Z = h(X, Y), donde h : Rk+j R es una funcin meo dible. El siguiente Teorema muestra cmo se calcula E(Z|X = x). o
9.1. Caso discreto.
183
Teorema 9.4 Sean X, Y dos vectores aleatorios discretos de dimensiones k y j, y sea h : Rk+j R una funcin medible. Denamos la variable o aleatoria discreta Z = h(X, Y), y supongamos que tiene esperanza nita. Entonces para todo x RX se tiene E(Z|X = x) =
yRY
h(x, y)pY|X (y|x).
Demostracin. Comenzaremos calculando la funcin de probabilidad conjuno o x x ta de (X, Z). Sea RZ = {z : z = h(x, y) para y RY }, y para todo z RZ x = {y : h(x, y) = z}. Es fcil ver que: denamos Az a x Ax = , y que si z = z entonces Az z Ax = RY . z
zRx Z
(9.5)
Es inmediato que pXZ (x, z) = P (X = x, Y Ax ) = z 0

yAx z
pXY (x, y)
x si x RX , z RZ en otro caso,
y luego, para x RX se tiene pZ|X (z|x) = pXZ (x, z) = pX (x)

yAx z
pXY (x,y) pX (x)
x si z RZ en otro caso.
Por lo tanto se tiene pZ|X (z|x) =

yAx z
pY|X (y|x)
x si z RZ en otro caso.
(9.6)
Luego utilizando (9.6) se tiene E(Z|X = x) =

zRx Z
z pZ|X (z|x) z pY|X (y|x)

yAx z
=
zRx Z
=
zRx yAx z Z
zpY|X (y|x),
y como para y Ax , se tiene h(x, y) = z, utilizando (9.5) obtenemos z E(Z|X = x) =

zRx Z yAx z
h(x, y)pY|X (y|x) h(x, y)pY|X (y|x),
=
yRY
184 probando por lo tanto el teorema. 2
V ctor J. Yohai
El Teorema 9.4 se puede interpretar como que E(Z|X = x) se calcula como la esperanza de h(Y, x) (variable aleatoria que depende unicamente del vector aleatorio Y, ya que x es tratada como si fuera constante) utilizando pY|X (y|x) como funcin de probabilidad puntual de Y o Vamos qu propiedades de la esperanza condicional se deducen del Teoe rema 9.4. Propiedad 9.1 Sean X un vector aleatorio discreto de dimensin k y Y o un vector aleatorio discreto de dimensin j, y sean r : Rk R y s : Rj R o funciones medibles tales que las variables aleatorias r(X)s(Y), r(X) y s(Y) tienen esperanza de nita. Entonces se tiene E(r(X)s(Y)|X = x) = r(x)E(s(Y)|X = x). Demostracin. Utilizando el Teorema 9.4 con h(x, y) = r(x)s(y) que tiene o esperanza nita, se tiene E(r(X)s(Y) | X = x) = = r(x)
yRY
r(x)s(y)pY|X (y|x)
yRY
s(y)pY|X (y|x)
= r(x)E(s(Y)|X = x), y luego la propiedad queda demostrada. 2
Propiedad 9.2 Sea X un vector aleatorio discreto de dimensin k, y sea o r : Rk R una funcin medible tal que la variable r(X) tiene esperanza o nita. Luego E(r(X)|X = x) = r(x). Demostracin. La demostracin resulta de la Propiedad 9.1 tomando s(y) = o o 1, ya que entonces E(r(X)|X = x) = r(x)E(1|X = x). Luego por el Teorema 9.4 resulta la Propiedad 9.2.
Propiedad 9.3 (Linealidad de la esperanza condicional) Sean Y1 e Y2 variables aleatorias discretoas con esperanza nita, y sea X un vector aleatorio discreto, entonces E(c1 Y + c2 Y2 |X = x) = c1 E(Y1 |X = x) + c2 E(Y2 |X = x).
9.1. Caso discreto.
185
Demostracin. o Sea Y = (Y1 , Y2 ) y denamos h(x, y) = c1 y1 + c2 y2 , h1 (x, y) = y1 y h2 (x, y) = y2 . Entonces se tiene h(x, y) = c1 h1 (x, y) + c2 h2 (x, y). Luego tenemos E(c1 Y1 + c2 Y2 |X = x) = E(h(X, Y)|X = x) =
yRY
h(x, y)pY|X (y|x) (c1 h1 (x, y) + c2 h2 (x, y))pY|X (y|x)

yRY
= = c1
h1 (x, y)pY|X (y|x) + c2

yRY yRY
h2 (x, y)pY|X (y|x)
= c1 E(h1 (X, Y)|X = x) + c2 E(h2 (X, Y)|X = x) = c1 E(Y1 |X = x) + c2 E(Y2 |X = x), y la Propiedad 9.3 queda demostrada. 2 Propiedad 9.4 (i) Si P (Y 0) = 1, E(Y |X = x) 0.
(ii) E Y 2 |X = x E 2 (Y |X = x). (iii) Si E(Y 2 ) < , entonces E(E 2 (Y |X)) < . Demostracin. o (i) Es inmediato de la denicin. o (ii) Para demostrar (ii), observemos que por (i) 0 E([Y E(Y |X = x)]2 |X = x)
= E(Y 2 |X = x)2E(Y |X = x)E(Y |X = x)+E 2 (Y |X = x) = E(Y 2 |X = x)E 2 (Y |X = x), En la penltima igualdad utilizamos la Propiedad 9.1 y la Propiedad u 9.3. Luego (ii) queda demostrado. (iii) Ahora demostraremos (iii). Observemos que por (ii) E(Y 2 |X) E 2 (Y |X) y luego, en virtud del Teorema 9.1 tenemos > E(Y 2 ) = E(E(Y 2 |X)) E(E 2 (Y |X)), demostrando (iii).
= E( Y 2 2Y E(Y |X = x) + E 2 (Y |X = x) |X = x)
186
V ctor J. Yohai
Propiedad 9.5 Sea Y una variable aleatoria discreta con esperanza nita y X un vector aleatorio discreto de dimensin k. Luego si g(x) = E(Y |X = x), o entonces para toda t : Rk R medible tal que Y t(X) tiene esperanza nita resulta E [(Y g(X))t(X)] = 0. Demostracin. Sea Z = h(X, Y ) = (Y g(X))t(X). Luego bastar demostrar o a que E(Z) = 0. Utilizando el Teorema 9.1 bastar demostrar que a E(Z|X) = 0. De acuerdo a la Propiedad 9.1, tenemos que E(Z|X = x) = t(x)E((Y g(X))|X = x), y por lo tanto E(Z|X) = t(X)E((Y g(X))|X). Luego para mostrar (9.7) bastar demostrar que a E(Y g(X)|X) = 0. Pero esto es cierto ya que por Propiedades 9.3 y luego la Propiedad 9.2 se tiene E(Y g(X)|X) = E(Y |X) E(g(X)|X) = E(Y |X) g(X) = g(X) g(X) = 0, (9.7)
y por lo tanto queda demostrada esta propiedad. 2 Propiedad 9.6 Sea Y una variable aleatoria discreta con varianza nita y X un vector aleatorio discreto de dimensin k. Luego Y = g(X) = E(Y |X) o es el unico predictor con menor error cuadrtico medio en la clase de pre a dictores P = Y = t(X) : t medible, Var(t(X)) < . Demostracin. Se deja como ejercicio ver que P es un espacio vectorial. Vao mos a mostrar primero que g(X) P o sea que Var g2 (X) < . (9.8) Pero esto resulta de Propiedad 9.4 (iii). Luego el resultado se obtiene del Teorema 8.1 y de la Propiedad 9.5. 2
9.2. Caso general
187
9.2.
Caso general
Vamos ahora dar una denicin de E(Y |X) para el caso de una variable o Y cualesquiera , y un vector X cualquiera de dimensin k. Ambos, Y y X o no tienen porque ser discretos ni absolutamente continuos Denicin 9.1 La variable aleatoria esperanza de Y condicional X se deo ne por E(Y |X) = g(X), donde g : Rk R es una funcin medible tal o que E((Y g(X))t(X)) = 0 (9.9) para toda t : Rk R medible tal que Y t(X) tiene esperanza nita . Deniremos E(Y |X = x) = g(x). La Propiedad 9.5 demostrada anteriormente muestra que en el caso de Y y X discretos esta denicin coincide con la dada anteriormente, y por lo o tanto en este caso siempre existe. El siguiente teorema muestra que siempre existe una unica variable aleatoria g(X) = E(Y |X) satisfaciendo (9.9). Teorema 9.5 Sea Y una variable aleatoria con esperanza nita y sea X un vector aleatorio cualquiera de dimensin k. Luego o (i) Siempre existe una funcin medible g : Rk R satisfaciendo (9.9). o (ii) Si g1 y g2 son dos funciones medibles satisfaciendo (9.9), entonces P (g1 (X) = g2 (X)) = 1. Demostracin. o (i) No lo demostraremos en general en este curso. Ms adelante haremos a una demostracin para el caso absolutamente continuo. o (ii) Sean g1 y g2 son dos funciones medibles satisfaciendo (9.9), entonces E((Y g1 (X))t(X)) = 0 y E((Y g2 (X))t(X)) = 0 (9.11) para toda t(X) tal que Y t(X) tenga esperanza nita. Luego restando (9.11) de (9.10) se obtiene E((g2 (X) g1 (X))t(X)) = 0, (9.10)
188 y tomando t(X) = g2 (X) g1 (X) resulta E((g2 (X) g1 (X))2 ) = 0. Esto implica que
V ctor J. Yohai
P ((g2 (X) g1 (X))2 = 0) = P (g2 (X) = g1 (X)) = 1. 2
Vamos ahora a demostrar que todas las propiedades de esperanza condicional que val para el caso discreto tambin valen para la denicin genan e o eral.
Teorema 9.6 Si Y tiene esperanza nita, entonces E(E(Y |X)) = E(Y ). Demostracin. Apliquemos (9.9) con t(X) = 1. Luego se tiene o 0 = E(Y g(X))
= E(Y ) E(g(X))
= E(Y ) E(E(Y |X)),
y por lo tanto se cumple el Teorema 9.6. 2 Teorema 9.7 Sean Y una variable aleatoria con esperanza nita y X un vector aleatorio independientes. Entonces se tiene E(Y |X) = E(Y ). Demostracin. Veamos que poniendo g(X) = E(Y ) se cumple (9.9). En efecto o dado que (Y E(Y )) y t(X) son independientes se tiene E((Y E(Y ))t(X)) = E(Y E(Y ))E(t(X)). Luego como E(Y E(Y )) = E(Y ) E(Y ) = 0, el Teorema 9.7 queda demostrado. 2 Teorema 9.8 Si P (Y = c) = 1, entonces , cualquiera sea el vector X, se tiene E(Y |X) = c. Demostracin. Poniendo g(X) = c, resulta inmediatamente (9.9). 2 o Vamos ahora a probar las propiedades 9.1-9.4 para la denicin general o de E(Y |X).
9.2. Caso general
189
Propiedad 9.7 Sean X un vector aleatorio de dimensin k e Y un vector o aleatorio de dimensin j, y sea r : Rk R y s : Rj R. Entonces se tiene o E(r(X)s(Y)|X) = r(X)E(s(Y)|X). Demostracin. Vamos a probar que si ponemos g(X) = r(X)E(s(Y)|X), o entonces (9.9) se cumple. En efecto E((r(X)s(Y) g(X))t(X)) = E((r(X)s(Y) r(X)E(s(Y)|X))t(X)) = E((s(Y) E(s(Y)|X))m(X)), con m(X) = r(X)t(X). Luego por la denicin de E(s(Y)|X) obtenemos o E((s(Y)E(s(Y)|X))m(X)) = 0. Por lo tanto la propiedad queda demostrada. 2
Propiedad 9.8 Sea X un vector aleatorio de dimensin k y sea r : Rk o R, una funcin medible. Luego E(r(X)|X) = r(X). o Demostracin. Se obtiene de la Propiedad 9.7 tomando s(Y) = 1. 2 o
Propiedad 9.9 Si Y1 e Y2 son variables aleatorias con esperanza nita, y X es un vector aleatorio, entonces E(c1 Y1+ c2 Y2 |X) = c1 E(Y1 |X) + c2 E(Y2 |X). Demostracin. Vamos a ver que se cumple (9.9) poniendo o g(X) = c1 E(Y1 |X) + c2 E(Y2 |X). En efecto si Z = c1 Y1 + c2 Y2 usando la linealidad de la esperanza y la denicin de esperanza condicional se tiene o E((Z g(X))t(X)) = E((c1 (Y1 E(Y1 |X)) + c2 (Y2 E(Y2 |X))t(X)) = c1 0 + c2 0 = 0, y la propiedad queda demostrada. 2 La generalizacin de la Propiedad 9.5 usando la denicin general de o o E(Y |X) es obvia a partir de la denicin. o
= c1 E((Y1 E(Y1 |X))t(X)) + c2 E(Y2 E(Y2 |X))t(X))
190
V ctor J. Yohai
Propiedad 9.10 Sea Y una variable aleatoria con varianza nita y X un vector aleatorio de dimensin k. Luego Y = g(X) = E(Y |X) es el unico o predictor con menor error cuadrtico medio en la clase de predictores P = a Y = t(X) : t medible, Var(t(X)) < . Demostracin. Es totalmente similar a la Propiedad 9.6. 2 o De acuerdo a esta propiedad E(Y |X) es el predictor de Y ptimo basado o en cualquier funcin medible (lineal o no lineal) de X. Por esta razon lo o denotaremos con YO,N L .
9.3.
Caso continuo
Supongamos ahora que tenemos dos vectores X = (X1 , ...Xk ) e Y = (Y1 , ..., Yj ) de dimensiones k y j respectivamente con distribucin conjunta o k+j R una funcin absolutamente continua y densidad fX,Y , y sea h : R o medible. Denamos la densidad de Y condicional X = x por fY|X (y|x) = fXY (x, y) . fX (x)
Es fcil ver que para cada x jo con fX (x) > 0, la funcin fY|X (y|x) es a o una densidad para el vector Y. Es decir se tendr a

...

fY|X (y|x)dy1 ...dyj = 1.
El siguiente teorema es una versin para el caso continuo del Teorema o 9.4. Teorema 9.9 Sea Z = h(X, Y) una variable con esperanza nita, luego se tiene que E(Z|X = x) = g(x)

...
h(x, y)fY|X (y|x)dy1 ...dyj .
Demostracin. Para facilitar la notacin en la demostracin, supondremos o o o que tanto X como Y son variables aleatorias en vez de vectores. Pero excepto por la notacin ms complicada, la demostracin para vectores es similar, o a o ya que solamente se deben reemplazar las integrales simples por integrales mltiples. u De acuerdo a (9.9) ser suciente probar que a E((h(X, Y ) g(X))t(X)) = 0,
9.3. Caso continuo
191
o equivalentemente E((h(X, Y )t(X)) = E(g(X)t(X)). Por un lado tenemos que

(9.12)
E((h(X, Y )t(X)) =

h(x, y)t(x)fXY (x, y)dxdy.
(9.13)
Adems se tiene que a
E(g(X)t(X)) =

g(x)t(x)fX (x)dx

h(x, y)fY |X (y|x)dy t(x)fX (x)dx (9.14)
h(x, y)t(x)fXY (x, y)dxdy.
Las ecuaciones (9.13) y (9.14) prueban (9.12). 2 Denicin 9.2 Sean dos vectores aleatorios X e Y de dimensiones k y o j respectivamente. Luego dado B j (conjunto Boreliano de dimensin o j), la probabilidad de que Y B, condicional X = x que se denotar con a PY|X (B|X = x) est dado por a PY|X (B|X = x) = E(IB (Y)|X = x), donde IB es la funcin indicadora del conjunto B. La probabilidad de que o Y B, condicional X que se denotar por PY|X (B|X) est dado por a a PY|X (B|X) = E(IB (Y)|X). La justicacin de esta denicin est dada por el hecho que o o a PY (B) = E(IB (Y)). En efecto IB (Y) toma valor 1 con probabilidad PY (B) y 0 con probabilidad 1 PY (B). Luego E(IB (Y)) = 1PY (B) + 0(1 PY (B)) = PY (B). En el caso discreto, de acuerdo al Teorema 9.4, se tendr a PY|X (B|X = x) = E(IB (Y)|X = x) =
yRY
IB (y)pY|X (y|x) pY|X (y|x).

yRY B
192
V ctor J. Yohai
En el caso absolutamente continuo, de acuerdo al Teorema 9.9 se tiene PY|X (B|X = x) = E(IB (Y)|X = x)

...
IB (y)fY|X (y|x)dy
=
B
fY|X (y|x)dy.
Obsevamos que fY|X (y|x) actua como una verdadera densidad, en el sentido de que para calcular la probabilidad condicional de un evento B hay que integrar esta funcin sobre ese conjunto. o De acuerdo al Teorema 9.7 se tendr a E(PY|X (B|X)) = PY (B). Para el caso discreto y continuo podemos denir la funcin de distribuo cin de Y condicional X = x, la cual se denotar por FY|X (y|x) y estarn o a a denidas respectivamente por
j
FY|X (y|x) = PY|X (

i=1
(, yi ]|X = x) pY|X (z|x).
=
zRY {z1 y1 }...{zj yj }
FY|X (y|x) = PY|X (

i=1 yj
(, yi ]|X = x)
y1
...
fY|X (z|x)dy.
Es fcil ver que para cada x jo FY|X (y|x) es una verdadera funcin de a o distribucin del vector Y, en el sentido que cumple con las propiedades que o caracterizan a una funcin de distribucin. o o
9.4.
Varianza condicional
Denicin 9.3 Sea X = (X1 , ..., Xk ) un vector aleatorio e Y una variable o aleatoria con varianza nita . Entonces la varianza de Y condicional X = x se dene como Var(Y |X = x) = E((Y E(Y |X = x))2 |X = x), y esta varianza puede considerarse como la varianza de variable X una vez que se conoce que X = x. Denotemos por q(x) = Var(Y |X = x), luego
9.4. Varianza condicional
193
q : Rk R. Llamaremos varianza condicional de Y condicional X a la variable aleatoria Var(Y |X) = q(X) = E((Y E(Y |X))2 |X). (9.15)
Desarrollando el cuadrado en (9.15) y utilizando la Propiedad 9.10 se obtiene Var(Y |X) = E([Y 2 + E 2 (Y |X)2Y E(Y |X)]|X) = E(Y 2 |X)E 2 (Y |X). = E(Y 2 |X)+E 2 (Y |X) 2E(Y |X)E(Y |X)
El siguiente Teorema vincula la varianza condicional con el error cuadrtico a medio del predictor ptimo no lineal YO,N L = E(Y |X). o Teorema 9.10 Supongamos que Y es una variable aleatoria con varianza nita, X un vector aleatorio, y sea YO,N L = E(Y |X), el mejor predictor no lineal de Y basado en X. Luego se tiene (i) ECM(YO,N L , Y ) = E(Var(Y |X)). (ii) E(Var(Y |X)) Var(Y ). (iii) E(Var(Y |X)) = Var(Y ) si y slo si P (E(Y |X) = E(Y )) = 1. o Demostracin. Aplicando el Teorema 9.7 y utilizando la dnicin (9.15) se o o tiene ECM(YO,N L , Y ) = E((Y E(Y |X))2 ) = E(Var(Y |X)), = E(E((Y E(Y |X))2 |X))
y por lo tanto queda demostrado parte (i) del Teorema. Como YO,N L es el predictor con menor error cuadrtico medio en la clase a de predictores P = {Y : Y = t(X), Var(t(X)) < }, y como el predictor optimo constante YO,C = E(Y ) P, se tiene E(Var(Y |X)) = ECM(YO,N L , Y ) ECM(YO,C , Y ) = Var(Y ) = E((Y E(Y ))2 )
y por un Teorema anterior la igualdad vale si y solo si P (YO,N L = YO,C ) = 1. 2
194
V ctor J. Yohai
Cap tulo 10
Convergencia de Variables Aleatorias.

10.1. Convergencia de funciones.
Comenzaremos recordando algunos tipos de convergencia en espacios de funciones. Denicin 10.1 Sea {fn }n una sucesin de funciones denidas sobre o o un conjunto y que toman valores reales. Se dice que fn converge puntualmente a otra funcin f : R si para todo y para todo o > 0, existe n0 N dependiendo de y de tal que si n n0 entonces |fn () f () | < . En general n0 depende de y , es decir n0 = n0 (, ). Cuando la eleccin de n0 puede hacerse con independencia de , se tiene la siguiente o nocin de convergencia. o Denicin 10.2 Sea {fn }n una sucesin de funciones denidas sobre un o o conjunto y que toma valores reales. Se dice que fn converge uniformemente en a otra funcin f si para todo > 0, existe n0 N tal que si o n n0 entonces |fn () f () | < para todo A. Observacin. Es inmediato ver que si {fn }n converge uniformemente o en entonces {fn }n converge puntualmente. La rec proca es falsa. Por ejemplo, si denimos fn () = n para [0, 1] entonces la sucesin o converge puntualmente a la funcin o f () = 0 1 si 0 < 1 si = 1
para todo [0, 1] pero no converge uniformemente en [0, 1]. 195
196
V ctor J. Yohai
Veremos ahora algunos tipos de convergencia para variables aleatorias que hacen uso de la estructura del espacio de probabilidades. Existen varios tipos de convergencia, pero en este curso consideraremos slo dos: la convergencia casi segura y la convergencia en probabilidad. o
10.2.
Convergencia casi segura y en probabilidad.
Consideremos un espacio de probabilidades (, A, P ). Sea {Xn }n una sucesin de variables aleatorias denidas sobre este espacio y X otra variable o aleatoria tambin denida sobre el mismo espacio. e Denicin 10.3 Diremos que una sucesin de variables aleatorias {Xn }n o o converge casi seguramente a otra variable aleatoria X (Xn X c.s.) sii P ({ : Xn () X ()}) = 1.
Observacin. En teor de la medida, este tipo de convergencia se denomina o a convergencia en casi todo punto y se la nota Xn X p.p. o bien Xn X c.t.p. Denicin 10.4 Diremos que una sucesin de variables aleatorias{Xn }n o o converge en probabilidad a otra variable aleatoria X sii para todo > 0 se tiene l m P ({ : |Xn () X()| }) = 0. (10.2)
n+
Notacin. Si la sucesin de variables aleatorias {Xn }n converge en proo o babilidad a la variable aleatoria X escribiremos Xn X.
P
Observaciones. 1. Equivalentemente, (10.2) puede reescribirse como

n+
l m P ({ : |Xn () X()| < }) = 1.
2. La convergencia en probabilidad signica que jado > 0 hay un subconjunto de de probabilidad tan cercana a uno como se quiera en el que la distancia entre Xn y X se puede hacer menor que con tal de tomar n sucientemente grande. 3. En teor de la medida la convergencia en probabilidad se denomina a convergencia en medida. Teorema 10.1 Sea {Xn }n una sucesin de variables aleatorias denidas o sobre un espacio de probabilidad (, A, P ) y X otra variable aleatoria denida sobre el mismo espacio. Son equivalentes:

(10.1)
10.2. Convergencia casi segura y en probabilidad.

P
197
(i) Xn X. (ii) Para todo > 0 y todo > 0 existe n0 N tal que si n n0 entonces P (|Xn X| ) . (iii) Para todo > 0, existe n0 N tal que si n n0 entonces P (|Xn X| ) . Demostracin. (ii) es equivalente a (i) como consecuencia directa de la denio cin de convergencia en probabilidad. La equivalencia entre (ii) y (iii) se o deja como ejercicio. 2 El siguiente teorema establece que la convergencia casi segura (10.1) implica la convergencia en probabilidad (10.2). o Teorema 10.2 Sea {Xn }n una sucesin de variables aleatorias denidas sobre un espacio de probabilidad (, A, P ) y X otra variable aleatoria denida sobre el mismo espacio. Entonces (i) La sucesin Xn converge casi seguramente a X sii o
l P ( m
(ii) Si Xn converge casi seguramente a X entonces Xn converge en probabilidad a la variable aleatoria X. Demostracin. o (i) Llamemos A al conjunto de los puntos de donde Xn () X(). Luego A = { : Xn () X ()}. Decir que A es equivalente a decir que para todo > 0 existe m N tal que para todo n m se tiene |Xn () X () | < , m depender de . Entonces, si para cada > 0 denimos a Bn, = { : |Xn () X () | < }. el conjunto A resulta A=
>0
n=m
{|Xn X| }) = 0.
(10.3)
m=1 nm
Bn, .
198
V ctor J. Yohai
Sabemos que la convergencia casi segura se dene por P (A) = 1 o equivalentemente por P (Ac ) = 0. Pero para poder usar propiedades de probabilidad en el clculo de P (A) nos conviene tener escrito al a conjunto A como una numerable cantidad de uniones e intersecciones de eventos. Por ello,.como basta elegir tan chico como se quiera, nos podemos limitar a tomar = 1/k . Luego tambin tenemos e

A=
k=1
Observemos que
m=1 nm
Ac =
k=1
Bn, 1 .
k
m=1 nm
k
Luego, como Ac es una unin numerable, P (Ac ) = 0 si y slo si para o o todo k N se tiene
m=1 nm
k
c Bn, 1 .
En la notacin del Cap o tulo 1 (Denicin 1.3, pgina 15), esto es el o a c c l mite inferior de los conjuntos Bn 1 . Como Bn, es cereciente
k
con , esto es equivalente a que para todo > 0
Denamos
m=1 nm
c Bn, = 0. c Bn, .
Cm, =
nm
Claramente, para todo > 0 la sucesin {Cm, }m1 es creciente (no o necesariamente estrictamente creciente), de manera que

Luego se tendr que (10.4) es equivalente a a

m
m=1 nm
c Bn, = P
Cm,
m=1
l P (Cm, ) = 0, m
es decir,
m
l P m
nm
c Bn, = 0.
c Bn 1 = 0.
(10.4)
= l P (Cm, ) . m
10.3. Preservacin de la convergencia por funciones continuas. o
199
Pero como (i) queda demostrado.

c Bn, = {|Xn X| },
(ii) Supongamos que Xn X c.s. Luego se cumple (10.3) y como
{|Xm X| }
n=m
{|Xn X| },
por la monoton de la probabilidad resulta a

m
l P ({|Xm X| }) = 0. m
Por lo tanto Xn 0. 2 Observacin. Notemos que en esta demostracin hemos probado que o o A = { : Xn () X ()}

k=1
m=1 nm
Bn, 1
k k
=
k=1
l inf Bn, 1 m
n
o, equivalentemente Ac = { : Xn ()

k=1
m=1 nm
c Bn, 1
k k
X ()}
=
k=1
l sup Bn, 1 . m
n
Veremos que la rec proca de la parte (ii) de este teorema es falsa. Incluso puede ocurrir que exista convergencia en probabilidad, pero que el conjunto de los puntos donde haya convergencia puntual sea vac o.
10.3.
Preservacin de la convergencia por funciones o continuas.
Los siguientes dos teoremas muestran que las funciones continuas preservan los dos tipos de convergencia que hemos denido: convergencia en probabilidad y convergencia casi segura.
200
V ctor J. Yohai
Teorema 10.3 Sea g : R2 R continua y supongamos que las sucesiones de variables aleatorias (Xn )n1 , (Yn )n1 convergen casi seguramente a las variables aleatorias X e Y. Entonces (g (Xn , Yn ))n1 converge casi seguramente a la variable aleatoria g (X, Y ) . Observacin. La propiedad vale en general para g : Rk R continua. Si o (j) Xn X (j) c.s. para j = 1, 2, ..., k entonces
n1 (1) (2) (k) g X (1) , X (2) , ..., X (k) g Xn , Xn , ..., Xn
c.s.
Demostracin. Sean A = { : Xn () X ()} y B = { : Yn () Y ()}. o Como P (A) = P (B) = 1, tambin se tendr P (A B) = 1. En efecto e a 0 P ((A B)c ) = P (Ac B c ) P (Ac ) + P (B c ) = 0. Ahora si A B entonces Xn () X() e Yn () Y (). Luego, por la continuidad de g se tiene g (Xn () , Yn ()) g (X () , Y ()) . Por lo tanto A B { : g (Xn () , Yn ()) g (X () , Y ())}, y en consecuencia como 1 = P (A B) P ({ : g (Xn () , Yn ()) g (X () , Y ())}) 1, el Teorema queda demostrado.2 Teorema 10.4 (i) Si Yn Y c.s. y Xn X c.s. entonces Xn + Yn X + Y c.s. (ii) Si Yn Y c.s. y Xn X c.s. entonces Xn Yn XY c.s. Xn X (iii) Si Yn Y c.s. con P (Y = 0) = 0 y Xn X c.s. entonces Yn Y c.s. Demostracin. o (i) y (ii) resultan de que las funciones g(x, y) = x + y y g(x, y) = xy son continuas y (iii) del hecho que g(x, y) = x/y es continua si y = 0. 2 Para demostrar una propiedad similar para la convergencia en probabilidad necesitamos algunos resultados previos. Comenzamos probando que toda variable aleatoria es acotada en probabilidad. Esto signica que X est dentro de un compacto, con probabilidad tan cercana a uno como se a quiera.
201
Teorema 10.5 Sea X una variable aleatoria. Dado > 0 existe K tal que P (|X| K) < . Demostracin. o Consideremos la sucesin de conjuntos o An = {|X| n}. Esta sucesin es montona decreciente, es decir, An+1 An y adems o o a An = . Entonces n=1 l P (An ) = 0. m
n
Luego, dado > 0 existe n0 N tal que P (An0 ) < , es decir P (An0 ) = P ({|X| n0 }) < . Luego el Teorema es cierto tomando K = n0 .2 Probaremos ahora un resultado ms fuerte: sucesiones de variables que a convergen en probabilidad estn acotadas en probabilidad uniformemente. a Teorema 10.6 Sea (Xn )n1 una sucesin de variables aleatorias que cono verge en probabilidad a la variable aleatoria X. Entonces dado > 0 existe K tal que P (|X| K) < y tal que para todo n P (|Xn | K) < . Demostracin. o En primer lugar podemos hallar, de acuerdo al Teorema 10.5, K0 de forma tal que P (|X| K0 ) < . 2 Teniendo en cuenta que |Xn | |Xn X| + |X| se prueba fcilmente que a {|Xn | K0 + 1} {|Xn X| 1} {|X| K0 }. En efecto, supongamos que {|Xn X| 1} {|X| K0 }. / Luego |Xn () X () | < 1 y |X () | < K0 y por lo tanto por (10.5) resulta |Xn ()| < K0 + 1. (10.6) (10.5)
202
P
V ctor J. Yohai
Debido a que Xn X en probabilidad podemos encontrar n0 tal que si n n0 P (|Xn X| 1) < . 2 Tomando probabilidades en ambos miembros de (10.6) obtenemos P ({|Xn | K0 + 1}) P ({|Xn X| 1}) + P ({|X| K0 }) < + = 2 2 para todo n n0 . Adems por el Teorema 10.5, para cada i tal que 1 i a n0 podemos encontrar Ki tal que P (|Xi | Ki ) . Luego tomando K = mx a se obtiene la tesis. 2 Ahora estamos en condiciones de probar la propiedad de que las funciones continuas conservan la convergencia en probabilidad. Teorema 10.7 Sea g : R2 R continua y supongamos que las sucesiones (Xn )n1 e (Yn )n1 convergen en probabilidad a las variables aleatorias X e Y, respectivamente. Entonces (g (Xn , Yn ))n1 converge en probabilidad a la variable aleatoria g (X, Y ) . Observacin. Vale la misma observacin hecha para el caso de la convero o gencia casi segura en cuanto a que este teorema es vlido para funciones a continuas denidas en Rk y vectores aleatorios k dimensionales. Demostracin. o Queremos probar que dado > 0 existe n0 N tal que si n n0 P (|g (Xn , Yn ) g(X, Y )| ) < . (10.7)
1in0
mx {Ki }, K0 + 1 , a
pues por el Teorema 10.1 esto garantiza la convergencia en probabilidad. De acuerdo al Teorema 10.5 podemos hallar un K tal que simultneaa mente P (|Xn | K) < n 6 P (|X| K) < 6 P (|Yn | K) < n 6 P (|Y | K) < . 6
203
Esto puede lograrse considerando primero un K1 que cumpla con las dos primeras desigualdades, despus un K2 que cumpla con las siguientes dos y e tomando K = mx{K1 , K2 }. a Sea C = [K, K] [K, K] . Como g es continua y C es compacto entonces g resulta uniformemente continua en C. Luego existe > 0 tal que si |x x | < , |y y | < y mx {|x|, |x |, |y|, |y |} K entonces a |g (x, y) g x , y | < . (10.8)
Por la convergencia en probabilidad existe n0 N tal que si n n0 entonces P (|Xn X| ) < (10.9) 6 (10.10) P (|Yn Y | ) < . 6 Esto se logra considerando un valor n1 para la sucesin (Xn )n1 , un valor o n2 para la sucesin (Yn )n1 y luego tomando n0 = mx{n1 , n2 }. o a Ahora denimos los conjuntos A1n = {|Xn X| }
A2n = {|Yn Y | } A4n = {|Yn | K} A5n = {|X| K} A6n = {|Y | K}. A3n = {|Xn | K}
Si bien A5n , A6n no dependen de n, usamos la notacin por conveniencia. o Vamos a mostrar que si llamamos
6
Bn =
i=1
Ain ,
entonces
c Para esto debemos mostrar que para todo n n0 en Bn se tiene
{|g (Xn , Yn ) g(X, Y )| } Bn . |g (Xn , Yn ) g(X, Y )| < .
(10.11)
En efecto, como
6 c Bn = ( i=1 6
Ain )c =
i=1
Ac , in
204
V ctor J. Yohai
c resulta que cuando Bn es cierto Xn , X, Yn , Y estn en el compacto C y a adems |Xn X| e |Yn Y | . Luego por (10.8) resulta (10.11). Luego a para todo n n0 6
P ({|g (Xn , Yn ) g (Xn , Yn ) | }) P (Bn ) y el Teorema queda demostrado.2
i=1
P (Ain ) < 6 = , 6
Anlogamente a lo observado para la convergencia casi segura se tienen a los siguientes corolarios. Teorema 10.8
P
(i) Si Yn Y y Xn X entonces Xn + Yn X + Y.
P P
(ii) Si Yn Y y Xn X c.s entonces Xn Yn XY . (iii) Si Yn Y con P (Y = 0) = 0 y Xn X entonces Demostracin. o Similar a la demostracin del Teorema 10.4. 2 o
P P
Xn P X . Yn Y
10.4.
Ley dbil de los grandes n meros. e u
Teorema 10.9 (Desigualdad de Markov) Sea X una variable aleatoria y g una funcin par, no negativa y no decreciente en el mdulo, esto o o es si |x| > |y| entonces g (x) g (y) . Supongamos adems que g (X) tiene a esperanza nita, es decir que E (g (X)) < . Entonces si > 0 es tal que g () > 0, vale que E (g (X)) P (|X| ) . g () Demostracin. o Consideremos el conjunto A = { : |X()| } . Entoces {A, Ac } es una particin del espacio muestral . Luego IA (x) + IAc (x) = 1, y como o todas las variables son no negativas y g(x) es nodecreciente en |x|, tenemos g (X) = g (X) IA (X) + g (X) IAc (X) g()IA (X) . Luego tomando esperanza obtenemos E (g (X)) g () E (IA ) = g () P ({|X| }) . g (X) IA (X)
10.4. Ley dbil de los grandes nmeros. e u
205
De esta desigualdad se obtiene inmediatamente el resultado buscado. 2 En particular tomando g (x) = x2 se obtiene la siguiente versin de la o Desigualdad de Tchebichev P ({|X| }) E X2 . 2
Por otro lado si consideramos la variable aleatoria X E (X) obtenemos la versin (clsica) de la desigualdad de Tchebichev o a P ({|X E (X)| }) E [X E (X)]2 2 = Var (X) . 2
Tomando complementos esta desigualdad puede escribirse como P ({|X E (X)| < }) 1 Var (X) . 2
Luego si la Var (X) es pequea (o sea hay poca dispersin), la probabilidad n o de que la variable X tome valores en el intervalo (E (X) , E (X) + ) ser grande. a Ahora estamos en condiciones de estudiar la ley de los grandes nmeros u en sus dos versiones: dbil y fuerte. La importancia de estas leyes, es que e permite dar fundamento matemtico a la argumentacin heur a o stica que interpreta la esperanza de una variable aleatoria como el valor al cual tiende el promedio de varias realizaciones de la variable correspondientes a la repeticin de experimentos independientes. Tambin permite fundamentar la noo e cin heur o stica de la probabilidad de un evento como el valor l mite de las frecuencias relativas con que ocurre el evento cuando se repiten muchos experimentos independientes. La ley dbil expresa estos resultados en trminos e e de convergencia en probabilidad y la ley fuerte en trminos de convergencia e casi segura. Teorema 10.10 (Ley dbil de los grandes n meros) Sea (Xn )n1 una e u sucesin de variables aleatorias no correlacionadas, es decir Cov (Xi , Xj ) = o 2 0 si i = j, tal que E (Xi ) = i y Var (Xi ) = i para cada i = 1, 2, .... Consideramos la sucesin de variables aleatorias X n n1 donde X n es el o promedio de las primeras n variables. Luego Xn = y sea n = E(X n ) dada por n = 1 n
n
1 n
Xi ,
i=1
i .
i=1
206 Entonces si
n
V ctor J. Yohai
l m
1 n2
n 2 i i=1 P
= 0,
(10.12)
se tiene Demostracin. o Se tiene que
X n n 0.
1 Var(X n ) = 2 n y por Tchebichev P ( X n n ) Tomando l mite resulta que l P ( X n n ) m
n 2 i , i=1
Var(X n ) 1 = 2 2 2 n
n 2 i . i=1
1 1 l m 2 n n2
n 2 i = 0 i=1
y luego el Teorema queda demostrado. 2 Observaciones. 1. Si (Xn )n1 es una sucesin de variables aleatorias independientes, eno tonces las variables Xn son no correlacionadas y el Teorema puede aplicarse.
2 2. Una condicin suciente para que se cumpla (10.12) es que {i } sea o 2 una sucesin acotada. En efecto, si i K para todo i, se obtiene o
1 n2
n i=1 2 i
Kn K = 0. n2 n
En particular, esta condicin se cumple si todas las variables tienen o igual varianza. 3. Si todas las variables tienen igual media, digamos i = , se tiene que P n = , y entonces X n 0 o, lo que es equivalente, X n . 4. En particular si (Xn )n1 es una sucesin de variables no correlao cionadas igualmente distribuidas con E(Xn ) = y Var(Xn ) = 2 , se tendr X n . a
P P
10.5. Ley fuerte de los grandes nmeros. u
207
5. Veremos ahora como esta ley debil permite fundamentar el concepto de probabilidad de un evento. Sea (, A, P ) un espacio de probabilidad y A un evento. Supongamos que realizamos n experimentos independientes y denimos Xi () = Denamos Xn = Se tiene E (Xi ) = 1.P (A) + 0P (Ac ) = P (A) , y como Xi2 = Xi Var (Xi ) = E(Xi2 ) E(Xi )2 = P (A) P (A)2 = E(Xi ) E(Xi )2 1 n 1 si en el experimento i, A 0 si en el experimento i, A. /
n
Xi .
i=1
= P (A) (1 P (A)) .
Luego, como adems las variables Xi son independientes, de acuerdo a a la ley dbil de los grandes nmeros se tendr e u a X n E (Xi ) = P (A) .
P
(10.13)
Obsrvese que X n es la frecuencia relativa de ocurrencia del evento e A en n repeticiones independientes del experimento. Entonces (10.13) puede interpretarse como que la frecuencia relativa de ocurrencia del evento A tiende (en probabilidad) a su probabilidad.
10.5.
Ley fuerte de los grandes n meros. u
Para probar la ley fuerte de los grandes nmeros necesitaremos algunos u teoremas previos. Teorema 10.11 (Desigualdad de Kolmogorov) Sean X1 , ..., Xn varia2 bles independientes con E (Xi ) = 0. Supongamos que i = Var (Xi ) < y consideremos las sumas parciales Si = i Xj . Entonces j=1 P mx |Si | a 1 2
n 2 i . i=1
1in
(10.14)
208
V ctor J. Yohai
Observacin. Vamos a mostrar que la desigualdad de Kolmogorov es un o renamiento de la desigualdad de Tchebichev. Para ver esto, apliquemos la desigualdad de Tchebichev a la variable aleatoria Sn . Obtenemos P (|Sn | ) 1 1 Var (Sn ) = 2 2
n 2 i . i=1
(10.15)
Observemos que |Sn | mx1in |Si | de manera que a {|Sn | } y por lo tanto P ({|Sn | }) P Demostracin. Sea o A=
1in 1in 1in
mx |Si | , a
mx |Si | . a
Luego resulta que (10.14) implica (10.15). mx |Si | , a
y consideremos para cada i los conjuntos Ai = {|S1 | < , |S2 | < , . . . , |Si1 | < , |Si | }. Estos eventos son disjuntos dos a dos y forman una particin de A. Luego o
n
A=
i=1
Ai ,
y por lo tanto se deduce que

n
IA =
i=1 2 Luego como Sn IAc 0 se deduce que
IAi .
n 2 Sn
2 Sn IA
2 Sn IAc
2 Sn IA
2 Sn i=1
IAi .
Tomando esperanza en ambos miembros resulta

n
2 Sn
2 E Sn IAi . i=1
(10.16)
2 Para cada trmino Sn IAi resulta e 2 2 Sn IAi = (Si + Ti )2 IAi = Si IAi + Ti2 IAi + 2Si Ti IAi ,
(10.17)
209
donde Ti =
Xj .
j=i+1
Ahora probaremos que E (Si Ti IAi ) = 0. Por un lado observamos que Si depende slo de X1 , ...Xi y lo mismo ocurre con IAi . Como Ti depende o slo de Xi+1 , . . . , Xn , resulta que Si IAi es independiente de Ti . Luego como o E (Ti ) = 0 se obtiene E (Si Ti IAi ) = E ([Si IAi ] Ti ) = E (Si IAi ) E (Ti ) = 0. (10.18) Tomando esperanza en (10.17) y teniendo en cuenta (10.18) y el hecho de que en Ai se tiene |Si |
2 2 E Sn IAi = E(Si IAi ) + E(Ti2 IAi ) 2 E(Si IAi )
E(IAi ) = P (Ai ).
n
Luego por (10.16) resulta E

2 Sn
2 E Sn IAi i=1 n 2 i=1
P (Ai )
= 2 P (A) , o sea
2 E Sn P (A) 2 n 1 2 i . 2 = 2 i=1
Para probar la ley fuerte de los grandes nmeros necesitamos tambin el u e siguiente teorema. Teorema 10.12 Sea (Xn )n1 una sucesin de variables aleatorias. Una o condicin suciente para que o Xn X c.s. es que para todo > 0 exista una sucesin creciente de enteros positivos o r1 < r2 < < rn que puede depender de tal que
ri+1 1 n=ri i=1
donde Bn = {|Xn X| < }.
c Bn < ,
(10.19)
210
V ctor J. Yohai
Demostracin. Recordemos el resultado ya probado en el Teorema 10.2 que o establece que Xn X c.s. si y slo si o
m
l P m
n=m
c Bn
= 0.
(10.20)
Supongamos que se cumple (10.19). Veremos que entonces se cumple (10.20). Sea > 0, entonces (10.19) implica que existe i0 tal que
ri+1 1 n=ri i=i0
Pero entonces
c Bn < .
Esto implica que (10.20) se cumple. 2
n=ri0
c Bn = P
ri+1 1
i=i0 n=ri
c Bn
i=i0
ri+1 1 n=ri
c Bn < .
Teorema 10.13 (Ley fuerte de los grandes n meros) Sea (Xn )n1 una u sucesin de variables aleatorias independientes tal que E (Xi ) = i y Var(Xi ) = o 2 i para cada i N. Consideremos la sucesin de variables aleatorias X n n1 o denida por n 1 Xn = Xi n
i=1
y sus respectivas medias n = E(X n ) = Entonces si 1 n

n
i .
i=1
i=1
2 i < , i2
(10.21)
se tiene X n n 0 c.s. Demostracin. Basta probar el teorema suponiendo que para todo i, i = 0. o Para ver esto, supongamos que el teorema fuera vlido cuando para todo a i, i = 0 y deduzcamos de esto el caso general, esto es, cuando para cada i la E (Xi ) = i arbitraria. Para ello, consideremos nuevas variables Yi = 2 Xi i . Entonces E (Yi ) = 0 y Var (Yi ) = Var(Xi ) = i . Las variables Yi
211
son independientes y luego se cumple Y n 0 c.s. Pero como Y n = X n n , resulta tambin X n n 0 c.s. Luego para demostrar el teorema podemos e suponer que i = 0 para todo i. Usaremos el Teorema 10.12, tomando ri = 2i1 . Luego si llamamos
2i 1
bastar demostrar que a
i = P
i=1
n=2i1
c Bn ,
i < .
Si llamamos Sn =
n i=1 Xi
i = P =P =P P P
tenemos que X n = Sn /n. Luego

2i 1 n=2i1 2i 1 n=2i1 2i 1 n=2i1 2i 1 n=2i1 2i 1 n=1 c Bn
|X n | {|Sn | n} (10.22)
{|Sn | 2i1 }
Usando la Desigualdad de Kolmogorov (Teorema 10.11) resulta

2i 1 n=1
{|Sn | 2i1 } . mx a
{|Sn | 2i1 } = P
1n2i 1 2i 1
|Sn | 2i1
4i1 2 1 4i1 2
Var (Xj )
j=1 2i 1 2 j . j=1
(10.23)
Entonces de (10.22) y (10.23) obtenemos para cada i i 1 4i1 2

2i 1 2 j , j=1
212 y cambiando el orden de sumacin resulta o

i=1
V ctor J. Yohai
i =
1 4i1 2
2 j j=1
2i 1 2 j j=1
i=1
1 2
1
i: 2i 1j
4i1
(10.24)
La desigualdad 2i 1 j es equivalente a i y entonces podemos escribir 1

i: 2i 1j
ln (j + 1) = i0 (j) , ln (2)
4i1
=4
ii0 (j)
1 4i
= 4a0 = 16 a0 , 3
1 1
1 4
(10.25)
donde a0 es el primer trmino de la serie geomtrica. e e 1 . 4i (10.26)
ii0 (j)
Por otro lado 2i 1 j implica que 4i j 2 , es decir para todos los trminos e de la serie geomtrica (10.26) obtenemos e 1 1 2, 4i j y en particular se tendr a a0 Entonces por (10.25 y (10.27) se tiene 1 16 16 1 16 1 = a0 = , 4i1 3 3 j2 3 j2 1 . j2
(10.27)
2i 1j
y de acuerdo a (10.24) se tiene

i=1
16 i 32
j=1
2 j
j2
<.
10.6. Teorema de la Convergencia Dominada
213
Esto prueba la Ley Fuerte de los Grandes Nmeros. 2 u Observacin. La condicin (10.21) se cumple si todas las varianzas estn o o a 2 K acotadas. En efecto, si existe una constante K tal que para todo i, i entonces como se tiene 1 < , i2
i=1
resulta
i=1
2 i K i2
i=1
1 < . i2
2 Para el caso en que para todo i, i = , i = 2 se cumple efectivamente que 1 < , 2 i2 y por lo tanto X n 0 c.s.,
o equivalentemente X n c.s. Todas las consideraciones posteriores a la ley dbil que discuten como e sta fundamenta las nociones heur e sticas de esperanza de un variable aleatoria y de probabilidad de un evento siguen valiendo, reemplazando la convergencia en probabilidad por convergencia casi segura.
10.6.
Teorema de la Convergencia Dominada
Ahora daremos una demostracin del Teorema de la Convergencia Domo inada (Lebesgue). Antes necesitamos el siguiente caso particular. Teorema 10.14 Sean (Xn )n1 una sucesin de variables aletorias no nego ativas y Z una variable aleatoria no negativa con E (Z) < que domina
P
todos los trminos de la sucesin, es decir 0 Xn Z. Entonces si Xn 0 e o se tiene E (Xn ) 0.
Demostracin. Recordemos que si Z 0 la condicin de E (Z) < es o o k equivalente a 0 zdFZ < y esto es equivalente a l k k zdFZ = 0. m Vamos a demostrar que dado > 0 existe n0 tal que si n n0 entonces E (Xn ) < . Dado K > 0 (arbitrario) particionamos al espacio de la siguiente manera = Xn < Xn K {Xn > K}. 3 3
214 Entonces
V ctor J. Yohai
0 Xn = Xn I{Xn /3} + Xn I{/3<Xn K} + Xn I{Xn >K} + KI{Xn >/3} + ZI{Z>K} . 3 Tomando esperanza en ambos miembros se tiene E (Xn ) + E ZI{Z>K} . + KP Xn > 3 3
(10.28)
(10.29)
Sea YK = ZI{Z>K} , luego si y < 0 0 FYK (y) = FZ (K) si 0 y K FZ (y) si y > K, E(ZI{Z>K} ) = E(YK )
+
y entonces
=
K
zdFZ .
Dado que E (Z) < existe K0 tal que E ZI{Z>K0} < . 3

P
(10.30)
Una vez elegido K0 , usando que Xn 0, podemos encontrar n0 tal que para todo n n0 se tiene P Xn > . < 3 3K0 (10.31)
Luego de (10.29), (10.30) y (10.31) resulta que para todo n n0 0 E (Xn ) + = , + K0 3 3K0 3
y el Teorema queda demostrado. 2 Ahora probaremos el Teorema de la Convergencia Dominada en el caso general. Teorema 10.15 (Teorema de la Convergencia Dominada) Sea (Xn )n1 una sucesin de variables aleatorias tal que existe un variable Z 0 con o P a E (Z) < y |Xn | Z para todo n. Entonces si Xn X se tendr E (Xn ) E (X) .
10.6. Teorema de la Convergencia Dominada
215
Demostracin. Debemos probar que o

n
l |E (Xn ) E (X)| = 0. m
Ahora bien, por una propiedad de la esperanza |E (Xn ) E (X)| = |E (Xn X)| E (|Xn X|) , de manera que bastar con probar que a
n
l E (|Xn X|) = 0. m Yn = |Xn X| 0,
(10.32)
Sea luego como Xn X resulta Yn 0. Como {|X| > Z + 1} {|Xn | > Z} {|Xn X| > 1}, y dado P (|Xn | > Z) = 0 se tendr para todo > 0, a P (|X| > Z + 1) P (|Xn X| > 1) y por lo tanto como Xn X P (|X| > Z + 1) l P (|Xn X| > 1) = 0. m
n P P P
Esto muestra que para todo > 0 se tiene P (|X| Z + 1) = 0. Luego con probabilidad 1 se tiene Yn |Xn |+|X| 2Z +1, y estamos en la situacin del Teorema 10.14. Por lo tanto podemos concluir que E (Yn ) o 0. Luego (10.32) se cumple y el teorema queda demostrado. 2
216
V ctor J. Yohai
Cap tulo 11
Convergencia en Distribucin. o
11.1. Denicin de convergencia en distribucin. o o
Tanto la convergencia casi segura como la convergencia en probabilidad se basan en el concepto de proximidad entre variables aleatorias. Veremos ahora un tipo de convergencia que se basa en la proximidad entre las respectivas funciones de distribucin. o Denicin 11.1 Sea (Fn )n1 una sucesin de funciones de distribucin o o o denidas sobre R y F otra funcin de distribucin. Diremos que la sucesin o o o Fn converge dbilmente a F si para todo punto x de continuidad de F, las Fn e convergen puntualmente a F . Es decir, si para todo x tal que F es continua en x se tiene que l Fn (x) = F (x) . m
n
Notacin. Si {Fn }n1 converge dbilmente en distribucin a F escribiremos o e o Fn F. Observacin. Recordemos que una funcin de distribucin denida sobre o o o R se caracteriza por las propiedades P1, P2, P3 y P4 del teorema 2.5 y que el conjunto de puntos donde es discontinua es a lo sumo numerable. Denicin 11.2 Sea (Xn )n1 una sucesin de variables aleatorias y F una o o funcin de distribucin. Diremos que la sucesin Xn converge en distribuo o o e cin a F sii (FXn )n1 converge dbilmente a F. o Notacin. Si (Xn )n1 converge en distribucin a F escribiremos o o Xn F. 217
D D
218
V ctor J. Yohai
Observacin. Por extensin tambin diremos que (Xn )n1 converge en o o e distribucin a X sii FXn FX . o Al decir que (Xn )n1 converge en distribucin a X hay un abuso de o lenguaje puesto que las variables Xn no se aproximan a X, sino que son las funciones de distribucin de las Xn las que se aproximan a la funcin de o o distribucin de X. o Consideremos el caso donde X e Y son dos variables independientes D con distribucin N (0, 1) . Denamos para todo n, Xn = X entonces Xn o Y y sin embargo como las variables X e Y son independientes, X no se aproxima a Y . Veamos ahora la relacin que existe entre la convergencia en probabilidad o y la convergencia en distribucin. o Teorema 11.1 Sea (Xn )n1 una sucesin de variables aleatorias y X otra o variable aleatoria. Entonces P Xn X implica que Xn X. Demostracin. Sea FX la funcin de distribucin de X y x un punto de o o o continuidad.de FX . Probemos primero que {Xn x} {X x + } {|Xn X| }. (11.1)
D D
Para esto basta demostrar que si no est en ninguno de los dos conjunto a que forman la unin en el miembro derecho, entonces no est en {Xn x}. o a Sea tal que X() > x + y |Xn () X()| < . Luego Xn () = X() + (Xn () X()) >x+ = x, X() |Xn () X()|
probando (11.1). Tomado probabilidades en ambos miembros se obtiene FXn (x) FX (x + ) + P (|Xn X| ) . Tomando l mite superior en ambos miembros y teniendo en cuenta que
n
l P (|Xn X| ) = 0 m
(11.2)
se obtiene
n
l FXn (x) FX (x + ) , m
11.1. Denicin de convergencia en distribucin. o o
219
y haciendo que 0, en virtud de que las funciones de distribucin son o continuas a derecha se tiene que
n
l FXn (x) FX (x) . m
(11.3)
Ahora hacemos un razonamiento similar a izquierda de x. Consideramos la inclusin o {X x } {Xn x} {|Xn X| }. Tomado probabilidades en ambos miembros se obtiene FX (x ) FXn (x) + P (|Xn X| ). Tomando l mite inferior en ambos miembros y usando (11.2) se obtiene F (x ) l n FXn (x) , m y haciendo que 0, en virtud de la continuidad de FX en x F (x) l n FXn (x) . m De (11.3) y (11.4) resulta
n
(11.4)
m l FXn (x) FX (x) l n FXn (x) , m m l n FXn (x) l FXn (x) , m

n
y como
debe ser
n
m l FXn (x) = l n FXn (x) = FX (x) . m
a Luego existe el l mite de (FXn ) en el punto x y adems

n
l FXn (x) = F (x) . 2 m
Observacin. La rec o proca no vale en general. Pero s es cierta en el caso en que P (X = C) = 1, donde C es una constante. Luego tenemos el siguiente teorema cuya demostracin queda como ejercicio. o Teorema 11.2 Supongamos que Xn X y P (X = C) = 1. Entonces
P D
Xn X.
220
V ctor J. Yohai
11.2.
Funciones caracter sticas.
Una herramienta muy importante para la demostracin del Teorema o Central del L mite es la funcin caracter o stica asociada a una distribucin. o Para denirla necesitaremos presentar el concepto de variable aleatoria compleja.
11.2.1.
Variables aleatorias complejas.
Denicin 11.3 Sea (, A, P ) un espacio de probabilidad. Se dice que X o es una variable aleatoria compleja si X : C (C indica el conjunto de nmeros complejos) es de la forma X = X1 + iX2 con X1 y X2 variables u aleatorias reales. Denicin 11.4 Sea la variable aleatoria compleja X = X1 + iX2 , donde o X1 y X2 tienen esperanza nita. Denimos la esperanza de X como E (X) = E (X1 ) + iE (X2 ) . Observacin. E (X) C. La parte real e imaginaria de la esperanza son o respectivamente Re (E (X)) = E (X1 ) e Im E (X) = E (X2 ) . Denicin 11.5 Diremos que dos variables aleatorias complejas X = X1 + o iX2 e Y = Y1 + iY2 son independientes si el vector aleatorio X = (X1 , X2 ) es independiente del vector aleatorio Y = (Y1 , Y2 ) . Algunas propiedades Veamos ahora algunas propiedades que cumplen las variables complejas, en analog con las que ya probamos para variables aleatorias reales. a Propiedad 11.1 Sean X = X1 +iX2 e Y = Y1 +iY2 dos variables aleatorias complejas independientes. Entonces E (XY ) = E (X) E (Y ) . Demostracin. La demostracin se basa en el clculo directo usando la denio o a cin y la propiedad anloga para variables aleatorias reales independientes o a E (XY ) = E [(X1 + iX2 ) (Y1 + iY2 )] = E (X1 Y1 X2 Y2 ) + iE (X2 Y1 + Y2 X1 ) = = E [(X1 Y1 X2 Y2 ) + i (X2 Y1 + Y2 X1 )]
= (E (X1 ) + iE(X2 ))(E (Y1 ) + iE(Y2 )) = E (X) E (Y ) . 2
= E (X1 ) E (Y1 ) E (X2 ) E (Y2 ) + iE (X2 ) E (Y1 ) + iE (Y2 ) E (X1 )
= E (X1 Y1 ) E (X2 Y2 ) + iE (X2 Y1 ) + iE (Y2 X1 ) =
11.2. Funciones caracter sticas.
221
Propiedad 11.2 Sea una variable compleja X = X1 + iX2 . Entonces |E (X)| E (|X|) . Demostracin. Podemos suponer que E (X) = 0 pues en tal caso la desigualo dad se cumple. Como E (X) = E (X1 ) + iE (X2 ) C podemos escribir E (X) = rei para cierto r > 0, 0 < 2. Consideremos la variable aleatoria compleja Y = ei X y veriquemos que su esperanza es real E (Y ) = E ei X = ei E (X) = r > 0. Hemos probado con anterioridad que la propiedad se cumple para esperanzas de variables aleatorias reales. Luego |E (Y )| E (|Y |) . A partir de esto se deduce la tesis, pues |E (X)| = r = E (Y ) = |E (Y )| E (|Y |) = E (|X|) . 2
11.2.2.
Denicin de funcin caracter o o stica y propiedades.
Denicin 11.6 Sea X una variable aleatoria y FX su funcin de distribuo o cin. Denimos a la funcin carcter o o stica de X por la funcin X : R C o asociada a FX de la siguiente manera X (t) = E (exp (itX)) = E (cos (tX)) + iE (sen (tX)) . Observacin. Como las variables cos (tX) , sen (tX) son acotadas, las eso peranzas de estas variables existen y son nitas. El motivo de la introduccin de la funcin caracter o o stica es poder estudiar ms facilmente la distribucin de la suma de variables aleatorias indepena o dientes. Mientras que la funcin de distribucin de esta suma (que se obtiene o o por convoluciones) puede ser muy complicada, su funcin caracter o stica es muy simple, como se desprende de la Propiedad 11.3 que damos a continuacin. Por otro lado, como veremos ms adelante, hay una correspondencia o a biun voca entre funciones de distribucin y funciones caracter o sticas. Luego, conociendo la funcin caracter o stica de una variable aleatoria, tambin conoe cemos su funcin de distribucin. o o
222
V ctor J. Yohai
Propiedad 11.3 Sean X e Y dos variables aleatorias independientes. Entonces para todo t R X+Y (t) = X (t) Y (t) . Demostracin. Observando que exp (itX) , exp (itY ) son variables aleatorias o independientes se tiene X+Y (t) = E (exp (it (X + Y ))) = E (exp (itX) exp (itY )) = E (exp (itX)) E (exp (itY )) = X (t) Y (t) . 2
Propiedad 11.4 Sea X una variable aleatoria. Entonces para todo t R |X (t)| 1. Demostracin. o |X | = |E (exp (itX))| E (|exp (itX)|) = E (1) = 1. 2 Propiedad 11.5 X (0) = E (1) = 1. Demostracin. X (0) = E (1) = 1. 2 o Ahora enunciamos dos teoremas muy importantes. Las demostraciones de estos teoremas se pueden encontrar en el libro de Barry R. James, Probabilidade: um curso em nivel intermedirio. a Teorema 11.3 Sean X e Y dos variables aleatorias. Entonces si X = Y , tambin se tiene e FX = FY . Teorema 11.4 (Teorema de Continuidad de Paul Levy) Sea (Xn )n1 una sucesin de variables aleatorias, (FXn )n1 la correspondiente sucesin o o o de funciones de distribucin y (Xn )n1 la correspondiente sucesin de funo ciones caractersticas asociadas. Entonces Xn X si y slo si para todo t R o Xn (t) X (t) .
D
223
Teorema 11.5 Sea X una variable aleatoria. Entonces X es continua en todo punto. Demostracin. Sea t R y consideremos una sucesin (hn )n1 R tal que o o hn 0. Queremos probar que
n
l X (t + hn ) = X (t) . m
Teniendo en cuenta que X (t + hn ) = E (cos ((t + hn ) X)) + iE (sen ((t + hn ) X)) , bastar con probar que si n + entonces a E (cos ((t + hn ) X)) E (cos (tX)) , y E (sen ((t + hn ) X)) E (sen (tX)) . Probaremos que E (cos ((t + hn ) X)) E (cos (tX)) cuando n +, la otra propiedad es anloga. a Consideremos la sucesin de variables aleatorias o Yn = cos ((t + hn ) X) . Se comprueba fcilmente que Yn est dominada por la variable aleatoria a a Z = 1, es decir para todo n |Yn | = |cos ((t + hn ) X)| 1. Adems si Y = cos (tX), por la continuidad de la funcin coseno, se tiene a o convergencia puntual de Yn a Y , es decir para todo Yn () Y (). Luego, por el Teorema de Convergencia Dominada se obtiene E (Yn ) E (Y ) . 2 Observacin. Se puede probar algo ms fuerte: X es uniformemente cono a tinua (ver el libro de Barry R. James). Veamos como opera una funcin caracter o stica sobre una transformacin o af de la variable aleatoria. n
224
V ctor J. Yohai
Propiedad 11.6 Sea X una variable aleatoria e Y = aX + b, con a, b R. Entonces para todo t R aX+b (t) = exp (ibt) X (at) . Demostracin. o Para todo t R se tiene Y (t) = aX+b (t) = E (exp (it (aX + b))) = E (exp (it (aX)) exp (itb)) = exp (ibt) E (exp (i (ta) X)) = exp (ibt) X (at) . 2 Ahora queremos caracterizar a las funciones caracter sticas a valores reales. Para esto recordemos el concepto de variable aleatoria simtrica rese pecto del origen. La denicin ms general de simetr respecto de arbio a a trario est dada en la pgina 155. a a Decimos que una variable aleatoria X es simtrica respecto del origen si e y slo si para todo x 0 se tiene que o P (X x) = P (X x) . El siguiente teorema permite dar una denicin equivalente. o (11.5)
Teorema 11.6 X es real sii X es simtrica respecto del origen. En este e caso X es par. Demostracin. Supongamos primero que X sea simtrica respecto del origen. o e Como para todo t R X (t) = E (cos (tX)) + iE (sen (tX)) , para mostrar que X es real bastar ver que E (sen (tX)) = 0. a Teniendo en cuenta que si X es simtrica se tiene que FX = FX , de e manera que E (g (X)) = E (g (X)) para cualquier g medible, entonces si para cada t R se toma g (x) = sen (tx) se obtiene E (sen (tX)) = E (sen (tX)) = E (sen (tX)) , y por lo tanto E (sen (tX)) = 0.
225
Adems, a X (t) = E(cos(X(t))) = E(cos(Xt)) = X (t). Luego X es par. Supongamos ahora que X es real, esto es E (sen (tX)) = 0. Entonces teniendo en cuenta que la funcin coseno es par y la funcin seno impar o o tendremos para todo t R X (t) = E (cos (tX)) + iE (sen (tX)) = E (cos(tX) , y X (t) = E (cos (t(X))) + iE (sen (t(X))) = E (cos(tX)) = E (cos(tX)) iE(sen(tX))
Luego X (t) = X (t) y entonces por el Teorema 11.3, se obtiene que FX = FX y por el Teorema 7.17 que X es simtrica respecto del origen. 2 e
Denicin 11.7 (Momentos de orden k) Sea X una variable aleatoria. o Denimos el momento de orden k > 0 de X como el nmero u k = E X k , cuando este valor existe y el momento absoluto de orden k > 0 de X como el nmero u = E |X|k . k Observacin. Si k es par entonces k = . Adems siempre se tiene que o a k k < sii < , es decir la integrabilidad absoluta de |X|k equivale a la k de X k . En particular E(X) = 1 y Var(X) = 2 2 . 1 Teorema 11.7 Si < entonces para todo i < k se tiene < . i k Demostracin. Sea i < k. Se tiene o |X|i = I{|X|1} |X|i + I{|X|>1} |X|i .
226 Como y obtenemos
V ctor J. Yohai
I{|X|i 1} |X|i I{|X|1} I{|X|>1} |X|i I{|X|>1} |X|k |X|k |X|i I{|X|1} + |X|k . P ({|X| 1}) + < , i k
Tomando esperanza en ambos miembros resulta
y esto demuestra el teorema. 2
11.3.
11.3.1.
Momentos y funcin caracter o stica.

Derivacin dentro del signo esperanza. o
Para hacer un desarrollo de Taylor de la funcin caracter o stica, necesitaremos hallar sus derivadas. Como la funcin caracter o stica est denida a como una esperanza, ser conveniente encontrar condiciones bajo las cuales a se pueda intercambiar el orden en el que se deriva y se toma esperanza. Sea g(x, t) una funcin de dos variables a valores reales, medible respecto o de la primera variable y derivable respecto de la segunda variable. Sea g2 denida por g (x, t) . g2 (x, t) = t Sea X una variable aleatoria, entonces para cada t, Yt = g (X, t) es tambin una variable aleatoria. Supongamos que E (|Yt |) < y considere emos la funcin h (t) = E (Yt ) = E (g (X, t)) . El siguiente teorema nos da o condiciones sucientes para que h (t) = E (g2 (X, t)) . Teorema 11.8 Supongamos que en t = t0 se cumplen las siguientes condiciones: (i) existe > 0 y Z variable aleatoria con E (Z) < , tal que
|tt0 |
sup {|g2 (X, t) |} Z,
(ii) para todo x la funcin g2 (x, t) es continua respecto a la segunda variao ble en t = t0 . Luego h (t0 ) = E (g2 (X, t0 )) .
11.3. Momentos y funcin caracter o stica.
227
Demostracin. o Sea (rn )n1 una sucesin de nmeros reales no creciente que converge a o u 0 y tal que |rn | . Bastar demostrar que a h (t0 + rn ) h (t0 ) = E (g2 (X, t0 )) . n+ rn l m
Utilizando el teorema del valor medio existe rn = rn (X) tal que |rn (X)| rn y tal que
g (X, t0 + rn ) g (X, t0 ) = g2 (X, t0 + rn (X)) . rn Luego g (X, t0 + rn ) g (X, t0 ) h (t0 + rn ) h (t0 ) = l E m n n rn rn = l E (g2 (X, t0 + rn (X))) . m l m
n
Por lo tanto bastar con mostrar que a

n l E (g2 (X, t0 + rn (X))) = E (g2 (X, t0 )) . m
(11.6)
Ahora bien rn (X) 0 y por la continuidad de g2 en t = t0 , (X))) (g2 (X, t0 + rn o a n1 converge puntualmente a la funcin g2 (X, t0 ) . Adems se cumple que sup |g2 (X, t0 + rn (X))| Z, n
con E (Z) < . Luego aplicando el teorema de la convergencia dominada se obtiene (11.6). 2
11.3.2.
Derivadas de la funcin caracter o stica y momentos.
Dada una variable aleatoria X, sabemos que X (t) = E (exp (itX)) . Procedamos de manera ingenua, sin preocuparnos por la justicacin, y o derivemos sucesivamente dentro del signo esperanza X (t) = E (iX exp (itX)) = iE (X exp (itX)) X (t) = E i2 X 2 exp (itX) = i2 E X 2 exp (itX) . . . X (t) = E (in X n exp (itX)) = in E (X n exp (itX)) . El siguiente teorema permite justicar estas expresiones.
(n) (2) (1)
228
V ctor J. Yohai
Teorema 11.9 Supongamos que < . Luego se cumple que n X (t) = in E (X n exp (itX)) .
(n)
(11.7)
Demostracin. Demostraremos el teorema por induccin en n. Para n = 0 o o es cierto ya que X (t) = E exp (itX) por denicin. Supongamos que el o teorema es cierto para n. Vamos a demostrar que es cierto para n + 1. Supongamos que < , por el Teorema 11.7 resulta < y luego la n n+1 frmula (11.7) es cierta para n. Entonces, tenemos que o X (t) = in E (X n exp (itX)) = in (E(X n cos(tX)) + iE(X n sen(tX)). (11.8) Sea g(x, t) = xn cos(tx). Luego g2 (x, t) = xn+1 sen(tx) es continua y |g2 (X, t)| |X|n+1 . Como E(|X n+1 |) < , por el Teorema 11.8 se tendr que si a h(t) = E(X n cos(tx)), entonces h (t) = E (g2 (X, t)) = E(X n+1 sen(tX)). Similarmente si h (t) = E(X n sen(tx)), luego h (t) = E(X n+1 cos(tX)). Luego por (11.9), (11.10), derivando (11.8) se tendr a X
(n+1) (n)
(11.9)
(11.10)
(t) = in (h (t) + h (t)) =i

n
(11.11)
n+1
E(X
n+1
sen(tX)) + iE(X
cos(tX)) .
(11.12)
Multiplicando por i y dividiendo por i se obtiene X

(n+1)
(t) = in+1 (1/i)E(X n+1 sen(tX)) + E(X n+1 cos(tX)) ,
y usando que 1/i = i X

(n+1)
(t) = in+1 iE(X n+1 sen(tX)) + E(X n+1 cos(tX)) = in+1 E(X n+1 exp(itX))
y por lo tanto el teorema queda demostrado. 2. Corolario 11.1 Supongamos < . Entonces resulta que n X (0) = in E (X n ) .
(n)
11.4. Funcin caracter o stica de una distribucin normal. o
229
Observemos entonces que de acuerdo al Teorema 11.9 si < resulta n X (0) = in E(X n ) = in n . En particular X (0) = i1 y X (0) = 2 . (11.14) Ahora estamos en condiciones de probar que la funcin caracter o stica de la distribucin X N (0, 1) es su densidad, salvo una constante. o (11.13)
(n)
11.4.
Funcin caracter o stica de una distribucin o normal.
Para la prueba del Teorema Central de L mite, necesitamos calcular la funcin caracter o stica de una distribucin normal. Dado que si X N , 2 o se puede escribir como X = Y + , donde Y N (0, 1) de acuerdo a la Propiedad 11.6, slo se necesitar calcular X para el caso = 0 y 2 = 1. o a Teorema 11.10 Sea X N (0, 1) . La funcin caracterstica de X es o 1 (t) = exp t2 . 2
Demostracin. Como X es simtrica respecto del origen, es real y par. o e Consideremos dos variables aleatorias independientes X1 N (0, 1) , X2 N (0, 1) y denamos Y = u1 X1 + u2 X2 con u1 0, u2 0 . Entonces Y N 0, u2 + u2 . 1 2 Podemos expresar a Y como un mltiplo de una variable N(0, 1). En u efecto Y = = donde Z= tiene distribucin N (0, 1). o u2 + u2 2 1 u2 + u2 Z, 2 1 Y u2 + u2 2 1 Y u2 1 + u2 2
230
V ctor J. Yohai
Demostracin. Calcularemos Y de dos manera distintas. Por un lado, usando o la Propiedad 11.6 Y (t) = u2 +u2 Z (t)
1 2
(11.15) (11.16)
u2 + u 2 t . 1 2
Por otro lado siendo Y suma de variables aleatorias independientes, usando la Propiedad ?? y recordando que u1 0 y u2 0, se tiene que Y (t) = u1 X1 +u2 X2 (t) = u1 X1 (t) u2 X2 (t) = (u1 t) (u2 t) = De (11.15) y (11.18) se obtiene y haciento t = 1 u2 + u2 2 1 = u2 1 u2 . 2 (11.20) u2 + u 2 t 1 2 = u2 t 1 u2 t , 2 (11.19) u2 t 1 u2 t . 2 (11.18)

(11.17)
Denamos g como la composicin de con la ra cuadrada, es decir o z g (u) = Luego por (11.20) se tiene g u2 + u2 1 2 = g u2 g u2 . 2 1 u .
Luego, si ponemos v1 = u2 y v2 = u2 entonces para todo v1 , v2 0 obtenemos 1 2 g (v1 + v2 ) = g (v1 ) g (v2 ) . Entonces para todo v 0 se tiene g (v) = g v v v + = g 2 2 2
2
(11.21)
0.
Observacin. La Ecuacin (11.21) recuerda la caracterizacin de la diso o o tribucin exponencial como una distrubucin con falta de memoria. Luego o o para caracterizar a g procederemos de igual manera.
11.4. Funcin caracter o stica de una distribucin normal. o
231
Por induccin se puede probar que dados v1 0, v2 0, . . . , vn 0 o entonces

n n
g
i=1
vi
=
i=1
g (vi ) .
(11.22)
Luego usando (11.22) se obiene que para todo n natural g (n) = g 1 + 1 + +... + 1
n veces
= [g (1)] .
(11.23)
Usando (11.22) y (11.23) se obtiene que para todo m y n naturales [g (1)]n = g (n) n = g m m = g y entonces
n n n = g + + ... + m m m n m
m veces m
n n g = [g (1)] m . m Luego para todo r Q positivo se tiene
g (r) = [g (1)]r . Por la continuidad de g y la densidad de Q en R,se concluye que para todo x R0 g (x) = [g (1)]x . Ahora veamos que 0 < g (1) < 1. (11.24) Como g (1) es real con 0 g (1) 1 para demostrar (11.24) se deber mostrar que g (1) = 0 y que g (1) = 1. a Supongamos que g (1) = 0. Entonces para todo t R0 t = g (t) = [g (1)]t = 0.
Esto es absurdo, pues si t = 0 se tendr (0) = 0 y segn la Propiedad a u 11.5 resulta que (0) = 1.
232 Supongamos que g (1) = 1 entonces (1) = 1 = g (1) = 1.
V ctor J. Yohai
Ahora como es real, (1) = E (cos (X)) . Entonces g (1) = 1 se puede escribir como E (1) = E (cos (X)) luego E (1 cos (X)) = 0 Pero siendo la variable aleatoria 1 cos (X) no negativa se concluye que P (cos (X) = 1) = 1. Esto no puede ser cierto puesto que {x R : cos (x) = 1} es un conjunto de puntos numerable, de manera que su probabilidad es cero puesto que la ditribucin normal es absolutamente continua. o Finalmente si ponemos c = log (g (1)) entonces, c > 0 y g (1) = exp (c) . Luego g (t) = [g (1)]t = exp (ct) , t 0. Adems a Como la funcin (t) es par se tendr o a (t) = g t2 = exp ct2 , t 0. (t) = exp ct2 , t. Derivando dos veces ( )(1) (t) = 2ct exp ct2 , ( )(2) (t) = 2c exp ct2 + 4c2 t2 exp ct2 = 2c exp ct2 2ct2 1 , y evaluando en 0, de acuerdo a (11.14) se tendr a 2c = ( )(2) (0) = 2 = 1. Por lo tanto obtenemos que c = = Var (X) + E X 2
1 2
y el Teorema queda demostrado. 2
11.5. Teorema Central del L mite.
233
11.5.
Teorema Central del L mite.
El siguiente lema da el desarrollo de Taylor de la funcin caracter o stica de una variable aleatoria X con E(X) = 0 y Var(X) = 1. Lema 11.1 Sea X una variable aleatoria con E(X) = 0 y Var(X) = 1. Entonces t2 X (t) = 1 + o2 t2 , 2 2 es una funcin tal que donde o2 t o o2 t2 = 0. t0 t2 l m (11.25)
Demostracin. Sabemos que (0) = 1 y por (11.13) y (11.14) se tiene X (0) = o 0 y X (0) = 1. Luego usando un desarrollo de Taylor de grado 2 en t = 0 para X se tiene X (t) = X (0) + X (0)t + X (0) =1 t2 + o2 t2 . 2 t2 + o2 (t2 ) 2
donde o2 t2 satisface (11.25). Esto demuestra el lema. 2
11.5.1.
Caso de variables independientes idnticamente dise tribuidas
Teorema 11.11 (Teorema Central del L mite) Sea (Xn )n1 una sucesin de variables aleatorias independientes idnticamente distribuidas (i.i.d.) o e con varianza nita. Llamemos = E (Xi ) y 2 = Var (Xi ) > 0 . Sean las sumas parciales
n
Sn =
i=1
Xi
y Zn = Entonces Sn E (Sn ) . Var (Sn )

D
(11.26)
Zn N (0, 1) . Observacin. La expresin (11.26) puede reformularse escribiendo o o Zn = Xn E Xn Var X n ,
(11.27)
234 donde Xn = 1 n
V ctor J. Yohai
Xi
i=1
es la variable aleatoria promedio aritmtico. e Demostracin. En primer lugar veamos que basta con probar el teorema o suponiendo que = 0 y 2 = 1. Teniendo en cuenta la independencia de las Xi y la denicin de Sn se tiene que o E (Sn ) = n, Var (Sn ) = n 2 . Luego (11.26) se puede escribir como Zn =
n i=1 Xi n
n n Xi ,
1 = n = donde
i=1 n i=1 Xi
Xi Claramente las variables Xi son i.i.d. con E(Xi ) = 0 y Var(Xi ) = 1. Luego si probamos que el teorema vale para = 0 y 2 = 1 resulta vlido para a y 2 arbitrarios. Supondremos entonces que = 0 y 2 = 1. De acuerdo al teorema de continuidad de Levy y al Teorema 11.10, bastar probar que para todo t R a Xi =
n+
l m Zn (t) = exp
t2 2
(11.28)
Sabemos que como = 0 y 2 = 1, por el lema anterior para todo i N se tiene t2 Xi (t) = X (t) = 1 + o2 t2 , 2 2 es una funcin tal que o donde o2 t o2 t2 = 0. t0 t2 l m (11.29)
Como las variables Xi son independientes, podemos aplicar la Propiedad 11.3 de las funciones caracter sticas y se tiene que para todo n
n
Sn (t) =
i=1
Xi (t) =
t2 + o2 t2 2
235
Finalmente teniendo en cuenta que = 0 y 2 = 1, resulta Zn = Sn / n. Luego por la Propiedad 11.6 de las funciones caracter sticas se obtiene Zn (t) = Sn = t n 2 t 1 + o2 2n
t2 n
De acuerdo a (11.28), bastar ver que la sucesin de funciones Zn satisface a o l m t2 + o2 1 2n t2 n

n
= exp
t2 2
(11.30)
Para ello escribamos la sucesin de caracter o sticas del siguiente modo Zn (t) = y luego si llamamos an = entonces resulta 1 t2 o2 1 n 2 t2 o2 2 t2 n t2 n
n
n ,
an n . n Se conoce del clculo elemental que si a n L entonces a Zn (t) = 1 an n

n
n exp (L) .
Por lo tanto, para mostrar (11.30) bastar mostrar que en nuestro caso a L = t2 /2. Equivalentemente bastar con mostrar que a l o2 m t2 n n 0.
Pero esto resulta de escribir t2 n o2 n= t2 n t2 n
o2
t2
y de observar que como t2 /n 0 cuando n , de acuerdo a (11.29) se tiene t2 o n l m = 0. 2 n+ t n
236 Esto prueba el teorema. 2 Observacin. Teniendo en cuenta que o E Xn = y 1 n = n
V ctor J. Yohai
2 2 = , n n podemos escribir las variables Zn de la siguiente manera Var X n = n Zn = Xn E Xn Var X n = (X n ) . n
Luego, de acuerdo a (11.27) tenemos n2

1
(X n ) D N (0, 1) .
(11.31)
De acuerdo a la Ley Fuerte de los Grandes Nmeros X n 0 c.s., y por u lo tanto tambin e Wn = (X n )/ 0 c.s. Adems, recordemos que convergencia casi segura implica convergencia en a 1 distribucin. Al multiplicar Wn por el factor n 2 , de acuerdo a (11.31) deja o de tender a 0 y tampoco tiende innito. Por eso se dice que la velocidad 1 de convergencia de X n a es n 2 . Se deja como ejercicio probar que si 1 multiplicamos a Wn por n 2 + la sucesin converge a en probabilidad. o Es decir que dado cualquier K > 0, tendremos
n
l P (n 2 + |Wn | > K) = 1 m
1
Tambin se deja como ejercicio probar que si multiplicamos a Wn por n 2 e 1 1 con > 0 la sucesin n 2 + Wn converge en probabilidad a 0. El exponente 2 o es el la potencia exacta de n por la que hay que multiplicar a Wn para que la sucesin nk Wn no converja ni a 0 ni a . o
11.5.2.
Teorema Central del L mite para variables no idntie camente distribuidas.
El Teorema Central del L mite sigue valiendo bajo condiciones menos restrictivas. Se puede suprimir la hiptesis de que las distribuciones sean o idnticas y an debilitar la hiptesis de la independencia. e u o
237
El Teorema de Lindeberg o Teorema Central del L mite Fuerte da una condicin suciente para que una sucesin de variables aleatorias indepeno o dientes no necesariamente idnticamente distribuidas converja en distribue cin a la normal estandarizada. Enunciamos este importante teorema sin o demostracin. o Teorema 11.12 (Teorema Central de Lindeberg) Sea (Xn )n1 una suce2 sin de variables aleatorias independientes con E (Xi ) = i y Var (Xi ) = i o 2 < y existe al menos un i tal que 2 > 0. Sea para todo i N, donde i 0 i0 como antes Sn = n Xi y llamemos i=1
n
s2 = n
i=1
2 i = Var (Sn ) .
Denamos las variable aleatorias centradas Yi = Xi i . Una condicin suciente para que o Zn = es que para todo > 0 l m
n 2 i=1 {|y|sn } y dFYi s2 n
Sn E (Sn ) D N (0, 1) Var (Sn )
n+
= 0.
(11.32)
Demostracin. Ver el libro citado de Barry R. James. o Observacin. La condicin (11.32) se llama condicin de Lindeberg. Noteo o o 2 , se tiene mos que como E (Yi ) = 0 y Var (Yi ) = Var (Xi ) = i
n
s2 n
=
i=1 n
2 i
(11.33)
=
i=1 n
Var(Yi )
+
=
i=1 n
y 2 dFYi
n
=
i=1 {|y|<sn }
y dFYi +
i=1
{|y|sn }
y 2 dFYi .
(11.34)
Luego, la condicin (11.32) es equivalente a que para todo > 0 o
238
V ctor J. Yohai
l m
n 2 i=1 {|y|<sn } y dFYi n 2 i=1 y dFYi
= 1,
(11.35)
lo cual se puede interpretar como que la condicin de Lindeberg implica o que la contribucin de Yi a la varianza de Sn proviene esencialmente de los o valores donde |Yi |2 2 s2 . Si llamamos Sn = n Yi como s2 = Var(Sn ) = n n i=1 Var(Sn ) resulta que la contribucin de Yi2 a la Var(Sn ) corresponde bsicao a mente a los puntos donde Yi2 < s2 , es decir donde Yi2 es pequea respecto n n 2 a E(Sn ). Esto est diciendo que con alta probabilidad Yi2 es pequeo con a n 2 . En particular de (11.32) se deduce que para todo 2 > 0, respecto a Sn existe n0 () tal que para todo n n0
{|y|sn }
y 2 dFYi < s2 2 n
para todo 1 i n. Por otro lado para todo 1 i n,

{|y|<sn }
y 2 dFYi s2 2 . n
Luego para todo 1 i n y n n0 se tiene

2 i = {|y|sn }
y 2 dFYi +
{|y|<sn }
y 2 dFYi < 2s2 2 , n
y por lo tanto, para todo n n0 resulta

2 mx1in i a < 22 . n 2 i i=1
Luego
2 mx1in i a = 0. n 2 n i=1 i
l m
Es decir que la varianza de cada variable, sobre la suma de las varianzas tiende a 0. Del teorema central del l mite de Lindeberg se deduce la siguiente versin o del Teorema Central del L mite. Teorema 11.13 (Teorema Central del L mite de Liapunov) Sea (Xn )n1 una sucesin de variables aleatorias independientes con E (Xi ) = i y vao 2 2 u rianza Var (Xi ) = i < tal que para algn i0 , i0 > 0. Llamemos Yi = Xi i a las variable aleatoria centradas. Una condicin suciente o para que Sn E (Sn ) D Zn = N (0, 1) Var (Sn )
239
es que exista > 0 tal que l m

n i=1 E
n+
s2+ n
|Yi |2+
= 0.
(11.36)
Demostracin. Tenemos que o y 2 dFYi = y luego

n i=1 {|y|sn }
{|y|sn }
{|y|sn }
1 s n
|y|2+ dFYi |y| |y|2+ dFYi
E(|Yi s n
{|y|sn } 2+ ) |
y 2 dFYi
1 s n
n i=1
E |Yi |2+ .
Dividiendo por
s2 n
se tiene 1 E(|Yi |2+ ), s2+ n i=1

n
y por lo tanto por la condicin (11.36) o l m

= 0.
(11.37)
que es la condicin de Lindeberg. 2 o Esta condicin es util cuando las variables tienen momentos nitos de o orden mayor que dos. La condicin (11.36) se denomina la Condicin de o o Liapunov. Ejemplo. Consideremos ahora una sucesin de variables aleatorias (Yn )n1 , o donde Yn tiene distribucin Bi (n, p) . Podemos pensar a Yn como el nmero o u de xitos en n experimentos independientes realizados bajo las mismas condie ciones, donde la probabilidad de xito es p. Luego podemos escribir e
n
Yn =
i=1
Xi ,
donde Xi = 1 0 si el i-simo experimento resulta xito e e si el i-simo experimento resulta fracaso. e
240
V ctor J. Yohai
Claramente las variables Xi son independientes e idnticamente distribuidas. e Sabemos que P (Xi = 1) = p y P (Xi = 0) = 1 p, E (Xi ) = p y Var (Yi ) = p (1 p) . Luego, estamos en condiciones de aplicar el Teorema Central del L mite para variables i.i.d. Entonces Yn E (Yn ) = Var (Yn ) Yn np D N (0, 1) . np (1 p)
Se puede probar que para n = 20 la distribucin normal es una buena aproxo imacin de la binomial, de manera que a nes prcticos se pueden usar tablas o a normales para calcular probabilidades binomiales, si n es sucientemente grande.
11.5.3.
Una Aplicacin a la Binomial. o
Se realiza una encuesta para determinar el porcentaje p de votantes que va a votar a un partido C determinado. Se toma una muestra al azar de n votantes y se los encuesta acerca de su intencin de voto. Designemos o mediante Xi a la variable que toma el valor 1, si la intencin declarada del o encuestado i es votar al partido C y Xi = 0 en caso contrario. Claramente P (Xi = 1) = p. La variable
n
Sn =
i=1
Xi
da la cantidad de encuestados que dicen votar al partido C. La variable Yn tiene distribucin Bi(n, p). o Como desconocemos el parmetro p, podemos estimarlo a partir del a promedio n Xi pn = X n = i=1 . n Como E(Xi ) = p, por la ley de los grandes nmeros tendremos X n p u c.s. Lo que queremos saber es cuan grande tiene que ser n para lograr una precisin determinada en nuestra estimacin de p con cierta probabilidad. o o Ms precisamente jemos una cota e para el error de estimacin En = X n p a o (por ejemplo e = 0,05) y supongamos que queremos conocer aproximadamente la probabilidad de que |En | e, es decir P (|En | e). Sabemos que Zn = = = Sn np np (1 p) n i=1 Xi np np (1 p) Xn p n N (0, 1) .
D
p (1 p)
241 ne , p (1 p)
Llamemos an =
(11.38)
y a la funcin de distribucin de una variable N(0, 1). Luego, como la o o distribucin de Zn se comporta aproximadamente como la de una N(0, 1) o para n grande, tenemos P (|En | e) = P (|X n p| e) =P |X n p| n p (1 p)
= P (|Zn | an ) (an ) (an ) = = 2(an ) 1,
ne p (1 p)
= (an ) (1 (an ))
donde el signo indica aproximadamente. Supongamos ahora que quere= mos saber qu tamao de muestra se requiere para que P (|En | e) sea e n aproximadamente 1 , donde es un nmero pequeo, por ejemplo 0,05. u n Entonces se requerir un valor n tal que a 2(an ) 1 = 1 , . 2 Reemplazando an de acuerdo a (11.38) tendremos ne = 1 1 , 2 p (1 p) an = 1 1 o equivalentemente n= p(1 p) 1 1 e2
2 2
o equivalentemente
Como p es desconocido podemos acotar la expresin de la derecha utilizando o el valor de p ms desfavorable. Hallemos dicho valor. Como n depende en a forma creciente de g(p) = p(1 p) deber amos elegir el mximo de est funa a cin para 0 p 1. Observemos que g (p) = 1 2p, de modo que el unico o punto cr tico es p = 1/2 , y como g (p) = 2 < 0 corresponde a un mximo a relativo. Como en los extremos g(0) = g(1) = 0 y g(1/2) = 1/4, resulta que el mximo absoluto de g se alcanza en p = 1/2 y vale 1/4. Luego bast tomar a a n igual a 2 1 1 2 . n= 4e2
242
V ctor J. Yohai
Por ejemplo si e = 0,05 y = 0,05, buscando en la tabla normal se tendr que 1 (1 /2) = 1 (0,975) = 1,96, y luego a 1 1 n= 4e2
2 2
= 384,16.
Luego, como n tiene que ser entero, bastar tomar n = 385. a El valor n calculado nos asegura la probabilidad deseada, pero dado que se reemplaz p(1 p) por una cota superior, este valor de n hallado o puede ser ms grande que el estrictamente necesario. En la Seccin siguiente a o veremos un teorema que nos permitir reemplazar a p(1p) por la estimacin a o X n (1 X n ).
11.6.
Teorema de Slutsky.
El siguiente teorema tiene numerosas aplicaciones en Estad stica. Teorema 11.14 (Teorema de Slutsky) Sean (Xn )n1 e (Yn )n1 dos sucesiones de variables aleatorias tales que Xn X e Yn c, donde X es una variable aleatoria y c una constante. Entonces se tiene (i) Xn + Yn X + c, (ii) Xn Yn cX, (iii) Si c = 0 entonces, Xn D X . Yn c Para probar el el Teorema 11.14 necesitaremos probar previamente los Teoremas 11.15-11.20.
D D D P
Teorema 11.15 Sea (Xn )n1 una sucesin de variables aleatorias tales que o Xn X donde X es otra variable aleatoria. Entonces para toda constante D a R, se tiene aXn aX. Demostracin. La demostracin la haremos distinguiendo tres casos: (i) a = o o 0, (ii) a > 0 y (iii) a < 0. (i) Si a = 0, entonces es claro que aX = aXn = 0 y por lo tanto el teorema se cumple.
D
11.6. Teorema de Slutsky.
243
(ii) Sea a > 0. Queremos probar que para todo punto x de continuidad de FaX vale que l m FaXn (x) = FaX (x) .
n+
Calculamos la funcin de distribucin de aXn o o FaXn (x) = P (aXn x) x = P Xn a x , = FXn a y de manera anloga, la funcin de distribucin de aX a o o FaX (x) = FX x . a
x lo es a D de FX . Ahora bien, como Xn X vale que para todo x punto de continuidad de FX Entonces x es un punto de continuidad de FaX si y slo si o
n
l FXn (x) = FX (x) . m x . Esto demuestra el caso (ii) a > 0. a
En particular eso vale para
(iii) Sea a < 0. Este caso resulta ms complicado de probar. Probaremos a en primer lugar que vale para a = 1 y despus pasaremos al caso e D D general. Queremos probar que si Xn X entonces Xn X. En primer lugar es fcil ver que en general si X es una variable aleatoria a ) , donde F (a ) es el l P (X < a) = FX (a mite de FX (x), cuando x X tiende a a por la izquierda. Para eso basta con observar que
{X < a} =
n=1
{X a
1 }. n
1 La sucesin de conjuntos Cn = {X a n } es montona creciente y o o por lo tanto
P (X < a) = l P m
n
X a a 1 n
1 n
= l m FX
n+
= FX a .
244 Calcularemos ahora FX y FXn Por un lado FX (x) = P (X x)
V ctor J. Yohai
= P (X x)
= 1 FX (x) . Por otro lado y de manera anloga a FXn (x) = 1 FXn (x) . Entonces tenemos que probar que si x es un punto de continuidad de FX entonces
n
= 1 P (X < x)
l m 1 FXn (x)
= 1 FX (x) ,
o equivalentemente tenemos que probar que si x es un punto de continuidad de FX entonces

n
l FXn (x) = FX (x) . m
(11.39)
ComoFX est denida como a FX (x) = 1 FX (x) , resulta que x es un punto de de continuidad de FX si y slo si x lo o es de FX . Por lo tanto en los puntos donde FX es continua vale que FX (x) = FX (x) . Por lo tanto (11.39) es equivalente a que
n
l FXn (x) = FX (x) , m
(11.40)
en los puntos x para los cuales x es un punto de continuidad de FX . Como x puede ser cualquiera, esto es equivalente a que
n
l FXn x = FX (x) , m
(11.41)
para todo punto x que sea de continuidad de FX . Por la monoton de FXn se tiene que FXn (x ) FXn (x) . Entonces a tomando l mite superior en ambos miembros y recordando que la hiptesis de convergencia en distribucin implica que l n FXn (x) = o o m FX (x) se obtiene l Xn x l Xn (x) mF mF
n
= l FXn (x) m (11.42)
= FX (x) .
245
Observemos que como FX es continua en x entonces dado > 0 existe > 0 tal que FX (x) < FX (x ) . Como el conjunto de puntos de discontinuidad de FX es a lo sumo numerable, podemos elegir x de forma tal que FX sea continua en x . Por la monoton de FXn a resulta FXn x FXn (x ) . Tomando l mite inferior y recordando que x es un punto de continudad de FX se obtiene l Xn x l Xn (x ) mF mF
n
= l FXn (x ) m = FX (x ) > FX (x) .
Ahora haciendo que 0 se tiene l Xn x FX (x) . mF Por lo tanto de (11.42) y (11.43) resulta l Xn x FX (x) l Xn x . mF mF mF Pero como siempre ocurre que l Xn (x ) l Xn (x ) , resulta mF que mF l Xn x = FX (x) = l Xn x , mF y entonces necesariamente existe l FXn (x ) y adems m a l FXn x = FX (x) . m Esto demuestra (11.41). Ahora probaremos el Teorema para cualquier a < 0. Para eso escribimos aXn = (a) (Xn ) . Entonces por un lado como Xn X se tiene que Xn X . Por otro lado si a < 0 entonces a > 0 y por el caso (i) aXn = (a) (Xn ) (a) (X) = aX. 2
D D D
(11.43)
Denicin 11.8 Sea (Xn )n1 una sucesin de variables aleatorias. Deco o imos que la sucesin est acotada uniformemtne en probabilidad si dado o a > 0 existe K > 0 tal que P (|Xn | K) 1 .
246
V ctor J. Yohai
Observacin. Recordemos que hemos probado, en el Teorema 10.6 en la o P pgina 201 que si Xn X entonces dado > 0 existe K > 0 tal que para a todo n N P (|Xn | K) 1 y P (|X| K) 1 . Esto signica que si una sucesin (Xn )n1 converge en probabilidad est acoo a tada uniformemente en probabilidad. Para la convergencia en distribucin se tiene un resultado anlogo. o a Teorema 11.16 Sea (Xn )n1 una sucesin de variables aleatorias y X otra o variable aleatoria tal que Xn X. Entonces dado > 0 existe K0 > 0 tal que para todo n N P (|Xn | K0 ) 1 y P (|X| K0 ) 1 . Demostracin. Por el Teorema 10.5 sabemos que dado > 0 existe K > 0 o tal que P (|X| K) 1 . 2 Observemos que si para cierto K > 0 vale la desigualdad, entonces tambin e vale para cualquier K1 > K. En efecto, como {|X| K} {|X| K1 }, tomando probabilidades se tiene 1 P (|X| K) P (|X| K1 ) . Luego, como el conjunto de puntos de discontinuidad de FX es a lo sumo numerable, podemos elegir K de forma tal que FX sea continua en K y en K. Entonces P (|X| K) = P (K X K) = P (K < X K)
D
= FX (K) FX (K) 1 . 2
(11.44) (11.45)
Teniendo en cuenta la convergencia en distribucin de Xn a X, resulta o

n
l FXn (K) = FX (K) , m
247
y
n
l FXn (K) = FX (K) . m
Por denicin de l o mite existe n1 N tal que si n n1 entonces FXn (K) > FX (K) y tambin n2 N tal que si n n2 entonces e FXn (K) < FX (K) + Luego tenemos P (|Xn | K) = P (K Xn K) 4 (11.47) 4 (11.46)
P (K < Xn K)
= FXn (K) FXn (K) .
(11.48)
Sea n0 = mx{n1 , n2 }. Luego de (11.44), (11.46), (11.47) y (11.48) resulta a que si n n0 se tiene P (|Xn | K) FXn (K) FXn (K) > FX (K) FX (K) + 4 4 FX (K) FX (K) 2 1 = 1 . 2 2 Luego hemos conseguido la acotacin requerida para X y Xn con n n0 . o Finalmente para cada 1 j n0 1, podemos encontrar un nmero Kj > 0 u tal que P (|Xj | Kj ) 1 . Entonces si ponemos K0 = mx{K, K1 , K2 , ..., Kn0 1 } a se cumple P (|Xn | K0 ) 1 , n y P (|X| K0 ) 1 . 2
Teorema 11.17 Sea (Xn )n1 una sucesin de variables aleatorias uniformeo mente acotada en probabilidad y supongamos que Yn 0, entonces Xn Yn 0.
P P
248
V ctor J. Yohai
Demostracin. Utilizado las dos hiptesis dado > 0 existe K > 0 tal que o o P (|Xn | K) 1 y n0 N tal que para todo n n0 se tiene P |Yn | Ahora observemos que {|Xn Yn | > } {|Xn | > K} {|Yn | }, K 2K < . 2 2
ya que si |Xn | K y |Yn | < /K entonces |Xn Yn | . Tomando probabilidades tenemos que para todo n n0 resulta P ({|Xn Yn | > }) P ({|Xn | > K}) + P {|Yn | } K < + = . 2 2 Esto prueba el teorema. 2 Teorema 11.18 Sean (Xn )n1 e (Yn )n1 dos sucesiones de variables aleatorias y X otra variable aleatoria tal que Xn X e Yn 0. Entonces Xn + Yn X. Demostracin. o Queremos probar que si x es un punto de continuidad de FX entonces
n+ D D P
l m FXn +Yn (x) = FX (x) .
Sea > 0. Dado que el nmero de puntos de discontinuidad de FX es a lo u sumo numerable, siempre podemos elegir 0 < 1 < tal que x+ 1 sea punto de continuidad de FX . Luego tenemos {Xn + Yn x} {Xn x + 1 } {|Yn | > 1 } pues si Xn > x + 1 y |Yn | 1 entonces Xn + Yn > x. Tomando probabilidades en ambos miembros obtenemos FXn +Yn (x) FXn (x + 1 ) + P (|Yn | > 1 ) . Como
n
(11.49)
l FXn (x + 1 ) = FX (x + 1 ), m
249
y
n
l P (|Yn | > 1 ) = 0, m
tomando l mite superior en (11.49) se obtiene l Xn +Yn (x) l [FXn (x + 1 ) + P (|Yn | > 1 )] mF m
n n
= l FXn (x + 1 ) + l P (|Yn | > 1 ) m m = FX (x + 1 ) FX (x + ).
Haciendo 0 resulta l Xn +Yn (x) FX (x) . mF (11.50)
Tomemos ahora 0 < 1 < y tal que x 1 sea un punto de continuidad de FX . Observemos que tambin vale e {Xn x 1 } {Xn + Yn x} {|Yn | > 1 }, ya que Xn + Yn > x y |Yn | equivale a Xn + Yn > x y Yn de manera que sumando obtenemos Xn > x . Tomando probabilidades resulta FXn (x 1 ) FXn +Yn (x) + P (|Yn | > 1 ), y pasando al l mite inferior, como x 1 es un punto de continuidad de FX se obtiene FX (x 1 ) l Xn +Yn (x). mF Adems, como a FX (x ) FX (x 1 ), resulta FX (x ) l Xn +Yn (x) . mF Luego tomando l mite cuando 0, y dado que FX es continua en x, tenemos FX (x) l Xn +Yn (x) . mF (11.51) De (11.50) y (11.51) se obtiene l Xn +Yn (x) FX (x) l Xn +Yn (x) , mF mF y esto implica que
n
l FXn +Yn (x) = FX (x) . 2 m
250
V ctor J. Yohai
Teorema 11.19 Sea (Xn )n1 una sucesin de variables aleatorias y X otra o variable aleatoria tal que Xn X. Si a es constante, entonces Xn + a X + a. Demostracin. Tenemos o FXn +a (x) = P (Xn + a x) = FXn (x a) ,
D D
= P (Xn x a)
y FX+a (x) = P (X + a x) = P (X x a) = FX (x a) .
Por lo tanto si x es un punto de continuidad de FX+a entonces x a es un punto de continuidad de FX de manera que aplicando la hiptesis y lo o anterior resulta
n+
l m FXn +a (x) = l m FXn (x a)

n+
= FX (x a)
= FX+a (x) . 2
Teorema 11.20 Sea (Xn )n1 una sucesin de variables aleatorias tal que o Xn c, donde c es una constante. Luego si g es una funcin medible o continua en c, se tiene Yn = g(Xn ) g(c). Demostracin. Dado > 0 existe > 0 tal que |x c| implica |g(x) o g(c)| . Luego {|g(x) g(c)| > } {|x c| > }. En particular {|g(Xn ) g(c)| > } {|Xn c| > }. y tomando probabilidades y l mites obtenemos
n P P
l P (|g(Xn ) g(c)| > ) l P (|Xn c| > ) = 0. m m

n
251
Luego
n
l P (|g(Xn ) g(c)| > ) = 0, m
y el teorema queda probado. 2 Ahora estamos en condiciones de probar el Teorema de Slutzky, enunciado en la pgina 242. a Demostracin. o (i) Podemos escribir Xn + Yn = (Xn + c) + (Yn c) . Sabemos por el Teorema 11.19 que Xn + c X + c, e y aplicando el Teorema 11.18 Xn + Yn X + c. (ii) Escribimos el producto de la siguiente manera Xn Yn = cXn + (Yn c) Xn . Sean Zn = (Yn c) Xn , y Un = cXn . Por un lado sabemos que (Yn c) 0 y que la sucesin (Xn )n1 o est uniformemente acotada en probabilidad, entonces aplicando el a Teorema 11.17 se tiene que Zn 0, y aplicando el Teorema 11.15 Un cX. Finalmente, aplicando el Teorema 11.18 Xn Yn = Un + Zn cX.
D D P P D D
Yn c 0.
252
V ctor J. Yohai
(iii) Como c = 0 y la funcin g(y) = 1/y es continua en y = c, resulta por o el Teorema 11.20 que 1 P 1 . Yn c Luego como Xn = Yn (iii) resulta aplicando (ii). 2 Para ver cmo se usa el Teorema de Slutsky en casos particulares, reo tomemos la aplicacin del Teorema Central del L o mite a la binomial, presentada en la seccin 11.5.3. o Sea 1 0 si el isimo encuestado declara votar al partido C e si el isimo encuestado declara no votar al partido C e 1 Yn Xn .
Xi =
y sea P (Xi = 1) = p, siendo p el parmetro de inters que es desconocido. a e Luego hab amos demostrado que Zn = donde Yn =
i=1
Xn p D Yn np = n N (0, 1) , np (1 p) p (1 p)
n
, Xn =
Yn n
Por la Ley Dbil de los Grandes Nmeros sabemos que e u X n p. Como la funcin g (p) = p (1 p) es continua, por el Teorema 10.7 resulta o que X n (1 X n ) p (1 p) . Luego resulta que n Xn p X n (1 X n ) N (0, 1) .
D P P
Ahora daremos una aplicacin de estos conceptos resolviendo el siguiente o problema de Estad stica.
11.7. Aplicacin a intervalos de conanza. o
253
11.7.
Aplicacin a intervalos de conanza. o
Problema: Sea X una variable aleatoria cuya funcin de distribucin F o o desconocemos. Por ejemplo, puede tratarse del peso de una lata de arvejas que es una variable aleatoria que var de lata en lata. La distribucin de a o X no tiene por qu ser normal. Sean = E (X) y 2 = Var (X) parmete a ros que dependen de F y que supondremos desconocidos. En estad stica se los denomina parmetros poblacionales. Se toma una muestra aleatoria de a tamao n y se obtienen las variables aleatorias X1 , X2 , ..., Xn . Estas varian bles sern independientes e identicamente distribuidas con distribucin F. a o El problema consiste en estimar el parmetro desconocido a partir de las a variables observadas y precisar la magnitud del error que se puede estar cometiendo. Como por la ley fuerte de los grandes nmeros se tiene que X n c.s., u podemos tomar como estimacin del parmetro el promedio aritmtico de o a e la muestra, es decir, X n n = X n . Para n grande este valor estar prximo a la media verdadera , y el a o error cometido en esta aproximacin ser o a En = X n . As el error resulta una variable aleatoria. Un problema natural es tratar , de encontrar, para un valor de n determinado, una cota para el mdulo del o error, con una alta probabilidad. Teniendo en cuenta que la varianza se dene 2 = E X 2 [E (X)]2 podemos estimar la varianza de la siguiente manera
2 n
n 2 i=1 Xi
2 n i=1 Xi )
Usando la ley de los grandes nmeros se tendr que u a

n 2 i=1 Xi
n y Xn =
E(X 2 )
c.s.,
E(X) c.s. n Luego como el cuadrado es una funcin continua se tendr o a

2 n E(X 2 ) E 2 (X) = 2
n i=1 Xi
c.s.,
y por lo tanto, n c.s.
254 y n . Por el Teorema Central del L mite Xn D N (0, 1) . n Como sabemos que n , se tendr a
P P
V ctor J. Yohai
(11.52)
P 1. n
(11.53)
Luego teniendo en cuenta (11.52) y (11.53), y aplicando el teorema de Slutzky resulta Zn = Xn Xn D N (0, 1) . n = n n n
Es decir, si se reemplaza a por su estimador n en (11.52), la convergencia en distribucin no cambia. o Ahora consideremos un valor , 0 < < 1 que en estad stica recibe el nombre de nivel de signicacin, generalmente se toma = 0, 01 o bien o = 0, 05. Buscamos en la tabla de la distribucin normal un valor z/2 tal o que P (Z > /2) = /2 donde Z es una variable N(0, 1). Luego por simetr a tambin se tendr P Z < z/2 = . e a 2 Ahora bien si Zn Z con Z N (0, 1) entonces tambin Zn Z. e Como Z tambin es N (0, 1) tenemos que para n grande e P z/2 Zn z/2 1 , donde indica aproximadamente es decir P y despejando P Xn z/2 n z/2 n Xn + n n 1 . (11.54) z/2 Xn n z/2 n 1 ,
D D
Luego jando se puede garantizar que la probabilidad de que se encuentre en el intervalo de extremos aleatorios Xn z/2 n z/2 n ; Xn + . n n
es aproximadamente 1 . Este intervalo se llama intervalo de conanza para . Obsrvese que hay dos parmetros que pueden variar, el nivel de e a
11.8. Un teorema util de Convergencia en Distribucin o
255
signicacin y el tamao de la muestra n. Cuando decrece z/2 aumeno n ta y consecuentemente aumenta la longitud intervalo de conanza. Como contrapartida tambin aumenta la probabilidad que contenga a . En came bio cuando n crece y se mantiene el constante, la longitud del intervalo decrece, tendiendo a 0 cuando n tiende a innito. Obsrvese que otra manera de escribir (11.54) es la siguiente e P |En | z/2 n n 1 .
Es decir, tenemos acotado el error |En | por z/2 n / n con probabilidad aproximada 1 .
11.8.
Un teorema util de Convergencia en Dis tribucin o
En primer lugar recordemos que si (Xn )n1 es una sucesin de variables o aleatorias i.i.d entonces Xn D n N (0, 1) , o equivalentemente por el Teorema 11.15 n X n N 0, 2 .
D
Sea g una funcin continua en . Parece natural preguntarse si n(g(X n ) o g()) converge en distribucin y en caso de que as sea a qu distribucin o e o converge. El siguiente teorema responde esta pregunta.
Teorema 11.21 Sea (Yn )n1 una sucesin de variables aleatorias y (an )n1 o una sucesin de nmeros reales tal que an . Supongamos que la sucesin o u o D de variables aleatorias an (Yn ) X. Sea g : R R una funcin con o derivada continua en un entorno de . (i) Entonces Wn = an (g (Yn ) g ()) g () X. (ii) Si X N 0, 2 entonces g () X N 0, [g (u)]2 2 . Este resultado vale an cuando g () = 0 si la distribucin N (0, 0) se interpreta u o como la distribucin de la variable constantemente igual a cero. o
D
256 Demostracin. o
V ctor J. Yohai
(i) Por el Teorema 11.16, la sucesin an (Yn ) est uniformemente acoo a tada en probabilidad. Si consideramos la sucesin (an )n1 de nmeros o u reales como una sucesin de variables aleatorias constantes, es claro o que 1 P 0. an Luego de acuerdo al Teorema 11.17 resulta (Yn ) = o equivalentemente Yn . Como g es continua y derivable en un entorno de podemos aplicar el Teorema del Valor Medio y encontrar un punto intermedio n entre Yn y tal que Wn = an g (n ) (Yn ) . Adems como Yn resulta que la sucesin de variables aleatorias a o P (n )n1 tambin satisface n . Por la continuidad de g y el Teoree ma 11.20 se tiene P g (n ) g () . Aplicando la parte (ii) del Teorema de Slutzky se obtiene Wn = g (n ) Zn g () X. (ii) Se deduce de (i) pues si X N 0, 2 , entonces g () X N 0, [g ()]2 2 . 2
P P
1 P (an (Yn )) 0, an
Cap tulo 12
Procesos de Poisson.
12.1. Procesos de punto.
Supongamos que se observan sucesos que ocurren a lo largo del tiempo en forma aleatoria. Por ejemplo, los sucesos pueden ser la llegada de clientes a un negocio, las llamadas telfonicas que llegan a una central, la emisin e o de part culas que realiza un cierto material radioactivo, etc. Ms formalmente, para cada valor t 0, denominemos X (t) la cantidad a de sucesos que ocurrieron desde un instante inicial 0 hasta t. Luego, supondremos que para cada t, X (t) es una variable aleatoria que toma valores enteros no negativos. Adems tendremos naturalmente que X(0) = 0, y que a si t1 < t2 , entonces X(t1 ) X(t2 ). Todas las variables aleatorias X(t), t 0 estarn denidas sobre un mismo espacio de probabilidad (, A, P ), pero a como la construccin de este espacio es sumamente complicada no daremos o detalles sobre el mismo. Digamos solamente que un posible espacio muestral puede estar dado por = { : R0 N0 : es no decreciente y continua a derecha}. Luego X puede pensarse entonces dependiendo de t R0 y , X(t) | = X (t, ) = (t) Los procesos X (t) que miden la candidad de sucesos que ocurren hasta el tiempo t, se denominan procesos de punto.
12.2.
Axiomtica de los Procesos de Poisson a
Los procesos de Poisson, son procesos de punto particulares que satisfacen los siguientes cuatro axiomas. A1. Homogeneidad. 257
258
V ctor J. Yohai
Supongamos que 0 t1 < t2 , 0 t3 < t4 y adems t4 t3 = t2 t1 . a Entonces las variables aleatorias X (t2 ) X (t1 ) y X (t4 ) X (t3 ) tienen la misma distribucin. Observando que X (t2 ) X (t1 ) es el o nmero de sucesos que ocurrieron entre t1 y t2 , este axioma signica u que la distribucin del nmero de sucesos ocurridos en un per o u odo de tiempo, depende slo de la longitud de ese per o odo. A2. Independencia. Consideremos dos periodos de tiempo esencialmente disjuntos (a lo sumo pueden tener en comn un punto) [t1 , t2 ] , [t3 , t4 ], t1 < t2 t3 < u t4 . Entonces las variables aleatorias X (t2 ) X (t1 ) y X (t4 ) X (t3 ) son independientes. Esto signica que el nmero de sucesos que ocurre u en un per odo de tiempo de tiempo [t1 , t2 ] es independiente del nmero u de sucesos que ocurre en el per odo [t3 , t4 ], donde t3 t2 . Luego el hecho de tener informacin sobre el nmero de sucesos del per o u odo [t1 , t2 ] no aporta datos que ayuden a predecir el nmero de sucesos u del per odo [t3 , t4 ]. Los per odos considerados no tienen por qu ser de e igual longitud. Los axiomas A3 y A4 son de carcter ms tcnico que los anteriores. a a e A3. Sea g1 (t) = P (X (t) = 1) , entonces g1 (0) = > 0, P (X (t) = 1) = > 0. t0 t Esto es equivalente a que l m P (X (t) = 1) = t + o1 (t) , donde
t0
es decir
(12.1)
l m
o1 (t) = 0. t
(12.2)
A4.
t0
l m
P (X (t) > 1) = 0, t
12.3. Distribucin de un proceso de Poisson. o
259
o equivalentemente existe o2 (t) tal que P (X (t) > 1) = o2 (t) , donde o2 satisface o2 (t) = 0. t0 t l m (12.3)
(12.4)
Para modelar un proceso real como un proceso de Poisson se requiere de la vericacin de este conjunto de axiomas. Existen muchos procesos o concretos que no responden a este modelo.
12.3.
Distribucin de un proceso de Poisson. o
El siguiente teorema caracteriza la distribucin de los procesos de Poiso son. Teorema 12.1 Si X (t) es un proceso de punto que satisface A1, A2, A3 y A4 entonces X (t) tiene distribucin de Poisson con parmetro t, es decir o a X (t) P (t) . Demostracin. Para cada n dividimos el intervalo [0, t] en n subintervalos de o igual longitud que denominaremos Iin , 1 i n. Ms precisamente consida eramos la particin regular del interval [0, t] con n + 1 puntos o n = (n 1) t t 2t ,t . 0, , , ..., n n n
Esta particin determina n subintervalos o Iin = (i 1) t it , , 1 i n. n n
El nmero de sucesos que ocurre en Iin es u Vin = X it n X (i 1) t n .
o Por A1, las variables Vin , 1 i n, tienen la misma distribucin que X(t/n) = V1n y por el axioma A2 son independientes. Para cada i denimos el vector aleatorio
n n n Zn = (Zi1 , Zi2 , Zi3 ) i
donde
n Zi1 =
1 0
si Vin = 0 si Vin = 0,
260
n Zi2 = n Zi3 =
V ctor J. Yohai
1 0 1 0
si Vin = 1 si Vin = 1, si Vin > 1 si Vin 1.
n El evento Zi1 = 1 indica que en el intervalo Iin no ocurri ningn suceso, o u n = 1 que ocurri slo uno, y Z n = 1 que ocurri ms de uno. Es claro Zi2 o o o a i3 que siempre ocurre una y slo una de esas tres posibilidades y por lo tanto o n n n Zi1 + Zi1 + Zi1 = 1.
Por otro lado, la distribucin del vector Zn es multinomial, digamos con o i parmetros de probabilidad p1n , p2n , p3n y para una unica repeticin. Luego a o Zn M (p1n , p2n , p3n , 1) , i donde p1n = P p2n = P p3n = P Usando (12.2) y (12.3) resulta p2n = y p3n = o2 Finalmente p1n = 1 p2n p3n t o1 n t = 1 o3 n = 1 (12.7) t n t n o2 , t n (12.8) t n . (12.6) t + o1 n t n , (12.5) X X X t n t n t n =0 , =1 , >1 .
donde o3 (t ) = o1 (t ) + o2 ( t) . Claramente, de (12.2) y (12.3) resulta

t0
l m
o3 (t) = 0. t
(12.9)
261
Como las variables Vin , 1 i n son independientes, y como el vector Zn i e depende solo de Vin , los vectores Zn , 1 i n tambin son independientes. i Ahora denimos las variables
n
Y1n =
i=1 n
n Zi1 ,
Y2n =
i=1 n
n Zi2 ,
Y3n =
i=1
n Zi3 .
Claramente es el nmero de intervalos en los que no ocurre ningn u u n es el n mero de intervalos en los que ocurre exactamente uno e suceso, Y2 u Y3n es la cantidad de intervalos en los que ocurre ms de un suceso. Luego, la a distribucin del vector Y n = (Y1n , Y2n , Y3n ) es multinomial con parmetros o a de probabilidad p1n , p2n , p3n y n repeticiones. Por lo tanto podemos escribir Y n = (Y1n , Y2n , Y3n ) M (p1n , p2n , p3n , n) . Sea An el evento en ningn intervalo ocurre ms de un suceso. Es decir u a An = {Y3n = 0}. Veremos que
n
Y1n
l P (An ) = 1. m
o equivamentemente
n
l P (Ac ) = 0. m n
n
Observemos que Ac = n
i=1
n {Zi3 = 1},
pues si en algn intervalo ocurre el suceso ms de una vez entonces existe u a n procamente. algn i tal que la variable Zi3 = 1 y rec u n Luego, como P (Zi3 = 1) = p3n , usando (12.6) resulta
n
(Ac ) n
=P
n
i=1
n {Zi3 = 1}
n P (Zi3 = 1) = np3n = no2 i=1
t n
Como t/n 0 cuando n , por (12.4) resulta

n
l P (Ac ) l m m n
o2
t n
t n
= t l m
o2
t n
t n
= 0.
(12.10)
262
V ctor J. Yohai
Calculemos ahora la probabilidad de que hasta el momento t hayan ocurrido k sucesos. Tenemos P (X (t) = k) = P ({X (t) = k} An ) + P ({X (t) = k} Ac ) . n Pasando al l mite y teniendo en cuenta (12.10) resulta
n+
l m P ({X (t) = k} Ac ) = 0, n
y entonces P (X (t) = k) = l m P ({X (t) = k} An ) .

n+
Pero es claro que el evento {X (t) = k} An se caracteriza por {X (t) = k} An = {Y1n = n k, Y2n = k, Y3n = 0}, y luego P (X (t) = k) =
n+
l m P (Y1n = n k, Y2n = k, Y3n = 0) .
Teniendo en cuenta que la ditribucin del vector Y n es M (p1n , p2n , p3n , n) , o obtenemos P (X (t) = k) = l m =
n+
n! pnk pk p0 (n k)!k! 1n 2n 3n
k i=1
1 l m k! n+
(n i + 1) t n
nk
. 1 Como t + o1 n tenemos t n
t + o3 n
k
t + o1 n t n
k
t n
1 = k n
t + no1
1 P (X (t) = k) = l m k! n+
k i=1
(n i + 1) n t n
nk
t . 1 + o3 n o bien P (X (t) = k) =
t + no1
t n
1 l Bn Cn Dn En , m k! n
(12.11)
263
donde
k
Bn =
i=1
ni+1 n t + o3 n t + o3 n t n t n t n
k n
Cn = Dn = En =
1 1
t + no1
Comencemos calculando el l mite de Bn

k n+
l m Bn = l m
k
n+
i=1
ni+1 n ni+1 n i1 n (12.12)
=
i=1 k
n+
l m
=
i=1 k
1 l m
n+
= 1 = 1. El l mite de Cn se puede calcular de la siguiente manera l m Cn = l m 1 1 t + o3 n t n

n
n+
n+
= l m
n+ n+
= l m donde
1 t no3 n an n . 1 n t n
t n
an = t no3 Como en (12.10) se puede demostrar que l no3 m t n
= 0,
y entonces resulta
n+
l m an = t.
264 Por lo tanto

n+
V ctor J. Yohai
l m Cn = l m
n+
an n
= exp l an m
n
= exp (t) .
(12.13)
Por otro lado, como t/n 0 cuando n , y o1 (t/n) 0, resulta

n+
l m Dn = l m
n+
t + o3 n
t n
= 1k = 1.
(12.14)
Finalmente, como l n+ no1 (t/n) = 0, resulta m l m En = l m t + no1 t n

k
n+
n+
= (t)k . Usando (12.11), (12.12), (12.13), (12.14) y (12.15) obtenemos P ({X (t) = k}) = exp (t) Esto prueba que X (t) P (t) . 2 (t)k . k!
(12.15)
12.4.
Tiempos de espera
Sea T1 la variable aleatoria denida como el tiempo necesario hasta que ocurra el primer suceso . Calcularemos ahora su distribucin. o Teorema 12.2 T1 tiene distribucin exponencial con parmetro , es decir, o a E(). Demostracin. o FT1 (t) = P (T1 t)
= P (X (t) > 0) = 1 P (X (t) = 0) = 1 exp (t) .
Luego T1 E () .2 Otro problema de inters es la distribucin de los tiempos sucesivos de e o ocurrencia de los sucesos. Denamos T2 como el tiempo de espera hasta que
12.5. Procesos de Poisson en el plano.
265
ocurra el segundo suceso entonces T2 T1 tiene la misma distribucin que o T1 . No daremos una demostracin formal de este hecho. Heur o sticamente, este resultado puede justicarse de la siguiente manera. T2 T1 es el tiempo de espera para el primer suceso luego del instante T1 . Como por A1 el proceso es homogneo, este tiempo de espera deber tener la misma distribucin que e a o T1 . Adems como T1 est determinado por X(t) con t t1 y T2 T1 por a a X(t) con t > T1 , por A2, resulta que T1 es independiente de T2 T1 . Denamos ahora Ti como el tiempo de espera hasta que ocurran i sucesos. Luego, un argumento similir puede aplicarse, y tendremos el siguiente teorema que enunciaremos sin demostracin. o Teorema 12.3 Las variables aleatorias T1 , T2 T1 , T3 T2 , ..., Ti Ti1 , ... son i. i. d. con distribucin E(). o Corolario 12.1 El tiempo de espera Ti tiene distribucin (i, ). o Demostracin. Podemos escribir a la variable Ti como una suma telescpica o o Ti = T1 + (T2 T1 ) + (T3 T2 ) + ... + (Ti Ti1 ) . Recordando que E () = (1, ) y teniendo en cuenta que Ti una suma de variables independientes todas con distribucin (1, ) resulta que Ti o (i, ) . 2
12.5.
Procesos de Poisson en el plano.
Los procesos de Poisson se pueden generalizar al plano. No vamos a describir estos procesos con detalle, pero daremos una breve presentacin. Un o ejemplo de este tipo de procesos podr ser los que representan la ubicacin a o de los rboles en un bosque. a Consideramos ahora el plano en vez de la recta. Supongamos que en ciertos puntos del plano ocurren sucesos en forma aleatoria, como por ejemplo la presencia de un rbol. Luego para cada boreliano B del plano tendremos a la variable aleatoria X(B) que representa la cantidad de sucesos que han ocurrido en B (por ejemplo, la cantidad de rboles que se encuentran en a la regin B). Los axiomas de un proceso de Poisson en el plano son los o siguientes: AP1. Homogeneidad. Dado un boreliano, notemos con A su rea. Supongamos que B1 B2 a B 2 son boreleanos del plano tal que A (B1 ) = A (B2 ) entonces las variables aleatorias X (B1 ) y X (B2 )
266
V ctor J. Yohai
tienen la misma distribucin. Esto dice que la distribucin del nmero o o u de sucesos que ocurren en una regin del plano slo depende de su o o a rea. AP2. Independencia. Consideremos dos borelianos del plano esencialmente disjuntos B1 , B2 B 2 , es decir tal que A (B1 B2 ) = 0. Entonces las variables aleatorias X (B1 ) y X (B2 ) son independientes. Esto signica que cuando las regiones B1 y B2 tienen rea en comn igual a 0, entonces a u la informacin de lo que ocurre en una regin B1 no aporta ninguna o o informacin respecto de lo que ocurre en la regin B2 . o o AP3. P (X (B) = 1) = > 0, A(B) A(B)0 l m o bien P (X (B) = 1) = A(B) + o1 (A(B)) . AP4. P ({X (B) > 1}) = 0, A(B) A(B)0 l m o equivalentemente existe o2 (t) tal que P ({X (B) > 1}) = o2 (A(B)) . El siguiente teorema se demuestra de manera totalmente anloga al coa rrespondiente para procesos de Poisson en la recta.
Teorema 12.4 Si X (B) es un proceso que satisface AP1, AP2, AP3 y AP4 entonces la distribucin de X (B) es Poisson con parmetro A (B) , o a es decir X (B) P (A (B)) . Supongamos que se elija un punto cualquiera del plano (x0 , y0 ), y sea D1 la distancia de este punto (x0 , y0 ) al punto ms cercano donde ocurre a un suceso (en el ejemplo, D1 ser la distancia al rbol ms prximo), D2 la a a a o distancia de (x0 , y0 ) al punto donde ocurre el segundo suceso ms prximo, a o ..., Di la distancia de (x0 , y0 ) al punto donde ocurre el i-simo suceso ms e a 2 prximo. El siguiente teorema nos da la distribucin de D1 . o o
2 Teorema 12.5 La distribucin de D1 es E(). o
12.5. Procesos de Poisson en el plano.
267
Demostracin. Sea d > 0 y sea C el c o rculo con centro en (x0 , y0 ) y radio d1/2 . Decir que D1 d1/2 es lo mismo que decir que en C ocurri algn o u suceso. Luego
2 {D1 d} = {D1 d1/2 }
= {X(C) > 0}
= {X(C) = 0}c .
Luego tomando probabilidades y teniendo en cuenta que A(C) = d

2 P (D1 d) = 1 P (X(C) = 0)
= 1 exp(A(C)) = 1 exp(d)
2 y por lo tanto D1 tiene distribucin E(). 2 o
El siguiente teorema, del cual no se dar la demostracin, es nlogo al a o a a correspondiente teorema para Procesos de Poisson en la recta.
2 2 2 2 2 2 2 Teorema 12.6 Las variables aleatorias D1 , D2 D1 , D3 D2 , ..., Di Di1 , ... son i. i. d. con distribucin E(). o
Como corolario tendremos

2 o Corolario 12.2 La variable aleatoria Di tiene distribucin (i, ).

Notas de Probabilidades

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Notas de Probabilidades

Загружено:

Авторское право:

Доступные форматы

Notas de Probabilidades y Estad stica

1.2. Axiomas de probabilidad.

Demostracin. o Para ver esto supongamos que Ai A ; i = 1, 2, ..., n. Probaremos que

Entonces por ser A una -lgebra se tendr que a a

Propiedad 1.3 Si A es una -lgebra, y A1 , ..., An , ... es una sucesin de a o

Demostracin. Esto resulta de que A = ( o

Propiedad 1.4 Si A es una -lgebra, y A1 , ..., An son elementos de A a

1.2. Axiomas de probabilidad.

Denimos para todo A P (A) =

12 Propiedades de la funcin de probabilidad. o Propiedad 1.7 P () = 0.

Demostracin. Es inmediata, pues si tomamos Ai = , para todo i N o entonces por la -aditividad

y esto slo se cumple en el caso de que P () = 0. 2 o

Propiedad 1.8 Sean A1 , ...., An eventos disjuntos. Luego P (

1.2. Axiomas de probabilidad.

Propiedad 1.12 Sean Ai A, i = 1, 2, ..., k. Entonces

Propiedad 1.13 (-subaditividad) Sea (An )n1 A y A =

P (A) Demostracin. Denamos o B0 = , B1 = A1 ,

Luego es inmediato que los Bi son disjuntos dos a dos y

Por la aditividad y el hecho de que Bn An , resulta P (Bn ) P (An ) y entonces

Luego P (A) = l m P (An ).

1.2. Axiomas de probabilidad.

y por lo tanto usando la aditividad y la Propiedad 1.1 se tiene

Entonces P (A) = l m P (An ).

Demostracin. Sea Bn = Ac . Luego (Bn )n1 es una sucesin creciente de o o n eventos y Ac =

Bi . Luego por la propiedad anterior tenemos

y l mite inferior de la sucesin al conjunto o

A = { : est en innitos conjuntos An }. a

An de manera que A. Rec procamente si A entonces se /

(iii) Se obtiene del hecho de que claramente A A . 2

1.2. Axiomas de probabilidad.

Demostracin. o (i) Como lo hicimos anteriormente consideremos

Entonces la sucesin (Bn )n1 es decreciente y o A=

inf {P (Bk )} inf sup{P (Ai )}

Luego, como P (Bk ) es decreciente, se tiene P A = l P (Bk ) = inf {P (Bk )} m

inf sup{P (Ai )} = l i P (Ai ) . m

(ii) Se deja como ejercicio.

18 (iii) De (i) y (ii) tenemos que

Algebra generada por una familia de conjuntos.

Claramente R es no vac ya que P() R. Denamos ahora a, A =

1.3. Algebra generada por una familia de conjuntos.

1.4. Espacios de probabilidad nitos o numerables.

Espacios de probabilidad nitos o numerables.

Demostracin. Si A entonces A se puede escribir como la siguiente unin o o disjunta A= {},

donde cada conjunto {} A. Luego P (A) =

Propiedad 1.28 Si es nito o numerable se cumple que p () = 1.

Demostracin. En efecto por la Propiedad 1.27 o 1 = P () =

lo que es un absurdo puesto que

y luego, c= Adems a P (A) =

1.5. Probabilidad condicional.

1.6. Independencia de eventos.

P (A1 A3 ) = P (A1 ) P (A3 )

P (A2 A3 ) = P (A2 ) P (A3 )

h j=1 Aij h j=2 Aij

1.6. Independencia de eventos.

P (Ai1 Ai2 ) = P (Ai1 ) P (Ai2 )

h+1 j=1 Aij

h+1 j=2 Aij

De (1.4) y (1.5) obtenemos que

y como por la hipteisis inductiva (1.2) vale para h, se deduce o

Demostracin. Como B se puede escribir como la siguiente unin disjunta o o B=

1.6. Independencia de eventos.

(b) Si A , entonces Ac . Como X 1 (A) A, se tendr que a

(a), (b) y (c) prueban que es una -lgebra. 2 a

Espacio de probabilidad asociado a una variable aleatoria.