Академический Документы
Профессиональный Документы
Культура Документы
Probabilidades y Estadística
Cs. de la Computación
Introducción
Breve reseña histórica:
¿Para qué sirven las Probabilidades? Si bien estamos frente a procesos aleatorios, no
son necesariamente “caóticos”, en el sentido que podemos descubrir un patrón de
comportamiento que pueda ser modelado.
1
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Compresión de archivos: El código ASCII contiene 256 caracteres, cada uno de los
cuáles se representa con un número consistente en 8 dígitos binarios, por ejemplo, á se
representa por 160 ≡ 10100000.
Para simplificar el problema, supongamos que contamos con sólo 4 caracteres: A, B, C y
D. Para representarlos necesitamos 2 bits. Por ejemplo, podríamos representarlos así:
A → 00
B → 01
C → 10
D → 11
A 0.70 (70%)
B 0.12 (12%)
C 0.10 (10%)
D 0.08 ( 8%)
A→1
B → 00
C → 011
D → 010
¿Cuánto espacio (en bits) ocuparía ahora un texto de n caracteres? No lo sabemos, pero
podemos suponer que tendremos en promedio:
Como se observa, el método produce una disminución del espacio promedio requerido
para almacenar un texto.
2
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Probabilidad
Ejemplos:
Definiciones:
Experimento: Es cualquier proceso o acción que genera observaciones y que puede ser
repetible. Por ejemplo, arrojar un dado, seleccionar un individuo y registrar su peso y su
altura, seleccionar una muestra de productos elaborados por una empresa para hacer un
control de calidad, seleccionar un día al azar y registrar el número de veces que se satura
un servidor.
Ejemplos:
3) Se arroja una moneda hasta que aparece por primera vez una cara.
S={(1),(0,1),(0,0,1),(0,0,0,1),....} = {(x1,x2,...xn) / n∈N, xi=0 si i < n , xn=1}
3
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
S=ℜ+=(0,∞)
Si el sistema tiene un time-out en el tiempo to , tendríamos S=(0, to).
Como se observa, un espacio muestral puede ser finito, como en los ejemplos 1) y 2),
infinito numerable, como en el ejemplo 3) o infinito no numerable, como en el ejemplo 4).
4) A = “el tiempo es mayor de 10 minutos” = (10,∞) (en el caso de un sistema sin time-
out)
Relación con Teoría de conjuntos: Como un evento o suceso es un conjunto, valen las
mismas relaciones que en teoría de conjuntos.
4
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Asociatividad: A ∪ B ∪ C = (A ∪ B) ∪ C = A ∪ (B ∪ C)
A ∩ B ∩ C = (A ∩ B) ∩ C = A ∩ (B ∩ C)
Conmutatividad: A ∪ B = B ∪ A
A∩B= B∩A
Distributividad: (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
c c
⎛∞ ⎞ ∞
⎛∞ ⎞ ∞
Leyes de De Morgan: ⎜⎜ U Ai ⎟⎟ = I Aic y ⎜⎜ I Ai ⎟⎟ = U Aic
⎝ i =1 ⎠ i =1 ⎝ i =1 ⎠ i =1
nA
fr ( A) =
n
nA
1) fr ( A) = ≥0
n
nS n
2) fr ( S ) = = =1
n n
5
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
n A∪ B n A + n B n A n B
3) Si A ∩ B = ∅ ⇒ fr ( A ∪ B) = = = + = fr ( A) + fr ( B)
n n n n
A2. P(S) = 1
⎛ n ⎞ n
P⎜⎜ U Ai ⎟⎟ = ∑ P( Ai )
⎝ i =1 ⎠ i =1
⎛∞ ⎞ ∞
P⎜⎜ U Ai ⎟⎟ = ∑ P( Ai )
⎝ i =1 ⎠ i =1
Ejemplo: Consideremos el ejemplo en que se arroja una moneda una vez, para el cual el
espacio muestral es S={cara,ceca}. Si denominamos E1 = {cara} y E2 ={ceca} a los dos
eventos elementales, como P(S) = 1 = P(E1)+P(E2), entonces P(E2) = 1- P(E1). Por lo
tanto, cualquier asignación de probabilidades de la forma: P(E1) = p y P(E2)=1-p con
0 ≤ p ≤ 1, satisface los axiomas.
Propiedades de la Probabilidad:
Dem: 1 = P ( S ) = P ( A U A c ) = P ( A) + P ( A c ) ⇒ P( A c ) = 1 − P ( A)
A2 A3 a
6
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
2) P(∅) = 0
Dem: P( ∅ ) = 1 − P( ∅ c ) = 1 − P ( S ) = 1 − 1 = 0
P1 A2
3) Si A ⊆ B ⇒ P( A) ≤ P ( B) y P ( B − A) = P( B ) − P ( A)
P ( B) = P( A) + P( B − A)
Dado que, por el axioma A1, P(B-A) ≥ 0 , resulta P(B) ≥ P(A) y, despejando, se obtiene la
segunda afirmación.
P( A ∪ B) = P(A ∪ ( B ∩ A c ) ) = P( A) + P( B ∩ A c ) (1)
P( B) = P( B ∩ A) + P( B ∩ A c ) ⇒ P( B ∩ A c ) = P( B) − P( B ∩ A) (2)
P( A1 ∪ A2 ∪ A3 ) = P( A1 ) + P( A2 ) + P( A3 ) − P( A1 ∩ A2 ) − P( A1 ∩ A3 )
− P( A2 ∩ A3 ) + P( A1 ∩ A2 ∩ A3 )
7
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∑p
i =1
i = 1 , entonces dado cualquier suceso A, su probabilidad se puede obtener sumando
P ( A) = ∑p
Ei ⊂ A
i
2) Supongamos ahora que se arroja un dado en el cual la probabilidad de las caras pares
es el doble que la probabilidad de las caras impares, o sea que, si llamamos p a la
probabilidad de cada cara impar,
6
1
∑ P( E ) = 3 p + 6 p = 9 p = 1
i =1
i ⇒ p=
9
2 2
y, en este caso, P(A) = P(E2)+ P(E4)+ P(E6) = 3 = .
9 3
8
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
A={(0,1),(0,0,0,1),(0,0,0,0,0,1),.....}
Por lo tanto:
∞ 2k ∞ k
⎛1⎞ ⎛1⎞ 1 4 1
P ( A) = ∑ ⎜ ⎟ = ∑⎜ ⎟ = −1 = −1 =
k =1 ⎝ 2 ⎠ k =1 ⎝ 4 ⎠ 1 3 3
1−
4
∞
1
∑p k =0
k
=
1− p
P( Ei ) = p ∀i
n n
1 1
Como 1 =P( S ) = ∑ P( Ei ) = ∑ p = np
i =1 i =1
⇒ p= =
n #S
.
1 #A
Dado cualquier suceso A, P ( A) = ∑ P( E ) = ∑
Ei ⊂ A
i
Ei ⊂ A
=
n #S
.
Ejemplos: 1) De una urna que contiene 2 bolillas blancas y 3 rojas se extraen 2 bolillas
con reposición.
Supondremos que las bolillas están numeradas, de manera de poder considerar que se
trata de un espacio de equiprobabilidad, entonces S = {( x1 , x 2 ) / x i ∈{R1 , R 2 , R3 , B1 , B2 }} y
su cardinal es #S = 5 ⋅ 5 = 25
9
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
a) P ( A) = 1 − P( A c ) A c = {( x1 , x 2 ) ∈ S / x i ∈{B1 , B2 }} . Como # A c = 2 ⋅ 1 = 2 ,
siendo
2 1 1 9
resulta P ( A c ) = = ⇒ P( A) = 1 − = .
20 10 10 10
10
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Probabilidad condicional
Consideremos una urna que contiene 4 bolillas rojas y 5 blancas. De las 4 bolillas rojas, 2
son lisas y 2 rayadas y de las 5 bolillas blancas, 4 son lisas y una sola es rayada.
Supongamos que se extrae una bolilla y, sin que la hayamos mirado, alguien nos dice que
la bolilla es roja, ¿cuál es la probabilidad de que la bolilla sea rayada?
Sean los sucesos A: “la bolilla es rayada” y B: “la bolilla es roja”. Obviamente, sin ninguna
información previa, P(A)= 3/9=1/3 y P(B)=4/9.
Sin embargo, como sabemos que la bolilla es roja, la probabilidad de que sea rayada es
½, ya que, de las rojas la mitad es lisa y la mitad rayada. Observemos, que al ocurrir B, el
espacio muestral se reduce.
Definición: Sean A y B eventos tales que P(B) > 0, la probabilidad del evento A
condicional a la ocurrencia del evento B es
P( A ∩ B)
P( A | B) =
P( B)
P( A ∩ B) 2 / 9 2 1
P( A | B) = = = = .
P( B) 4/9 4 2
Dado que una persona seleccionada al azar pertenece al grupo de riesgo R, ¿cuál es la
probabilidad de que sea portador?
P( A ∩ B) 0.003
P( A | B) = = = 0.150
P( B) 0.020
11
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
es decir que 150 de cada 1000 individuos del grupo de riesgo R, son “probablemente”
portadores de HIV.
Calculemos ahora la probabilidad de que una persona sea portadora de HIV, dado que no
pertenece al grupo de riesgo R.
P( A ∩ B c ) 0.003
P( A | B c ) = = = 0.00306
P( B c ) 0.980
es decir que sólo 3 de cada 1000 individuos no pertenecientes al grupo de riesgo R, son
“posibles” portadores de HIV.
Propiedades de la Probabilidad condicional: Dado un suceso B fijo tal que P(B) > 0, P(•|B)
es una probabilidad, en el sentido que satisface los axiomas de probabilidad y por lo tanto
todas las propiedades que se deducen a partir de ellos. Por ejemplo:
A2. P(S|B) = 1.
P( S ∩ B) P( B)
Dem: P ( S | B) = = = 1.
P( B) P( B)
Regla del producto: Dados dos sucesos A y B, tales que P(B) > 0,
Sean C: “la primera bolilla es roja” y D: “la segunda bolilla es blanca”. debemos calcular
P(C ∩ D). Aplicando la regla del producto
12
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
4 5 20 5
P(C ∩ D) = P(C ) P( D | C ) = = = .
9 8 72 18
P( A1 ∩ A2 ∩ A3 ) = P( A1 ) P( A2 | A1 ) P( A3 | ( A1 ∩ A2 ))
y se extiende a n sucesos.
5 4 20 5
P(C c ∩ D) = P (C c ) P( D | C c ) = = = .
9 8 72 18
D = (D ∩ C) ∪ (D ∩ C c )
se obtiene
5 5 5
P( D) = P( D ∩ C ) + P( D ∩ C c ) = + = . (1)
18 18 9
¿Cómo podemos obtener ahora la probabilidad de que la primera bolilla haya sido roja
(suceso C) sabiendo que la segunda fue blanca (suceso D)? La probabilidad requerida es
P (C ∩ D) 5 18 1
P (C | D) = = = . (2)
P( D) 59 2
Los resultados (1) y (2) son ejemplos de aplicación de los dos Teoremas que veremos a
continuación: el Teorema de la Probabilidad Total y el Teorema de Bayes,
respectivamente.
Definición: Una colección de eventos A1 , A2 ,..., Ak constituye una partición del espacio
muestral S si
13
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1. Ai ∩ A j = ∅ ∀ i ≠ j
2. P( Ai ) > 0 ∀i
k
3. UA i =S
i =1
Teorema de la probabilidad total: Sea A1 , A2 ,..., Ak una partición del espacio muestral S y
sea B un suceso cualquiera,
k
P ( B) = ∑ P( B | Ai ) P ( Ai )
i =1
Dem:
⎛ k ⎞ k
B = B ∩ S = B ∩ ⎜⎜ U Ai ⎟⎟ = U (B ∩ Ai )
⎝ i =1 ⎠ i =1
Como ( B ∩ Ai ) ∩ ( B ∩ A j ) = ∅ ∀ i ≠ j , entonces
⎛ k ⎞ k k
P ( B) = P⎜⎜ U ( B ∩ Ai ) ⎟⎟ = ∑ P( B ∩ Ai ) = ∑ P( B | Ai ) P( Ai ).
⎝ i =1 ⎠ i =1 i =1
Teorema de Bayes: Sea A1 , A2 ,..., Ak una partición del espacio muestral S y sea B un
suceso cualquiera tal que P(B) > 0,
P( B | A j ) P( A j )
P( A j | B) = k
∑ P( B | A ) P( A )
i =1
i i
Dem:
P( A j ∩ B) P( B | A j ) P( A j )
P( A j | B) = = k
P( B)
∑ P( B | A ) P( A )
i =1
i i
14
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Ejemplo: Supongamos que cierta prueba para detectar la presencia de una enfermedad
en un individuo, da resultado positivo (detecta la presencia de la enfermedad) en un
individuo enfermo con probabilidad 0.99 y en un individuo sano con probabilidad 0.02
(falso positivo). Por lo tanto, dicha prueba no detecta la enfermedad en un individuo sano
con probabilidad 0.98 y no la detecta en un individuo enfermo con probabilidad 0.01 (falso
negativo). Es decir que si denotamos A: “la persona padece esa enfermedad” y B: “la
prueba es positiva”,
P( B | A) = 0.99 P( B | A c ) = 0.02
P( B | A) P ( A) 0.99 ⋅ 0.001
P( A | B) = = = 0.0472
P( B | A) P( A) + P( B | A ) P( A ) 0.99 ⋅ 0.001 + 0.02 ⋅ 0.999
c c
Por lo tanto, la probabilidad de que esté enfermo, habiendo sido positivo el resultado de la
prueba es aproximadamente 0.05.
Independencia
La definición de probabilidad condicional nos permite “revisar” la probabilidad P(A)
asignada a un suceso, cuando se sabe que otro suceso B ha ocurrido. Hay casos en los
que P(A | B) ≠ P(A), mientras que en otros P(A | B) = P(A), es decir que la ocurrencia del
suceso B no altera la probabilidad de ocurrencia de A.
15
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Ejemplo: De una urna que contiene 4 bolillas negras y 6 blancas se extraen dos bolillas
sin reposición , ¿cuál es la probabilidad de que la segunda bolilla sea blanca, sabiendo
que la primera es negra?
6 2
P( A | B) = = .
9 3
Observemos que la probabilidad de que la segunda bolilla sea blanca coincide con la
probabilidad de que la primera lo sea.
Ejercicio: Verificar que, en cambio, si las extracciones se realizan con reposición, P(A) =
P(A|B).
P( A ∩ B) = P( A) P( B)
P( A ∩ B)
Dem: (⇒) Si P ( B ) > 0 ⇒ P ( A | B ) = está bien definida, pero por ser A y B
P( B)
independientes, P ( A ∩ B ) = P ( A) P ( B ) , entonces
P( A) P( B)
P( A | B) = = P( A)
P( B)
16
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
20 1 30 3 20 1
P( A) = = P( B) = = P(C ) = =
40 2 40 4 40 2
1
P( A ∩ B) 1
P( A | B) = = 4 = ≠ P( A) , entonces A y B no son independientes.
P( B) 3 3
4
1
P( A ∩ C ) 1
P( A | C ) = = 4 = = P( A) , entonces A y C son independientes.
P(C ) 1 2
2
Dem: Como A ∩ B ⊆ B, P(A ∩ B) = 0 y por lo tanto P(A ∩ B) = P(A) P(B), es decir que A y
B son independientes.
Dem:
P ( A) = P( A ∩ B) + P ( A ∩ B c ) ⇒ P( A ∩ B c ) = P( A) − P ( A ∩ B) = P( A) − P( A) P( B) =
P( A) (1 − P( B) ) = P( A) P( B c ) .
17
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Definición: Los eventos A1 , A2 ,..., An son independientes si para todo k = 2,..., n y para
todo conjunto de índices {i1 , i2 ,..., ik } tales que 1 ≤ i1 < i2 < ... < ik ≤ n , se verifica
P( Ai1 ∩ Ai2 .... ∩ Aik ) = P( Ai1 ) ⋅ P( Ai2 )....P( Aik )
1
P( A) = P( B ) = P(C ) = .
2
Además,
1
P( A ∩ B) = = P( A) P( B)
4
1
P( A ∩ C ) = = P( A) P(C )
4
1
P( B ∩ C ) = = P( B) P(C )
4
1
P( A ∩ B ∩ C ) = ≠ P( A) P( B) P(C )
4
18
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1
Como antes, P ( A) = P ( B ) = P (C ) = . Además,
2
1
P( A ∩ B) = = P( A) P( B)
4
1
P( B ∩ C ) = = P( B) P(C )
4
1
P( A ∩ C ) = ≠ P( A) P(C )
8
1
P( A ∩ B ∩ C ) = = P( A) P( B) P(C ).
8
Ejemplo: Muchos sistemas de computación trabajan con enormes bases de datos, como
por ejemplo, sistemas de tarjetas de crédito o sistemas de reservas de pasajes aéreos.
Debido al volumen de datos involucrado, la velocidad de acceso al sistema depende de
las características de las unidades de almacenamiento utilizadas, como así también de las
redes de comunicación conectadas a la base de datos. Nos concentraremos en el primer
aspecto, es decir en el problema del almacenamiento.
Si el cabezal se mueve por ejemplo a una velocidad de 3.2 milisegundos (ms) por pista, la
búsqueda del ejemplo demandaría (3.2) (51-22) = (3.2)(29) = 92.8 ms. Si además
suponemos que el disco realiza una rotación completa en 30 ms, el retardo rotacional
19
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
puede demorar entre 0 y 30 ms, con un promedio de 15 ms. Por último, supongamos que
el acceso concreto al dato demora 1.2 milisegundos.
Ti: “el primero de los dos accesos siguientes corresponderá a un dato que está sobre la
pista i”
Entonces
75 75
P( A) = ∑ P( A ∩ Ti ) =∑ P( A | Ti ) P(Ti ) (3)
i =0 i =0
Si la primera búsqueda nos lleva a la pista 26, demandará (26-20) (3.2) ms = 19.2 ms, por
lo tanto la búsqueda total llevará a lo sumo 50 ms si la segunda búsqueda demora a lo
sumo 30.8 ms. Como en 30.8 ms se pueden recorrer a lo sumo 9 pistas (30.8/3.2), no
podemos ir más allá de la pista 26-9=17 o de la pista 26+9=35. En otras palabras
P( A | T26 ) será la probabilidad de que el segundo pedido de acceso se refiera a un dato
que está entre las pistas 17 y 35 inclusive. Dado que suponemos que todas las pistas son
equiprobables,
19 1
P( A | T26 ) = = .
76 4
Del mismo modo, se calculan todas las probabilidades condicionales requeridas en (3) y
se obtiene el valor de P(A) pedido.
20
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Dado que el valor de una variable aleatoria (en adelante lo abreviaremos v.a.) es
determinado por el resultado de un experimento, podremos asignar probabilidades a los
posibles valores o conjuntos de valores de la variable.
Ejemplo: Se arroja dos veces un dado equilibrado. Un espacio muestral asociado es:
S = {( x1 , x 2 ) / x i ∈{1,2,3,4,5,6}}
X :S →ℜ
21
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
En los ejemplos 1), 2) y 3) las v.a. toman un número finito o infinito numerable de valores,
mientras que en el ejemplo 4) la v.a. X toma valores en un conjunto infinito no numerable,
el intervalo (0, ∞) o un intervalo (0, M) si existe un tiempo máximo (“time out”).
1) RX = {0,1,2}
RY = {1,2,3,4,5,6}
RZ = {2,3,4,5,6,7,8,9,10,11,12}
2) RX = {0,1}
3) RX = {1,2,3,...} = N
Definición: Una v.a. es discreta si toma un número finito o infinito numerable de valores.
Ejemplo: En el caso del ejemplo 1), ¿cómo calcularíamos la probabilidad de que la v.a. Z
tome el valor 7, suponiendo que los lanzamientos son independientes?
p X ( x) = P( X = x) = P({w ∈ S / X ( w) = x})
22
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
p X ( x) ≥ 0 ∀x
∑p
x∈R X
X ( x) = 1
x 0 1 2
pX(x) 1/4 1/2 1/4
23
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
FX ( x) = P( X ≤ x) = ∑p
y ≤ x , y∈R X
X ( y)
Es decir que FX (x) es la probabilidad de que la v.a. X tome valores menores o iguales
que x.
x 0 1 2
pX(x) 1/4 1/2 1/4
Si x < 0 FX ( x ) = P ( X ≤ x ) = 0
x=0 F X ( 0) = P ( X ≤ 0) = p X ( 0) = 1
4
0 < x <1 F X ( x ) = P ( X ≤ x ) = p X ( 0) = 1
4
x =1 FX (1) = P( X ≤ 1) = p X (0) + p X (1) = 1 + 1 = 3
4 2 4
1< x < 2 FX ( x) = P( X ≤ x) = p X (0) + p X (1) = 3
4
x=2 FX (2) = P( X ≤ 2) = p X (0) + p X (1) + p X (2) = 1 + 1 + 1 =1
4 2 4
x>2 FX ( x) = P( X ≤ 2) = p X (0) + p X (1) + p X (2) = 1 + 1 + 1 =1
4 2 4
Resumiendo:
⎧0 si x < 0
⎪1 si 0 ≤ x < 1
⎪
FX ( x) = ⎨ 4
3
⎪ 4 si 1 ≤ x < 2
⎪1 si x ≥ 2
⎩
¿Cómo es FX (x)?
Observamos que se trata de una función escalera, no decreciente que toma valores entre
0 y 1.
24
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
i) ∀x ∈ ℜ, FX ( x) ∈ [0,1] .
ii) FX (x) es monótona no decreciente, es decir que si x1 < x 2 ⇒ FX ( x1 ) ≤ FX ( x 2 ).
p X ( x) = FX ( x ) − F X ( x − )
A = {w / X ( w) ≤ x 2 } = {w / X ( w) ≤ x1 } ∪ {w / x1 < X ( w) ≤ x 2 } = A1 ∪ A2
Como A1 ∩ A2 = ∅, P ( A) = P( A1 ) + P( A2 ) , es decir
P ( X ≤ x 2 ) = P( X ≤ x1 ) + P ( x1 < X ≤ x 2 ) ≥ P( X ≤ x1 )
y, por lo tanto,
25
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
FX ( x 2 ) ≥ FX ( x1 )
v) p X ( x) = P( X = x) = P( X ≤ x) − P( X < x) = FX ( x) − FX ( x − )
P ( a ≤ X ≤ b) = P ( a < X ≤ b) + P ( X = a )
1 3
P(1 ≤ X ≤ 2) = FX (2) − FX (1− ) = 1 −
=
4 4
3 1 1
P( X = 1) = FX (1) − FX (1− ) = − = .
4 4 2
26
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Ejemplo: Un experimento tiene sólo dos resultados posibles, que denominaremos Éxito y
Fracaso. El experimento se repite en forma independiente hasta que se obtiene el primer
éxito. Sea p = P(Éxito), 0 < p < 1, y definamos la v.a. X = “número de repeticiones hasta
obtener el primer éxito”. Como ya hemos visto, RX = N.
p X (1) = p
p X (2) = (1 − p) p
p X (3) = (1 − p ) 2 p
..........................
p X (k ) = (1 − p) k −1 p
.........................
Entonces,
p X (k ) = (1 − p ) k −1 p ∀k ∈ N .
p X ( x) ≥ 0 ∀x
∑p
x∈R X
X ( x) = 1
Dado que 0 < p < 1 , la primer propiedad obviamente se satisface. Respecto a la segunda,
∞ ∞ ∞
1
∑ p X (k ) =∑ (1 − p) k −1 p = p∑ (1 − p) j = p
k =1 k =1 j =0 1 − (1 − p )
=1
∞
1
donde hemos usado que la suma de la serie geométrica ∑q
i =0
i
=
1− q
, si q < 1.
27
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
x <1 FX ( x ) = 0
1≤ x < 2 FX (x) = p
2≤ x<3 FX (x) = p + p( 1-p)
3≤ x<4 FX (x) = p + p( 1-p) + p( 1-p) 2
..............................................................
k k −1
1 − (1 − p) k
k ≤ x < k +1 F X ( x) = p ∑ (1 − p) j −1 = p ∑ (1 − p) i = p = 1 − (1 − p ) k
j =1 i =0 1 − (1 − p )
..............................................................
1 − q n +1 n
Hemos usado que la suma parcial de una serie geométrica es ∑ q = . i
i =0 1− q
Recordemos que la función de distribución debe estar definida para todo x ∈ ℜ , entonces
⎧0 si x < 1
FX ( x) = ⎨ [x ]
⎩1 − (1 − p) si x ≥ 1
Ejercicio: Verificar que esta función de distribución satisface las propiedades enunciadas
antes.
Una empresa proveedora de servicio de Televisión Satelital tiene 20000 clientes en cierta
zona, cada uno de los cuáles puede optar por contratar de 1 a 5 paquetes de señales (el
abono básico consiste en un solo paquete y cada uno de los otros paquetes incluye
grupos de señales temáticas o premium). Supongamos que, entre los 20000 clientes, la
distribución del número de paquetes X contratados es la siguiente:
28
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
x 1 2 3 4 5
número de clientes 7500 5500 3500 2000 1500
proporción 37.5% 27.5% 17.5% 10.0% 7.5%
Observemos que, si no hubiésemos conocido los números de clientes que contratan cada
número de paquetes ni el total de la población, sino sólo las proporciones de cada número
(o su probabilidad) hubiésemos podido obtener el valor promedio, ya que dicho número
puede escribirse en la forma:
Definición: Sea X una v.a. discreta que toma valores en RX con función de probabilidad
puntual pX(x), la esperanza o valor esperado de X se define como
E( X ) = μ X = ∑x p
x∈R X
X ( x)
Ejemplos: 1) Sea X: “número de caras pares al arrojar dos veces un dado equilibrado”.
Como
x 0 1 2
pX(x) 1/4 1/2 1/4
1 1 1
entonces, E( X ) = 0 +1 + 2 =1.
4 2 4
29
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
2) Sea X una v.a. que toma sólo dos valores que designaremos 1 y 0 (Éxito y Fracaso)
con la siguiente función de probabilidad puntual
x 1 0
pX(x) α 1-α
siendo 0 < α < 1. Una v.a. de este tipo se dice que es una v.a. de tipo Bernoulli y su
esperanza es:
E (X ) = 1 ⋅ α + 0 ⋅ (1 − α ) = α
3) Veamos un ejemplo en que no existe E(X). Sea X una v.a. con la siguiente función de
probabilidad puntual
⎧ 6 1
⎪ si x ∈ N
p X ( x ) = ⎨π 2 x 2
⎪⎩ 0 en otro caso
En primer lugar, observemos que pX(x) es una función de probabilidad puntual, ya que
∞
1 π2
∑
x =1 x
2
=
6
∞ ∞
6 1 6 1
E( X ) = ∑ x = 2 ∑ =∞
x =1 π x
2 2
π x =1 x
p X (k ) = (1 − p) k −1 p ∀k ∈ N
Calculemos la esperanza de X.
∞ ∞ ∞
∂
E ( X ) = ∑ k p (1 − p ) k −1 = p ∑ k (1 − p ) k −1 = − p ∑ (1 − p ) k
k =1 k =1 k =1 ∂p
30
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∂ ⎛ ∞ ⎞ ∂ ⎛ 1 ⎞ ∂ ⎛1 ⎞ ⎛ 1 ⎞ 1
E( X ) = − p ⎜ ∑ (1 − p ) k ⎟ = − p ⎜⎜ − 1⎟⎟ = − p ⎜⎜ − 1⎟⎟ = − p⎜⎜ − 2 ⎟⎟ = .
∂p ⎝ k =1 ⎠ ∂p ⎝ 1 − (1 − p ) ⎠ ∂p ⎝ p ⎠ ⎝ p ⎠ p
1
y por lo tanto hemos demostrado que E ( X ) = .
p
Otra interpretación de E(X) está relacionada con un resultado que estudiaremos más
adelante, denominado “ley de los grandes números”. Imaginemos que se repite
indefinidamente un experimento aleatorio y que en cada repetición nuestra v.a. X toma
diferentes valores. Se ha demostrado que el promedio de los resultados obtenidos tiende
a estabilizarse en un número que es E(X), si es que ésta existe.
x 1 2 3 4 5
pX(x) 0.375 0.275 0.175 0.100 0.075
Supongamos que el costo del servicio (Y) es función del número de paquetes contratado,
según la siguiente fórmula:
Y = 30 ( X + 1)
¿Cuál es el valor esperado del costo pagado por cliente? Es decir, ¿cuál es E(Y)?.
31
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
5
Observemos que, E( Y ) = ∑ h( x ) p
x =1
X ( x ), siendo h( x) = 30( x + 1).
Proposición: Si X es discreta y toma valores x1, x2, ....., entonces h(X) es discreta con
valores y1, y2, ...., siendo yj = h(xi) para al menos un valor de i.
Proposición: Si la v.a. X tiene función de probabilidad puntual pX(x) para todo x ∈ RX,
entonces la esperanza de cualquier función real h(X), está dada por
E (h( X )) = ∑ h( x ) p
x∈R X
X ( x)
⎡ ⎤
E (Y ) = ∑ y j pY ( y j ) =∑ y j ⎢ ∑ p X ( x i )⎥ =∑ ∑ y j p X ( x i ) = ∑ h( x i ) p X ( xi ) .
j j ⎢⎣i / h ( xi ) = y j ⎥⎦ j i / h ( xi ) = y j i
Propiedades de la esperanza:
Dem: E ( X ) = cp X (c) = c.
x 2 3 4
pX(x) 1/3 1/3 1/3
y 1 2 3 4 5
pY(y) 1/12 5/12 2/12 1/12 3/12
32
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
z 3
pZ(z) 1
Estas tres v.a. tienen la misma esperanza, sin embargo la forma de su distribución es muy
diferente.
Definición: Sea X una v.a. discreta con función de probabilidad puntual pX(x) y esperanza
μX, la varianza de X, que se denotará V(X), σ X2 ó σ 2 , es
V ( X ) = σ X2 = ∑ (x − μ X ) 2 p X ( x) = E [( X − μ X ) 2 ].
x∈R X
y el desvío standard de X, es σ X = + V ( X ) .
Ejemplos: 1) Calculemos la varianza y el desvío standard de las tres v.a. que acabamos
de presentar, cuya esperanza es igual a 3.
1 1 1 2
V ( X ) = σ X2 = ( 2 − 3 ) 2 + ( 3 − 3 )2 + ( 4 − 3 )2 =
3 3 3 3
1 5 2 1 3 22 11
V ( Y ) = σ Y2 = ( 1 − 3 ) 2 + ( 2 − 3 )2 + ( 3 − 3 )2 + ( 4 − 3 )2 + ( 5 − 3 )2 = =
12 12 12 12 12 12 6
V ( Z ) = σ Z2 = ( 3 − 3 ) 2 ⋅ 1 = 0
x 0 1 2
pX(x) 1/4 1/2 1/4
y su esperanza es E ( X ) = 1 , entonces
1 1 1 1
V ( X ) = (0 − 1) 2 + (1 − 1) 2 + (2 − 1) 2 = .
4 2 4 2
33
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
x 1 0
pX(x) α 1-α
V ( X ) = (1 − α ) 2 α + (0 − α ) 2 (1 − α ) = α (1 − α ) [(1 − α ) + α ] = α (1 − α ).
Proposición: V ( X ) = E ( X 2 ) − (E ( X ) ) .
2
Dem:
(
V (X ) = E (X − μ X )2 = ) ∑ (x − μ X ) 2 p X ( x) = ∑ (x 2
)
− 2 μ X x + μ X2 p X ( x) =
x∈R X x∈R X
= ∑x
x∈R X
2
p X ( x) − 2μ X ∑xp
x∈R X
X ( x) + μ X2 ∑p
x∈R X
X ( x) = E ( X 2 ) − 2 μ X E ( X ) + μ X2 =
= E ( X 2 ) − 2μ X2 + μ X2 = E ( X 2 ) − μ X2 = E ( X 2 ) − (E ( X ) ) .
2
p X (k ) = (1 − p) k −1 p ∀k ∈ N
1 1− p
Hemos demostrado que E ( X ) = . Demostraremos ahora que V ( X ) = .
p p2
Calculemos E ( X 2 ).
∞ ∞
E ( X 2 ) = ∑ k 2 p (1 − p ) k −1 =∑ [(k + 1)k − k ] p(1 − p) k −1 =
k =1 k =1
∞ ∞ ∞
= ∑ (k + 1)kp(1 − p) k −1 − ∑ k p (1 − p ) k −1 =∑ (k + 1)kp(1 − p) k −1 − E ( X ) =
k =1 k =1 k =1
⎡∞ ⎤ 1 ⎡ ∞ ∂2 ⎤ 1
= p ⎢∑ (k + 1)k (1 − p ) k −1 ⎥ − = p ⎢∑ 2 (1 − p ) k +1 ⎥ − =
⎣ k =1 ⎦ p ⎣ k =1 ∂p ⎦ p
34
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∂2 ⎡ ∞ k +1 ⎤ 1 ∂2 ⎡ ∞ ⎤ 1
2 ⎢∑ 2 ⎢∑
=p (1 − p ) ⎥ − = p (1 − p ) j ⎥ − =
∂p ⎣ k =1 ⎦ p ∂p ⎣ j = 2 ⎦ p
∂2 ⎡ 1 ⎤ 1 ∂2 ⎡1 ⎤ 1
=p ⎢ − 1 − (1 − p ) −
⎥ p = p ⎢p −2+ p⎥ − =
∂p 2 ⎣1 − (1 − p ) ⎦ ∂p 2 ⎣ ⎦ p
∂ ⎡ 1 ⎤ 1 2 1 2 1
=p ⎢− 2 + 1⎥ − = p 3 − = 2 −
∂p ⎣ p ⎦ p p p p p
Entonces,
1 (1 − p )
V ( X ) = E ( X 2 ) − (E ( X ) ) =
2 1 1 1
− − 2 = 2 − =
2
2
p p p p p p2
1) V (aX + b) = a 2V ( X ) y σ aX +b = a σ X .
Entonces,
x∈R X x∈R X
∑ (ax − aE ( X )) ∑ (x − E ( X ) )
2
= p X ( x) =a p X ( x) = a 2V ( X )
2 2
x∈R X x∈R X
y, por lo tanto, σ aX + b = a σ X .
35
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Dem: Ejercicio.
36
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Distribución Binomial:
Ejemplos: 1) Se arroja una moneda n veces y se llama Éxito al suceso “sale cara”.
2) Se arroja un dado equilibrado n veces y se llama Éxito al suceso “se obtiene un as”.
4) Se extraen 4 bolillas con reposición de una urna que contiene 5 bolillas blancas y 3
negras y se denomina Éxito al suceso “las 4 bolillas son blancas”.
5) ¿Es el que sigue un experimento Binomial? Se extraen 2 bolillas sin reposición de una
urna que contiene 5 bolillas blancas y 3 negras y se denomina Éxito al suceso “la bolilla
extraída es blanca”.
4 5
P ( B2 | B1 ) = ≠ P ( B2 ) =
7 8
Notación: X ~ Bi (n,p).
37
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Sea k ∈ RX, una secuencia posible con k éxitos y n-k fracasos es:
E2
1...3
E1F2
...3
F
k n−k
n n
⎛n⎞ k
∑ = ∑ ⎜⎜ ⎟⎟ p (1 − p ) n − k = ( p + (1 − p ) ) = 1n = 1.
n
p X ( k )
k =0 k =0 ⎝ k ⎠
n
⎛n⎞
Hemos usado la fórmula del Binomio de Newton: (a + b) n = ∑ ⎜⎜ k ⎟⎟a k
b n−k .
k =0 ⎝ ⎠
⎧0 si x < 0
⎪⎪ [ x ] ⎛ n ⎞ k
FX ( x) = ⎨∑ ⎜⎜ ⎟⎟ p (1 − p) n − k si 0 ≤ x ≤ n
⎪ k =0 ⎝ k ⎠
⎪⎩ 1 si x > n
P ( X = 4) = ⎜⎜ ⎟⎟⎜ ⎟ ⎜ ⎟ = 0.054
⎝ 4 ⎠⎝ 6 ⎠ ⎝ 6 ⎠
10 − k
⎛10 ⎞⎛ 1 ⎞ ⎛ 5 ⎞
5 k
38
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
E ( X ) = np y V ( X ) = np(1 − p)
Dem: En el caso n=1, X es una v.a. Bernoulli y ya hemos demostrado que en este caso,
E(X)=p y V(X) = p(1-p). Sea ahora n>1,
n
⎛n⎞ n
⎛n⎞ n
n!
E ( X ) = ∑ k ⎜⎜ ⎟⎟ p k (1 − p ) n − k =∑ k ⎜⎜ ⎟⎟ p k (1 − p ) n − k =∑ k p k (1 − p) n − k =
k =0 ⎝ ⎠
k k =1 ⎝ ⎠
k k =1 k! (n - k)!
n
n! n
(n − 1)!
∑ (k − 1)!(n − k )! p
k =1
k
(1 − p) n − k = np ∑
k =1 ( k − 1)! ( n − k )!
p k −1 (1 − p ) n − k =
n
⎛ n − 1⎞ k −1 n −1 n − 1
⎛ ⎞ j
np ∑ ⎜⎜ ⎟⎟ p (1 − p ) (n −1)−(k −1) = np ∑ ⎜⎜ ⎟⎟ p (1 − p ) n −1− j = np ( p + (1 − p) ) = np.
n −1
k =1 ⎝ k − 1⎠
− =
j =0 ⎝ j ⎠
( k 1) j
( )
Recordemos que V ( X ) = E X 2 − (E ( X ) ) = E X 2 − n 2 p 2 .
2
( )
n
⎛n⎞ n
⎛n⎞
E ( X 2 ) = ∑ k 2 ⎜⎜ ⎟⎟ p k (1 − p) n − k = ∑ (k (k − 1) + k ) ⎜⎜ ⎟⎟ p k (1 − p) n − k
k =0 ⎝k ⎠ k =0 ⎝k ⎠
n
⎛n⎞ n
⎛n⎞ n
⎛n⎞
= ∑ k (k − 1) ⎜⎜ ⎟⎟ p k (1 − p) n − k + ∑ k ⎜⎜ ⎟⎟ p k (1 − p) n − k = ∑ k (k − 1) ⎜⎜ ⎟⎟ p k (1 − p ) n − k + E ( X )
k =0 ⎝k ⎠ k =0 ⎝k ⎠ k =2 ⎝k ⎠
n n
n! n!
= ∑ k (k − 1) p k (1 − p ) n − k + np = ∑ p k (1 − p ) n − k + np
k =2 k!(n − k )! k =2 ( k − 2)! ( n − k )!
n
(n − 2)!
= n(n − 1) p 2 ∑ p k − 2 (1 − p ) n − k + np
k =2 (k − 2)!(n − k )!
n−2
⎛ n − 2⎞ j
= n(n − 1) p 2 ∑ ⎜⎜ ⎟⎟ p (1 − p ) n − 2 − j + np = n(n − 1) p 2 ( p + (1 − p ) )n − 2 + np
( k −2)= j
j =0 ⎝ j ⎠
= n(n − 1) p 2 + np
39
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
En realidad, para que la demostración anterior sea válida debe ser n ≥ 2, pero es
inmediato verificar que, si n=1, E ( X 2 ) = p y por lo tanto la expresión hallada es válida
para todo n.
Finalmente,
V ( X ) = E ( X 2 ) − (E ( X ) ) = n(n − 1) p 2 + np − n 2 p 2 = −np 2 + np = np (1 − p )
2
0.4
0.4
p(x)
p(x)
p(x)
0.2
0.2
0.2
0.0
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
x x x
0.4
0.4
p(x)
p(x)
p(x)
0.2
0.2
0.2
0.0
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
x x x
0.4
0.4
p(x)
p(x)
p(x)
0.2
0.2
0.2
0.0
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
x x x
40
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
0.6
0.6
0.4
0.4
0.4
p(x)
p(x)
p(x)
0.2
0.2
0.2
0.0
0.0
0.0
0 1 2 3 4 5 0 2 4 6 8 10 0 5 10 15 20 25
x x x
0.6
0.6
0.4
0.4
0.4
p(x)
p(x)
p(x)
0.2
0.2
0.2
0.0
0.0
0.0
0 1 2 3 4 5 0 2 4 6 8 10 0 5 10 15 20 25
x x x
0.6
0.6
0.4
0.4
0.4
p(x)
p(x)
p(x)
0.2
0.2
0.2
0.0
0.0
0.0
0 1 2 3 4 5 0 2 4 6 8 10 0 5 10 15 20 25
x x x
41
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Notación: X ~ G (p).
Al estudiar en general las v.a. discretas, hemos probado que la función de probabilidad
puntual de X está dada por
p X (k ) = (1 − p ) k −1 p ∀k ∈ N .
⎧0 si x < 1
FX ( x) = ⎨ [x ]
⎩1 − (1 − p ) si x ≥ 1
1 (1 − p )
E( X ) = y V (X ) =
p p2
Dem: Ejercicio.
(Sugerencia: Demostrar que si X ~ G (p), P ( X > k ) = (1 − p ) k ).
Ejemplo: Sea X: “número de tiros hasta obtener el primer as en una sucesión de tiros de
un dado equilibrado”, entonces X ~ G (1/6).
42
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
6
1⎛5⎞
P ( X = 7) = ⎜ ⎟ = 0.06
6⎝6⎠
5
⎛5⎞
P ( X ≥ 6) = P( X > 5) = ⎜ ⎟ = 0.40
⎝6⎠
1 5/6
E( X ) = =6 V (X ) = = 30
1/ 6 (1 / 6)2
0.4
0.4
p(x)
p(x)
p(x)
0.2
0.2
0.2
0.0
0.0
0.0
0 5 10 15 20 25 30 0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x x
0.4
0.4
p(x)
p(x)
p(x)
0.2
0.2
0.2
0.0
0.0
0.0
0 5 10 15 20 25 30 0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x x
0.4
0.4
p(x)
p(x)
p(x)
0.2
0.2
0.2
0.0
0.0
0.0
0 5 10 15 20 25 30 0 5 10 15 20 25 30 0 5 10 15 20 25 30
x x x
43
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Notación: X ~ BN (r,p).
Observemos que RX = {r, r+1, r+2, ....} y hallemos su función de probabilidad puntual.
Sea k un número natural, k ≥ r. Para que sean necesarias k repeticiones para obtener el
primer Éxito, el r-ésimo Éxito debe ocurrir en la repetición k y en las (k-1) repeticiones
previas debe haber exactamente (r -1) Éxitos. Como las repeticiones son independientes
la probabilidad de una configuración de ese tipo es p r (1 − p ) k − r , pero hay varias
configuraciones de esta forma. ¿Cuántas? Tantas como formas de elegir entre las (k-1)
⎛ k − 1⎞
primeras repeticiones, aquellas donde ocurrirán los (r-1) Éxitos, o sea ⎜⎜ ⎟⎟ .
⎝ r − 1⎠
⎛ k − 1⎞ r
P ( X = k ) = ⎜⎜ ⎟⎟ p (1 − p ) k − r ∀ k ∈ {r , r + 1, r + 2,....}
⎝ r − 1 ⎠
⎧
⎪0 si x < r
⎪⎪
FX ( x) = ⎨
⎪ [ x ] ⎛ k − 1⎞ r
⎪∑ ⎜⎜ ⎟⎟ p (1 − p ) k − r si x ≥ r
⎪⎩ k = r ⎝ r − 1 ⎠
Ejemplo: Se extraen con reposición bolillas de una urna que contiene 3 bolillas blancas y
7 rojas. Se define X: número de extracciones hasta obtener la cuarta bolilla roja.
X ~ BN (4,7/10)
⎛ 5 − 1⎞⎛ 7 ⎞
4
⎛3⎞
P ( X = 5) = ⎜⎜ ⎟⎟⎜ ⎟ ⎜ ⎟ = 0.29
⎝ 4 − 1⎠⎝ 10 ⎠ ⎝ 10 ⎠
44
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
k −4
⎛ k − 1⎞⎛ 7 ⎞
4
7
⎛3⎞
P (5 ≤ X ≤ 7) = ∑ ⎜⎜ ⎟⎟⎜ ⎟ ⎜ ⎟ = 0.49
k = 5 ⎝ 3 ⎠⎝ 10 ⎠ ⎝ 10 ⎠
r r (1 − p)
E( X ) = V (X ) =
p p2
Dem: Lo demostraremos más adelante usando que una v.a. Binomial Negativa puede
expresarse como suma de v.a. Geométricas independientes.
Observación: Esta v.a. suele también definirse como el número de Fracasos antes de
obtener el r-ésimo Éxito. Si la denotamos X, entonces su rango será
⎛ r + x − 1⎞ r
y su función de probabilidad puntual: p X * ( x) = ⎜⎜ ⎟⎟ p (1 − p) x
⎝ x ⎠
En este caso,
r (1 − p) r (1 − p)
E( X * ) = y V (X * ) =
p p2
• Cada elemento o individuo puede ser clasificado como Éxito o Fracaso y hay D Éxitos
en la población.
X ~ H (n,N,D)
Ejemplo: De una urna que contiene 3 bolillas blancas y 7 negras se extraen 4 bolillas sin
reposición y se define X: número de bolillas blancas extraídas.
45
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Como todos los conjuntos de 4 bolillas tienen la misma probabilidad de ser extraídos, la
1 ⎛ 3 ⎞⎛ 7 ⎞
probabilidad de uno cualquiera de ellos será . Por otro lado hay ⎜⎜ ⎟⎟⎜⎜ ⎟⎟ conjuntos
⎛10 ⎞ ⎝ 2 ⎠⎝ 2 ⎠
⎜⎜ ⎟⎟
⎝4⎠
que contienen 2 bolillas blancas y 2 negras y, por lo tanto la probabilidad pedida será:
⎛ 3 ⎞⎛ 7 ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟⎟
3 ⋅ 21 3
P ( X = 2) = ⎝ ⎠⎝ ⎠ =
2 2
= .
⎛10 ⎞ 210 10
⎜⎜ ⎟⎟
⎝4⎠
Proposición: Si X ~ H (n,N,D),
⎛ D ⎞⎛ N − D ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟
⎝ k ⎠⎝ n − k ⎟⎠
p X (k ) = max(0, n − ( N − D) ) ≤ k ≤ min (n, D )
⎛N⎞
⎜⎜ ⎟⎟
⎝n⎠
Proposición: Si X ~ H (n,N,D),
D ⎛ N −n⎞ D ⎛ D⎞
E( X ) = n V (X ) = ⎜ ⎟ n ⎜1 − ⎟
N ⎝ N −1 ⎠ N ⎝ N⎠
46
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ N −n⎞
Observaciones: 1) El factor ⎜ ⎟ que aparece en la expresión de la varianza se
⎝ N −1 ⎠
denomina factor de corrección por población finita.
⎛n⎞ e −λ λk
p X (k ) = ⎜⎜ ⎟⎟ p k (1 − p ) n.k ⎯
⎯→ ∀k ∈ N o = N ∪ {0}
⎝k ⎠ k!
Dem:
n−k
⎛n⎞ ⎛λ⎞ ⎛ λ⎞
k
n!
p X (k ) = ⎜⎜ ⎟⎟ p k (1 − p ) n − k = ⎜ ⎟ ⎜1 − ⎟
⎝k ⎠ k!(n − k )! ⎝ n ⎠ ⎝ n⎠
−k
n(n − 1)...(n − k + 1) ⎛ λ ⎞ ⎛ λ ⎞ λk
n
= ⎜1 − ⎟ ⎜1 − ⎟
nk ⎝ n⎠ ⎝ n⎠ k!
−k
⎡ n n − 1 n − k + 1⎤⎛ λ ⎞ ⎛ λ ⎞ λk
n
=⎢ .... ⎥ ⎜1 − n ⎟ ⎜1 − n ⎟ .
⎣n n n ⎦⎝ ⎠ ⎝ ⎠ k!
Observemos que:
n −1 n − k +1
1⋅ .... ⎯n⎯
⎯→1
→∞
n n
⎛ λ⎞
n
⎯→ e −λ
⎜1 − ⎟ ⎯n⎯
→∞
⎝ n ⎠
−k
⎛ λ⎞
⎜1 − ⎟ ⎯n⎯
⎯→ 1
→∞
⎝ n⎠
e −λ λk
Entonces, p X (k ) ⎯
⎯→ , como queríamos demostrar.
k!
47
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Esta proposición sugiere que la función de probabilidad puntual podría ser aproximada por
la función de probabilidad límite, pero ¿cuándo se considera que n es grande y p es
pequeño para que la aproximación sea buena?
e −λ λk
p X (k ) = ∀ k ∈ N o = N ∪ {0}
k!
Es obvio que p X (k ) ≥ 0 ∀k .
∞ ∞
e −λ λk ∞
λk
∑ p X (k ) = ∑
k =0 k =0 k!
= e −λ ∑
k = 0 k!
= e − λ e λ = 1,
∞
xk
ya que ∑
k =0 k !
es el desarrollo en serie de e x .
48
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
e −5 5 2
P ( X = 2) = = 0.084
2!
2
e −5 5 k ⎛ 52 ⎞
P ( X ≤ 2) = ∑ = e −5 ⎜⎜1 + 5 + ⎟⎟ =0.125
k =0 k! ⎝ 2 ⎠
E( X ) = λ y V (X ) = λ
Dem:
∞
e −λ λk ∞ e −λ λk ∞ e −λ λk ∞
e − λ λ k −1 ∞
e −λ λ j
E( X ) = ∑ k =∑ k =∑ =λ ∑ =λ ∑ = λ.
k =0 k! k =1 k! k =1 (k − 1)! k =1 (k − 1)! j =0 j!
∞
e −λ λk ∞ e −λ λk ∞ e −λ λk ∞
e −λ λk
E( X 2 ) = ∑ k 2 =∑ (k (k − 1) + k ) =∑ k (k − 1) + ∑k =
k =0 k! k =0 k! k =2 k! k =0 k!
∞
e −λ λk −2 e −λ λ j
= λ2 ∑ + E ( X ) = λ2 ∑ + λ = λ2 + λ.
k =2 (k − 2 )! j =0 j !
Entonces
V ( X ) = E ( X 2 ) − (E ( X ) ) = λ 2 + λ − λ 2 = λ .
2
49
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
0.6
0.8
lambda =0.5
0.3
0.6
0.4
0.2
p(x)
p(x)
p(x)
0.4
0.2
0.1
0.2
0.0
0.0
0.0
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
x x x
lambda =2 lambda =3 lambda =5
0.20
0.15
0.20
0.10
p(x)
p(x)
p(x)
0.10
0.10
0.05
0.0
0.0
0.0
0 5 10 15 20 0 5 10 15 20 0 5 10 15 20
x x x
lambda =10 lambda =15 lambda =20
0.12
0.08
0.06
0.08
p(x)
p(x)
p(x)
0.04
0.04
0.02
0.0
0.0
0.0
0 5 10 15 20 25 30 0 5 10 15 20 25 30 0 10 20 30 40
x x x
50
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
En particular, si todos los intervalos son de igual longitud t1/n, la v.a. X t1 : “número de
eventos que ocurren en el intervalo (0, t1 )” es “casi” binomial, siendo Éxito la ocurrencia
de un evento en cada uno de los subintervalos y p = P(Éxito)=probabilidad de que ocurra
un evento. Si el número de subintervalos es suficientemente grande y por lo tanto el p
suficientemente pequeño, por el resultado límite que hemos probado, la variable X t1 tiene
distribución de Poisson.
Ejercicio: Para cada uno de estos ejemplos, discutir en que situaciones se verifican las
tres condiciones enunciadas.
g ( h)
siendo o(h) una función g(h) tal que lim = 0.
h →0 h
51
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Xt ~ P(θ t)
Puede interpretarse como la tasa media a la cual ocurren los eventos en la unidad de
tiempo. Se la suele llamar tasa media de ocurrencia o intensidad del Proceso de Poisson.
La definición anterior, que en realidad es un teorema, da las condiciones bajo las cuáles
ciertos experimentos aleatorios que producen como resultados eventos en el tiempo (o en
longitud, área, volumen, etc) pueden ser modelados mediante la distribución de Poisson.
Consideremos los ejemplos 1) a 5). Sólo bajo ciertas condiciones, satisfacen las
propiedades de un Proceso de Poisson.
Ejemplo: Supongamos que el número de mensajes de correo electrónico que llegan a una
casilla de correos sigue un proceso de Poisson de intensidad θ = 2 mensajes / minuto.
c) ¿Cuál es la probabilidad de que no se reciba ningún mensaje entre las 13:30 hs y las
13:33 hs?
52
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Ejemplo: Con el fin de realizar un control de calidad en una fábrica de baterías, se mide el
tiempo de duración de baterías elegidas al azar y se define la v.a.
f : ℜ → ℜ + = [0, ∞)
P( X ∈ A) = ∫ f ( x)dx ∀ A⊆ℜ
A
53
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
b
P(a ≤ X ≤ b) = ∫ f ( x)dx
a
y P( X = a ) = P(a ≤ X ≤ a ) = 0 ∀a ∈ ℜ.
Propiedad: Para que una función f (x) sea una función de densidad, debe satisfacer
f ( x) ≥ 0 ∀ x ∈ ℜ
∞
∫ f ( x)dx = 1
−∞
Observación: Notar que f (x) no es una probabilidad, de hecho puede ser mayor que 1.
Es simplemente el valor de una función en un punto.
Ejemplo: Sea
⎧ a x2 si 1 ≤ x ≤ 3
f ( x) = ⎨
⎩0 en otro caso
⎧1 si x ∈ A
I A ( x) = ⎨
⎩0 si x ∉ A
∞ 3 3 3
x3 26 3
∫ = ⇔ ∫1 = ⇔ ∫1 = ⇔ =1⇔ a =1⇔ a = .
2 2
f ( x ) dx 1 a x dx 1 a x dx 1 a
−∞
3 1
3 26
∞ 3
27 − 8 19
3
3 2 3 x3
P ( X ≥ 2) = ∫ f ( x)dx = ∫ x dx = = = .
2 2
26 26 3 2
26 26
54
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
x
F ( x) = P( X ≤ x) = ∫ f (t )dt
−∞
x x
Si x < 1 , F ( x) = P ( X ≤ x) = ∫
−∞
f (t )dt = ∫ 0 dt = 0
−∞
x
x3 −1
x x
3 2 3 t3
Si 1 ≤ x ≤ 3 , F ( x) = ∫ f (t )dt = ∫ t dt = =
−∞ 1
26 26 3 1
26
x 3
3 2
Si x > 3, F ( x) = ∫
−∞
f (t )dt = ∫
1
26
t dt =1
Resumiendo,
⎧0 si x < 1
⎪ x3 − 1
F ( x) = ⎨ si 1 ≤ x ≤ 3
⎪ 26
⎩1 si x > 3
Observamos que se trata de una función continua, no decreciente que toma valores entre
0 y 1.
55
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
i) ∀x ∈ ℜ, FX ( x) ∈ [0,1] .
ii) FX (x) es monótona no decreciente, es decir que si x1 < x 2 ⇒ FX ( x1 ) ≤ FX ( x 2 ).
Observemos que las propiedades i), ii) y iv) ya las hemos demostrado en general al
considerar las v.a. discretas. Respecto a la propiedad iii), en el caso discreto probamos
que la función de distribución es continua a derecha en todo punto, mientras que en este
caso es continua en todo punto.
P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b) = F (b) − F (a) .
∂F ( x)
F ' ( x) = = f ( x)
∂x
Distribución Uniforme:
1
f ( x) = I [ A, B ] ( x )
B−A
es decir, la densidad es constante sobre el intervalo [ A,B ] y 0 fuera de él. A y B son los
parámetros de la distribución.
Notación: X ~ U (A,B).
56
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
x x
Si x < A ⇒ F ( x) = ∫
−∞
f (t )dt = ∫ 0 dt = 0 .
−∞
x
x−A
x x
1 t
Si A ≤ x ≤ B ⇒ F ( x) = ∫ f (t ) dt = ∫ dt = = .
−∞ A
B−A B−A A B−A
B
B−A
x B
1 t
Si x > B ⇒ F ( x) = ∫ f (t )dt = ∫ dt = = = 1.
−∞ A
B−A B−A A B−A
Resumiendo,
⎧ 0 si x < A
⎪
⎪
⎪⎪ x − A si A ≤ x ≤ B
F ( x) = ⎨ B − A
⎪
⎪ 1 si x > B
⎪
⎪⎩
57
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Percentiles de una distribución continua: Sea X una v.a. continua con función de
densidad f (x) y función de distribución acumulada F (x) y sea 0 < p < 1. El percentil
(100 p)-ésimo de la distribución de X es el valor xp tal que
xp
F ( x p ) = P( X ≤ x p ) = ∫ f (t )dt = p
−∞
3 2
Ejemplos: 1) Sea X con función de densidad f ( x) = x I [1,3] ( x) . Su función de
26
distribución está dada por
⎧0 si x < 1
⎪ x3 − 1
F ( x) = ⎨ si 1 ≤ x ≤ 3
⎪ 26
⎩1 si x > 3
x 03.25 − 1
F ( x 0.25 ) = 0.25 ⇔ = 0.25 ⇔ x 0.25 = (0.25 ⋅ 26 + 1) = 1.96
1/ 3
26
58
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎧ 0 si x < A
⎪
⎪
⎪⎪ x − A si A ≤ x ≤ B
F ( x) = ⎨ B − A
⎪
⎪ 1 si x > B
⎪
⎪⎩
x 0.50 − A A+ B
F ( x 0.50 ) = 0.50 ⇔ = 0.50 ⇔ x 0.50 = 0.50( B − A) + A = .
B−A 2
Definición: Sea X una v.a. continua con función de densidad f ( x) , la esperanza o valor
esperado de X se define como
∞
E( X ) = μ X = ∫ x f ( x)dx
−∞
∞
siempre que ∫x
−∞
f ( x)dx < ∞ . Si esta integral es ∞, la esperanza no puede definirse y
∞ B
B 2 − A2 A + B
B
1 x2
E ( X ) = ∫ x f ( x)dx = ∫ x dx = = = .
−∞ A
B−A 2( B − A) A
2( B − A) 2
∞
E (h( X )) = ∫ h( x) f ( x)dx
−∞
59
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∞
si ∫ h( x) f ( x)dx < ∞ .
−∞
∞ ∞ ∞ ∞
E (h( X )) = ∫ h( x) f ( x)dx =
−∞
∫ (ax + b) f ( x)dx = a ∫ x
−∞ −∞
f ( x)dx + b ∫ f ( x)dx = aE ( X ) + b .
−∞
Ejemplo: Dos especies compiten en una región para controlar una limitada cantidad de
cierto recurso. sea X: proporción del recurso controlada por la especie 1. Supongamos
que X ~ U (0,1), es decir
⎧1 si x ∈ [0,1]
f ( x) = ⎨
⎩0 si x ∉ [0,1]
Este modelo de asignación de recursos se denomina “broken stick” o “vara rota” ya que es
análogo a quebrar una vara en un punto aleatorio. La especie que controla la mayoría del
recurso, controla la cantidad.
⎧ 1
⎪1 − X si 0 ≤ X <
2
Sea h( X ) = max ( X ,1 − X ) = ⎨
1
⎪X si ≤ X ≤1
⎩ 2
El valor esperado para la cantidad controlada por la especie que más controla es:
∞ ∞ 1/ 2 1
E (h( X )) = ∫ h( x) f ( x)dx = ∫ max( x,1 − x) f ( x)dx = ∫ (1 − x) f ( x)dx + ∫ x f ( x)dx =
−∞ −∞ 0 1/ 2
1/ 2 1
1/ 2 1
⎛ x2 ⎞ x2 1 1 1 1 1 3
= ∫
0
(1 − x) dx + ∫ x dx = ⎜⎜ x −
1/ 2 ⎝
⎟⎟ +
2 ⎠0 2
= − + − =1− = .
2 8 2 8 4 4
1/ 2
Definición: Sea X una v.a. continua con esperanza μX y densidad f (x) , la varianza de X,
que se denotará V(X), σ X2 ó σ 2 , es
60
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
[ ]
∞
V (X ) = σ = E ( X − μ X ) = ∫ ( x − μ X ) 2 f ( x)dx
2 2
X
−∞
y el desvío standard de X, es σ X = + V ( X ) .
Proposición: V ( X ) = E ( X 2 ) − (E ( X ) ) .
2
Dem:
∞ ∞
V ( X ) = E (( X − μ X ) ) = ∫ ( x − μ X ) f ( x) dx = ∫ ( x 2 − 2 xμ X + μ X2 ) f ( x) dx =
2 2
−∞ −∞
∞ ∞ ∞
−∞ −∞ −∞
A+ B
Ejemplos: Sea X ~ U (A,B), hemos demostrado que E ( X ) = , es decir el punto
2
medio del intervalo. Hallemos la varianza de X. Como V ( X ) = E ( X 2 ) − (E ( X ) ) ,
2
necesitamos calcular E ( X 2 ).
∞ B
B 3 − A 3 ( B − A)( B 2 + AB + A 2 )
B
1 x3
E ( X ) = ∫ x f ( x)dx = ∫ x
2 2
dx = 2
= = =
−∞ A
B-A 3( B − A) A
3( B − A) 3( B − A)
( B 2 + AB + A 2 )
=
3
Entonces,
( B 2 + AB + A 2 ) ⎛ A + B ⎞
2
V ( X ) = E ( X 2 ) − (E ( X ) ) = −⎜ ⎟ =
2
3 ⎝ 2 ⎠
4( B 2 + AB + A 2 ) − 3( A 2 + 2 AB + B 2 ) B 2 − 2 AB + A 2 ( B − A) 2
= = = .
12 12 12
61
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
( B − A) 2
Por lo tanto, V ( X ) = .
12
Propiedad de la varianza y del desvío standard: Sea X una v.a. continua con densidad
f (x) ,
V (aX + b) = a 2V ( X ) y σ aX +b = a σ X .
∞
V (h( X )) = ∫ (h( x) − E (h( X ))
2
f ( x)dx
−∞
entonces, si h( x) = ax + b,
∞ ∞
V (aX + b) = ∫ [(ax + b) − E (aX + b)] f ( x)dx = ∫ [ax + b − aE ( X ) − b] f ( x)dx =
2 2
−∞ −∞
∞ ∞
= ∫ [ax − aE ( X )] f ( x)dx = a ∫ [x − E ( X )] f ( x)dx = a V ( X ),
2 2 2 2
−∞ −∞
Obviamente, σ aX + b = a σ X .
62
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1
f ( x) = I [ A, B ] ( x )
B−A
Notación: X ~ U (A,B).
⎧ 0 si x < A
⎪x− A
F ( x) = ⎨ si A ≤ x ≤ B
⎪B − A
⎩ 1 si x > B
A+ B ( B − A) 2
E( X ) = y V (X ) = .
2 12
− 1 x−μ
2
( )
e 2σ
1 2
f ( x) = (1)
2π σ
El gráfico de la función de densidad normal tiene forma de campana con eje de simetría
en x = μ y puntos de inflexión en x = μ + σ y x = μ - σ.
63
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
μ-σ μ μ+σ
Densidades Normal
0.8
N(0,1)
N(0,1/4)
N(0,2)
0.6
N(0,4)
0.4
0.2
0.0
-4 -2 0 2 4
x
64
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Se puede verificar que en efecto la función (1) es una función de densidad, es decir que la
integral sobre toda la recta es 1. No lo haremos, pero sí verificaremos que su gráfico es
simétrico respecto de μ, punto en el cual alcanza su único máximo y que tiene puntos de
inflexión en x = μ + σ y x = μ - σ.
En efecto,
x2
− 1 ( μ − x − μ )2 −
f(μ − x)=
1
e 2σ 2 =
1
e 2σ 2
σ 2π σ 2π
x2
− 1 ( μ + x − μ )2 −
f(μ + x)=
1
e 2σ 2 =
1
e 2σ 2
σ 2π σ 2π
⎡ (x − μ )2 ⎤⎥ − 1 (x − μ )
1 2
⎢ −
∂f ( x ) ∂ 2
e 2σ
1
e 2σ
1 2 1
= ⎢ ⎥=0⇔− (x−μ)=0
∂x ∂x ⎢ 2π σ ⎥ 2π σ σ2
⎢⎣ ⎥⎦
⇔ ( x − μ ) = 0 ⇔ x = μ.
Ejercicio: Verificar que la derivada segunda en x = μ es menor que 0 y por lo tanto se trata
de un máximo y que la densidad tiene dos puntos de inflexión en x = μ + σ y x = μ - σ.
65
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
2
1 −z
f ( z) = e 2
2π
2
z 1 −t
Φ( z ) = F ( z ) = ∫ e 2 dt
−∞ 2π
Esta función está tabulada, ya que su integral no tiene una expresión analítica conocida.
Ejemplo: Z ~ N (0,1),
Percentiles de la distribución Normal Standard: Sea 0 < p < 1, el percentil (100 p)-
ésimo de la distribución normal standard es el valor z tal que
Φ ( z ) = p,
66
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X −μ
1) Si X ~ N ( μ , σ 2 ) ⇒ Z = ~ N (0,1)
σ
Dem:
⎛X −μ ⎞
FZ ( z ) = P( Z ≤ z ) = P⎜ ≤ z ⎟ = P( X ≤ σ z + μ ) = FX (σ z + μ )
⎝ σ ⎠
− (σ z + μ − μ )
2
∂ ∂ 1 2σ 2
fZ ( z ) = FZ ( z ) = F ( σ z + μ ) = f X ( σ z + μ )σ = e σ=
∂z ∂z X 2π σ
2
1 −z
= e 2
2π
2) Si Z ~ N (0,1) y σ > 0 ⇒ X = σ Z + μ ~ N ( μ , σ 2 ) .
Dem: Ejercicio.
xp =σ zp + μ
⎛ X − μ xp − μ ⎞ ⎛x −μ⎞
F ( x p ) = p ⇔ P( X ≤ x p ) = p ⇔ P⎜⎜ ≤ ⎟ = p ⇔ Φ⎜ p
⎟
⎟
⎜ σ ⎟= p
⎝ σ σ ⎠ ⎝ ⎠
xp − μ
⇔ = zp ⇔ xp =σ zp + μ .
σ
67
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Dem:
∞ ∞ z2
1 −
E( Z ) = ∫ zf ( z )dz = ∫ z
−∞ −∞ 2π
e 2
dz = 0
∞ z2 ∞ z2
1 − 1 −
V ( Z ) = E( Z ) − ( E( Z )) = E( Z ) = ∫z dz = ∫z
2 2 2 2 2 2
e ze dz
−∞ 2π −∞ 2π
z2 z2
1 − 1 −
u=z dv = ze 2
dz du = dz v=− e 2
2π 2π
se obtiene
z2
∞
∞ z2 ⎛ z2
M
⎞
1 − 1 − ⎜ 1 − ⎟
V( Z ) = −
2π
ze 2
+ ∫
−∞ 2π
e 2
dz = lim ⎜ −
M →∞
⎜ 2π
ze 2 ⎟⎟ + 1 .
−∞ ⎝ −M ⎠
⎛ ⎞ ⎛ ⎞
⎜ 1 M ⎟ ⎜ 1 1
⎟
lim ⎜ − ⎟ = lim ⎜ − ⎟=0
M →∞⎜ 2π M 2 ⎟ M→∞⎜ 2π M 2 ⎟
⎜ ⎟ ⎜ ⎟
⎝ e 2 ⎠ ⎝ Me 2 ⎠
y
⎛ ⎞ ⎛ ⎞
⎜ 1 M ⎟ ⎜ 1 1
⎟
lim ⎜ ⎟ = lim ⎜ ⎟=0
M →− ∞⎜ 2π M 2 ⎟ M→− ∞⎜ 2π M2 ⎟
⎜ ⎟ ⎜ ⎟
⎝ e 2 ⎠ ⎝ Me 2 ⎠
68
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X −μ
Dem: Recordemos que, si X ~ N(μ, σ2), entonces ~ N (0,1) .
σ
⎛X −μ⎞
Como E ( Z ) = E ⎜ ⎟ = 0 , por linealidad de la esperanza,
⎝ σ ⎠
1
(E ( X ) − μ ) = 0 ⇒ E ( X ) = μ .
σ
⎛X −μ⎞
Como V ( Z ) = V ⎜ ⎟ = 1 , por propiedades de la varianza,
⎝ σ ⎠
1
V (X ) =1⇒V (X ) = σ 2 .
σ 2
∞
Γ(α ) = ∫ x α −1 e − x dx
0
Propiedades:
2) Si α ∈ N, Γ(α ) = (α − 1)!
⎛1⎞
3) Γ⎜ ⎟ = π
⎝2⎠
69
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∞ ∞
∞
Γ(α ) = ∫ x α −1 e − x dx = − x α −1 e − x + ∫ (α − 1) x α − 2 e − x dx =
0
0 0
∞
M α −1
= − lim + 0 + ( α − 1 )∫ x ( α −1 )−1 e − x dx = 0 + 0 + ( α − 1 )Γ( α − 1 ) = ( α − 1 )Γ( α − 1 ).
M →∞ e M
0
2) Ejercicio.
3)
∞ 1 ∞ 1
⎛1⎞ −1 −
Γ⎜ ⎟ = ∫ x 2 e − x dx = ∫ x 2 e − x dx
⎝2⎠ 0 0
2
Aplicaremos el siguiente cambio de variable: u = 2 x , con lo cual du = dx .
2x
Entonces,
∞ u2 ∞ u2 ∞ u2
⎛1⎞ − 1 − 1 −
Γ⎜ ⎟ = ∫ 2 e 2 du = ∫ 2 e 2 du = π ∫ e 2 du = π ,
⎝2⎠ 0 − ∞ 2π
2 −∞
e − λ x xα − 1 λα
f ( x) = I ( x)
Γ(α ) (0, ∞)
70
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Densidades Gamma
1.0
G(1,1)
G(2,3)
G(2,1/2)
0.8
G(2,1)
0.6
0.4
0.2
0.0
0 2 4 6 8 10
x
e − x xα −1
f ( x) = I (0,∞) ( x )
Γ(α )
71
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
G(1,1)
G(2,1)
0.8
G(5,1)
0.6
0.4
0.2
0.0
0 2 4 6 8 10
x
α α
Proposición: X ~ Γ (α , λ), entonces E ( X ) = y V (X ) = 2 .
λ λ
Dem:
∞ e − λx xα −1 λα ∞ e − λx xα λα ∞ e − λx x (α +1)−1 λα
E( X ) = ∫ x dx = ∫ dx = ∫ dx =
0 Γ(α ) 0 Γ(α ) 0 Γ(α )
Calculemos ahora E ( X 2 ).
72
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
2 ∞ 2 e − λ x x α −1 λα ∞ e − λ x x α +1 λα ∞ e − λ x x α + 2 −1 λα
E(X ) = ∫ x dx = ∫ dx = ∫ dx =
0 Γ (α ) 0 Γ (α ) 0 Γ (α )
(α + 1)α ⎛α ⎞ α α α α
2 2 2
Finalmente, V ( X ) = − ⎜ ⎟ = 2 + 2 − 2 = 2 , como queríamos demostrar.
λ2 ⎝λ⎠ λ λ λ λ
Dem: Ejercicio.
Nota: Esta última propiedad permite obtener probabilidades para una v. a. con
distribución Gamma a partir de una distribución Gamma standard. En efecto,
supongamos que X ~ Γ (α , λ), entonces λ X ~ Γ (α , 1) y, por ejemplo
−x
β α −1
e x
f ( x) = α I ( x)
β Γ(α ) (0,∞)
En este caso, E ( X ) = α β y V ( X ) = α β 2 .
Notación: X ~ ε(λ).
73
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Densidades Exponencial
1.0
E(1)
E(2)
E(1/2)
0.8
0.6
0.4
0.2
0.0
0 2 4 6 8 10
x
⎧ 0 si x ≤ 0
⎪
F ( x) = ⎨
⎪1 − e −λx si x > 0
⎩
En efecto, si x > 0,
x x
F ( x ) = ∫ λ e −λt dt = − e −λt = −e −λx + 1,
0 0
1 1
Proposición: Si X ~ ε (λ), entonces E ( X ) = y V (X ) = .
λ λ2
Dem: Se deduce inmediatamente de la esperanza y la varianza de una v.a. Gamma con
parámetro α = 1.
74
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ − 10 ⎞
1
⎛ −
10
⎞ ⎛ − ⎞
5
Se puede demostrar que la v.a. T: “tiempo hasta la ocurrencia del primer evento” (o
equivalentemente, tiempo entre la ocurrencia de dos eventos sucesivos), tiene distribución
exponencial.
75
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
e −νt (νt ) 0
FT (t ) = 1 − P( X t = 0) = 1 − = 1 − e −ν t ,
0!
y por lo tanto
⎧ 0 si x ≤ 0
⎪
F ( x) = ⎨
⎪1 − e −ν x si x > 0
⎩
es decir, T~ ε (ν).
Ejercicio: Demostrar que el tiempo de espera hasta la segunda ocurrencia del evento
tiene distribución Γ(2, ν).
76
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
E( X k )
Notemos que
⎧
⎪ ∑ e p X ( x)
tx
si X es discreta
⎪⎪ x∈R X
M X (t ) = E (e tX ) = ⎨
⎪ ∞ tx
⎪ ∫ e f X ( x)dx si X es continua
⎪⎩−∞
siempre que el valor esperado exista para todo t ∈ (−h, h), h > 0 . Esta última es una
condición técnica necesaria para que M X (t ) sea diferenciable en 0.
Teorema: Sea X una v.a. para la cual existe la función generadora de momentos M X (t ) ,
entonces
∂n
E( X n ) = M X (t )
∂t n t =0
77
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∞
g (t ) = ∑ e p( x)
tx
ó g (t ) = ∫ e tx f ( x)dx
x −∞
converge para todo t ∈ (− h, h) para algún h > 0 , entonces existen las derivadas de orden
n de g(t) para todo t ∈ (− h, h) y para todo n entero positivo y se obtienen como
∞
∂ n g (t ) ∂ n e tx ∂ n g (t ) ∂ n e tx
∂t n
= ∑x ∂t n p( x) ó
∂t n
= ∫−∞ ∂t n f ( x)dx
∂ n M X (t ) ∂ n e tx ∂ n M X (t ) ∞ ∂ n e tx
∂t n
= ∑x ∂t n p( x) ó
∂t n
= ∫
∂t n
f ( x)dx
−∞
∂ n M X (t ) ∂ n M X (t ) ∞ n tx
= ∑ x n e tx p( x) ó = ∫ x e f ( x)dx
∂t n x ∂t n −∞
∞
∂ n M X (t ) ∂ n M X (t )
= ∑ x n p ( x) = E ( X n ) ó = ∫x
n
f ( x)dx = E ( X n )
∂t n
t =0 x ∂t n t =0 −∞
Ejemplos: 1) Sea X una v.a. con distribución exponencial de parámetro λ , o sea con
densidad
f X ( x ) = λ e − λ x I ( 0,∞ ) ( x)
∞ ∞ ∞
λ λ
M X (t ) = E (e ) = ∫ e λ e dx = λ ∫ e
λ −t ∫
−λ x −( λ −t ) x − ( λ −t ) x
tX tx
dx = (λ − t ) e dx =
0 0 0
λ −t
78
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∂M X (t ) ∂⎛ λ ⎞ λ 1
E( X ) = = ⎜ ⎟ = = .
∂t t =0 ∂t ⎝ λ − t ⎠ t = 0 (λ − t ) 2 t =0
λ
Como V ( X ) = E ( X 2 ) − (E ( X ) ) , calculemos E ( X 2 ).
2
∂ 2 M X (t ) ∂⎛ λ ⎞ 2λ (λ − t ) 2
E( X 2 ) = = ⎜ ⎟ = =
∂t 2 t =0
∂t ⎜⎝ (λ − t )2 ⎟
⎠ t =0 (λ − t ) 4 t =0
λ2
2 1 1
entonces, V ( X ) = − = .
λ 2
λ 2
λ2
2) Sea X una v.a. con distribución Binomial de parámetros, n y p, o sea X ~ Bi(n, p). Su
función de probabilidad puntual es
⎛n⎞
p X (k ) = ⎜⎜ ⎟⎟ p k (1 − p) n − k si 0 ≤ k ≤ n
⎝k ⎠
t k ⎛n⎞ ⎛n⎞ t k
n n
M X (t ) E (e ) ∑ e ⎜ ⎟ p (1 p)
= tX
= ⎜ ⎟ k
− n−k
= ∑ ⎜⎜ ⎟⎟(e p) (1 − p) n − k = (e t p + 1 − p) n .
k =0 ⎝k ⎠ k =0 ⎝ k ⎠
∂M X (t ) ∂ (e t p + 1 − p ) n
E( X ) = = = n(e t p + 1 − p) n −1 pe t = np .
∂t t =0 ∂t t =0
t =0
∂ 2 M X (t ) ∂
E( X 2 ) = =
∂t
(
n(e t p + 1 − p) n −1 pe t ) =
∂t 2 t =0 t =0
(
= n(n − 1)(e t p + 1 − p) n − 2 pe t ( ) 2
+ n(e t p + 1 − p) n −1 pe t ) 0
= n(n − 1) p 2 + np.
Dem: Ejercicio.
79
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Distribución M X (t )
Bi(n,p) (e p + 1 − p ) n
t
Ejercicio: ¿Para qué valores de t existe cada una de las funciones generadoras de
momentos de la tabla anterior?
80
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Números “elegidos al azar” son útiles en diversas aplicaciones, entre las cuáles podemos
mencionar:
A pesar de que fue en la década del 40 que las primeras computadoras modernas fueron
desarrolladas, la simulación ya existía en forma embrionaria aún antes de que la
computadora apareciera en escena. Así, por ejemplo, en la segunda mitad del siglo XIX,
se realizaban experiencias arrojando agujas al azar sobre una superficie reglada con el fin
de estimar el número π. En 1908 W. S. Gosset, bajo el seudónimo de Student, realizaba
un muestreo experimental con el fin de descubrir la distribución de un estimador de la
correlación en una distribución normal bivariada. En ese momento los números aleatorios
se generaban mediante métodos observacionales (mecanismos físicos) tales como tirar
un dado, extraer una carta de un mazo o mediante una ruleta.
Dado el esfuerzo que significaba generar números aleatorios cada vez que eran
necesarios, parece razonable que se hayan construido tales números y luego tabulado.
Tippett (1927) publicó una tabla con 41600 números aleatorios “tomados en forma
aleatoria de informes censales”. Cada número era uno de los enteros 0, 1, 2, 3, 4, 5, 6, 7,
8, 9 y el usuario tomaba varios de ellos y agregaba un punto decimal para formar un
número aleatorio entre 0 y 1. Desde ese momento fueron propuestos una serie de
generadores de números aleatorios. La primera máquina fue usada en 1939 por Kendall y
Babington-Smith con el fin de producir una tabla de 100000 dígitos aleatorios y en 1955 la
RAND Corporation utilizó extensamente una tabla de 1000000 dígitos aleatorios que fue
obtenida a partir de una ruleta electrónica especialmente diseñada. ERNIE fue una
famosa máquina de números aleatorios que fue usada por la lotería británica, es decir la
British Premium Savings Bonds Lottery.
81
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
por resultar, en algunos casos, cortas. Si bien máquinas como ERNIE podrían haber
trabajado junto con una computadora, una solución en la que la computadora provee todo
parecía más satisfactoria. La búsqueda se orientó, entonces, a la producción de números
aleatorios usando operaciones aritméticas en una computadora. John von Neumann
sugirió en un principio, alrededor de 1946, usar el método del “cuadrado medio”. Su idea
era calcular el cuadrado del número aleatorio anterior y tomar los dígitos del medio del
número calculado. Así, por ejemplo, si queremos generar un número aleatorio de 10
dígitos y el número anterior es
5772156649 33317792380594909201
La primera pregunta que cabe hacer es: ¿porqué motivo un número generado por este
procedimiento que es determinístico, va a resultar aleatorio?. La respuesta es que el
número no es aleatorio, pero parece serlo, en el sentido en que en una aplicación la
relación real entre un número y el siguiente no tiene ningún significado físico. Por lo tanto,
el carácter no aleatorio no es una característica indeseable y podría ser que el “cuadrado
medio” resultase ser un buen “batido” del número anterior. Es claro, de todas formas, que
un mecanismo de esta naturaleza no podría haber reemplazado a ERNIE.
Volviendo a la propuesta de von Neumann, ésta no parece ser una buena fuente de
números aleatorios. Podría suceder que la secuencia caiga en un ciclo corto de
repeticiones, siendo el caso extremo el del cero el cual, si aparece en la secuencia,
seguirá repitiéndose siempre. A partir de los años 50 se realizaron diversas experiencias
con el método propuesto por von Neumann. Trabajando con números de 4 dígitos en
lugar de 10, G. E. Forsythe probó con 16 números iniciales. Con 12 de ellos terminó con
el ciclo 6100, 2100, 4100, 8100, 6100, etc. Y con otras dos terminó en cero. En efecto,
6100**2 = 37210000
2100**2 = 4410000
4100**2 = 16810000
8100**2 = 65610000
Metrópolis realizó muchas pruebas con los números del “middle-square”, en especial con
sistemas de números binarios. Mostró que en secuencias de 20 dígitos, hay 13 ciclos
diferentes en los que la secuencia puede caer, el más largo de los cuales tiene longitud
82
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
142. Estas falencias del “middle-square” son algunas de las consideraciones que
debemos hacer ante un generador de números aleatorios.
m es el módulo m>0
a es el multiplicador 0 ≤ a <m
c es el incremento 0 ≤ c <m
X0 es la semilla o valor inicial
7, 6, 9, 0, 7, 6, 9, 0.....
Ésto muestra que la elección de los números m, a y c es crucial y que siempre se caerá
en un loop, es decir en un ciclo de repeticiones, que se llama período. Es claro que cuanto
más grande sea m, mayor es la posibilidad de que el período sea largo.
En realidad, las distintas elecciones de los parámetros son sometidas a una batería de
tests con los que se chequean las propiedades de los números generados.
83
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Como ya observamos más arriba, con estos algoritmos se generan números aleatorios
que se comportan como si proviniesen de una distribución U(0,1). La pregunta que es
razonable hacerse es “porqué ésto es suficiente”. El siguiente teorema nos da una
respuesta.
Teorema: Sean U una variable aleatoria con distribución U (0,1) y G una función de
distribución acumulada continua y estrictamente creciente. Si X = G −1 (U ) , entonces la
función de distribución acumulada de X es G , es decir FX = G.
Dem:
⎧ 0 si u ≤ 0
⎪
FU (u ) = ⎨ u si 0 < u < 1
⎪ si u ≥ 1
⎩ 1
FX ( x ) = P ( X ≤ x ) = P (G −1 (U ) ≤ x ) = P (U ≤ G ( x )) = FU (G ( x )) = G ( x )
⎧0 si x ≤ 0
⎪
FX ( x) = ⎨
⎪1 − e − λx si x > 0
⎩
−1 1
FX ( y ) = − ln(1 − y )
λ
Luego, si U ~ U (0,1) ,
1
− ln(1 − U ) ~ E (λ )
λ
84
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Teorema: Sean U una variable aleatoria con distribución U (0,1) y G una función de
distribución acumulada. Existe una función H tal que H (U ) tiene distribución acumulada
G.
⎧1 si 0 < U ≤ p
⎪
X =⎨
⎪0 si p < U ≤ 1
⎩
En efecto, la nueva variable X toma sólo dos valores (0 y 1) y dado que p ∈ (0,1)
P( X = 1 ) = P( U ≤ p ) = p
Notemos que en lugar del intervalo ( 0 , p ] podríamos haber tomado cualquier intervalo en
(0,1) de longitud p .
85
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Vectores aleatorios
Hasta ahora hemos estudiado modelos de probabilidad para una única variable aleatoria.
Sin embargo, en muchos casos interesa construir modelos que involucren a más de una
variable. Consideraremos inicialmente el caso de vectores aleatorios bidimensionales y
luego extenderemos las definiciones y propiedades a vectores de dimensión mayor que 2.
p XY ( x, y ) = P ( X = x, Y = y )
P (( X , Y ) ∈ A) = Σ Σ p XY ( x, y )
( x, y ) ∈ A
• p XY ( x, y ) ≥ 0 ∀ ( x, y )
• ∑∑ p
x y
XY ( x, y ) = 1
Ejemplos: 1) De una urna que contiene 6 bolillas blancas y 4 negras se extraen sin
reposición 3 bolillas. Se definen
Hallemos la función de probabilidad conjunta del vector (X,Y). Observemos que los
posibles valores de X son 0, 1, 2 y 3 , y los posibles valores de Y son 1 y 0. Podemos
resumir la información en una tabla de la forma siguiente:
X
0 1 2 3
Y 0 1/30 0 15/30 0
1 0 9/30 0 5/30
86
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
En efecto,
Definición: Sea (X,Y) un vector aleatorio discreto con función de probabilidad conjunta
pXY(x,y), las funciones de probabilidad marginal de X e Y están dadas por
p X ( x ) = ∑ p XY ( x, y )
y
pY ( y ) = ∑ p XY ( x, y )
x
1 1
p X (0) = p XY (0,0) + p XY (0,1) = +0=
30 30
9 9
p X (1) = p XY (1,0) + p XY (1,1) = 0 + =
30 30
15 15
p X (2) = p XY (2,0) + p XY (2,1) = +0=
30 30
5 5
p X (3) = p XY (3,0) + p XY (3,1) = 0 + =
30 30
Respecto a p Y ( y ),
1 15 16
pY (0) = p XY (0,0) + p XY (1,0) + p XY ( 2,0) + p XY (3,0) = +0+ +0=
30 30 30
9 5 14
pY (1) = p XY (0,1) + p XY (1,1) + p XY (2,1) + p XY (3,1) = 0 + +0+ =
30 30 30
Observemos que las funciones de probabilidad marginal se obtienen sumando sobre filas
o columnas las funciones de probabilidad conjunta contenidas en la tabla, de ahí su
nombre.
87
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X pY ( y )
0 1 2 3
Y 0 1/30 0 15/30 0 16/30
1 0 9/30 0 5/30 14/30
p X (x ) 1/30 9/30 15/30 5/30 1
Definición: Sea (X,Y) un vector aleatorio discreto con función de probabilidad conjunta
pXY(x,y), la función de distribución acumulada conjunta de (X,Y) está dada por
F XY ( x, y ) = ∑ ∑ p XY ( s, t ) ∀ ( x, y ) ∈ ℜ 2
s≤ x t ≤ y
P(( X , Y ) ∈ A) = ∫∫ f XY ( x, y ) dx dy ∀ A ⊆ ℜ2
A
En particular, si A = [a , b ] × [c, d ] ,
b d
P (( X , Y ) ∈ A) = ∫ ∫ f XY ( x, y ) dy dx .
a c
• f XY ( x, y ) ≥ 0 ∀ ( x, y )
∞ ∞
• ∫ ∫f
−∞ −∞
XY ( x, y ) dx dy = 1
Ejemplo: 1) Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
(
⎧k x + y 2
f XY ( x, y ) = ⎨
) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
⎩0 en otro caso
88
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∞ ∞
⎛ ⎞
( ) ( )
1 1 1 1
1= ∫−∞ -∫∞ XY = ∫0 ∫0 + = ∫0 ⎜⎜⎝ ∫0 x + y dx ⎟⎟⎠ dy =
2 2
f ( x , y ) dx dy k x y dx dy k
1 1
1
⎛ x2 2 ⎞
1
⎛1 2 ⎞ ⎛ y y3 ⎞ ⎛1 1⎞ 5
= k ∫ ⎜⎜ + xy ⎟⎟ dy = k ∫ ⎜ + y ⎟ dy = k ⎜⎜ + ⎟⎟ = k ⎜ + ⎟ = k
0⎝ ⎠0 0⎝ ⎠ ⎝2 3 ⎠0 ⎝ 2 3⎠
2 2 6
6
y, por lo tanto, k = .
5
⎛ 1 1⎞
b) Calcular P⎜ 0 ≤ X ≤ , 0 ≤Y ≤ ⎟.
⎝ 4 4⎠
1/ 4
⎛ x2 ⎞
∫ ∫ ( )
⎛ 1⎞
1/ 4 1/ 4 1/ 4
1 6 6
P⎜ 0 ≤ X ≤ , 0 ≤ Y ≤ ⎟ =
⎝ 4 4⎠ 0 0
5
x + y 2 dx dy =
5 ∫
0
⎜⎜
⎝ 2
+ x y 2 ⎟⎟ dy =
⎠0
1/ 4
⎛ 1 1 2⎞ 6⎛ 1 1 y3 ⎞ 6⎛ 1 1 ⎞ 6⎛ 1 1 ⎞
1/ 4
6 1
=
5 ∫
0
⎜ + y ⎟dy = ⎜⎜ y +
⎝ 16 ⋅ 2 4 ⎠ 5 ⎝ 32
⎟⎟ = ⎜
4 3 ⎠0
+ ⋅ ⎟= ⎜ + ⎟=
5 ⎝ 32 ⋅ 4 4 64 ⋅ 3 ⎠ 5 ⎝ 128 768 ⎠
6 7 7
= ⋅ =
5 768 640
89
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
f XY ( x, y ) = k ( x + 2 y ) I T ( x, y ),
siendo T = {( x, y ) / 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x}.
∞ ∞
⎛ 1− x 1
⎞ 1
1 = ∫ ∫ f XY (x, y) dx dy = ∫ ⎜⎜ ∫ k (x + 2y) dy ⎟dx =k ∫ ( xy + y 2 )
1- x
a) ⎟ dx =
0 ⎝ 0 ⎠
0
−∞ −∞ 0
1
⎛ x2 ⎞
( )
1 1
1
= k∫ x(1 − x) + (1 − x) dx = k ∫ (1 − x) dx = k ⎜⎜ x −
2
⎟⎟ = k ⇒ k = 2
0 0 ⎝ 2 ⎠0 2
⎛ 1⎞ ⎛ x 1⎞
1/ 2 1/ 2 1/ 2 1/ 2
1
∫ ∫ 2 ( x + 2 y) dy dx = 2 ∫ ( xy + y dx = 2 ∫ ⎜ + ⎟dx =
1/ 2
b) P⎜ X ≤ , Y ≤ ⎟ = 2
)
⎝ 2 2⎠ 0 0 0
0
0 ⎝
2 4⎠
1/ 2
⎛ x2 x ⎞ ⎛ 1 1⎞ 6 3
= 2⎜⎜ + ⎟⎟ = 2⎜ + ⎟ = =
⎝ 4 4⎠ 0 ⎝ 16 8 ⎠ 16 8
90
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1/ 2
⎛ 1− x ⎞ 1/ 2
1− x
c) P( X ≤ Y ) = ∫
0
⎜ ∫ 2( x + 2 y ) dy ⎟ dx = 2 ∫ ( xy + y 2 ) dx =
⎜
⎝ x
⎟
⎠ 0
x
1/ 2
⎛1/ 2 ⎞ ⎛ x3 ⎞
( )
1/ 2
x2
= 2⎜⎜ ∫ x(1 − x) + (1 − x) 2 − x 2 − x 2 ⎟⎟ dx = 2 ∫ 1 − x − 2 x 2 dx = 2 ⎜⎜ x − − 2 ⎟⎟ =
⎝ 0 ⎠ 0 ⎝ 2 3 ⎠0
⎛ 1 1 1 ⎞ 14 7
= 2⎜ − − ⎟ = =
⎝ 2 8 12 ⎠ 24 12
91
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎧k si ( x, y ) ∈ A
( X , Y ) ~ U ( A) ⇔ f XY ( x, y ) = ⎨
⎩0 si ( x, y ) ∉ A
1
Es inmediato verificar que k = , pues
área ( A)
1 = ∫∫ k dx dy = k ∫∫ dx dy = k área( A) .
A A
área ( A ∩ B)
P(( X , Y ) ∈ B ) = ∀ B ⊂ ℜ2 .
área ( A)
Definición: Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
f XY ( x, y ) , la función de distribución acumulada conjunta de (X,Y) está dada por
x y
FXY ( x, y ) = ∫∫f
− ∞− ∞
XY ( s, t ) dt ds ∀ ( x, y ) ∈ ℜ 2
Definición: Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
f XY ( x, y ) , las funciones de densidad marginal de X e Y están dadas por
∞
f X ( x) =
−∞
∫f XY ( x, y ) dy
∞
f Y ( y) = ∫f
−∞
XY ( x, y ) dx
Ejemplos: 1) Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
⎧6
(
⎪ x + y2
f XY ( x, y ) = ⎨ 5
) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
⎪⎩ 0 en otro caso
92
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Sea x ∈ [0,1] ,
1
6⎛ y3 ⎞ 6⎛ 1⎞
1
6
f X ( x) = ∫ ( x + y 2 ) dy = ⎜⎜ xy + ⎟⎟ = ⎜ x + ⎟ .
0
5 5⎝ 3 ⎠0 5⎝ 3⎠
6⎛ 1⎞
Entonces, f X ( x) = ⎜ x + ⎟ I [0,1] ( x).
5⎝ 3⎠
Sea y ∈ [0,1] ,
1
6 ⎛ x2 ⎞ 6⎛1 ⎞
1
6
f Y ( y ) = ∫ ( x + y ) dx = ⎜⎜
2
+ xy 2 ⎟⎟ = ⎜ + y 2 ⎟ .
0
5 5⎝ 2 ⎠0 5⎝2 ⎠
6⎛1 2⎞
Entonces, f Y ( y ) = ⎜ + y ⎟ I [0,1] ( y ).
5⎝2 ⎠
f XY ( x, y ) = 2 ( x + 2 y ) I T ( x, y ),
siendo T = {( x, y ) / 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x}.
Sea x ∈ [0,1] ,
1− x
∫ 2( x + 2 y) dy = 2 (xy + y ) ( )
2 1− x
f X ( x) = = 2 x(1 − x) + (1 − x) 2 = 2(1 − x).
0
0
Sea y ∈ [0,1] ,
93
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1− y 1− y
⎛ x2 ⎞ ⎛ (1 − y ) 2 ⎞
f Y ( y) = ∫
0
2( x + 2 y ) dx = 2 ⎜⎜
⎝ 2
+ 2 xy ⎟⎟
⎠0
= 2⎜⎜
⎝ 2
+ 2(1 − y ) y ⎟⎟ = 1 + 2 y − 3 y 2 .
⎠
Entonces, f Y ( y ) = (1 + 2 y − 3 y 2 ) I [0,1] ( y ).
Definición: Sea (X,Y) un vector aleatorio discreto con función de probabilidad conjunta
pXY(x,y) y marginales pX(x) y pY(y), y sea x tal que pX(x) > 0, la función de probabilidad
condicional de Y dado X = x está dada por
p XY ( x, y )
pY | X = x ( y ) = .
p X ( x)
Del mismo modo, sea y tal que pY(y) > 0, la función de probabilidad condicional de X
dado Y = y está dada por
p XY ( x, y )
p X |Y = y ( x) = .
pY ( y )
Se puede verificar que, en efecto estas funciones son funciones de probabilidad ya que,
por ejemplo, pY | X = x ( y ) satisface
• pY | X = x ( y ) ≥ 0 para todo y
• ∑p
y
Y |X =x ( y) = 1
Respecto a la segunda,
p XY ( x, y ) 1 1
∑p y
Y|X =x ( y) = ∑
y p X ( x)
= ∑
p X ( x) y
p XY ( x, y ) =
p X ( x)
p X ( x ) = 1.
94
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X pY(y)
2 3 4 5 6 7 8
0 0 0 1/16 2/16 3/16 2/16 1/16 9/16
Y 1 0 2/16 2/16 2/16 0 0 0 6/16
2 1/16 0 0 0 0 0 0 1/16
pX(x) 1/16 2/16 3/16 4/16 3/16 2/16 1/16 1
p XY (4,0) 1 / 16 1
pY | X = 4 (0) = = =
p X (4) 3 / 16 3
p XY (4,1) 2 / 16 2
pY | X = 4 (1) = = =
p X (4) 3 / 16 3
p XY (4,2) 0
pY | X = 4 (2) = = =0
p X (4) 3 / 16
y 0 1 2
pY | X = 4 ( y ) 1/3 2/3 0
y 0 1 2
pY | X =3 ( y ) 0 1 0
f XY ( x, y ) = 2 ( x + 2 y ) I T ( x, y ),
⎛ 1 1⎞
siendo T = {( x, y ) / 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x}, deseamos hallar P⎜⎜ X ≤ Y ≤ ⎟⎟ .
⎝ 2 4⎠
95
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ 1 1⎞
P⎜ X ≤ , Y ≤ ⎟
⎛ 1 1⎞ ⎝ 2 4⎠
P⎜⎜ X ≤ Y ≤ ⎟⎟ =
⎝ 2 4⎠ ⎛ 1⎞
P⎜ Y ≤ ⎟
⎝ 4⎠
Por un lado,
1/ 2
⎛ 1 1⎞
1/ 4 1/ 2 1/ 4
⎛ x2 ⎞
P⎜ X ≤ , Y ≤ ⎟ =
⎝ 2 4⎠ ∫ ∫ 2( x + 2 y) dx dy = 2 ∫
0 0 0
⎜⎜
⎝ 2
+ 2 xy ⎟⎟ dy =
⎠0
1/ 4
1/ 4
⎛1 ⎞ ⎛1 y2 ⎞ ⎛ 1 1 ⎞ 1
=2∫ ⎜ + y ⎟dy = 2⎜⎜ y + ⎟⎟ = 2⎜ + ⎟ =
0 ⎝8 ⎠ ⎝8 2 ⎠0 ⎝ 32 32 ⎠ 8
y, por otro
⎛ 1⎞
1/ 4
1 1 1 19
∫ (1 + 2 y − 3 y
1/ 4
P⎜ Y ≤ ⎟ = 2
) dy = ( y + y 2 − y 3 ) = + − = .
⎝ 4⎠ 0
0 4 16 64 64
Entonces,
⎛ 1 1 ⎞ 1/ 8 8
P⎜⎜ X ≤ Y ≤ ⎟⎟ = = .
⎝ 2 4 ⎠ 19 / 64 19
⎛ 1 1⎞
¿Cómo calcularíamos P⎜ X ≤ | Y = ⎟ ? Ahora no es aplicable directamente la definición
⎝ 2 4⎠
de probabilidad condicional porque P (Y = y ) = 0 ∀ y . Se requiere la siguiente definición.
Definición: Sea (X,Y) un vector aleatorio continuo con función de densidad conjunta
fXY(x,y) y marginales fX(x) y fY(y), y sea x tal que fX(x) > 0, la función de densidad
condicional de Y dado X = x está dada por
f XY ( x, y )
f Y | X = x ( y) = .
f X ( x)
Del mismo modo, sea y tal que fY(y) > 0, la función de densidad condicional de X dado
Y = y está dada por
96
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
f XY ( x, y )
f X |Y = y ( x) = .
f Y ( y)
Se puede verificar que, en efecto estas funciones son funciones de densidad ya que, por
ejemplo, f Y | X = x ( y ) satisface
• f Y | X = x ( y ) ≥ 0 para todo y
∞
• ∫f
−∞
Y|X =x ( y )dy = 1
Respecto a la segunda,
∞ ∞ ∞
f XY ( x, y ) 1 1
−∞
∫ f Y | X = x ( y ) dy = ∫−∞ f X ( x) dy = ∫
f X ( x) −∞
f XY ( x, y ) dy =
f X ( x)
f X ( x) = 1.
⎛ 1⎞
1/ 2
1
P⎜⎜ X ≤ Y = ⎟⎟ =
⎝ 2 4⎠ ∫f 0
X |Y =1 / 4 ( x) dx
f XY ( x,1 / 4) 2( x + 2 / 4) I ( 0,3 / 4) ( x) 32 ⎛ 1⎞
f X |Y =1 / 4 ( x) = = = ⎜ x + ⎟ I ( 0,3 / 4) ( x) .
f Y (1 / 4) 1 3 21 ⎝ 2⎠
1+ −
2 16
Notemos que, dado Y = y, X toma valores en el intervalo (0,1-y). De ahí que, como
Y =1/4, X toma valores en el intervalo (0, ¾) . Finalmente,
1/ 2
⎛ 1⎞ 32 ⎛ 1⎞ 32 ⎛ x 2 x ⎞ 32 ⎛ 1 1 ⎞ 4
1/ 2
1
P⎜ X ≤ | Y = ⎟ =
⎝ 2 4⎠ ∫0
⎜ x + ⎟ dx = ⎜⎜
21 ⎝ 2⎠
+ ⎟⎟ = ⎜ + ⎟ = .
21 ⎝ 2 2 ⎠ 0 21 ⎝ 8 4 ⎠ 7
97
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
, ,
Luego, para probar que dos variables discretas no son independientes, es suficiente con
exhibir un punto , en el que , .
, ,
Para probar que dos variables continuas no son independientes deberíamos exhibir un
conjunto , x , (es decir un conjunto de medida no nula) en el que no se
satisfaga la condición , .
98
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X pY ( y )
0 1 2 3
Y 0 1/30 0 15/30 0 16/30
1 0 9/30 0 5/30 14/30
p X ( x) 1/30 9/30 15/30 5/30 1
1 14
p XY (0,1) = 0 ≠ ⋅ = p X (0) pY (1).
30 30
f XY ( x, y ) = f X ( x) f Y ( y ) = λ e − λx λ e − λy I ( 0,∞ ) ( x) I ( 0,∞ ) ( y ) =
= λ 2 e − λ ( x + y ) I ( 0,∞ ) ( x) I ( 0,∞ ) ( y ).
Hemos visto que, dada una v.a. X y una función real h, h(X) también es una v.a. y que
para calcular su esperanza no necesitamos hallar la distribución de h(X) ya que se obtiene
a partir de la función de probabilidad puntual o de densidad de la v.a. X, según sea ésta
discreta o continua, en la forma
∞
E (h( X )) = ∑ h( x) p X ( x) ó E (h( X )) = ∫ h( x) f X ( x) dx
x −∞
E (h( X , Y ) ) = ∑ ∑ h( x, y ) p XY ( x, y )
x y
99
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∞ ∞
E (h( X , Y ) ) = ∫ ∫ h ( x, y ) f XY ( x, y ) dx dy
− ∞− ∞
Sea h ( X , Y ) = aX + bY , entonces
∞ ∞ ∞ ∞
E (h( X , Y )) = ∫ ∫ h( x, y) f XY ( x, y) dx dy = ∫ ∫ (ax + by) f XY ( x, y) dx dy =
− ∞− ∞ − ∞− ∞
∞ ∞ ∞ ∞
= a ∫ ∫ x f XY ( x, y ) dx dy + b ∫ ∫y f XY ( x, y ) dx dy =
− ∞− ∞ − ∞− ∞
⎛∞
∞
⎞ ∞
⎛∞ ⎞
= a ∫ x ⎜ ∫ f XY ( x, y ) dy ⎟ dx + b ∫ y ⎜⎜ ∫ f XY ( x, y ) dx ⎟⎟ dy =
⎜ ⎟
−∞ ⎝ −∞ ⎠ −∞ ⎝ −∞ ⎠
∞ ∞
= a ∫ x f X ( x) dx + b ∫ y f Y ( y ) dy = aE ( X ) + bE (Y )
−∞ −∞
Dem: Ejercicio.
100
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Covarianza y correlación
⎧
⎪ ∑∑ ( x − μ X )( y − μ Y ) p XY ( x, y )
⎪⎪ x y
Cov( X , Y ) = E [( X − μ X )(Y − μ Y )] = ⎨
⎪∞ ∞
⎪ ∫ ∫ ( x − μ X )( y − μ Y ) f XY ( x, y )dx dy
⎪⎩−∞−∞
Observación: Cov ( X , X ) = V ( X ) .
Idea intuitiva: Si X e Y tienen una fuerte relación positiva, en el sentido que valores
grandes de X aparecen asociados con valores grandes de Y y valores pequeños de X
aparecen asociados con valores pequeños de Y, entonces la mayoría de los productos
( x − μ X )( y − μ Y ) serán positivos y por lo tanto la covarianza será positiva. Por otra parte,
si X e Y tienen una fuerte relación negativa, en el sentido que valores grandes de X
aparecen asociados con valores pequeños de Y y valores pequeños de X aparecen
asociados con valores grandes de Y, entonces la mayoría de los productos
( x − μ X )( y − μ Y ) serán negativos y por lo tanto la covarianza será negativa.
101
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Cov(x,y) =0
Proposición: Cov ( X , Y ) = E ( X Y ) − E ( X ) E (Y ).
Dem: Lo haremos sólo para el caso discreto. Para el caso continuo se demuestra en
forma similar. Denotemos E ( X ) = μ X y E (Y ) = μ Y ,
Cov ( X , Y ) = E [( X − μ X )(Y − μ Y )] = ∑ ∑ ( x − μ X )( y − μ Y ) p XY ( x, y ) =
x y
102
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
= ∑ ∑ ( xy − xμ Y − yμ X + μ X μ Y ) p XY ( x, y ) =
x y
= ∑ ∑ xy p XY ( x, y ) − μ Y ∑ ∑ x p XY ( x, y ) −μ X ∑ ∑ y p XY ( x, y ) + μ X μ Y ∑ ∑ p XY ( x, y ) =
x y x y x y x y
= E ( XY ) − μ Y ∑ x ∑ p XY ( x, y ) −μ X ∑ y ∑ p XY ( x, y ) + μ X μ Y =
x y y x
= E ( XY ) − μ Y ∑ x p X ( x) −μ X ∑ y pY ( y ) + μ X μ Y =
x y
= E ( XY ) − μ X μ Y − μ X μ Y + μ X μ Y = E ( XY ) − μ X μ Y
X pY ( y )
0 1 2 3
Y 0 1/30 0 15/30 0 16/30
1 0 9/30 0 5/30 14/30
p X (x ) 1/30 9/30 15/30 5/30 1
3 1
⎛ 3 ⎞⎛ 1 ⎞
Cov( X , Y ) = E ( X Y ) − E ( X ) E (Y ) = ∑∑ k j p XY (k , j ) − ⎜ ∑ k p X (k ) ⎟⎜ ∑ i pY (i) ⎟
k =0 j =0 ⎝ k =0 ⎠⎝ i =0 ⎠
9 5 ⎛ 9 15 5 ⎞ ⎛ 14 ⎞ 24 54 14 4
= 1⋅ + 3⋅ − ⎜1 ⋅ + 2⋅ + 3 ⋅ ⎟ ⎜1 ⋅ ⎟ = − ⋅ =−
30 30 ⎝ 30 30 30 ⎠ ⎝ 30 ⎠ 30 30 30 100
⎧6
⎪ x + y2
f XY ( x, y ) = ⎨ 5
( ) si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
⎪⎩ 0 en otro caso
103
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
6⎛ 1⎞ 6⎛1 2⎞
y marginales f X ( x) = ⎜ x + ⎟ I [0,1] ( x) y f Y ( y ) = ⎜ + y ⎟ I [0,1] ( y ).
5⎝ 3⎠ 5⎝2 ⎠
( ) ( )
1 1 1 1
6 6
E ( XY ) = ∫ ∫ xy x + y 2 dx dy = ∫ ∫ x 2 y + xy 3 dx dy =
0 0
5 500
1 1
6 ⎛ x3 y x2 y3 ⎞ 6 ⎛ y y3 ⎞ 6 ⎛ y2 y4 ⎞
1 1
= ∫ ⎜⎜ + ⎟ dy = ∫ ⎜⎜ + ⎟ dy = ⎜⎜ + ⎟ =
5 0⎝ 3 2 ⎟⎠ 0 5 0 ⎝ 3 2 ⎟⎠ 5⎝ 6 8 ⎟⎠ 0
6 ⎛1 1⎞ 6 7 7
= ⎜ + ⎟= ⋅ =
5 ⎝ 6 8 ⎠ 5 24 20
1
6⎛ 1⎞ 6 ⎛ 2 x⎞ 6⎛ x 3 x 2 ⎞
1 1
6 1 3
E ( X ) = ∫ x ⎜ x + ⎟ dx = ∫ ⎜ x + ⎟ dx = ⎜⎜ + ⎟⎟ = ⋅ =
0
5⎝ 3⎠ 5 06 ⎝ 3⎠ 5⎝ 3 6 ⎠0 5 2 5
1
6⎛1 ⎞ 6 ⎛y ⎞ 6 ⎛ y2 y4 ⎞
1 1
6 1 3
E (Y ) = ∫ y ⎜ + y 2 ⎟ dy = ∫ ⎜ + y 3 ⎟ dy = ⎜⎜ + ⎟⎟ = ⋅ =
0
5⎝2 ⎠ 5 0⎝2 ⎠ 5⎝ 4 4 ⎠0 5 2 5
Entonces,
7 3 3 1
Cov ( X , Y ) = − ⋅ =− .
20 5 5 100
X pY ( y )
0 1 2 3 4
0 1/5 0 0 0 1/5 2/5
Y 3 0 1/5 0 1/5 0 2/5
4 0 0 1/5 0 0 1/5
104
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1 2
p XY (2,3) = 0 ≠ p X (2) pY (3) = ⋅
5 5
1 1 1
E ( XY ) = 1 ⋅ 3 ⋅ + 2⋅ 4⋅ + 3⋅3⋅ = 4
5 5 5
1 1 1 1 1
E( X ) = 0 ⋅ + 1⋅ + 2 ⋅ + 3 ⋅ + 4 ⋅ = 2
5 5 5 5 5
2 2 1
E (Y ) = 0 ⋅ + 3⋅ + 4⋅ = 2
5 5 5
Entonces, Cov ( X , Y ) = 4 − 2 ⋅ 2 = 0.
Cov( X , Y )
ρ( X ,Y ) =
σ X σY
ρ ( aX + b, cY + d ) = sg (ac ) ρ ( X , Y )
2) − 1 ≤ ρ ( X , Y ) ≤ 1
105
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Dem: 1)
= ac[E ( XY ) − E ( X ) E (Y )] = ac Cov ( X , Y ).
q (t ) = E [(Y − μ Y ) − t ( X − μ X )] = E [V − tW ]
2 2
siendo V = Y − μY y W = X − μ X .
Observemos que q (t ) ≥ 0 ∀ t .
Como
q (t ) = E [V − t W ] = E (V 2 ) − 2 t E (V W ) + t 2 E (W 2 )
2
es una función cuadrática en t que toma valores mayores o iguales que 0, su gráfico, o no
corta al eje t o lo corta en un solo punto. Es decir que la ecuación q (t ) = 0 tiene a lo
sumo una raíz y por lo tanto su discriminante es menor o igual que 0. (Recordemos que el
discriminante de una ecuación de segundo grado ax 2 + bx + c = 0 es b 2 − 4ac ). En
nuestro caso, el discriminante es
4[E (V W )] − 4 E (V 2 ) E (W 2 )
2
y, por lo tanto,
106
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
4[E (V W )] − 4 E (V 2 ) E (W 2 ) ≤ 0 ⇔
[E (V W )]2 ≤1⇔
[E (( X − μ X )(Y − μ Y ))]2
]≤1
2
E (V 2 ) E (W 2 ) [ ] [
E ( X − μ X ) 2 E (Y − μ Y ) 2
⇔ [ρ ( X , Y )] ≤ 1 ⇔ −1 ≤ ρ ( X , Y ) ≤ 1.
2
E [V − t o W ] = 0 ,
2
P(V − t oW = E (V − t oW ) ) = P(V − t oW = 0) = 1
o sea,
P((Y − μ Y ) − t o ( X − μ X ) = 0) = 1 ⇔ P(Y = t o X + μ Y − t o μ X ) = 1 .
=
( ) 2
=
(
aE X 2 + bE ( X ) − a[E ( X )] − bE ( X ) a E ( X 2 ) − E 2 ( X )
=
)
a σ X2
= ±1
a σ X2 a σ X2 a σ X2
107
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Vectores aleatorios.
pX ( x1 ,..., x k ) = P ( X 1 = x1 ,...., X k = x k )
1 ,..., X k
En forma similar a lo hecho para el caso bidimensional se pueden definir las funciones
de probabilidad marginal. Por ejemplo, la función de probabilidad marginal de X 1 está
dada por:
108
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎧ n! k
x2 x2 xk
⎪ x ! x !...x ! p1 p 2 ... p k si 0 ≤ xi ≤ n ∀ i , ∑x i =n
⎪ 1 2 k i =1
p X 1 ,..., X k ( x1 ,..., x k ) = ⎨ (1)
⎪ 0 en otro caso
⎪
⎩
(alguno de los xi ' s podría ser 0, en cuyo caso no aparecería ninguno de los
correspondientes Ri ).
Como hemos supuesto independencia entre las repeticiones, esa configuración tiene
x x x
probabilidad p1 1 p 2 2 .... p k k , pero es sólo una de las configuraciones posibles que
producen x i resultados Ri para 1 ≤ i ≤ k.
⎛ n ⎞ ⎛ n − x1 ⎞ ⎛ n − x1 − x 2 ⎞ ⎛x ⎞ n! (n − x1 )! x !
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟ ......⎜⎜ k ⎟⎟ = ⋅ ⋅⋅⋅⋅ k =
⎝ x1 ⎠ ⎝ x 2 ⎠ ⎝ x3 ⎠ ⎝ x k ⎠ x1! (n − x1 )! x 2 ! (n − x1 − x 2 )! x k ! 0!
n!
=
x1 ! x 2 !.... x k !
109
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Ejemplo: De una urna que contiene 3 bolillas rojas, 2 negras, 4 azules y 1 blanca se
extraen 12 bolillas con reposición. Definiendo
⎛ 3 2 4 1⎞
( X 1 , X 2 , X 3 , X 4 ) ~ M ⎜12, , , , ⎟
⎝ 10 10 10 10 ⎠
3 5 4 0
12! ⎛ 3 ⎞ ⎛ 2 ⎞ ⎛ 4 ⎞ ⎛ 1 ⎞
pX (3,5,4,0) = ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ = 0.006
1, X 2 , X 3 , X 4 3! 5! 4! 0! ⎝ 10 ⎠ ⎝ 10 ⎠ ⎝ 10 ⎠ ⎝ 10 ⎠
⎛ 3⎞
Como X 1 ~ Bi⎜12, ⎟ , entonces
⎝ 10 ⎠
12 −i
⎛12 ⎞ ⎛ 3 ⎞
i
2 2
⎛7⎞
P( X 1 ≤ 2) = ∑ p X 1 (i ) = ∑ ⎜⎜ ⎟⎟ ⎜ ⎟ ⎜ ⎟ =0.25
i =0 i = 0 ⎝ i ⎠ ⎝ 10 ⎠ ⎝ 10 ⎠
Como las v.a. que nos interesan son X1 y X4, defino una nueva v.a. Y = X2 + X3. El vector
aleatorio (X1 , X4 , Y) también tendrá distribución multinomial.
⎛ 3 1 6⎞
( X 1 , X 4 , Y ) ~ M ⎜12, , , ⎟
⎝ 10 10 10 ⎠
3 2 7
12! ⎛ 3 ⎞ ⎛1⎞ ⎛6⎞
p X1 , X 4 ,Y (3,2,7) = ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ = 0.06
3! 2! 7! ⎝ 10 ⎠ ⎝ 10 ⎠ ⎝ 10 ⎠
110
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∞ ∞
• ∫ ...... ∫ f X ,... X ( x1 ,...x k ) dx1 .....dx k = 1
−∞ −∞ 1 k
En forma similar a lo hecho para el caso bidimensional se pueden definir las funciones
de densidad marginal. Por ejemplo, la función de densidad marginal de X 1 está dada
por:
∞ ∞
f X 1 ( x1 ) = ∫ .... ∫ f X ( x1 , x 2 ,..., x k ) dx 2 ....dx k
1 ,..., X k
−∞ −∞
∞ ∞
f X 1 , X 2 ( x1 , x 2 ) = ∫ ... ∫ f X ( x1 , x 2 ,..., x k ) dx 3 ...dx k
1 ,..., X k
−∞ −∞
111
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎧1 / 6 si 0 ≤ x 1 ≤ 1, 0 ≤ x 2 ≤ 2, 0 ≤ x3 ≤ 3
f X1 , X 2 , X 3 ( x1 , x 2 , x3 ) = ⎨
⎩ 0 en otro caso
Es inmediato verificar que las componentes del vector son variables aleatorias
independientes, ya que
⎧3 2 1
si x1 ∈ [0,1]
1
⎪∫ ∫ dx 2 dx3 = ⋅ 6 = 1
f X 1 ( x1 ) = ⎨ 6 6
si x1 ∉ [0,1]
0 0
⎪0
⎩
⎧3 1 1
si x 2 ∈ [0,2]
1 1
⎪∫ ∫ dx1 dx3 = ⋅ 3 =
f X 2 ( x2 ) = ⎨ 6 6 2
si x 2 ∉ [0,2]
0 0
⎪0
⎩
⎧2 1 1
si x3 ∈ [0,3]
1 1
f X 3 ( x3 ) = ⎨∫0 ∫0 6 1 2 6
⎪ dx dx = ⋅ 2 =
3
⎪0
⎩ si x3 ∉ [0,3]
entonces,
f X1 , X 2 , X 3 ( x1 , x 2 , x 3 ) = f X 1 ( x1 ) f X 2 ( x 2 ) f X 3 ( x 3 ) ∀ ( x1 , x 2 , x 3 )
Sean X e Y dos v.a. de las cuáles se conoce la distribución conjunta. Estamos interesados
en la distribución de la v.a. V = X + Y.
Consideraremos dos ejemplos, uno para el caso de un vector aleatorio discreto y otro
para el caso continuo.
112
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∞ k
P( X + Y = k ) = ∑ p XY (i, k − i ) = ∑ p X (i ) pY ( k − i )
i =0 i =0
−μ −(λ + μ ) k
e −λ λi e μ k −i e
λi μ k −i =
k k!
P( X + Y = k ) = ∑ ⋅ = ∑
i =0 i! (k − i )! k! i =0 i ! (k − i ) !
− (λ + μ )
e
= (λ + μ ) k .
k!
X + Y ~ P(λ + μ)
Este resultado se extiende por inducción al caso de n v.a. : si X1,..., Xn son v.a.
independientes tales que Xi ~ P(λi) para i = 1,...,n, entonces X1 +...+ Xn ~ P(λ1 + ...+λn).
FV (v ) = P ( X + Y ≤ v ) = ∫∫ f ( x, y ) dx dy = ∫∫ f ( x ) f ( y ) dx dy
XY X Y
{( x , y ) / x + y ≤ v} {( x , y ) / x + y ≤ v}
v ⎛ v− y ⎞ v ⎛ v− y ⎞
− λy
P ( X + Y ≤ v ) = ∫ ⎜ ∫ f X ( x ) f Y ( y ) dx ⎟ dy = ∫ ⎜ ∫ λ e −λx λ e dx ⎟ dy =
0⎝ 0 ⎠ 0⎝ 0 ⎠
−λ y ⎛⎜ ⎞
v− y
− λ x dx ⎟ dy = λ e − λ y ⎛1 − e − λ (v − y ) ⎞ dy =
v v
= ∫λ e ∫ λe ∫ ⎜ ⎟
⎜ ⎟ ⎝ ⎠
0
⎝ 0 ⎠ 0
113
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
−λ y
v
dy − ∫ λ e − λ v dy = 1 − e − λ v − λ e − λ v v
v
= ∫λ e
0
0
( )
f V ( v ) = λ e − λ v + λ 2 e − λ v v − λ e − λ v I ( 0 , ∞ ) ( v ) = λ 2 e − λ v v I ( 0 , ∞ ) (v )
X + Y ~ Γ(α+β,λ)
M X +Y (t ) = M X (t ) M Y (t )
∞ ∞ ∞ ∞
(
M X +Y (t ) = E e t ( X +Y ) = ) ∫ ∫e t ( x+ y)
f XY ( x, y ) dx dy = ∫ ∫ e tx e ty f X ( x) f Y ( y ) dx dy =
− ∞− ∞ − ∞− ∞
∞ ∞
( ) ( )
= ∫ e tx f X ( x) dx ∫ e ty f Y ( y ) dy = E e tX E e tY = M X (t) M Y (t)
−∞ −∞
n
MX
1+ X 2 +...+ X n (t ) = ∏ M X i (t )
i =1
114
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
M X +Y (t ) = M X (t ) M Y (t ) = =⎜ ⎟
λ −t λ −t ⎝λ −t ⎠
y se obtiene la función generadora de momentos de una v.a. Γ(2,λ).
E (a1 X 1 + a 2 X 2 ) = a1 E ( X 1 ) + a 2 E ( X 2 ).
¿Qué ocurre con la varianza de una combinación lineal de dos variables aleatorias?
(
V (a1 X 1 + a 2 X 2 ) = E [(a1 X 1 + a 2 X 2 ) − E (a1 X 1 + a 2 X 2 )] =
2
)
( ) (
= E [(a1 X 1 + a 2 X 2 ) − (a1 μ1 + a 2 μ 2 )] = E [(a1 X 1 − a1 μ1 ) + (a 2 X 2 − a 2 μ 2 )] =
2 2
)
= E (a1 ( X 1 − μ1 ) ) + E (a 2 ( X 2 − μ 2 ) ) + 2 E [a1 a 2 ( X 1 − μ1 )( X 2 − μ 2 )] =
2 2
⎛ n ⎞ n
E ⎜ ∑ ai X i ⎟ = ∑ ai μ i
⎝ i =1 ⎠ i =1
(1)
⎛ n ⎞ n
V ⎜ ∑ ai X i ⎟ = ∑ ai2σ i2 + 2∑ ai a j cov( X i , X j )
⎝ i =1 ⎠ i =1 i< j
115
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Como dijimos, ya lo hemos demostrado para n=2, supongamos ahora que la expresión es
cierta para n = k y probémosla para n = k + 1.
⎛ k +1 ⎞ ⎛ k ⎞
E ⎜ ∑ a i X i ⎟ = E ⎜ ∑ a i X i + a k +1 X k +1 ⎟ = E (Y + a k +1 X k +1 )
⎝ i =1 ⎠ ⎝ i =1 ⎠
k
siendo Y = ∑a X
i =1
i i . Como para n = 2 se cumple, se obtiene
⎛ k +1 ⎞ ⎛ k ⎞
E ⎜ ∑ ai X i ⎟ = E (Y + a k +1 X k +1 ) = E (Y ) + a k +1 E ( X k +1 ) = E ⎜ ∑ ai X i ⎟ + a k +1 μ k +1
⎝ i =1 ⎠ ⎝ i =1 ⎠
⎛ k +1 ⎞ k k +1
E ⎜ ∑ ai X i ⎟ = ∑ ai μ i +a k +1 μ k +1 = ∑ ai μ i
⎝ i =1 ⎠ i =1 i =1
⎛ n ⎞ ⎛ n n
⎞ ⎛ n n ⎞ ⎛ n ⎞ ⎛ n ⎞
V ⎜ ∑ ai X i ⎟ = cov⎜ ∑ ai X i , ∑ ai X i ⎟ = E ⎜⎜ ∑ ai X i ⋅ ∑ a j X j ⎟⎟ − E ⎜ ∑ ai X i ⎟ E ⎜⎜ ∑ a j X j ⎟⎟ =
⎝ i =1 ⎠ ⎝ i =1 i =1 ⎠ ⎝ i =1 j =1 ⎠ ⎝ i =1 ⎠ ⎝ j =1 ⎠
⎛ n n ⎞ ⎛ n ⎞⎛ n ⎞
= E ⎜⎜ ∑∑ ai a j X i X j ⎟⎟ − ⎜ ∑ ai μ i ⎟⎜⎜ ∑ a j μ j ⎟⎟ =
⎝ i =1 j =1 ⎠ ⎝ i =1 ⎠⎝ j =1 ⎠
⎛ n n ⎞ n n
= ⎜⎜ ∑∑ ai a j E (X i X j )⎟⎟ − ∑∑ ai a j μ i μ j =
⎝ i =1 j =1 ⎠ i =1 j =1
= ∑∑ ai a j (E ( X i X j ) − μ i μ j ) = ∑∑ ai a j cov( X i , X j )
n n n n
i =1 j =1 i =1 j =1
116
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ n ⎞ n ⎛ n ⎞ n
E ⎜ ∑ ai X i ⎟ = ∑ ai μ i V ⎜ ∑ ai X i ⎟ = ∑ a i2σ i2
⎝ i =1 ⎠ i =1 ⎝ i =1 ⎠ i =1
Dem: Resulta inmediatamente del hecho que, por ser las v.a. independientes,
cov( X i , X j ) = 0 ∀i ≠ j .
⎛ n ⎞ n
⎛ n ⎞ n
E ⎜ ∑ ai X i ⎟ = μ ∑ ai V ⎜ ∑ a i X i ⎟ = σ 2 ∑ a i2
⎝ i =1 ⎠ i =1 ⎝ i =1 ⎠ i =1
⎛ n
⎞ ⎛ n ⎞
a) E ⎜
⎝
∑Xi =1
i ⎟ = nμ
⎠
V ⎜ ∑ X i ⎟ = nσ 2
⎝ i =1 ⎠
⎛ n ⎞ ⎛ n ⎞
⎜ ∑ Xi ⎟ ⎜ ∑ Xi ⎟
b) E (X ) = E ⎜ i =1 ⎟=σ
2
⎟=μ V(X ) = V ⎜ i =1
⎜ n ⎟ ⎜ n ⎟ n
⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠
Dem: Ejercicio.
117
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Desigualdad de Chebyshev:
σ2
∀ ε > 0, P( X − μ > ε ) ≤
ε2
Dem: Lo haremos para el caso continuo. La demostración para el caso discreto es similar.
∞
σ 2 = E (( X − μ ) 2 ) = ∫ ( x − μ ) 2 f ( x) dx =
−∞
= ∫ (x − μ) f ( x) dx + ∫ (x − μ) f ( x) dx ≥
2 2
{ x / x − μ >ε } { x / x − μ ≤ε }
≥ ∫ (x − μ) ≥ ∫ ε f ( x) dx = ε P( X − μ > ε)
2 2 2
f ( x) dx
{ x / x − μ >ε } { x / x − μ >ε }
Entonces,
σ2
≥ P( X − μ > ε )
ε2
como queríamos demostrar.
Observación: La cota que provee la desigualdad de Chebyshev puede ser grosera o, peor
aún, no informativa, por ejemplo, si ε2 ≤ σ2.
σ2
(
P X −5 > 4 ≤ ) =
100 / 12
≅ 0.52
16 16
( ) ( )
P X − 5 > 4 = 1 − P X − 5 ≤ 4 = 1 − P(− 4 ≤ X − 5 ≤ 4 ) = 1 − P (1 ≤ X ≤ 9) =
9 1
= 1 − F X (9) + F X (1) = 1 − + = 0.20
10 10
118
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
σ2
a) ∀ ε > 0, P( X − μ ≤ ε ) ≥ 1 − 2
ε
P( X − μ > kσ ) ≤
1
b) ∀ k > 1,
k2
P( X − μ ≤ kσ ) ≥ 1 −
1
c) ∀ k > 1,
k2
(En realidad, b) y c) son ciertas para todo k > 0, pero si k ≤ 1 la desigualdad es trivial)
Las dos últimas formas muestran como el desvío standard mide el grado de
“concentración” de la distribución alrededor de μ = E(X).
Sea X una v.a. con función de densidad f(x) o función de probabilidad puntual p(x) y con
E(X) = μ. Supongamos que se desea “estimar” μ. Como hemos visto que la esperanza de
una v.a. se puede pensar como un promedio de sus valores, parece razonable estimarla
mediante el promedio de valores observados de X. Por supuesto que en una situación
real sólo tendremos un número finito de observaciones y nos preguntamos: usando sólo
un número finito de valores de X, ¿puede hacerse inferencia confiable respecto de E(X)?
La respuesta es SI y se demuestra a través de la Ley de los Grandes Números que nos
dice que el promedio X converge a μ cuando el número de observaciones (o tamaño de
la muestra) tiende a infinito. Observemos lo que sucede en la siguiente figura.
2.0
1.9
1.8
1.7
1.6
1.5
Figura 1:Comportamiento asintótico del promedio muestral. El promedio del número observado de caras, x,
cuando 4 monedas equilibradas son arrojadas se aproxima al valor medio μ=2 de la distribución.
119
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Ley de los Grandes Números: Sean X1, X2, .... v.a. independientes e idénticamente
distribuidas (muestra aleatoria) con E(X) = μ y V(X) = σ2 < ∞, entonces
Xn ⎯
⎯→p
μ
n
∑X i
siendo X n = i =1
el denominado promedio muestral.
n
σ2
Dem: Sabemos que E ( X n ) = μ y V ( X n ) = , entonces aplicando la desigualdad de
n
Chebyshev,
(
P Xn − μ > ε ≤ ) V (X n )
ε2
=
σ2
nε2
∀ε > 0
y, por lo tanto
n →∞
(
lim P X n − μ > ε ≤ lim ) σ2
n →∞ n ε 2
=0 ∀ε > 0
Luego, X n ⎯
⎯→p
μ , como queríamos demostrar.
fA ⎯
⎯→p
p
es decir,
P ( f A − p > ε ) ⎯n⎯
⎯→ 0
→∞
∀ε > 0
120
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Dem: Como nA ~ Bi(n,p) con p = P(A), entonces E(nA) = n p y V(nA) = n p (1-p). Luego
⎛n ⎞ ⎛ n ⎞ p(1 − p)
E ( f A ) = E⎜ A ⎟ = p V( fA) =V⎜ A ⎟ =
⎝ n ⎠ ⎝ n ⎠ n
p (1 − p )
P( f A − p > ε ) ≤
V( fA)
= ∀ε > 0
ε 2
nε2
Luego,
p(1 − p)
lim P( f A − p > ε ) ≤ lim =0 ∀ε > 0
n →∞ n →∞ nε2
Ejemplo: ¿Cuántas repeticiones del experimento deberían hacerse para que la frecuencia
relativa difiera de p en menos de 0.01 con probabilidad mayor o igual que 0.95?
p(1 − p)
P ( f A − p < 0.01) ≥ 1 −
n (0.01) 2
p(1 − p) p (1 − p) p(1 − p )
1− 2
≥ 0.95 ⇔ 2
≤ 0.05 ⇔ n ≥
n (0.01) n (0.01) (0.01) 2 (0.05)
p = 0.50 ⇒ n ≥ 50000
p = 0.10 ⇒ n ≥ 18500
p = 0.01 ⇒ n ≥ 1980
121
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
n
d) Si X 1 , X 2 ,...., X n son v.a. i.i.d. tales que X i ~ ε (λ ) , entonces ∑X i ~ Γ(n, λ ).
i =1
⎛ σ2 ⎞ n
X ~ N ⎜⎜ μ , ⎟⎟ y T = ∑ X i ~ N ( nμ , nσ 2 ) .
⎝ n ⎠ i =1
122
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Por ser las Xi v.a. independientes, la función generadora de la suma es el producto de las
funciones generadoras, entonces
n
∑ ni
⎛ λ ⎞ ⎛ λ ⎞ i =1
ni
n n n
⎡ n ⎤
M (t ) = ∏ M X i (t ) = ∏ ⎜ ⎟ =⎜ ⎟ ⇒ ∑ X i ~ Γ ⎢ ∑ ni , λ ⎥
i =1 ⎝ λ − t ⎠ ⎝λ −t ⎠
n
∑ Xi i =1 i =1 ⎣ i =1 ⎦
i =1
Veremos ahora que, cuando las v.a. no son normales, la distribución normal resulta una
buena aproximación para la distribución de X y T .
T − nμ (a)
n (X − μ ) ( a )
~ N (0,1) ~ N (0,1)
nσ σ
T − nμ n (X − μ)
⎯⎯→
d
Z ~ N (0,1) ⎯⎯→
d
Z ~ N (0,1)
nσ σ
⎛ T − nμ ⎞ ⎛ n ( X − μ) ⎞
P⎜⎜ ≤ a ⎟⎟ ≅ Φ (a) P⎜⎜ ≤ a ⎟⎟ ≅ Φ (a)
⎝ nσ ⎠ ⎝ σ ⎠
123
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
( )
n
(t / n ) = ∏ M X i (t / n ) = M X i (t / n )
n
MT / (t ) = M T (t / n ) = M n
∑ Xi
n
i =1
i =1
( )
L(0) = ln M X i (0) = ln(1) = 0
∂ ln M X i (u ) M X' i (u ) M X' i (0) μ
L' (0) = = = = =μ =0
∂u u =0
M X i (u ) M X i (0) 1
u =0
=
[
M X'' i (0) M X i (0) − M X' i (0) ]2
= E ( X i2 ) = 1
∂u 2
u =0
[M Xi (u ) ]
2
u =0
[M Xi (0)]
2
(t ) → e t
2
/2
Ahora, para probar el teorema, demostraremos que MT / n
o
por lo tanto hemos probado el Teorema Central del Límite para μ = 0 y σ2 = 1. El caso
Xi − μ
general resulta considerando las v.a. standarizadas = X i* .
σ
124
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Ejemplo: Al sumar números, una calculadora aproxima cada número al entero más
próximo. Los errores de aproximación se suponen independientes y con
distribución U(-0.5,0.5).
a) Si se suman 1500 números, ¿cuál es la probabilidad de que el valor absoluto del error
total exceda 15?
1500
Si llamamos Xi al error correspondiente al i-ésimo sumando, el error total es T1500 = ∑X
i =1
i .
Entonces,
125
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ − 15 T1500 15 ⎞ ⎛ 15 ⎞ ⎛ − 15 ⎞
= 1 − P⎜⎜ ≤ ≤ ⎟⎟ ≅ 1 − Φ⎜⎜ ⎟⎟ + Φ⎜⎜ ⎟⎟ =
⎝ 1500 / 12 1500 / 12 1500 / 12 ⎠ ⎝ 1500 / 12 ⎠ ⎝ 1500 / 12 ⎠
1 1500
Hemos usado que E ( X i ) = 0 y V ( X i ) = y por lo tanto E (T1500 ) = 0 y V (T1500 ) = .
12 12
b) ¿Cuántos números pueden sumarse a fin de que el valor absoluto del error total sea
menor o igual que 10 con probabilidad mayor o igual que 0.90?
P ( Tn ≤ 10 ) ≥ 0.90
⎛ − 10 ⎞
P (Tn ≤ 10) ≥ 0.90 ⇔ P(− 10 ≤ Tn ≤ 10) ≥ 0.90 ⇔ P⎜⎜
10
≤ Tn ≤ ⎟⎟ ≥ 0.90
⎝ n / 12 n / 12 ⎠
10
⇔ ≥ 1.64 ⇔ n ≤ 21.12 ⇔ n ≤ 446
n / 12
es decir, que se pueden sumar a lo sumo 446 números para que el valor absoluto del
error total sea menor o igual que 10 con probabilidad mayor o igual que 0.90.
n
para i = 1, ..., n. Estas v.a. son independientes, Xi ~ Bi (1, p) ∀ i y X = ∑X
i =1
i .
126
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
(a)
X ( a ) ⎛ p(1 − p) ⎞
X ~ N (np, np(1 − p) ) ~ N ⎜ p, ⎟
n ⎝ n ⎠
Se considera que la aproximación es buena si n p ≥ 5 y n (1-p) ≥ 5.
Bi(5,0.10) Bi(10,0.10)
0.4
0.6
0.4
0.2
0.2
0.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
Bi(20,0.10) Bi(50,0.10)
0.10
0.15
0.0
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.1 0.2 0.3 0.4
Bi(100,0.10) Bi(200,0.10)
0.12
0.08
0.06
0.04
0.0
0.0
0.0 0.05 0.10 0.15 0.20 0.25 0.0 0.05 0.10 0.15 0.20
X
Figura 3: Distribución de
n
Corrección por continuidad: Cuando se aproxima una distribución discreta por una
continua, como es el caso de la aproximación de la distribución binomial por la normal, es
necesario efectuar una corrección. Consideremos el siguiente ejemplo:
Sea X ~ Bi (100, 0.6) y calculemos en forma aproximada P(X ≤ 50) y P(X ≥ 51).
⎛ X − 60 50 − 60 ⎞
P ( X ≤ 50) = P⎜ ≤ ⎟ ≅ Φ(− 2.04 ) = 0.021
⎝ 24 24 ⎠
⎛ X − 60 51 − 60 ⎞
P ( X ≥ 51) = P⎜ ≥ ⎟ ≅ 1 − Φ (−1.84) = 0.967
⎝ 24 24 ⎠
127
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Si bien, P(X ≤ 50) + P(X ≥ 51) = 1, los valores aproximados no satisfacen esta restricción.
Para evitar este problema, se efectúa la siguiente corrección, denominada corrección por
continuidad,
⎛ X − 60 50.5 − 60 ⎞
P ( X ≤ 50) = P( X ≤ 50.5) = P⎜ ≤ ⎟ ≅ Φ (− 1.94 ) = 0.026
⎝ 24 24 ⎠
⎛ X − 60 50.5 − 60 ⎞
P ( X ≥ 51) = P( X ≥ 50.5) = P⎜ ≥ ⎟ ≅ 1 − Φ (−1.94) = 0.974
⎝ 24 24 ⎠
P ( X ≤ a) = P( X ≤ a + 0.5)
P ( X ≥ a) = P( X ≥ a − 0.5)
⎛ ⎞
⎜ X − 60 ⋅ 1 24.5 − 60 ⋅ 1 ⎟
P ( X ≥ 25) = P( X ≥ 24.5) = P⎜ 3 ≥ 3 ⎟ ≅ 1 − Φ (1.23) = 0.11
⎜ 1 2 1 2 ⎟
⎜ 60 ⋅ ⋅ 60 ⋅ ⋅ ⎟
⎝ 3 3 3 3 ⎠
∑X i ~ P(nλ )
i =1
Por lo tanto, cualquier v.a. con distribución de Poisson con parámetro suficientemente
grande puede ser aproximada por la distribución normal.
Por lo tanto, cualquier v.a. con distribución Γ(m, λ) con parámetro m suficientemente
grande puede ser aproximada por la distribución normal.
128
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Recordemos que un proceso de Poisson permite modelar una situación en la que los
eventos ocurren a lo largo del tiempo (o espacio, volumen, etc.).
y, en general,
las Ti son variables aleatorias independientes y con distribución exponencial, todas con el
mismo parámetro λ.
Es claro que, si a uno le interesara el tiempo que transcurre desde el inicio hasta la k-
ésima ocurrencia, esta variable aleatoria podría expresarse como
∑T
i =1
i
129
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ k ⎞
P ( X t ≥ k ) = P ⎜ ∑ Wi ≤ t ⎟
⎝ i =1 ⎠
Como las W1 , W2 ,...., Wk ,... son variables aleatorias independientes y con distribución
E(1)=Г(1,1) , entonces
∑W
i =1
i ~ Γ(k,1)
y por lo tanto
⎛ k ⎞
t
P⎜ ∑ Wi ≤ t ⎟ = ∫ f S ( s )ds
⎝ i =1 ⎠ −∞
k
1
con S = ∑W i =1
i ~ Γ (k,1) y en consecuencia f S ( s ) =
(k − 1)!
s k −1e − s I ( 0, +∞ ) ( s ) . Entonces,
⎛ k ⎞
t
1
P⎜ ∑ Wi ≤ t ⎟ = ∫ s k −1e − s ds
⎝ i =1 ⎠ 0 (k − 1)!
Llamemos
t
1
Ak (t ) = ∫ s k −1e − s ds
0
( k − 1)!
a la función de distribución acumulada de una Γ(k,1). Integrando por partes una vez, si
consideramos
s k −1 (k − 1) s k − 2 sk -2
u= u´= =
(k − 1)! (k − 1)! (k - 2)!
y
v´= e − s v = - e -s
obtenemos
130
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
t
− 1 k −1 − s
t t
1 1
Ak (t ) = ∫ s k −1e − s ds = s e +∫ s k − 2 e − s ds
0
(k − 1)! (k − 1)! 0 0
( k − 2)!
− 1 k −1 −t
= t e + Ak −1 (t )
(k − 1)!
− 1 k −1 −t − 1 k − 2 −t
= t e + t e + Ak − 2 (t )
(k − 1)! (k − 2)!
k −1
ti
Ak (t ) = ..... = −e −t ∑ + Ak −M (t )
i = k − M i!
Como
t
A1 (t ) = ∫ e − s ds = −e −t + 1
0
resulta
k −1 i k −1 i
t t
Ak (t ) = −e − t ∑ + A1 (t ) = −e − t ∑ + 1
i =1 i! i = 0 i!
y por lo tanto
⎛ k ⎞ k −1 i
t
P( X t ≥ k ) = P⎜ ∑ Wi ≤ t ⎟ = Ak (t ) = 1 − ∑ e −t
⎝ i =1 ⎠ i = 0 i!
Este resultado es muy útil para generar variables aleatorias con distribución de Poisson a
partir de exponenciales, a las que podemos generar fácilmente a partir de U(0,1).
Supongamos que deseamos generar una variable aleatoria X con distribución P(λ). Para
ello basta utilizar la proposición anterior tomando t = λ. Podemos describir el algoritmo de
la siguiente forma:
131
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales . Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Paso 2k-1: generamos una v.a. W k con distribución E(1), independiente de W1, W2, ….,
W k-1.
132
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
La Estadística nos permite realizar inferencias y sacar conclusiones a partir de los datos.
Extrayendo la información que contenen, podremos comprender mejor las situaciones
que ellos representan.
Los métodos estadísticos abarcan todas las etapas de la investigación, desde el diseño
de la investigación hasta el análisis final de los datos.
Una vez formulado el problema, en la etapa de Diseño se definirá, entre otras cosas, la
población objetivo, los tamaños de muestra, los mecanismos de selección de individuos,
los criterios de inclusión y exclusión de sujetos, los métodos de asignación de
tratamientos, las variables que se medirán y cómo se entrenará al equipo de trabajo para
el cumplimiento del protocolo.
La calidad de las estimaciones puede ser muy variada y está afectadas por errores. La
ventaja de los métodos estadísticos es que, aplicados sobre datos obtenidos a partir de
muestras aleatorias, permiten cuantificar el error que podemos cometer en una
estimación o calcular la probabilidad de cometer un error al tomar una decisión en un test
de hipótesis.
133
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Mariner II 81.3001
Mariner IV 81.3015
Mariner V 81.3006
Mariner VI 81.3011
Mariner VII 81.2997
Pioneer VI 81.3005
Pioneer VII 81.3021
¿Son consistentes los datos con la hipótesis de que el verdadero valor es 81.3035?
¿Cuán confiable es decir que el verdadero valor está en el intervalo (81.2998, 81.3038)?
Las técnicas del análisis exploratorio nos ayudan a organizar la información que proveen
los datos, de manera de detectar algún patrón de comportamiento así como también
apartamientos importantes al modelo subyacente. Nos guían a la estructura subyacente
en los datos de manera rápida y simple.
Estadística Descriptiva
• Organizar la información
• Sintetizar la información
• Ver sus características más relevantes
• Presentar la información
Definimos:
Unidad de análisis o de observación: objeto bajo estudio. Puede ser una persona, una
familia, un país, una institución o en general, cualquier objeto.
134
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Datos cuantitativos
Nos da una primera aproximación rápida a la distribución de los datos sin perder de vista
las observaciones.
88 89 93 94 94 95 96 96
97 103 103 104 106 107 108 111
112 112 113 113 117 117 118 119
120 120 124 125 125 125 127 127
132 134 135 136 138 139 139 142
143 148 155 155 156
8 9
TALLO HOJA
Separamos esos dígitos de los restantes, que constituirán los tallos. En este caso
obtendremos 8 tallos, de 8 a 15.
8 89
135
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
9 3445667
10 334678
11 122337789
12 00455577
13 2456899
14 238
15 556
Ejemplo: Los siguientes datos corresponden a tiempos de falla de cables Kevlar 49/epoxy
sometidos a una presión del 90%:
TIEMPOS DE FALLA
0.01 0.01 0.02 0.02 0.02 0.03 0.03 0.04 0.05 0.06 0.07 0.07 0.08 0.09 0.09 0.10
0.10 0.11 0.11 0.12 0.13 0.18 0.19 0.20 0.23 0.80 0.80 0.83 0.85 0.90 0.92 0.95
0.99 1.00 1.01 1.02 1.03 1.05 1.10 1.10 1.11 1.15 1.18 1.20 1.29 1.31 1.33 1.34
1.40 1.43 1.45 1.50 1.51 1.52 1.53 1.54 1.54 1.55 1.58 1.60 1.63 1.64 1.80 1.80
1.81 2.02 2.05 2.14 2.17 2.33 3.03 3.03 3.24 4.20 4.69 7.89
0 0000000000000001111111122
0 88889999
1 000001111122333444
1 55555555666888
2 00113
2
3 002
3
4 2
4 6
5
5
6
6
7
7 8
En este caso cada tallo ha sido dividido en 2 líneas: en la primera se listan las hojas 0 a 4
y en la segunda las hojas 5 a 9.
136
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
0 111
0 22222223333333333333333333
0 4444444444444444444444444445555555555555555555555555*
0 6666666666666666666666666666666666677777777777777777*
0 8888888888888888888888888888888888888899999999999999*
1 00000000000000001111111111111111
1 2222223333333
1 444444444555555
1 66777
1 888
2 00011
2 2
2 5
2 7
2
3
3
3
3
3
4
4
4 5
En este caso cada tallo ha sido dividido en 5 líneas: en la primera se listan las hojas 0 y
1, en la segunda las hojas 2 y 3, en la tercera las hojas 4 y 5, en la cuarta las hojas 6 y 7
y por último en la quinta línea las hojas 8 y 9.
Hay reglas heurísticas para elegir el número de tallos. En general se recomienda utilizar
entre 8 y 20.
137
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
El número de tallos debe ser tal que permita mostrar una imagen general de la estructura
del conjunto de datos. Aunque existen algunos criterios para definir el número de tallos, la
decisión depende fundamentalmente del sentido común. Demasiados detalles en general
serán poco informativos, demasiado agrupamiento puede distorsionar la imagen del
conjunto.
Cuando el volumen de datos es muy grande conviene usar otro tipo de gráficos que
también son de fácil interpretación .
Ejemplo: Consideremos el siguiente ejemplo con datos sobre consumo diario per cápita
de proteínas en 32 países desarrollados. Los datos se presentan ordenados de menor a
mayor por simplicidad.
Como puede observarse, al expandir la escala se observan más detalles y parece haber
dos “grupos” de países, uno con mayor consumo per cápita de proteínas y otro con
menor consumo, ya que la distribución de la variable tiene dos picos.
7 8
7 8 8 044
8 0445667799 8 5667799
9 01233458 9 012334
10 02455788 9 58
11 02357 10 024
10 55788
11 023
11 57
138
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Los gráficos de tallo-hojas son útiles para comparar la distribución de una variable en dos
condiciones o grupos. El gráfico se denomina tallo-hojas espalda con espalda porque
ambos grupos comparten los tallos.
T1 T2
5 47
6 2
74 7 37
963 8 778999
660 9 0358
9662 10 222
821 11 37
70 12
2 13
14
15
4 16
El gráfico nos muestra las siguientes características de la PAS en los dos grupos de
pacientes.
- La distribución de PAS tiene forma similar en ambos grupos: Un pico o moda y forma
simétrica y aproximadamente acampanada.
- Diferencias en posición. Los pacientes del grupo T1 tienen niveles de PAS levemente
mayores que los pacientes del grupo T2.
- Similar dispersión. Los valores de PAS de los pacientes de ambos grupos se
encuentran en rangos aproximadamente iguales, salvo por el valor atípico (outlier)
que se observa en el grupo T1.
139
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Histograma
frecuencia
frecuencia relativa =
cantidad total de datos
• Se grafica el histograma en un par de ejes coordenados representando en las
abscisas los intervalos y sobre cada uno de ellos un rectángulo cuya área sea
proporcional a la frecuencia relativa de dicho intervalo.
Observaciones:
• Es recomendable tomar
frecuencia relativa
altura del rectángulo =
longitud del intervalo
140
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
8 10 12 14
0.15
0.10
6
0.05
4
2
0.0
84 86 88 90 92 94 96 98 84 86 88 90 92 94 96 98
octanos octanos
141
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
30
20
25
15
20
15
10
10
5
5
0 0
30 32 34 36 38 40 42 44 46 48 50 52 54 1 3 5 7 9 11 13 15 17
30 20
24
15
18
10
12
5
6
0 0
0 1 2 3 4 5 6 7 8 9 10 3.5 4.5 5.5 6.5 7.5 8.5 9.5 10.5 11.5 12.5 13.5 14.5 15.5
Los datos de la siguiente tabla presentan los casos de rubéola notificados al SINAVE
durante el año 2000 según grupos de edad. Notemos que los intervalos de edad tienen
diferente longitud.
142
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
35%
30%
25%
20%
15%
10%
5%
0%
0 10 20 30 40 50 60 70 80
edad
Recordemos que la barra debe tener una altura tal que el área (base x altura) sea igual a
la frecuencia (o a la frecuencia relativa). Es decir,
frecuencia en el intervalo
altura de la barra = .
longitud del intervalo
143
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
12%
10%
8%
6%
4%
2%
0%
0 10 20 30 40 50 60 70 80
edad
En este gráfico, el porcentaje de casos de rubéola notificados para cada grupo está
representado en el área de la barra. El histograma muestra que una alta proporción de
casos ocurre en menores de 5 años y que la proporción desciende a medida que
aumenta la edad. En este gráfico estamos representando la “densidad de notificaciones”
por cada año de edad.
El siguiente ejemplo nos muestra cómo varía el aspecto del histograma según la longitud
de las clases.
144
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Longitud de clase=1g/l
Medidas de Resumen
La pregunta que intentamos responder es: ¿Cuál es el valor central o que mejor
representa a los datos?
145
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∑x i
x= i =1
45
∑x i
5350
x= i =1
= = 118.89
45 45
1 2 3
1 2 3 7
Mediana Muestral: Es una medida del centro de los datos en tanto divide a la muestra
ordenada en dos partes de igual tamaño. Deja la mitad de los datos a cada lado.
x (1) ≤ x ( 2 ) ≤ .... ≤ x ( n )
146
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎧
⎪ x ( k +1) si n = 2k + 1
~ ⎪
x =⎨
⎪ x ( k ) + x ( k +1)
⎪ si n = 2k
⎩ 2
La mediana es resistente a la presencia de datos atípicos. También puede ser útil cuando
algunos datos han sido censurados.
Ejemplos:
Ordenamos la muestra: 2 3 4 5 6 6 7 7 8
~
x =6
2 3 4 5 6 7 7 8
~
x = 5 .5
2) Dada una muestra de salarios de cieta población, ¿sería más adecuado tomar la
media o la mediana muestral para representarla?
Media α- Podada: Es un promedio calculado sobre los datos una vez que se han
eliminado α ⋅ 100 % de los datos más pequeños y α ⋅ 100 % de los datos más grandes.
Es una medida intermedia entre la media y la mediana. Formalmente podemos definirla
como:
147
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
x + ... + x
([nα ]+1) (n−[nα ])
xα =
n − 2[nα ]
2 5 8 10 14 17 21 25 28 40
5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 128
x 0.10 = = = 16
8 8
1 2 5 8 10 14 17 21 25 28 40 45
2 + 5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 + 40 170
x 0.10 = = = 17
10 10
Con la segunda definición, deberíamos calcular dos medias, una podando una
observación en cada extremo de la muestra ordenada y otra podando dos observaciones
en cada extremo, e interpolar linealmente entre ambas medias. Es decir, calculamos
2 + 5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 + 40 170
x1 = = = 17
10 10
5 + 8 + 10 + 14 + 17 + 21 + 25 + 28 128
x2 = = = 16
8 8
x 0.10 = 16.8
148
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Observemos que la media es una media α- podada con α = 0 y la mediana una media
podada con α tan próximo a 0.5 como sea posible. En ese sentido, la media podada es
una medida intermedia entre la media y la mediana. Es más resistente a datos atípicos
que la media.
¿Cómo elegimos α?
Ejemplo: En este ejemplo calcularemos las tres medidas resumen. Los datos siguientes,
ya ordenados, corresponden al número de pulsaciones por minuto en pacientes con
asma durante un espasmo:
x = 130 .8 ~
x = 143 x = 137 .625
0.10
La mediana puede ser útil cuando algunos datos son censurados. En estos casos es
imposible calcular la media muestral, sin embargo suele ser posible computar la mediana.
Ejemplos: a) Tiempo de supervivencia (en meses) de pacientes con cierta patología. Los
datos que se indican entre paréntesis tienen censura a derecha, es decir, se sabe que el
paciente sobrevivió ese tiempo, pero no se conoce el tiempo real de supervivencia.
1 5 10 12 18 24 25 28 39 45 (45) 48 50 51 (84) n = 15
~
Como n = 15 la mediana es el octavo dato, por lo tanto X = 28. Es posible calcularla
aunque haya datos censurados, porque los mismos no participan en el cálculo de la
mediana. Por ejemplo, aunque no conocemos exactamente el tiempo que sobrevivió el
paciente cuyo dato es (45) sabemos que en esta muestra ese dato ocupará el lugar 11 o
uno superior.
149
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
no es posible calcular la mediana debido al dato indicado como (12). Sabemos que este
paciente sobrevivió por lo menos 12 meses, pero desconocemos el verdadero valor, el
que puede ocupar cualquier posición entre la cuarta y la última.
¿Cuán dispersos están los datos? ¿Cuán cercanos son los datos al valor típico?
Grafiquemos los dos conjuntos de datos siguientes y calculemos para cada uno de ellos
su media y su mediana:
x’s: 0 2 6 7 10
y’s: 2 3 6 6 8
x = y =5
~
x=~ y =6
A pesar de tener igual media e igual mediana, los conjuntos de datos difieren ¿Cómo
medir la diferencia observada?
Rango Muestral: Es la diferencia entre el valor más grande y el más pequeño de los
datos:
150
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
x’s: 0 1 5 9 10
y’s: 0 0 5 5 10
x=y ~
x=~
y Rango( x) = Rango( y ) .
∑ (x
i =1
i − x)2
Varianza muestral = S 2 =
n −1
• El desvío estándar tiene las mismas unidades que los datos, mientras que la varianza
no.
151
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Coeficiente de Variación: Es una medida que relaciona el desvío standard con la media
de una muestra.
S
CV =
x
Es una medida que está en desuso, ya que no tiene propiedades estadísticas muy
interesantes. Sin embargo no depende de las unidades y si lo multiplicamos por 100 nos
da una idea de la variabilidad relativa.
Distancia Intercuartil: Es una medida más resistente que el desvío estándar, basada en
el rango de los datos centrales de la muestra.
Para calcularlo:
1 1 2 2 3 4 4 5 5 6 7 7 8 8 9 9 10 10 11
Notemos que el percentil 50% (o segundo cuartil) coincide con la mediana. Llamaremos
cuartil inferior (o primer cuartil) al percentil 25% y cuartil superior (o tercer cuartil) al
percentil 75%.
152
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Cuartos y Distancia entre Cuartos: Medidas muy cercanas a los cuartiles inferior y
superior son el cuarto inferior y el cuarto superior. Se calculan de la siguiente manera:
2 3 5 6 8 9 2 3 5 6 7 8 9
MAD = mediana ( x i − ~
x)
153
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
MAD dI
ó
0.675 1.35
CPU
1.17 1.23 0.15 0.19 0.92
1.61 3.76 2.41 0.82 0.75
1.16 1.94 0.71 0.47 2.59
1.38 0.96 0.02 2.16 3.07
3.53 4.75 1.59 2.01 1.40
Calculamos los 5 números resumen y la media muestral para este conjunto de datos,
utilizando el software R.
> summary(server1)
stem(CPU)
N = 25 Median = 1.38
Quartiles = 0.82, 2.16
0.3
0 : 01257789
1 : 022244669
0.1
2 : 0246
3 : 158
0.0
4:7
0 1 2 3 4 5
CPU
Todas las medidas y los gráficos muestran que se trata de una distribución asimétrica con
cola a derecha.
154
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Box-Plots
Con las medidas anteriores podemos construir un gráfico de fácil realización y lectura.
¿Cómo lo hacemos? Vamos a dar una versión, pero vale la pena advertir que hay
variaciones de un programa a otro.
2. Dibujamos una caja cuyos extremos son los cuartiles y dentro de ella un segmento
que corresponde a la mediana.
3. A partir de cada extremo dibujamos un segmento hasta el dato más alejado que está
a lo sumo 1.5 dI del extremo de la caja. Estos segmentos se llaman bigotes.
4. Marcamos con * a aquellos datos que están entre 1.5 dI y 3 dI de cada extremo y con
o a aquellos que están a más de 3 dI de cada extremo. Algunos paquetes, como el R,
indican a todos los outliers de la misma forma.
CPU
Es interesante observar que en el boxplot se indica a uno de los datos como outlier,
mientras que en el análisis anterior esto no parecía evidente.
• posición
• dipersión
• asimetría
• longitud de las colas
• puntos anómalos o outliers.
155
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Los box-plots son especialmente útiles para comparar varios conjuntos de datos, pues
nos dan una rápida impresión visual de sus características.
Outliers: Los métodos que hemos visto nos permiten identificar puntos atípicos que
pueden aparecer en una o más variables. Su detección es importante pues pueden
determinar o influenciar fuertemente los resultados de un análisis estadístico clásico,
dado que muchas de las técnicas habitualmente usadas son muy sensibles a la
presencia de datos atípicos.
Boxplots Paralelos
Una aplicación muy útil de los boxplots es la comparación de la distribución de dos o más
conjuntos de datos graficando en una escala común los boxplots de cada una de las
muestras. En este sentido los boxplots se muestran como un método muy efectivo de
presentar y resumir los datos, tal como veremos en el siguiente ejemplo.
Los boxplots muestran algunas características de estos datos en forma muy rápida.
156
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Hay una reducción general de la concentración de dióxido de azufre a lo largo del tiempo
debida a la conversión gradual en la zona al uso de combustibles con baja concentración
de azufre. Esta disminución es más fuerte para los cuartiles superiores. También se
muestran concentraciones más elevadas para los meses de invierno debido al uso de
calderas a petróleo. Claramente se ve un efecto cíclico y amortiguado. Los boxplots
muestran una distribución asimétrica a derecha, con presencia de outliers en algunos
meses, y que la dispersión de la distribución es mayor cuando el nivel general de la
concentración es más alto.
QQ-plot (Normal Probability Plot): El QQ-plot es un gráfico que nos sirve para evaluar
la cercanía a una distribución dada, en particular a la distribución normal.
Observemos que X(1)= min(X1, X2,....Xn), mientras que X(n)= max(X1, X2,....Xn).
En particular, si U1, U2,....Un son v.a. i.i.d tales que Ui ~ U(0,1) , se puede demostrar que
i
E (U (i ) ) = .
n +1
157
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Por otro lado, sabemos que si X es una variable continua con función de distribución F
estrictamente creciente, entonces
Y = F ( X ) ~ U (0,1)
i
F ( X (i ) ) vs
n +1
o equivalentemente
⎛ i ⎞
X (i ) vs F −1 ⎜ ⎟.
⎝ n +1⎠
⎛x−μ⎞
F ( x) = G⎜ ⎟,
⎝ σ ⎠
X (i ) − μ ⎛ i ⎞
vs G −1 ⎜ ⎟
σ ⎝ n +1⎠
o bien
⎛ i ⎞
X (i ) vs G −1 ⎜ ⎟
⎝ n +1⎠
Como,
⎛ i ⎞
X (i ) ≅ σ .G −1 ⎜ ⎟+μ
⎝ n +1⎠
el gráfico será aproximadamente una recta.
F ( x p ) = p ⇒ x p = F −1 ( p)
158
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ i ⎞ i
por lo tanto, F −1 ⎜ ⎟ es el -percentil de F.
⎝ n + 1⎠ n +1
En los siguientes gráficos ilustramos el uso de estas técnicas gráficas con algunos
ejemplos. Cabe observar que algunos paquetes estadísticos representan a los
percentiles teóricos de la distribución normal en el eje de abscisas y otros en el eje de
ordenadas
159
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
0.3
0.5
0.8
0.2
0.0
0
0.7
0.1
-0.5
0.6
-1
-5
0.5
-2
0.0
0.8
4
0.20
0.4
Rojo=Mediana, Negro=Media
0.6
5
3
0.15
0.3
4
0.4
0.10
2
0.2
3
2
0.2
0.05
0.1
1
1
0.00
0.0
0.0
0
0.5 0.6 0.7 0.8 0.9 1.0 -1.0 -0.5 0.0 0.5 1.0 -2 -1 0 1 2 3 -5 0 5 0.0 0.1 0.2 0.3 0.4
1.0
0.9
0.3
5
0.5
0.8
0.2
0.0
0
0.7
0.1
-0.5
0.6
-1
-5
0.5
0.0
-2
160
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
El objetivo de la estimación puntual es usar una muestra para obtener números que, en
algún sentido, sean los que mejor representan a los verdaderos valores de los parámetros
de interés.
Del mismo modo, antes de obtener una muestra, cualquier función de ella será una v.a.,
~
por ejemplo: X , X , S 2 , max ( X 1 ,..., X n ), etc. Una vez obtenida la muestra los valores
calculados serán denotados x , ~
x , s 2 , max( x1 ,..., x n ), etc.
Ejemplo: Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado 100 veces
en forma independiente, obteniéndose 21 ases. ¿Qué valor podría utilizarse, en base a
esa información, como estimación de la probabilidad de as? Parece razonable utilizar la
frecuencia relativa de ases.
21
En este caso, si llamamos p a la probabilidad que queremos estimar, pˆ = = 0.21
100
¿Cómo obtener estimadores para un problema dado? Estudiaremos dos métodos que
proporcionan estimadores puntuales: el método de momentos y el método de máxima
verosimilitud.
161
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Definición: Sea X una v.a. con función de probabilidad puntual p X (x) en el caso discreto
o función de densidad f X (x ) en el caso continuo. Se denomina momento de orden k
(k ∈ N) o momento poblacional de orden k a E(Xk), es decir
⎧ ∑ x k p X ( x) en el caso discreto
⎪⎪ x
E( X k ) = ⎨ ∞
⎪ ∫ x f X ( x) dx
k
en el caso continuo
⎪⎩- ∞
n k
∑ Xi
i =1
n
Definición: Sea X 1 , X 2 ,..., X n una m.a. de una distribución con función de probabilidad
puntual o función de densidad que depende de m parámetros θ 1 , θ 2 ,...., θ m . Los
estimadores de momentos de θ 1 , θ 2 ,...., θ m son los valores θˆ1 , θˆ2 ,...., θˆm que se obtienen
igualando m momentos poblacionales con los correspondientes momentos muestrales. En
general, se obtienen resolviendo el siguiente sistema de ecuaciones
∑X i
k
i =1
n
=E Xk ( ) k = 1,2,..., m
162
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
n n
∑ Xi ∑X i
n
= E(X ) ⇒
1 1
i =1 i =1
= ⇒ λˆ = ⇒ λˆ =
n n λ n
X
∑X i =1
i
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución Γ(α, λ). Como hay dos parámetros a
estimar, planteamos un sistema de ecuaciones basadas en el primer y en el segundo
momento.
α α
Usando que si X ~ Γ(α,λ), E( X ) = y V (X ) = y la relación:
λ λ2
V ( X ) = E ( X 2 ) − (E ( X ) ) ,
2
⎧ n ⎧ n
⎪ ∑ Xi ⎪ ∑ Xi α
⎪ i =1 = E( X ) ⎪ i =1 =
⎪ n ⎪ n λ
⎨ n ⇒ ⎨ n
⎪ ∑ X i2 ⎪ ∑ X i2
α ⎛α ⎞
2
⎪ i =1 ⎪ i =1 = +
⎪⎩ n = E ( X )
2
⎪ n ⎜ ⎟
⎩ λ2 ⎝ λ ⎠
α
Reemplazando = X , en la segunda ecuación, se obtiene:
λ
n
∑X
i =1
i
2
X
= +X2
n λ
y, despejando λ :
X
∑X i
2
X
= i =1
−X2 ⇒ λˆ =
λ n n
∑X
i =1
i
2
−X2
n
163
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X2
αˆ = n
∑X
i =1
i
2
−X2
n
3) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ). Como hay un único parámetro
a estimar, planteamos una ecuación basada en el primer momento.
∑X i
θ
i =1
= E( X ) = ⇒ θˆ = 2 X
n 2
4) Veamos por último un ejemplo que nos muestra que no siempre podemos utilizar los
momentos en el orden natural. Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(-θ,θ).
Como hay un único parámetro a estimar, parece natural plantear una ecuación basada en
el primer momento. Sin embargo, si lo hacemos,
∑X
i =1
i
= E( X ) = 0
n
n n
∑ X i2 (2θ )2 = θ 2
3 ∑ X i2
i =1
= E( X 2 ) = ⇒ θˆ = i =1
n 12 3 n
Método de máxima verosimilitud: Este método fue introducido por Fisher en la década
de 1920. Se basa en la idea de hallar los valores de los parámetros que hacen que la
probabilidad de obtener una muestra dada sea máxima.
Ejemplo: Se realiza una encuesta de opinión a una m.a. de 20 personas. Se les formula
una única pregunta que será respondida por Si o por NO. Sean X 1 , X 2 ,..., X 20 las v.a.
correspondientes a la respuesta, tales que
164
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎧1 si la persona i responde SI
Xi = ⎨
⎩0 si la persona i responde NO
Observemos que las v.a. X i son independientes y cada una de ellas tiene distribución
Bi(1,p). Entonces, la función de probabilidad conjunta del vector ( X 1 , X 2 ,..., X 20 ) es
x 1− x x 1− x2 x 1− x20
p ( x1 , x 2 ,..., x 20 ) = p 1 (1 − p ) 1 p 2 (1 − p ) ... p 20 (1 − p )
13 7
p ( x1 , x 2 ,..., x 20 ) = p (1 − p )
La pregunta es: ¿qué valor de p hace que los valores muestrales obtenidos sean los más
probables?
Para ello, como esta función es derivable respecto de p, buscamos los posibles puntos
críticos, igualando a 0 la derivada primera.
∂g ( p) 13 7 13(1 − p) − 7 p 13 − 20 p 13
0= = − = = ⇔ 13-20 p = 0 ⇔ pˆ =
∂p p 1− p p(1 − p) p(1 − p) 20
∂ 2 g ( p) 13 7
=− − <0
∂p 2 p =13 / 20
p 2
(1 − p ) 2 p =13 / 20
165
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
La forma general de los EMV se obtiene reemplazando los valores observados xi por las
v.a. Xi.
n
n n −λ ∑ xi
f ( x1 , x 2 ,..., x n ) = ∏ f X i ( x i ) = ∏ λ e −λxi = λ n e i =1
i =1 i =1
Observemos que no incluimos los indicadores porque, dado que el rango de la v.a. no
depende del parámetro a estimar, podemos suponer que todas las observaciones son no
negativas.
n
ln L(λ ) = n ln(λ ) − λ ∑ xi
i =1
∂ ln L(λ ) n n
n 1
= − ∑ xi = 0 ⇔ λˆ = =
∂λ λ i =1 n
X
∑X
i =1
i
−
(xi − μ )2
n n
1
f ( x1 , x 2 ,..., x n ) = ∏ f X i ( xi ) = ∏ e 2σ 2
i =1 i =1 2π σ
166
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1 n
⎛ 1 ⎞ 1 − 2 σ 2 i∑=1( xi − μ )
n 2
= ⎜⎜ ⎟⎟ e
⎝ 2π ⎠ σ
n
1 n
⎛ 1 ⎞ 1 − 2 σ 2 i∑=1( xi − μ )
n 2
L( μ , σ ) = ⎜⎜ ⎟⎟ e
⎝ 2π ⎠ σ
n
( )
n
1
ln L( μ , σ ) = − n ln 2π − n ln(σ ) −
2σ 2 ∑ (x
i =1
i − μ)2
⎧ ∂ ln L( μ , σ ) 1 n ⎧ n
⎪⎪ = 2 ∑ (xi − μ ) = 0 ⎪⎪ ∑ ( x i − μ ) = 0
∂μ σ i =1
⎨ ∂ ln L( μ , σ ) ⇔ ⎨
i =1
n
n 1 n ⎪ − nσ 2 + ∑ ( xi − μ )2 = 0
⎪ = − + 3 ∑ (xi − μ ) = 0
2
⎩⎪ ∂σ σ σ i =1 ⎪⎩ i =1
⎧ n
⎪ ∑ xi
⎪μ = i =1
⎪ n
⇔ ⎨ n
⎪ ∑ ( x i − μ )2
⎪
⎪σ =
i =1
⎩ n
∑ (X − X)
n
2
i
μˆ = X σˆ = i =1
167
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
n n n
1 1
f ( x1 , x 2 ,..., x n ) = ∏ f ( x i ) = ∏ I ( 0,θ ) ( x i ) = ∏ I (0,θ ) ( x )
θ
i
i =1 i =1 θn i =1
y la función de verosimilitud es
n
1
L(θ ) =
θn
∏ I (0,θ ) ( x )
i =1
i
⎧1 ⎧1
⎪ si 0 < x i < θ ∀ i
⎪ si max( x i ) < θ
L(θ ) = ⎨θ n = ⎨θ n 1≤ i ≤ n
⎪⎩0 en caso contrario ⎪⎩0 en caso contrario
⎧1
⎪ si θ > max( xi )
= ⎨θ n 1≤ i ≤ n
⎪0 si θ ≤ max( x i )
⎩ 1≤ i ≤ n
θˆ = max( X i )
1≤i≤ n
168
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∑ (X − X)
n
2
i
σ̂ = i =1
entonces el EMV de σ2 es
∑(X i − X )2
σ̂ 2 = i =1
En general, sean θˆ1 ,..., θˆm los EMV de θ 1 ,..., θ m y sea una función h : ℜ m → ℜ , ¿bajo
qué condiciones el EMV de h(θ 1 ,..., θ m ) es h(θˆ1 ,..., θˆm ) ? Esta propiedad, denominada
propiedad de invarianza de los EMV, se cumple si la función h puede ser completada a
una función inyectiva.
θˆ − θ
es el error de estimación y una estimación será más precisa cuanto menor sea este error.
Este error es también una v.a. dado que depende de la muestra obtenida. Para algunas
muestras será positivo, para otras negativo. Una propiedad deseable es que la esperanza
del error sea 0, es decir que “en promedio” el error obtenido al estimar a partir de
diferentes muestras sea cero.
Eθ (θˆ) = θ ∀θ
169
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Definición: Un estimador puntual θˆ del parámetro θ basado en una muestra X 1 ,..., X n ,es
asintóticamente insesgado si
Eθ (θˆ) ⎯n⎯
⎯→θ
→∞
∀θ
⎛X ⎞ E P ( X ) np
E P ( pˆ ) = E P ⎜ ⎟= = =p ∀p
⎝n ⎠ n n
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2). Los EMV de μ y σ2 son
∑ (X − X)
n
2
i
μˆ = X σˆ 2 = i =1
⎛ n ⎞
⎜ ∑ (X i − X )
2
⎟
⎛ n ⎞
E 2 (σˆ 2 ) = E 2 ⎜ i =1
μ ,σ μ ,σ ⎜ n
⎟= 1E
⎟ n μ ,σ ⎝ ∑
2 ⎜ ( )
X i2 − 2 X i X + X 2 ⎟
i =1 ⎠
⎜ ⎟
⎝ ⎠
1 ⎛ n n
⎞ 1 ⎛ n ⎞
= E 2 ⎜ ∑ X i2 − 2 X ∑ X i + nX 2 ⎟ = E 2 ⎜ ∑ X i2 − 2nX 2 + nX 2 ⎟
n μ σ μ σ
,
⎝ i =1 i =1 ⎠ n ,
⎝ i =1 ⎠
170
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1 ⎛ n ⎞ 1 ⎛ n ⎞ n
= E 2 ⎜ ∑ X i2 − nX 2 ⎟ = E 2 ⎜ ∑ X i2 ⎟ − E 2 ( X 2 ) = E 2 ( X 12 ) − E 2 ( X 2 )
n μ ,σ ⎝ i =1 ⎠ n μ ,σ ⎝ i =1 ⎠ μ ,σ n μ ,σ μ ,σ
=V [ μ ,σ 2
(
(X1) + E
μ ,σ 2
(X1) ) ]− [V
2
μ ,σ 2
(X ) + E ( μ ,σ 2
(X ) ) ]= σ
2 2
+μ − 2 σ2
n
− μ2 =
n −1 2
n
σ
∑ (X − X)
n
2
i
i =1
Ejercicio: Verificar que la varianza muestral S 2 = es un estimador
n −1
insesgado de la varianza poblacional cualquiera sea la distribución.
θ
Eθ (θˆ) = 2 Eθ ( X ) = 2 = θ ∀θ
2
Verificaremos que el EMV no lo es. Para ello, necesitamos obtener la densidad de la v.a.
U = max( X i ) .
1≤i≤ n
⎧ 0 si u ≤ 0
⎪⎪⎛ u ⎞ n
FU (u ) = (FX (u ) ) si 0 < u < θ
n
= ⎨⎜ ⎟
⎪⎝ θ ⎠
⎩⎪ 1 si u ≥ θ
entonces
n −1
⎛u⎞ 1
f U (u ) = n⎜ ⎟ I (0,θ ) (u ) .
⎝θ ⎠ θ
171
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
θ n −1 θ θ
⎛u⎞ n n u n +1 n
Eθ (max( X i ) ) = Eθ (U ) = ∫ u n⎜ ⎟
1
du = n ∫ u du = n
n
= θ
0 ⎝θ ⎠ θ θ 0 θ n +1 0 n +1
Cuando hay más de un estimador insesgado para un mismo parámetro, ¿cómo decidimos
cuál conviene usar? Por ejemplo, sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2).
Es inmediato verificar que los siguientes son todos estimadores insesgados de μ:
μˆ 1 = X
X1 + X 2
μˆ 2 =
2
μ3 = X1
ˆ
σ2
V
μ ,σ 2 (μ
ˆ1 ) =
n
σ2
V
μ ,σ 2 (μ
ˆ2 ) =
2
V ( μˆ 3 ) = σ 2
μ ,σ 2
A partir de este resultado deducimos que, si se tiene evidencia de que la m.a. proviene de
una distribución Normal, parece conveniente usar X como estimador de μ. Sin embargo,
si los datos no son Normales este estimador podría llegar a ser una pésima elección.
2
1 ⎛ x−μ ⎞
1 − ⎜⎜ ⎟
2 ⎝ σ ⎟⎠
a) N(μ,σ2) : f ( x) = e
2π σ
172
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1
b) Cauchy de parámetro μ : f ( x) =
π (1 + ( x − μ ) 2 )
1
c) U(μ -1, μ +1) : f ( x) = I ( μ −1, μ +1) ( x)
2
~ max( X i ) + min ( X i )
μˆ 1 = X μˆ 2 = X μˆ 3 =
2
En el caso b), μ̂1 y μ̂ 3 son malos porque ambos son muy sensibles a la presencia de
observaciones atípicas y la distribución Cauchy produce una importante proporción de
ellas. Por lo tanto la mejor elección entre estos tres estimadores sería μ̂ 2 . También
podríamos utilizar una media podada.
σ θˆ = Vθ (θˆ)
σ2
σ X = Vμ ,σ 2 ( X ) =
n
173
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∑ (X − X)
n
2
i
S 2
σˆ X = =X i =1
n n(n − 1)
ECM θ (θˆ) = Eθ ⎡ θˆ − θ ⎤
⎢⎣
2
⎥⎦
( )
Si el estimador θˆ es insesgado el error cuadrático medio es igual a la varianza del
estimador.
[ ] 2
Proposición: ECM θ (θˆ) = Vθ (θˆ) + b(θˆ) , siendo b(θˆ) = Eθ (θˆ) − θ el sesgo del estimador.
Dem:
⎢⎣
(2
⎥⎦
)⎢⎣
(
ECM θ (θˆ) = Eθ ⎡ θˆ − θ ⎤ = Eθ ⎡ θˆ − Eθ (θˆ) + Eθ (θˆ) − θ ⎤
2
⎥⎦
)
( ) (
= Eθ ⎡ θˆ − Eθ (θˆ) + Eθ (θˆ) − θ
⎢⎣
2
) 2
( )(
+ 2 θˆ − Eθ (θˆ) Eθ (θˆ) − θ ⎤
⎥⎦
)
( ) (
= Eθ ⎡ θˆ − Eθ (θˆ) ⎤ + Eθ ⎡ Eθ (θˆ) − θ ⎤ + 2 Eθ θˆ − Eθ (θˆ) Eθ (θˆ) − θ
⎢⎣
2
⎥⎦ ⎢⎣
2
⎥⎦
) [( )( )]
Usando que la esperanza de una v.a. es una constante y la esperanza de una constante
es igual a ésta, se obtiene
( ) ( )
ECM θ (θˆ) = Eθ ⎡ θˆ − Eθ (θˆ) ⎤ + Eθ (θˆ) − θ + 2 Eθ (θˆ) − θ Eθ (θˆ) − Eθ (θˆ)
⎢⎣
2
⎥ 14243
2
( )( )
3⎦
1442443
14 4
42444
Vθ (θˆ )
2
(b(θˆ ) ) 0
[ ] 2
y, por lo tanto, ECM θ (θˆ) = Vθ (θˆ) + b(θˆ) , como queríamos demostrar.
174
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Principio de estimación de menor error cuadrático medio: Dados dos o más estimadores
del parámetro θ, elegir el de menor ECM.
Definición: Sea X 1 , X 2 ,..., X n una m.a de una distribución que depende de un parámetro
θ y sea θˆn un estimador puntual de θ basado en esa muestra. Diremos que {θˆ } es
n
(
es decir, si ∀ ε > 0, P θˆn − θ > ε ⎯n⎯ )
⎯→ 0 .
→∞
desigualdad de Chebyshev,
(
P X − μ >ε ≤ ) V (X )
ε2
σ2
= 2 ⎯n⎯
nε
⎯→ 0
→∞
∀ε > 0
X1 + X 2
Ejercicio: Verificar que, en este ejemplo, μˆ = no es consistente de μ .
2
b) Vθ (θˆn ) ⎯n⎯⎯→ 0
→∞
175
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
σ2
V (X ) = . Por lo tanto, se satisfacen las dos condiciones de la Proposición.
n
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ). Hemos demostrado antes que
n
el EMV de θ , θˆ = max( X i ) es asintóticamente insesgado pues Eθ (θˆ) = θ . Para
1≤i ≤ n n +1
probar que es consistente, verificaremos que su varianza tiende a cero cuando el tamaño
de la muestra tiende a infinito. Pero
[ ]
2
2
⎡ n ⎤
Vθ (θˆ) = Eθ (θˆ 2 ) − Eθ (θˆ) = Eθ (θˆ 2 ) − ⎢ θ
⎣ n + 1 ⎥⎦
n −1
⎛u⎞ 1
f U (u ) = n⎜ ⎟ I ( 0,θ ) (u )
⎝θ ⎠ θ
θ n −1 θ θ
⎛u⎞ 1 n n u n+2 n
Eθ (U ) = ∫ u n⎜ ⎟
2 2
du = ∫u
n +1
du = n = θ 2.
0 ⎝θ ⎠ θ θn 0 θ n+2 0 n+2
Entonces,
⎛ n ⎞ 2 ⎛⎜ n ⎞ 2
2
n n2 n
Vθ (θˆ) = θ2 −⎜ ⎟ θ = − ⎟θ = θ 2 ⎯n⎯⎯→ 0
n+2 ⎝ n +1⎠ ⎜ n + 2 (n + 1)2 ⎟ n + n + 2 →∞
⎝ ⎠ ( 2)( 1)
En primer lugar recordemos que si X 1 , X 2 ,..., X n ,.... e Y1 , Y2 ,..., Yn ,... son sucesiones de
v.a. tales que X n ⎯
⎯→p
a e Yn ⎯
⎯→p
b , entonces:
a) X n ± Yn ⎯
⎯→p
a±b
b) X n Yn ⎯
⎯→p
ab
176
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Xn p a
c) ⎯
⎯→ si b ≠ 0
Yn b
d) g ( X n ) ⎯
⎯→p
g (a ) si g es una función continua en a .
e) si c n es una sucesión numérica tal que c n ⎯
⎯→ c , entonces c n X n ⎯
⎯→p
ca
∑X i
2
2
i =1
⎯
⎯→p
E (X 2
) =V ( X ) + [ E 2 ( X )] =σ 2 + μ2
n μ ,σ 2 μ ,σ 2 μ ,σ
n
Como además → 1 , se obtiene
n −1
⎛ n 2 ⎞
⎜∑ Xi ⎟
n ⎜ i =1 2⎟
SX =
2
−X ⎯ ⎯→
p
σ 2 + μ2 − μ2 =σ 2
n −1 ⎜ n ⎟
⎜ ⎟
⎝ ⎠
y por lo tanto la varianza muestral es un estimador consistente de σ 2 .
177
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ σ o2 ⎞ X −μ
X ~ N ⎜⎜ μ , ⎟
⎟ ⇔ ~ N (0,1)
⎝ n ⎠ σo
n
X −μ
y, por lo tanto, sabemos que la probabilidad de que n se encuentre entre –1.96 y
σo
1.96 es 0.95, es decir
⎛ X −μ ⎞
P⎜⎜ − 1.96 ≤ n ≤ 1.96 ⎟⎟ = 0.95
⎝ σo ⎠
178
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ σ σ ⎞ ⎛ σ σ ⎞
P⎜⎜ − 1.96 o ≤ X − μ ≤ 1.96 o ⎟⎟ = 0.95 ⇔ P⎜⎜ X − 1.96 o ≤ μ ≤ X + 1.96 o ⎟⎟ = 0.95
⎝ n n⎠ ⎝ n n⎠
⎡ σo σ ⎤
⎢ X − 1.96 , X + 1.96 o ⎥
⎣ n n⎦
contenga al verdadero valor del parámetro μ es 0.95. Este intervalo se denomina intervalo
de confianza para μ de nivel de confianza 0.95.
Definición: Sea X 1 , X 2 ,..., X n una m.a. de una distribución que depende de un parámetro
θ. Dadas dos funciones de la muestra a ( X 1 , X 2 ,...., X n ) y b( X 1 , X 2 ,...., X n ) tales que
179
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
2) Una vez construído el intervalo a partir de una muestra dada, ya no tiene sentido hablar
de probabilidad. En todo caso, tenemos “confianza” de que el intervalo contenga a θ. La
confianza está puesta en el método de construcción de los intervalos, que nos asegura
que (1 - α) 100% de las muestras producirán intervalos que contienen a θ.
⎛n 1⎞
Distribución t: Sean dos v.a. Z ~N(0,1) y U ~ χ n2 = Γ⎜ , ⎟ independientes, entonces
⎝2 2⎠
Z
T= ~ tn
U
n
Se dice que T tiene distribución t de Student con n grados de libertad. Esta distribución
está tabulada para diferentes valores de n. Su densidad es simétrica respecto al 0 y tiene
forma de campana, pero tiene colas más pesadas que la distribución normal standard.
Cuando n tiende a infinito, la distribución de Student tiende a la distribución normal
standard.
Proposición: Sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ, σ2), entonces
⎛ σ2 ⎞ X −μ
a) X ~ N ⎜⎜ μ , ⎟⎟ ⇔ n ~ N (0,1)
⎝ n ⎠ σ
(n − 1) S 2 ∑ (X i − X )2
b) ~ χ n2−1 con S 2 = i =1
σ 2
n −1
c) X y S 2 son independientes
X −μ
d) n ~ t n −1
S
180
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
d) Resulta de a) b) y c) pues
X −μ (n − 1) S 2
n ~ N (0,1) y ~ χ n2−1
σ σ2
son v.a. independientes. Entonces, por definición de la distribución t de Student,
X −μ
n
σ X −μ
= n ~ t n −1
(n − 1) S 2 S
σ 2 (n − 1)
X −μ
n ~ N (0,1)
σo
⎛ X −μ ⎞
P⎜⎜ − zα / 2 ≤ n ≤ zα / 2 ⎟⎟ = 1 − α
⎝ σo ⎠
⎡ σo σ ⎤
⎢ X − zε / 2 , X + zε / 2 o ⎥ (1)
⎣ n n⎦
X −μ
n ~ t n −1
S
181
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ X −μ ⎞
P⎜⎜ − t n −1,α / 2 ≤ n ≤ t n −1,α / 2 ⎟⎟ = 1 − α
⎝ S ⎠
⎡ S S ⎤
⎢ X − t n −1,α / 2 , X + t n −1,α / 2 ⎥
⎣ n n⎦
X i − μo ⎛ X i − μo ⎞
2
⎛1 1⎞
~ N (0,1) ∀1 ≤ i ≤ n ⇒ ⎜ ⎟ ~ χ 12 = Γ⎜ , ⎟ ∀1 ≤ i ≤ n
σ ⎝ σ ⎠ ⎝2 2⎠
⎛ X i − μo ⎞
2
n
⎛n 1⎞
∑ ⎜
i =1 ⎝ σ
⎟ ~ χ n2 = Γ⎜ , ⎟
⎠ ⎝ 2 2⎠
χ n2,1−α / 2 χ n2,α / 2
182
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Los elegimos de manera tal que quede un área igual a α/2 en cada extremo. Entonces,
⎛ n
⎞
⎜ ∑ ( X i − μ o )2 ⎟
⎜
P χ n ,1−α / 2 ≤
2 i =1
≤ χ n ,α / 2 ⎟ = 1 − α
2
⎜ σ2 ⎟
⎜ ⎟
⎝ ⎠
⎡ n
( X i − μ o )2 ⎤⎥
n
⎢∑ i ( X − μ o ) 2
∑
⎢ i =1 2 , i =1 2 ⎥
⎢ χ n ,α / 2 χ n ,1−α / 2 ⎥
⎢ ⎥
⎣ ⎦
(n − 1) S 2
~ χ n2−1
σ2
Por lo tanto,
⎛ (n − 1) S 2 ⎞
P⎜⎜ χ n2−1,1−α / 2 ≤ ≤ χ n2−1,α / 2 ⎟⎟ = 1 − α
⎝ σ 2
⎠
⎡ (n − 1) S 2 (n − 1) S 2 ⎤
⎢ 2 , 2 ⎥
⎢⎣ χ n −1,α / 2 χ n −1,1−α / 2 ⎥⎦
Como las v.a. son normales y la varianza es conocida, el intervalo para μ será de la forma
183
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ σ σ ⎞
⎜⎜ X − zα / 2 o , X + zα / 2 o ⎟⎟
⎝ n n⎠
⎛ 35 ⎞
⎟⎟ = (160 − 9.8, 160 + 9.8) = (150.2, 169.8)
35
⎜⎜160 − 1.96 , 160 + 1.96
⎝ 49 49 ⎠
⎛ S S ⎞
⎜⎜ X − t n −1,α / 2 , X + t n −1,α / 2 ⎟⎟
⎝ n n⎠
⎛ 35 ⎞
⎟⎟ = (160 − 10.05, 160 + 10.05) = (149.95, 170.05)
35
⎜⎜160 − 2.01 , 160 + 2.01
⎝ 49 49 ⎠
Por tratarse de una muestra normal con media desconocida, el intervalo para σ2 será de
la forma
⎛ (n − 1) S 2 (n − 1) S 2 ⎞
⎜ , 2 ⎟
⎜ χ2 ⎟
⎝ n −1,α / 2 χ n −1,1−α / 2 ⎠
con χ n2−1,α / 2 = χ 48
2
, 0.025 = 69.02 y χ n −1,1−α / 2 = χ 48, 0.975 = 30.75 . Obtenemos
⎛ 48 ⋅ 35 2 48 ⋅ 35 2 ⎞
⎜⎜ , ⎟⎟ = (851.93, 1912.20 )
⎝ 69.02 30.75 ⎠
⎛ 48 ⋅ 35 2 48 ⋅ 35 2 ⎞
⎜
⎜ 69.02
,
30.75
⎟=
⎟
( )
851.93 , 1912.20 = (29.19, 43.73)
⎝ ⎠
184
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Esto último resulta de aplicar una función monótona creciente a cada extremo del
intervalo para σ2
σo
L = 2 zα / 2
n
y depende de
2
σo 2z σ ⎛ 2z σ ⎞
L = 2 zα / 2 ≤ Lo ⇔ n ≥ α / 2 o ⇔ n ≥ ⎜⎜ α / 2 o ⎟⎟
n Lo ⎝ Lo ⎠
Ejemplo: Supongamos que σo = 35, ¿qué tamaño de muestra se requiere como mínimo
para obtener un intervalo de nivel 0.95 de longitud menor o igual que 10?.
⎛ 2 ⋅ 1.96 ⋅ 35 ⎞
2
P(a ≤ T ( X 1 , X 2 ,..., X n ,θ ) ≤ b ) = 1 − α
185
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∑X
i =1
i ~ Γ(n, λ )
⎛ λ⎞
Usando este resultado y que, si V ~ Γ(α , λ ) y a > 0 entonces aV ~ Γ⎜α , ⎟ , se puede
⎝ a⎠
demostrar que
n
⎛ 2n 1 ⎞
2λ ∑ X i ~ χ 22n = Γ⎜ , ⎟
i =1 ⎝ 2 2⎠
n
Usando como pivote la función T ( X 1 , X 2 ,..., X n , λ ) = 2λ ∑X
i =1
i , podemos obtener un
⎛ n
⎞
P⎜ χ 22n ,1−α / 2 ≤ 2λ ∑ X i ≤ χ 22n ,α / 2 ⎟ = 1 − α
⎝ i =1 ⎠
⎛ ⎞
⎜ ⎟
χ 2 n ,1−α / 2 χ 2 n ,α / 2
P⎜ n ≤λ ≤ n ⎟ =1−α
⎜ ⎟
⎜ 2∑ X i 2∑ X i ⎟
⎝ i =1 i =1 ⎠
y el intervalo requerido es
⎡ ⎤
⎢χ χ ⎥
⎢ 2 nn,1−α / 2 , 2nn ,α / 2 ⎥
⎢ ⎥
⎢ 2∑ X i 2∑ X i ⎥
⎣ i =1 i =1 ⎦
Ejemplo: Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ). Para obtener un intervalo
de confianza para θ , recordemos que el EMV de θ es θˆ = max ( X 1 ,..., X n ) y probemos
que la distribución de θˆ / θ no depende de θ.
186
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛V ⎞
FV / θ ( w) = P⎜ ≤ w ⎟ = P(V ≤ θ w) = FV (θ w) = FX i (θ w) ( )n
⎝θ ⎠
⎧ 0 si θ w ≤ 0 ⎧ 0 si w ≤ 0
⎪⎪⎛ θw ⎞ n
(
FV / θ ( w) = FX i (θw) )
n
= ⎨⎜ ⎟ si 0 < θ w < θ
⎪
= ⎨w n si 0 < w < 1
⎪⎝ θ ⎠ ⎪ 1 si w ≥ 1
⎪⎩ 1 si θ w ≥ θ ⎩
f V / θ ( w) = n w n −1 I ( 0,1) ( w)
max ( X 1 ,..., X n )
Utilizando T ( X 1 , X 2 ,..., X n , θ ) = como pivote, obtendremos un intervalo
θ
de confianza para θ de nivel 1 - α. Buscamos a y b tales que
⎛ max( X 1 ,..., X n ) ⎞
P⎜ a ≤ ≤ b⎟ = 1−α (2)
⎝ θ ⎠
¿Cómo elegimos a y b?. Observando (2), debemos hallar a y b , 0 < a < b < 1, tales que
∫ n w dw = w
b
n −1 n
= bn − an =1− α (3)
a
a
Obviamente hay infinitas soluciones de esta ecuación, pero podríamos elegir la solución
que produce el intervalo de menor longitud esperada, es decir, buscar a y b que
minimicen E(L) sujeto a la condición (3), siendo
187
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛1 1⎞
L = max( X 1 ,..., X n )⎜ − ⎟
⎝a b⎠
n
Como ya hemos demostrado que E (max( X 1 ,..., X n ) = θ , debemos minimizar
n +1
n ⎛1 1⎞
θ⎜ − ⎟ (4)
n +1 ⎝ a b ⎠
sujeto a la condición b n − a n = 1 − α .
Definición: Sea X 1 , X 2 ,..., X n una m.a. de una distribución que depende de un parámetro
θ. Dadas dos sucesiones {a n ( X 1 , X 2 ,...., X n )} y {bn ( X 1 , X 2 ,...., X n )} tales que
• Porque no es posible encontrar una función pivote que no dependa del parámetro
• Porque no se conoce la distribución exacta de la función pivote
• Porque en general es más fácil encontrar la distribución asintótica que la exacta de la
función pivote
188
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X −μ
n ⎯⎯→
d
N (0,1)
σ
Propiedad:
Yn ⎯
⎯→
d
Y⎫
⎬ ⇒ U n Yn ⎯
⎯→
d
aY
Un ⎯⎯→ a ⎭
p
s σ
Como s ⎯
⎯→p
σ por ser un estimador consistente, entonces ⎯
⎯→p
1y ⎯
⎯→p
1.
σ s
Luego,
X −μ ⎫
n ⎯⎯→
d
N (0,1)⎪ X −μ d
σ ⎬ ⇒ n ⎯⎯→ N (0,1)
σ p ⎪ s
⎯⎯→1
s ⎭
⎛ X −μ ⎞
P⎜⎜ − zα / 2 ≤ n ≤ zα / 2 ⎟⎟ → 1 − α
⎝ s ⎠
⎡ s s ⎤
⎢ X − zα / 2 , X + zα / 2 ⎥
⎣ n n⎦
189
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X
∑X
i =1
i (a)
⎛ p(1 − p) ⎞
pˆ = = ~ N ⎜ p, ⎟
n n ⎝ n ⎠
y, por lo tanto
⎛ X ⎞
⎜ −p ⎟
P⎜⎜ − zα / 2 ≤ n ≤ zα / 2 ⎟⎟ ≅ 1 − α (5)
p (1 − p)
⎜⎜ ⎟⎟
⎝ n ⎠
Hay dos formas de obtener un intervalo para p a partir de esta última expresión.
X
∑X
i =1
i
a) Como, por la Ley de los Grandes Números, = ⎯
⎯→p
p podemos aplicar la
n n
Propiedad enunciada antes y reemplazar en el denominador el pivote p por su
estimador. Entonces
⎛ X ⎞
⎜ −p ⎟
P⎜⎜ − zα / 2 ≤ n ≤ zα / 2 ⎟⎟ ≅ 1 − α
pˆ (1 − pˆ )
⎜⎜ ⎟⎟
⎝ n ⎠
⎛ X⎛ X⎞ X⎛ X ⎞⎞
⎜ ⎜1 − ⎟ ⎜1 − ⎟ ⎟
⎜X n⎝ n⎠ X n⎝ n ⎠⎟
P⎜ − z α / 2 ≤ p ≤ + zα / 2 ⎟ ≅1−α
⎜n n n n ⎟
⎜ ⎟
⎝ ⎠
190
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ ⎞ ⎛⎛ X ⎞
2
⎞
⎜ X
−p ⎟ ⎜ ⎜ − p⎟ ⎟
⎜ n ⎟ ⎜⎝ n ⎠ ⎟
P⎜ ≤ zα / 2 ⎟ ≅ 1 − α ⇔ P⎜ ≤ zα / 2 ⎟ ≅ 1 − α
2
p(1 − p) p(1 − p )
⎜ ⎟ ⎜ ⎟
⎜ ⎟ ⎜ n ⎟
⎝ n ⎠ ⎝ ⎠
Observemos que
2
⎛X ⎞
⎜ − p⎟
p(1 − p)
2
⎝n ⎠ ≤ z2 ⎛X ⎞
α/2 ⇔ ⎜ − p ⎟ ≤ zα / 2
2
p(1 − p) ⎝n ⎠ n
n
p(1 − p)
2
⎛X⎞ X
⇔ ⎜ ⎟ − 2 p + p − zα / 2
2 2
≤0
⎝n⎠ n n
⎛ z2 ⎞ ⎛ 2 X zα2 / 2 ⎞ ⎛ X ⎞
2
Buscamos las raíces de esta ecuación de segundo grado, que llamaremos p̂1 y p̂ 2 y el
intervalo de nivel aproximado 1 – α para p será
[ pˆ 1 , pˆ 2 ] .
191
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Hasta ahora hemos visto como obtener, a partir de una muestra, un estimador puntual o
un intervalo de confianza para un parámetro θ. Frecuentemente el objetivo del estudio es
decidir, en base a la información que provee la muestra, entre dos hipótesis relativas a un
parámetro.
Ejemplo: Supongamos que el consumo promedio de nafta de los motores utilizados por
una empresa automotriz en uno de sus modelos es de 10 litros cada 100 km. Se presenta
un proyecto de mejora del motor que produciría una disminución en el consumo pero,
por razones de costo, se considera viable el proyecto si la reducción lleva el consumo a
un valor menor de 9 litros cada 100 km.
Supongamos que el consumo de nafta de los motores es una v.a. con distribución normal
con varianza igual a 1 y que la muestra es aleatoria, es decir que los 25 consumos son
independientes. Es decir, supongamos que X 1 ,..., X 25 es una m.a., X i ~ N ( μ ,1) .
Entonces
⎛ 1 ⎞ X −μ
X ~ N⎜ μ , ⎟ ⇔ ~ N (0, 1)
⎝ 25 ⎠ 1 / 25
Si la media verdadera del consumo en el motor mejorado fuese de 9 litros cada 100 km.,
¿cuál es la probabilidad de que una v.a. normal con media 9 y varianza 1/25 tome un
valor igual o menor que el observado, 8.9?
⎛ X − 9 8.9 − 9 ⎞
P (X ≤ 8.9 ) = P⎜⎜ ≤ ⎟ = Φ (−0.5) = 0.309 ≅ 0.31
⎝ 1/ 5 1 / 5 ⎟⎠
Si el consumo promedio observado hubiese sido X = 8.6 litros cada 100 km, entonces
⎛ X − 9 8.6 − 9 ⎞
P (X ≤ 8.6 ) = P⎜⎜ ≤ ⎟ = Φ (−2) = 0.023 ,
⎝ 1/ 5 1 / 5 ⎟⎠
es decir que, en este último caso, hubiese sido muy poco probable que se observase un
valor promedio de 8.6 si la media verdadera es 9.
192
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
i) μ = 9 litros cada 100 km. En este caso no se implementa la mejora a los motores
ii) μ < 9 litros cada 100 km. En este caso conviene implementar la mejora a los motores
Expresadas en términos del parámetro de interés las hipótesis del ejemplo serán
Ho: μ = 9 vs H1 : μ < 9
¿Cómo se elige la zona de rechazo? Observemos que al tomar una decisión en base a
una muestra, podemos cometer dos tipos de error.
No se rechaza Ho Se rechaza Ho
Ho es cierta OK Error tipo I
Ho no es cierta Error tipo II OK
X −9
~ N (0 , 1)
1/ 5
193
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X −9
≤ −1.64 .
1/ 5
Esta es la zona de rechazo del test de nivel 0.05. Si observamos un promedio igual a 8.9,
el valor del estadístico es –0.5 y por lo tanto no se rechaza Ho, mientras que si
observamos un promedio igual a 8.6, el valor del estadístico es –2 y se rechaza Ho.
X −9
≤ −1.28
1/ 5
194
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Por ejemplo, si la modificación en el motor reduce el consumo a 8.5 litros cada 100 km,
¿cuál es la probabilidad de cometer un error tipo II?
⎛ 1 ⎞
⎜ − 1.64 ⋅ + 9 − 8.5 ⎟
⎛ X −9 ⎞ ⎛ 1 ⎞ X − 8.5
Pμ =8.5 ⎜⎜ > −1.64 ⎟⎟ = Pμ =8.5 ⎜ X > −1.64 ⋅ + 9 ⎟ = Pμ =8.5 ⎜ > 5 ⎟
⎝ 1 / 5 ⎠ ⎝ 5 ⎠ ⎜ 1 / 5 1 / 5 ⎟
⎜ ⎟
⎝ ⎠
⎛ X − 8.5 ⎞
Pμ =8.5 ⎜⎜ > 0.86 ⎟⎟ = 1 − Φ (0.86) = 1 − 0.805 = 0.195
⎝ 1/ 5 ⎠
Utilizando la función de potencia es posible obtener una expresión general para los dos
tipos de errores, pues
⎧α ( μ ) si μ ∈ H o
π (μ ) = ⎨
⎩1 − β ( μ ) si μ ∈ H 1
donde α(μ) y β(μ) denota las probabilidades de error tipo I y tipo II respectivamente
cuando el verdadero valor del parámetro es μ.
Hipótesis unilaterales:
195
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Hipótesis bilaterales:
Ho: θ = θo vs H1: θ ≠ θo
X − μo
Estadístico del test: T = n . Bajo Ho: μ = μo , T ~ N(0,1).
σo
a) T ≥ zα
b) T ≤ − zα
c) T ≥ zα / 2
⎛ X − μo ⎞ ⎛ X − μo ⎞ ⎛ X − μo ⎞
Pμ o ⎜⎜ n ≥ K ⎟⎟ = α ⇔ 1 − Pμo ⎜⎜ n < K ⎟⎟ = 1 − Pμ o ⎜⎜ − K < n < K ⎟⎟ = α
⎝ σo ⎠ ⎝ σo ⎠ ⎝ σo ⎠
α
⇔ 1 − Φ ( K ) + Φ (− K ) = α ⇔ 2(1 − Φ ( K )) = α ⇔ Φ ( K ) = 1 − ⇔ K = zα / 2
2
196
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ ⎞ ⎛ ⎞
⎜ X − μo ⎟ ⎜ X − μ + μ − μo ⎟
a) π ( μ ) = Pμ ⎜ ≥ zα ⎟ = Pμ ⎜ ≥ zα ⎟
⎜ σ ⎟ ⎜ σ ⎟
⎝ n ⎠ ⎝ n ⎠
⎛ ⎞ ⎛ ⎞
⎜X −μ μo − μ ⎟ ⎜ μo − μ ⎟
= Pμ ⎜ ≥ zα + ⎟ = 1 − Φ⎜ zα + ⎟
⎜⎜ σ o σo ⎟⎟ ⎜⎜ σo ⎟⎟
⎝ n n⎠ ⎝ n⎠
197
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ ⎞ ⎛ ⎞
⎜X −μ ⎟ ⎜X −μ+μ−μ ⎟
b) π ( μ ) = Pμ ⎜ o
≤ − zα ⎟ = Pμ ⎜ o
≤ − zα ⎟
⎜⎜ σ o ⎟⎟ ⎜⎜ σo ⎟⎟
⎝ n ⎠ ⎝ n ⎠
⎛ ⎞ ⎛ ⎞
⎜ X −μ μo − μ ⎟ ⎜ μo − μ ⎟
= Pμ ⎜ ≤ − zα + ⎟ = Φ ⎜ − zα + ⎟
⎜⎜ σ o σo ⎟⎟ ⎜⎜ σo ⎟⎟
⎝ n n⎠ ⎝ n⎠
⎛ ⎞ ⎛ ⎞
⎜ X −μ ⎟ ⎜ X −μ ⎟
c) π ( μ ) = Pμ ⎜ o ⎟
≥ zα / 2 = 1 − Pμ ⎜ o
< zα / 2 ⎟
⎜ σo ⎟ ⎜ σo ⎟
⎜ ⎟ ⎜ ⎟
⎝ n ⎠ ⎝ n ⎠
⎛ ⎞
⎜ X − μ + μ − μo ⎟
= 1 − Pμ ⎜ − zα / 2 < < zα / 2 ⎟
⎜⎜ σo ⎟⎟
⎝ n ⎠
198
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ ⎞
⎜ μo − μ X − μ μo − μ ⎟
= 1 − Pμ ⎜ − zα / 2 + < < zα / 2 + ⎟
⎜⎜ σo σo σo ⎟⎟
⎝ n n n ⎠
⎛ ⎞ ⎛ ⎞
⎜ μo − μ ⎟ ⎜ μo − μ ⎟
= 1 − Φ⎜ zα / 2 + ⎟ + Φ⎜ − zα / 2 + ⎟
⎜⎜ σo ⎟⎟ ⎜⎜ σo ⎟⎟
⎝ n⎠ ⎝ n⎠
Observemos que esta función decrece hasta μ o donde π ( μ o ) = α y crece a partir de allí.
Tamaño de muestra requerido para obtener una probabilidad de error tipo II dada para un
valor μ = μ1 (fijo) en la alternativa: Recordemos que el error de tipo II se define como
“aceptar la hipótesis nula Ho cuando es falsa”. Buscamos el valor de n para que la
probabilidad de error tipo II sea menor que β cuando μ = μ1 es un valor fijo en H1.
⎛ ⎞
⎜X −μ ⎟
a) Pμ i ⎜ o
< zα ⎟ ≤ β ⇔ 1 − π ( μ1 ) ≤ β ⇔ π ( μ1 ) ≥ 1 − β
⎜⎜ σ o ⎟⎟
⎝ n ⎠
⎛ ⎞ ⎛ ⎞
⎜ μ o − μ1 ⎟ ⎜ μ o − μ1 ⎟ μ − μ1
⇔ 1 − Φ⎜ zα + ⎟ ≥ 1 − β ⇔ Φ⎜ zα + ⎟ ≤ β ⇔ zα + o ≤ z1− β
⎜⎜ σo ⎟⎟ ⎜⎜ σo ⎟⎟ σo
⎝ n ⎠ ⎝ n ⎠ n
199
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Observemos que en este caso la alternativa es H1: μ > μo , por lo tanto, μ o − μ1 < 0 y se
obtiene
⎛ ⎞
⎜X −μ ⎟
b) Pμi ⎜ o
> − zα ⎟ ≤ β ⇔ 1 − π ( μ1 ) ≤ β ⇔ π ( μ1 ) ≥ 1 − β
⎜⎜ σ o ⎟⎟
⎝ n ⎠
⎛ ⎞
⎜ μ o − μ1 ⎟ μ − μ1
⇔ Φ⎜ − zα + ⎟ ≥ 1 − β ⇔ − zα + o ≥ zβ
⎜⎜ σo ⎟⎟ σo
⎝ n ⎠ n
Observemos que en este caso la alternativa es H1: μ < μo , por lo tanto, μ o − μ1 > 0 y se
obtiene
⎛ (zα + z β )σ o
2
⎞
n ≥ ⎜⎜ ⎟
⎟
⎝ μ 0 − μ1 ⎠
c) Para el caso bilateral, el cálculo del tamaño de muestra se hace en forma aproximada,
despreciando la más pequeña de las dos probabilidades.
X − μo
Estadístico del test: T = n . Bajo Ho: μ = μo , T ~ tn-1
S
a) T ≥ t n −1, α
b) T ≤ −t n −1, α
200
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
c) T ≥ t n −1, α / 2
El tamaño de la zona de rechazo depende del nivel. Por ejemplo, consideremos el caso
a). Como la alternativa es μ > μ o , la forma de la región es T ≥ K , pero como la
probabilidad de rechazar Ho siendo cierta, o sea la probabilidad de Error tipo I, debe ser α,
⎛ X − μo ⎞ ⎛ X − μo ⎞
Pμ o ⎜⎜ n ≥ K ⎟⎟ = α ⇔ 1 − Pμ o ⎜⎜ n ≤ K ⎟⎟ = α
⎝ S ⎠ ⎝ S ⎠
⇔ 1 − FT ( K ) = α ⇔ FT ( K ) = 1 − α ⇔ K = t n −1, α
donde FT designa la función de distribución de una v.a. t con n-1 grados de libertad.
Función de potencia y cálculo del tamaño de muestra para obtener una probabilidad de
error tipo II dada: La función de potencia de este test es complicada porque la distribución
del estadístico cuando μ ≠ μo es una distribución t no central. Aunque hay tablas y gráficos
que permiten obtener probabilidades para una distribución de este tipo, no los
estudiaremos en este curso. Por la misma razón, no calcularemos tamaño de muestra
para obtener una probabilidad de error tipo II dada para una alternativa fija.
Respecto al p-valor, cuando se utilizan tablas sólo es posible obtener una cota, ya que las
tablas proveen solamente algunos valores críticos de la distribución t.
Tests para la varianza cuando la media es desconocida: Las hipótesis a testear son
(n − 1) S 2
Estadístico del test: U = . Bajo Ho: σ 2 = σ o2 , U ~ χ n2−1 .
σ o2
a) U ≥ χ n2−1, α
b) U ≤ χ n2−1, 1−α
c) U ≥ χ n −1, α / 2 ó U ≤ χ n −1, 1-α / 2
El tamaño de la zona de rechazo depende del nivel. Por ejemplo, consideremos el caso
b). Como la alternativa es σ 2 < σ o2 , la forma de la región es U ≤ K , pero como la
201
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ (n − 1) S 2 ⎞
Pσ 2 ⎜⎜ ≤ K ⎟⎟ = α ⇔ K = χ n2−1, α
⎝ σo
2
⎠
o
Función de potencia: La obtendremos sólo para el caso b). Los otros dos casos se
obtienen en forma similar.
⎛ (n − 1) S 2 ⎞ ⎛ (n − 1) S 2 σ 02 2 ⎞ ⎛σ 2 ⎞
π (σ 12 ) = Pσ 2 ⎜⎜ ≤ χ n2−1,1−α ⎟⎟ = P 2 ⎜⎜ ≤ 2 χ n −1,1−α ⎟ = F 2 ⎜ 02 χ n2−1,1−α
⎟ χ n −1 ⎜ σ
⎟
⎟
1 ⎝ σ 02 ⎠
σ1
⎝ σ 1
2
σ1 ⎠ ⎝ 1 ⎠
Por la misma razón, al calcular el p-valor utilizando tablas, sólo es posible obtener una
cota.
Ejercicio: ¿Qué estadístico utilizaría en el caso en que la media μ fuese conocida?. ¿Cuál
es la distribución de dicho estadístico? ¿Cómo se modifican las regiones de rechazo y la
función de potencia de los tests?
x = 243 o C y s = 2.8 o C
a) si existe evidencia para decidir que la temperatura media en ese sector del reactor es
menor que 250 o C .
b) si existe evidencia para decidir que la varianza de la temperatura en ese sector del
reactor es mayor que 2 o C . ( )2
X − 250
El estadístico del test será T = n ,
S
202
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X − 250
T= n ≤ −t n −1, 0.05
S
En nuestro caso, n = 25 y por lo tanto − t 24, 0.05 = −1.71 . Como el valor observado de T es
–12.5, se rechaza Ho, es decir hay evidencia de que la temperatura media del reactor es
menor que 250 o C .
(n − 1) S 2
El estadístico del test será U = ,
σ2
y la región de rechazo estará dada por los valores de U tales que
(n − 1) S 2
U= ≥ χ n2−1, 0.05
4
47.04, se rechaza Ho. Es decir, hay evidencia de que la varianza de la temperatura del
(
reactor es mayor que 2 o C . )2
Sea X 1 , X 2 ,..., X n una m.a. de una distribución con media μ y varianza σ2 < ∞. Aplicando
el Teorema Central del Límite, sabemos que
X −μ
⎯
⎯→
d
Z ~ N (0,1)
σ/ n
X −μ ⎫
n ⎯⎯→
d
N (0,1)⎪ X −μ d
σ ⎬ ⇒ n ⎯⎯→ N (0,1)
σ p ⎪ S
⎯⎯→1
S ⎭
203
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X − μ (a)
n ~ N (0,1)
S
X − μo
y que n es suficientemente grande. Utilizando como estadístico T= n , las
s
siguientes regiones de rechazo proveen tests de nivel aproximado α para cada una de las
hipótesis:
a) T ≥ zα
b) T ≤ − zα
c) T ≥ zα / 2
⎛ ⎞ ⎛ ⎞
⎜ X − μo ⎟ ⎜ X − μo ⎟
π ( μ ) = Pμ ⎜ ≥ zα / 2 ⎟ = 1 − Pμ ⎜ ≤ zα / 2 ⎟
⎜ s ⎟ ⎜ s ⎟
⎝ n ⎠ ⎝ n ⎠
⎛ ⎞
⎜ X − μ + μ − μo ⎟
= 1 − Pμ ⎜ − zα / 2 ≤ ≤ zα / 2 ⎟
⎜ s ⎟
⎝ n ⎠
⎛ ⎞
⎜ μo − μ X − μ μo − μ ⎟
= 1 − Pμ ⎜ − zα / 2 + ≤ ≤ zα / 2 + ⎟
⎜ s s s ⎟
⎝ n n n ⎠
204
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎛ ⎞ ⎛ ⎞
⎜ μo − μ ⎟ ⎜ μo − μ ⎟
≅ 1 − Φ⎜ zα / 2 + ⎟ + Φ⎜ − zα / 2 + ⎟
⎜ s ⎟ ⎜ s ⎟
⎝ n ⎠ ⎝ n ⎠
En forma similar, se obtiene la función de potencia aproximada en los otros dos casos.
X −λ (a)
~ N (0,1)
λ/n
X − λo (a)
~ N (0,1)
λo / n
X − λo
≥ zα
λo / n
⎛ ⎞ ⎛ λ ⎞
⎜ X −λ ⎟ ⎛ ⎞ ⎜ X −λ zα o + λ o − λ1 ⎟
π (λ1 ) = Pλ1 ⎜ o λ
≥ zα ⎟ = Pλ1 ⎜⎜ X ≥ zα o + λ o ⎟⎟ = Pλ1 ⎜ 1
≥
n ⎟
⎜ λo ⎟ ⎝ n ⎠ ⎜ λ λ ⎟
⎜ ⎟ ⎜ 1 1 ⎟
⎝ n ⎠ ⎝ n n ⎠
⎛ ⎞
⎜ λ o λ o − λ1 ⎟
≅ 1 − Φ⎜ zα + ⎟
⎜⎜ λ1 λ1 ⎟⎟
⎝ n ⎠
205
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X − po
se basa en el estadístico , el cual, si Ho es cierta, tiene distribución
p o (1 − p o )
n
aproximada N(0,1). Las regiones de rechazo estarán dadas por
X − po
a) ≥ zα
p o (1 − p o )
n
X − po
b) ≤ − zα
p o (1 − p o )
n
X − po
c) ≥ zα / 2
p o (1 − p o )
n
206
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎡ s s ⎤
⎢ X − t n −1, α / 2 , X + t n −1, α / 2 ⎥.
⎣ n n⎦
Ho: μ = μo vs H1: μ ≠ μo
Dado que el intervalo construido contiene con alta probabilidad al valor verdadero de μ, si
μo no pertenece al intervalo, ésto nos llevaría a sospechar que la hipótesis nula es falsa.
⎛ ⎡ s s ⎤⎞
P ( EI ) = Pμ o ⎜⎜ μ o ∉ ⎢ X − t n −1,α / 2 , X + t n −1,α / 2 ⎥ ⎟⎟
⎝ ⎣ n n ⎦⎠
⎛ ⎡ s s ⎤⎞
= 1 − Pμ o ⎜⎜ μ o ∈ ⎢ X − t n −1,α / 2 , X + t n −1,α / 2 ⎥ ⎟⎟ = 1 − (1 − α ) = α .
⎝ ⎣ n n ⎦⎠
Ho: θ = θo vs H 1 : θ ≠ θo
207
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎡ ⎤
⎢χ 2 χ 2 ⎥
2 n ,1−α / 2 2 n ,α / 2
IC λ = ⎢ n , n ⎥
⎢ ⎥
⎢ 2∑ X i 2∑ X i ⎥
⎣ i =1 i =1 ⎦
Ho: λ = λo vs H1: λ ≠ λo
208