Вы находитесь на странице: 1из 39

4.

Distribuciones de Probabilidad
Probabilidad: Con una muestra aleatoria o
experimento aleatorio, la probabilidad que
una observacin tome un valor en particular
es la proporcin de veces que el resultado
ocurrira en una secuencia muy larga de
observaciones.
Generalmente corresponde a la proporcin
poblacional (y por lo tanto, cae entre 0 y 1) ya
sea para una poblacin real o conceptual.

Reglas bsicas de probabilidad
Sean A, B posibles resultados
P(no A) = 1 P(A)
Para A y B, posibles resultados distintos
P(A o B) = P(A) + P(B)
P(A y B) = P(A)P(B dado A)
Para resultados independientes
P(B dado A) = P(B), entonces
P(A y B) = P(A)P(B)


Datos de GSS 2006
Happiness
Income Very Pretty Not too Total
---------------------
Above Aver. 272 294 49 615
Average 454 835 131 1420
Below Aver. 185 527 208 920
---------------------
Total 911 1656 388 2955
Sea A = average income, B = very happy
P(A) estimada por 1420/2955 = 0.481 (probabilidad marginal),
P(no A) = 1 P(A) = 0.519
P(B dado A) estimada por 454/1420 = 0.320
(probabilidad condicional )
P(A y B) = P(A)P(B dado A) estimada por 0.481(0.320) = 0.154
(igual a 454/2955, probabilidad conjunta)
B1: una persona selec. aleatoriamente es very happy
B2: segunda persona selec. aleatoriamente es very
happy
P(B1), P(B2) estimada por 911/2955 = 0.308
P(B1 y B2) = P(B1)P(B2) estimada por
(0.308)(0.308) = 0.095
Si, por otro lado, B2 se refiere a la pareja de la persona
B1, B1 y B2 probablemente no son independientes y
esta frmula no es apropiada

Distribucin de probabilidad de una
variable
Lista de los posibles resultados de una
variable aleatoria y sus probabilidades
Variable discreta: asigna probabilidades P(y) a
valores individuales y, con
0 ( ) 1, ( ) 1 P y P y s s E =
Ejemplo
Selecciona una muestra aleatoria de 3
personas y pregunta si estn a favor (F) o en
contra (C) de un sistema de salud pblico
y = nmero a favor (0, 1, 2, 3)
Para posibles muestras de tamao n = 3,

Muestra y Muestra y
(C, C, C) 0 (C, F, F) 2
(C, C, F) 1 (F, C, F) 2
(C, F, C) 1 (F, F, C) 2
(F, C, C) 1 (F, F, F) 3

Si la poblacin est igualmente dividida entre F y C,
estas ocho muestras son igualmente posibles y la
distribucin de probabilidad de la variable aleatoria y
(el nmero a favor) es
y P(y)
0 1/8
1 3/8
2 3/8
3 1/8
(Caso especial de la distribucin binomial, en Cap. 6)
En la prctica, las distribuciones de probabilidad son
estimadas de datos muestrales y entonces tienen una
forma de distribuciones de frecuencias

Datos GSS
Ejemplo: y = nmero de personas que conocen a
alguien que se haya suicidado en los ltimos 12
meses (variable suiknew).
Distribucin de probabilidad estimada es
y P(y)
0 .895
1 .084
2 .015
3 .006

Media (valor esperado)
Como las distribuciones de frecuencias,
distribuciones de probabilidad tienen medidas
descriptivas tales como media y desviacin estndar
Media (valor esperado)

= 0(0.895) + 1(0.084) + 2(0.015) + 3 (0.006) = 0.13
representa un resultado promedio de una secuencia
larga
(media = moda = 0)

( ) ( ) E Y yP y = =

Desviacin estndar
Desviacin estndar medida de una distancia
tpica de un resultado de la media, denotada
por o

(No vamos a necesitar calcular esta frmula)
Si una distribucin tiene aprox. forma de
campana, entonces:
Toda o casi toda la distribucin cae dentro del
intervalo - 3 y + 3
Probabilidad del 0.68 cae dentro de - y +

2
= ( ) ( ) y P y o E
Ejemplo
De un resultado ms adelante en el captulo, si n personas
son seleccionadas aleatoriamente de una poblacin con
proporcin t que favorece sistema de salud pblico (1- t,
se oponen), entonces
y = nmero de personas en la muestra que est a favor,
tiene una distribucin de probabilidad con forma de
campana con

p. ej., con n = 1000, t = 0.50, obtenemos = 500, = 16
Casi toda la distribucin cae entre
500 3(16) = 452 y 500 + 3(16) = 548
Es decir, casi seguro entre 45% y 55% de la muestra dir
estar a favor de un sistema de salud pblica
( ) , (1 ) E y n n t o t t = = =
Variables continuas
Variables continuas: probabilidades asignadas a
intervalos de nmeros
Ejemplo: Cuano y toma muchos valores, como en
el ltimo ejemplo, se considera continua para
trminos prcticos. Entonces, si la distribucin de
probabilidad tiene aprox. forma de campana,


La distribucin de probabilidad ms importante
para variables continuas es la distribucin
normal
( ) 0.68, ( 2 2 ) 0.95 P y P y o o o o s s + ~ s s + ~
In previous example, ( ) (484 516) 0.68 P y P y o o s s + = s s ~
Distribucin normal
Es simtrica y con forma de campana (frmula en
Ejercicio 4.56)
Se caracteriza por la media () y desviacin
estndar (o), representando el centro y la
dispersin
La probabilidad dentro de un nmero particular
de desviaciones estndar de la media es la
misma para todas las distribuciones normales
Una observacin individual de una distribucin
aprox. normal tiene probabilidad
0.68 de caer a 1 desviacin estndar de la media
0.95 de caer a 2 desviaciones estndar
0.997 de caer a 3 desviaciones estndar


Tabla A
Tabla A da la probabilidad en la cola derecha arriba
de + z para varios valores de z.
Segundo decimal del valor de z
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .5000 .4960 .4920 .4880 .4840 .4801 .4761 .4721 .4681 .4641


1.4 .0808 .0793 .0778 .0764 .0749 .0735 .0722 .0708 .0694 .0681
1.5 .0668 .0655 .0643 .0630 .0618 .0606 .0594 .0582 .0571 .0559
...
...

Ejemplo: Cul es la probabilidad de caer entre
- 1.50 y + 1.50 ?
z = 1.50 tiene una prob. a la derecha = 0.0668
La prob. de la cola izq. = 0.0668 por simetra
La prob. se las dos colas = 2(0.0668) = 0.1336
Prob. entre - 1.50 y + 1.50 = 1 0.1336 = 0.87
Ejemplo: z = 2.0 da
Prob. de las dos colas = 2(0.0228) = 0.046
Probabilidad entre 2 es 1 - 0.046 = 0.954
Ejemplo: Qu valor-z corresponde al percentil-99? Es
decir, qu valor-z resulta en + z = percentil-99?
Probabilidad de la cola derecha = 0.01 tiene z = 2.33
99% cae abajo de + 2.33
Ejemplo: Si el coeficiente intelectual (IQ) tiene = 100,
= 16, entonces percentil-99%
+ 2.33 = 100 + 2.33(16) = 137
Nota: - 2.33 = 100 2.33(16) = 63 es el percentil-1%
0.98 = probabilidad que IQ caiga entre 63 y 137

Ejemplo
Qu valor de z hace que el intervalo z incluya
exactamente el 95% de la curva normal?
Probabilidad total en las dos colas = 0.05
Probabilidad en la cola derecha = 0.05/2 = 0.025
z = 1.96
1.96 contiene probabilidad 0.950
( 2 contiene probabilidad 0.954)
Ejercicio: Intenta para 99%, 90%
(debes obtener 2.58, 1.64)

Ejemplo
Minessota Multiphasic Personality Inventory
(MMPI), basado en respuestas de 500 preguntas
de verdadero/falso, provee calif. para varias
escalas (p.ej., depresin, ansiedad, abuso de
sustancias), con = 50, = 10.
Si la distribucin es normal y una calificacin 65 es
considerada muy alta, qu porcentaje es ste?
z = (65 - 50)/10 = 1.50
Prob. de la cola derecha = 0.067 (menos que 7%)
Notas de valores-z
Valor-z representa el nmero de desviaciones
estndar que un valor est de la media de la
distribucin
Un valor y est z = (y - )/ desviaciones
estndar de
Ejemplo: y = 65, = 50, = 10
z = (y - )/ = (65 50)/10 = 1.5
El valor-z es negativo cuando y est por debajo de
(p.ej., y = 35 tiene z = -1.5)

Distribucin normal
La distribucin normal estndar es una distribucin normal
con = 0 y = 1
Por la distribucin, z = (y - )/o = (y - 0)/1 = y
Es decir, valor original = valor-z; + z = 0 + z(1) = z
(usamos la normal estndar para inferencia estadstca
empezando en Cap. 6, donde ciertas estadsticas son
convertidas para tener una distribucin normal estndar)
Por qu es la distribucin normal importante?
Hoy aprenderemos que si estudios diferentes toman
muestras aleatorias y calculan estadsticas (p.ej., media
muestral) para estimar un parmetro (p.ej., media
poblacional), la coleccin de los valores de las estadsticas
de estos estudios usualmente tienen aprox. una
distribucin normal. (Y?)

Distribucin muestral
Una distribucin muestral lista los posibles valores de
la estadstica (p.ej., media muestral y proporcin
muestral) y sus probabilidades
Ejemplo: y = 1 si a favor del sistema pblico de salud
y = 0 si se opone
Para posibles muestras de tamao n = 3, considera la
media muestral
Muestra Media Muestra Media
(1, 1, 1) 1.0 (1, 0, 0 ) 1/3
(1, 1, 0) 2/3 (0, 1, 0) 1/3
(1, 0, 1) 2/3 (0, 0, 1) 1/3
(0, 1, 1) 2/3 (0, 0, 0) 0

Para datos binarios (0, 1), media muestral es igual a
proporcin muestral de casos 1. Para la poblacin

es la proporcin poblacional de casos 1
(p.ej., a favor del sistema de salud pblica)
Qu tan cerca est la media muestral de la media
poblacional ?
Para responder esto, debemos poder responder,
Cul es la distribucin de probabilidad de la media
muestral?
( )=0P(0)+1P(1)=P(1) yP y =

Distribucin muestral
Distribucin muestral de una estadstica es la
distibucin de probabilidad para los posibles valores de
la estadstica
Ejemplo. Asume P(0) = P(1) = . Para una variable
aleatoria de tamao n = 3, cada uno de las 8 possible
muestras son igualmente probables. La distribucin
muestral de la proporcin muestral es
Proporcin muestral Probabilidad
0 1/8
1/3 3/8
2/3 3/8
1 1/8 (Intenta para n = 4)
Distribucin muestral de la media
muestral
es una variable, sus valores varian de muestra a
muestra alrededor de la media poblacional
La desviacin estndar de la distribucin muestral de
se llama error estndar de
Para el muetreo aleatorio, la distribucin muestral de
tiene una media y error estndar





y
y
y
y

=
desviacin estndar poblacional
tamao de muestra

Ejemplo
Para datos binarios (y =1 0) con P(Y=1) = t (con 0 <
t < 1), se puede mostrar que (Ej.
4.55b, y caso especial de la frmula anterior en p.11
de estas notas con n = 1)
Cuando t = 0.50, o = 0.50, y el error estndar es


(1 ) o t t =
0.50

y
n n
o
o = =
n error estndar
3 .289
100 .050
200 .035
1000 .016
Nota el error estndar decrece a medida que n crece
(es decir, tiende a caer ms cerca de )
Con n = 1000, error estndar = 0.016, as que si la
distribucin muestral tiene forma de campana, con una
alta probabilidad, la proporcin cae a 3(0.016) = 0.05
de la proporcin poblacional de 0.50 (es decir, entre
0.45 and 0.55)
Ejemplo: Nmero de veces y = 1 (es decir, nmero de
personas a favor) es 1000(proporcin), as que la
variable que cuenta el nmero de personas tiene
media = 1000(0.50) = 500 y desv. est. 1000(0.016) = 16
(como en un ejemplo anterior en p. 11)
y
Consecuencia prctica: Este captulo presenta resultados
tericos acerca de la dispersin (y forma) de las
distribuciones muestrales, pero esto implica cmo, en la
prctica, los diferentes estudios en el mismo tema pueden
variar de estudio a estudio (y, por lo tanto, qu tan preciso
cada estudio tiende a ser)
Ejemplo: T planeas una muestra de 200 personas para
estimar la proporcin poblacional que est a favor de un
sistema de salud pblico. Otros pueden estar haciendo lo
mismo. Cmo variarn los resultados entre los estudios (y
qu tan precisos son sus resultados)?
La distribucin muestral de la proporcin muestral a favor
del sistema de salud pblico tiene un error estndar que
describe la variabilidad de estudio a estudio.

Ejemplo
Muchos estudiantes toman una muestra de n = 200 para
estimar proporcin poblacional
Lanzar una moneda 200 veces simula el proceso cuando la
proporcin poblacional = 0.50.
En teora, hemos visto que la proporcin muestral vara de
estudio a estudio (es decir, de estudiante a estudiante)
alrededor de 0.50 con un error estndar de 0.035
Evidencia emprica: Tom los datos que ustedes generaron
y calcul que el conjunto de todas las proporciones
muestrales (0.515 = 103/200, 0.470 = 94/200, etc.) tiene
una media de 0.488 y una desviacin estndar de 0.028.
(OK, hice trampa y borr un outlier de 0.67)
Forma? Parecida a forma de campana. Por qu?
Teorema Central del Lmite
Teorema Central del Lmite: Para muestreo aleatorio
con n grande, la distribucin muestral de la media
muestral tiene aprox. una distribucin normal
Es aprox. normal sin importar la forma de la
distribucin poblacional
Qu tan grande debe de ser n depende de qu tan
asimtrica sea la distribucin poblacional, pero
usualmente n 30 es suficiente
Puede verificarse empricamente, haciendo
simulaciones con el applet de sampling distribution
en www.prenhall.com/agresti

y

Ejemplo
Muestra aleatoria de 100 estudiantes seleccionados para
estimar la proporcin que han participado en actividad
A. Encuentra la probabilidad de la proporcin muestral
caiga entre 0.04 de la proporcin poblacional, si la
proporcin poblacional = 0.30 (es decir, entre 0.26 y
0.34)
y = 1, s y = 0, no
= t = 0.30
Por el TCL, distribucin muestral de la media muestral
(la proporcin de s) es aprox. normal con
media = 0.30,
error estndar =


(1 ) (0.3)(0.7) 0.458 o t t = = =


0.26 tiene valor-z = (0.26 - 0.30)/0.0458 = -0.87
0.34 tiene valor-z = (0.34 - 0.30)/0.0458 = 0.87
P(media muestral 0.34) = 0.19
P(media muestral 0.26) = 0.19
P(0.26 media muestral 0.34) = 1 2(0.19) = 0.62
La probabilidad es 0.62 que la proporcin muestral
caiga a 0.04 de la proporcin poblacional

0.458 0.458
0.0458
100
y
n n
o
o = = = =
Ejemplo
Lanzamiento de monedas, n = 200 por estudiante
Si la probabilidad de guila = 0.50, entonces la
proporcin muestral de guilas en 200
lanzamientos vara de estudiante a estudiante de
acuerdo a una distribucin normal con
media = 0.50, y
error estndar 0.035 (cmo?)
Sera inusual que la proporcin de guilas
estuviera por debajo de 0.40 o por arriba de 0.60
(por qu?)
Cmo cambiara el intervalo de valores factibles
(0.40, 0.60) a medida que n crece? (p.ej., n =
1000 en una encuesta)

No se dejen engaar por
aleatoriedad
Hemos visto que algunas cosas son muy predecibles (es
decir, qu tan cerca la media muestral cae de la media
poblacional, para una n determinada)
Pero, en el corto plazo, aleatoriedad no es regular
como uno esperara (Por lo general, yo puede predecir
quin falsific los lanzamientos de monedas
En 200 lanzamientos de una moneda balanceada,
P(la secuencia ms larga de Caras consecutivas < 5) = 0.04
La distribucin de probabilidad de Caras consecutivas tiene
= 7
Implicaciones: deportes (ganar/perder, xito/fracaso
individual), mercado de acciones sube o baja da con
da,
Algunos comentarios
Consecuencia del TCL: Cuando el valor de una variable
es resultado de promediar muchas influencias
individuales, ninguna domina, la distribucin es aprox.
normal (p.ej., coef. intelectual, presin arterial)
En la prctica, no conocemos , pero podemos usar la
dispersin de la distribucin muestral como base para
la inferencia de parmetros desconocimos
(veremos cmo en los prximos dos captulos)
Ahora podemos discutir tres tipos de distribuciones:

Distribucin de la poblacin descrita por
parmetros tales como , (generalmente
desconocidos)
Distribucin de la muestra descrita por
estadsticas de la muestra tales como
media muestral , desviacin estndar s
Distribucin muestral de una estadstica
distribuciones de la probabilidad de los posibles
valores de la estadstica muestral; determina la
probabilidad que una estadstica caiga dentro a
cierta distancia del parmetro poblacional
(grfico mostrando diferencias)

y
Ejemplo (categrica): Encuesta sobre sistema de
salud
Estadstica = proporcin muestral que est a favor del
plan de sistema de salud propuesto
Cul es (1) la distribucin poblacional, (2) distribucin
de la muestra, (3) distribucin muestral?
Ejemplo (cuantitativa): Experimento sobre el
impacto de uso de celular en tiempos de reaccin
Estadstica =media muestral del tiempo de reaccin
Cul es (1) la distribucin poblacional, (2) distribucin
de la muestra, (3) distribucin muestral?


Por el Teorema Central del Lmite
(opcin mltiple)
Todas las variables tienen aprox. distribuciones muestrales
normales si una muestra aleatoria tiene al menos 30
observaciones
Distribuciones poblacionales son normales cuando el
tamao de la poblacin es grande (al menos 30 observ.)
Para muestras grandes, la distribucin muestral de la media
muestral es aprox. normal, sin tomar en cuenta la forma de
la distribucin poblacional
La distribucin muestral se parece ms a la distribucin
poblacional si el tamao de muestra aumenta
Todas las opciones anteriores

Вам также может понравиться