Вы находитесь на странице: 1из 14

Distribución Muestral

Gráficos Estadísticos
 En Probabilidad se considera el comportamiento de observaciones que
cumplen un modelo dado.

Estadística  En Estadística, en cambio, se dispone de conjuntos de observaciones


(“muestras”) correspondientes a un experimento considerado
aleatorio, y debemos extraer de ellas conclusiones sobre los modelos
que podrían cumplir.
 La distribución muestral (o empírica) correspondiente a una
muestra x1, . . . , xn, es la distribución discreta concentrada en los
puntos xi (i = 1, . . . , n), dando a cada uno probabilidad 1/n. La
correspondiente función de distribución empírica es:
Distribución
Muestral

 o sea, una escalera con salto 1/n en cada xi.


 Se puede interpretar la media como
el centro de gravedad de la función
probabilidad. La media tenderá a
encontrarse más cerca de los
resultados más probables del
Media y experimento aleatorio.

varianza
muestrales
 La varianza da una idea de la
variación de los resultados respecto
al valor medio. La expresión general
de la varianza es:
Media y  Ejem. Los siguientes datos son las duraciones (en horas) de una
muestra de pilas eléctricas. Calcular la media y la varianza.
varianza
muestrales
 Sean x(1) ≤….≤ x(n) los xi ordenados (o estadísticos de orden). Los
métodos más ´útiles para analizar una muestra están basados en los
x(i), cuyo cálculo requiere obviamente ordenar la muestra. Esto
puede ser engorroso si n es grande y no se dispone de una
computadora.
 El siguiente método, inventado por J.W. Tukey y llamado diagrama
Diagrama de de tallo y hoja (“stem-and-leaf plot”), está basado en la idea de que
es más fácil ordenar varios conjuntos pequeños que uno grande.
tallo y hoja
 El cuantil α de F* es cualquier número xα tal que F*(t) ≤ α si t < xα y
F*(t)≥ α si t > xα.
 Como F* es una escalera, los cuantiles no quedan así unívocamente
definidos. Para que xα quede bien definido, y sea además una función
creciente y continua de α, se introduce una pequeña modificación,
definiendo.
Cuantiles
muestrales
 Donde k y h son respectivamente la parte entera y la parte
fraccionaria de u = nα+0.5; o sea, k = [u] y h = u − [u].
 El gráfico de F* es una sucesión de escalones: en x(k), F* salta de (k−1)/n
a k/n. Sea F la función que se obtiene de F* uniendo con segmentos los
puntos medios de las líneas verticales de los escalones, o sea, una
sucesión de “rampas”.
 La primera rampa se prolonga hasta la ordenada 0 por la izquierda y la
ultima por la derecha hasta 1. De modo que:
Cuantiles
muestrales

 y es lineal entre los x(k). Entonces Ḟ es continua y creciente, y 𝑥𝛼∗ de la


ecuación anterior es la única solución de:
 Para α= 0.5 se tiene la mediana muestral. Si n es par, n = 2m con m
entero, lo que implica u = m + 0.5, y por lo tanto k = m = n/2 y
h=0.5, con lo que resulta:

Cuantiles  o sea, el promedio de las dos observaciones centrales. Si n es


impar: n = 2m− 1, que implica u = m = (n + 1)/2, y por lo tanto k = m
muestrales y h=0, de lo que resulta x0.5 = x(m) , o sea, la observación central.

 Para la muestra de pilas, la mediana es (x(9) + x(10))/2 = 236.5.


 El diagrama de caja (“box plot”) es una representación gráfica del resumen
de 5 números, que se obtiene marcándolos sobre una recta y recuadrando los
3 cuartiles.

Diagrama de  Cada uno de los cuatro segmentos que se forman contiene


aproximadamente la cuarta parte de las observaciones; la “caja” contiene
caja aproximadamente la mitad. El diagrama da entonces una visión rápida de
cómo están distribuidas las observaciones, y en particular una idea del grado
de asimetría.
 También es útil para comparar dos o más muestras.
 Ejemplo: Dos métodos, A y B, fueron utilizados para determinar la
cantidad de calor necesaria para llevar el hielo de −72oC a 0 oC (en
calorías por gramo de masa). Para simplificar, se ha restado 79 de
todos los valores.

Diagrama de
caja  Se puede comprobar que los respectivos resúmenes de 5 valores
son:
 De aquí se obtienen los diagrama de caja de las muestras, en los
que se puede apreciar que difieren en posición, dispersión y
asimetría.

Diagrama de
caja
 En algunos casos –especialmente cuando n es muy grande– no se
dispone de la muestra, sino de los valores agrupados. Es decir,
para m intervalos de extremos a0< . . . < am se conocen las
Datos frecuencias fj = card{xi [aj−1, aj)}.

Agrupados  Si se quiere calcular 𝑥y


ҧ vx con datos agrupados, no se dispone de
toda la información necesaria. Una buena aproximación se obtiene
suponiendo que los datos están uniformemente distribuidos en
cada intervalo.
 Sean pj = fj/n las frecuencias relativas, 𝑥ҧ 𝑗 = (aj−1 + aj )/2 los puntos
medios, y Lj = aj − aj−1 las longitudes de los intervalos. Entonces se
tiene la aproximación.

Datos  Es decir, la media se calcula como si todas las observaciones


estuvieran en los puntos medios de los intervalos; y la varianza
Agrupados también, más el ´ultimo termino que tiene en cuenta las
longitudes de los mismos, y que se suele llamar corrección de
Shepard
 Si los datos están agrupados, sólo se pueden estimar algunos
cuantiles, sea:

 Entonces se puede estimar: