Академический Документы
Профессиональный Документы
Культура Документы
UniversidadAutnomadeMadrid
Notassobreelmanejode
Excel2003enEstadstica
TericaII(Inferencia)
MaraJanoSalagre
MaraGilIzquierdo
stas son unas breves notas sobre el manejo del programa informtico Excel-2003 en
su aplicacin a la rama de la Inferencia Estadstica.
Como complemento a lo explicado en las clases tericas, se pueden utilizar diferentes
procedimientos de Excel para:
- Seleccionar una muestra aleatoria
- Generar nmeros aleatorios procedentes de una poblacin con un determinado
modelo de distribucin de probabilidad.
- Calcular intervalos de confianza de una muestra dada.
- Comprobar como el % de intervalos contienen al verdadero valor del
parmetro.
- Realizar contrastes de hiptesis (calcula el p-valor).
-2-
-3-
-4-
Y podrs ver:
-5-
Mtodo de muestreo:
o Peridico (sistemtico) y hay que indicarle el periodo.
o Aleatorio. ste es el mtodo que utilizaremos normalmente. En la opcin
nmero de muestras indicamos el tamao muestral, es decir, si
queremos extraer una muestra de 2, 3, 4, etc. estudiantes. Es un
muestreo aleatorio con reemplazamiento, esto es, un estudiante puede
caer en la muestra ms de una vez.
muestra los estudiantes pueden estar repetidos, ya que se trata de un muestreo con
reemplazamiento.
Los resultados de realizar este muestreo en Excel siguiendo este procedimiento, han
sido:
Identificador del
alumno matriculado
en ETII
1
2
3
4
5
6
7
8
9
10
Muestras
de tamao
2
7
2
Muestras
de tamao
3
10
10
3
Muestras
de tamao
4
2
1
9
6
Muestras
de tamao
5
1
5
5
5
7
-7-
Analizar Datos
-9-
A continuacin nos aparece el siguiente cuadro de dilogo, donde se nos indica que
podemos seleccionar una serie de valores, de los cuales nos devolver su media
aritmtica.
-10-
Por ejemplo, tenemos una muestra de 10 alumnos, de los que conocemos las notas que
han sacado en una determinada asignatura. Siguiendo el procedimiento anterior,
obtenemos su media muestral, en este caso, 5,6, como se puede apreciar encima del
texto que describe esta funcin. Si pulsamos Aceptar, el valor 5,6 y su funcin para el
clculo aparecern en la celda seleccionada:
-11-
-12-
-13-
-14-
-15-
ejemplo si nos dicen que la media muestral es x = = 5, el I.C. para la media poblacional
sera:
[ 5 - 1,859 ; 5 + 1,859 ] = [3,14; 6,85]
Esto es, confiamos, a un nivel de significacin del 5%, en que el verdadero valor del
parmetro, es decir, que la nota media poblacional, se encuentre entre 3,14 y 6,85.
4.2.- CON VARIANZA POBLACIONAL DESCONOCIDA
Cuando no se conoce la varianza de la poblacin, se pueden obtener intervalos de
confianza siguiendo la siguiente secuencia:
Herramientas (en la barra superior de comandos) Analizar Datos
Estadstica Descriptiva.
Nivel de confianza de la media: esta casilla se activa si se desea incluir una fila
correspondiente al nivel de confianza de la media en la tabla de resultados. En el
cuadro, escribe el nivel de confianza que deseas utilizar. Por ejemplo, un valor
de 95 % calcular el nivel de confianza de la media con un nivel de significacin
del 5 %.
-16-
IMPORTANTE: Cul es la principal diferencia entre esta forma de clculo con Excel
del Intervalo de Confianza de la media poblacional y la anterior, esto es, con varianza
poblacional conocida y desconocida?
En el caso de que la varianza poblacional sea conocida, no necesitamos ningn dato
muestral o valores de una muestra para calcular el I.C. en Excel. nicamente
tendremos que saber cul es el valor de la media muestral para dar los extremos
superior e inferior del I.C. (vase ejemplo del apartado 4.1.). Sin embargo, cuando no se
conoce la varianza poblacional, necesitamos los valores muestrales, de tal manera que
Excel calcula la media muestral ( x ) y la varianza poblacional (S2), y a partir de ellos,
calcula el I.C.
Veamos un ejemplo. Tenemos una muestra de 10 estudiantes, que han obtenido las
notas que aparecen en la siguiente tabla:
Nota
obtenida
N de
estudiante
1
2
3
4
5
6
7
8
9
10
5
6
5
2
10
9
3
5
6
7
-17-
N de
estudiante
1
2
3
4
5
6
7
8
9
10
Columna1
5
6
5
2
10
9
3
5
6
7
Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la muestra
Curtosis
Coeficiente de asimetra
Rango
Mnimo
Mximo
Suma
Cuenta
Nivel de
confianza(95.0%)
5.8
0.77172246
5.5
5
2.4404007
5.95555556
-0.09764941
0.28897872
8
2
10
58
10
1.74575749
Como se puede apreciar en la tabla anterior, Excel nos proporciona una amplia batera
de estadsticos descriptivos (que se estudiaron en Estadstica Descriptiva), de los que
este ao nos interesan la media de la muestra (5,8), la desviacin tpica muestral (0,77)
y el nivel de confianza al 5%, que se interpreta con en el caso 4.1. Esto es, 1,74 es la
mitad de la amplitud del intervalo. Por lo que en este caso, el I.C. de la media
poblacional resulta ser:
-18-
-19-
-20-
Alfa: es el nivel de significacin. Se indica en tantos por uno (por ejemplo, 0,10).
97
82
123
92
175
88
118
-21-
Media
Varianza (conocida)
Observaciones
Diferencia hipottica de las medias
z
P(Z<=z) una cola
Valor crtico de z (una cola)
Valor 1crtico de z (dos colas)
EXTREMO INFERIOR
Valor crtico de z (dos colas)
EXTREMO SUPERIOR
Variable 1:
Empresa X
98.4
60
5
10
-1.93178403
0.02669308
1.64485363
0.05338617
1.95996398
Variable 2: Empresa Y
110.714286
850
7
Valor de estadstico de contraste
P(z<-1,93178403)=P(z>1.93178403)
P(z>1,644853630)=0,05
Es 2*P(z<-1,93178403)
P(z>1,95996398)= 0,025
Como puedes comprobar en la tabla anterior, Excel calcula las medias muestrales (98,4
y 110,7, respectivamente), y proporciona los valores crticos (k) tanto si el contraste es
de una sola cola (H0: x - y = 10 frente H1: x - y > 10; o bien H0: x - y = 10 frente
a H1: x - y < 10), como si es de dos colas (H0: x - y = 10 frente a H1: x - y 10).
Realmente no se trata de un valor crtico, sino de una probabilidad, aunque Excel lo denomine valor
crtico.
-22-
Siguiendo con el ejemplo del punto 5.1. con los datos de tiempo de X e Y, y suponiendo
que se desconocen las varianzas poblacionales respectivamente, pero que son iguales,
contraste de hiptesis de que el tiempo de duracin medio de la compaa X excede en
10 minutos al de la compaa Y, frente a la hiptesis alternativa de que la diferencia es
distinta. Utilice un nivel de significacin del 10%.
En el cuadro de dilogo anterior, que slo se diferencia del punto 5.1. en que no
aparecen las varianzas poblacionales, se rellenan los siguientes datos (fjate en lo que se
ha rellenado en cada campo):
-23-
Media
Varianza
Observaciones
Varianza agrupada
Diferencia hipottica de las medias
Grados de libertad
Estadstico t
P(T<=t) una cola
Valor crtico de t (una cola)
P(T<=t) dos colas
Valor crtico de t (dos colas)
Variable 1:
Empresa X
98.4
76.3
5
652.062857
10
10
-1.49238769
0.0832288
1.37218364
0.1664576
1.8124611
Variable 2: Empresa Y
110.714286
1035.90476
7
Estadstico de contraste
P(t10<-1.49238769)= 0.0832288
P(t10>1,37218364)=0,1
P(t10>1.49238769)+P(t10 <-1.49238769)
P(t10>1.8124611)=0,05
Observa que ahora tenemos informacin sobre los grados de libertad, ya que al ser un
contraste con varianza desconocida la distribucin es la t-Student. Tambin en este
caso sabemos los valores crticos para el caso de contraste de una sola cola o de dos
colas, as como los p-valores (P(T<=t) una cola; P(T<=t) dos colas). En este caso, la
regin crtica estar formada por valores del estadstico por encima de 1,81 y menores
que -1,81. De modo que al 10% de significacin, -1,49 cae en la regin de aceptacin y
no se puede rechazar la hiptesis nula.
-24-