Вы находитесь на странице: 1из 24

DepartamentodeEconomaAplicada:UDIdeEstadstica.

UniversidadAutnomadeMadrid

Notassobreelmanejode
Excel2003enEstadstica
TericaII(Inferencia)

MaraJanoSalagre
MaraGilIzquierdo

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Notas sobre el Manejo de Excel-2003 en Inferencia


Introduccin

stas son unas breves notas sobre el manejo del programa informtico Excel-2003 en
su aplicacin a la rama de la Inferencia Estadstica.
Como complemento a lo explicado en las clases tericas, se pueden utilizar diferentes
procedimientos de Excel para:
- Seleccionar una muestra aleatoria
- Generar nmeros aleatorios procedentes de una poblacin con un determinado
modelo de distribucin de probabilidad.
- Calcular intervalos de confianza de una muestra dada.
- Comprobar como el % de intervalos contienen al verdadero valor del
parmetro.
- Realizar contrastes de hiptesis (calcula el p-valor).

Notas sobre el Manejo de Excel-2003 en Inferencia


Comandos en Excel

1.- SELECCIONAR UNA MUESTRA DE UNA POBLACIN


Esta herramienta permite extraer una muestra aleatoria de una poblacin. Imagina que
en una o varias columnas de Excel, las celdas representan cada una de las
observaciones de una poblacin (por ejemplo, alumnos matriculados en los grupos de
ADE en Estadstica Terica II).

-2-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Nota: Si en tu versin de Excel-2003 no aparece en el Men de Herramientas el campo


de Anlisis de Datos, tienes que pinchar en
Herramientas (en la barra superior de comandos) Complementos.
Tendrs que seleccionar la opcin de Herramientas para el anlisis

-3-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Si ahora quisiramos seleccionar una muestra aleatoria de esta poblacin de 10


estudiantes, tendremos que utilizar la siguiente secuencia en Excel:
Herramientas (en la barra superior de comandos) Anlisis de datos
Muestra Rellenar cuadro de dilogo.

-4-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Y podrs ver:

Seleccionando la opcin de muestra, te aparecer el siguiente cuadro de dilogo:

-5-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Puedes rellenar los siguientes argumentos:

Rango de entrada: rango de datos de la poblacin. En este campo hay que


seleccionar la poblacin de la que se va a extraer la muestra. En nuestro caso
seran los 10 estudiantes. Puede tener varias columnas, y va extrayendo
muestras de la primera columna, luego de la segunda y as sucesivamente.
Extrae muestras de variables unidimensionales.

Rtulos: Si seleccionamos este campo, estaremos indicando que el primer


individuo es un rtulo y no entra en el anlisis.

Mtodo de muestreo:
o Peridico (sistemtico) y hay que indicarle el periodo.
o Aleatorio. ste es el mtodo que utilizaremos normalmente. En la opcin
nmero de muestras indicamos el tamao muestral, es decir, si
queremos extraer una muestra de 2, 3, 4, etc. estudiantes. Es un
muestreo aleatorio con reemplazamiento, esto es, un estudiante puede
caer en la muestra ms de una vez.

Rango de salida: Indicamos dnde queremos que se pegue el resultado de


seleccionar una muestra. Puede ser en:
o Una columna a continuacin de los valores de la poblacin.
o Una hoja nueva
o Un libro nuevo.

En el siguiente ejemplo de los alumnos, hemos seleccionado 4 muestras distintas con


este procedimiento. En la primera extraemos, de los 10 estudiantes, dos al azar
(muestras de tamao 2); a continuacin de tamao 3, 4 y 5. Observa que en cada
-6-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

muestra los estudiantes pueden estar repetidos, ya que se trata de un muestreo con
reemplazamiento.

Los resultados de realizar este muestreo en Excel siguiendo este procedimiento, han
sido:
Identificador del
alumno matriculado
en ETII
1
2
3
4
5
6
7
8
9
10

Muestras
de tamao
2
7
2

Muestras
de tamao
3
10
10
3

Muestras
de tamao
4
2
1
9
6

Muestras
de tamao
5
1
5
5
5
7

Interpretacin: Cuando se ha seleccionado una muestra de tamao 2, han sido


seleccionados los estudiantes 7 y 2 en la muestra. En el caso de que se tomen muestras
de tamao 5, han resultado seleccionados los alumnos 1, 5 y 7. Obsrvese que en este
caso, al ser un muestreo con reemplazamiento, el alumno 5 ha sido seleccionado 3
veces.

-7-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

2.- GENERACIN DE NMEROS ALEATORIOS


Sirve para generar una secuencia de nmeros aleatorios, es decir, obtener una serie de
valores numricos que proceden de una poblacin que sigue una determinada
distribucin de probabilidad. Esto es, podemos crear una secuencia de nmeros
elegidos al azar por Excel, pero que se han tomado de una poblacin que se distribuye
como una Normal, como una Poisson, o como una Binomial, entre otras.
Para ello, seguiremos la siguiente secuencia:
Herramientas (en la barra superior de comandos)
Generacin de nmeros aleatorios.

Analizar Datos

Puedes rellenar los siguientes argumentos:

Nmero de variables: Nmero de muestras que queremos seleccionar.


Cantidad de nmeros aleatorios: Tamao de las muestras.
Distribucin: Modelo de distribucin de probabilidad que sigue la poblacin.
En cada una habr que sealar los valores de los parmetros (como se han
estudiado en clase de Probablidad).
o Uniforme (a y b)
o Normal (;)
o Bernoulli (p)
o Binomial (n,p)
o Poisson ()
o Frecuencia relativa:
o (de a incremento; (min-max y salto) (0-10 cada 2, genera
1,2,4,6,8,10)
o repitiendo cada nmero n veces; (frecuencia de cada valor)
o repitiendo cada secuencia veces) (veces que se repite la secuencia)
-8-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

o Discreta: rango de valores y rango de probabilidades. (ejemplo:


distribucin discreta del dado: valores y probabilidades).
Iniciar con: podemos indicar a partir de qu nmero queremos que empiece
nuestra secuencia de nmeros aleatorios.

A continuacin, puedes ver un ejemplo de 10 nmeros aleatorios que se han creado,


procedentes de una distribucin Normal de Media 1 y Desviacin Tpica 0 (fjate en los
valores que se han escrito en el cuadro de dilogo).

3.- ESTIMACIN PUNTUAL


3.1.- DE LA MEDIA POBLACIONAL ()
En algunas ocasiones se propone como estimador de la media poblacional () la media
muestral (x ) , que presenta propidades deseables de insesgadez, eficiencia y
consistencia. A partir de una muestra, Excel nos permite calcular la media muestral,
siguiendo la secuencia siguiente:
Insertar (en la barra superior de comandos) Funcin PROMEDIO (en la
categora de Estadsticas) argumentos.

-9-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

A continuacin nos aparece el siguiente cuadro de dilogo, donde se nos indica que
podemos seleccionar una serie de valores, de los cuales nos devolver su media
aritmtica.

-10-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Por ejemplo, tenemos una muestra de 10 alumnos, de los que conocemos las notas que
han sacado en una determinada asignatura. Siguiendo el procedimiento anterior,
obtenemos su media muestral, en este caso, 5,6, como se puede apreciar encima del
texto que describe esta funcin. Si pulsamos Aceptar, el valor 5,6 y su funcin para el
clculo aparecern en la celda seleccionada:

3.2.- DE LA VARIANZA POBLACIONAL (2)


Sabemos que el estimador de la varianza poblacional (2) con mejores propiedades son
la varianza muestral (S2) (si se divide por n) o la cuasivarianza muestral (S12) (si se
divide por n-1). A partir de una muestra, Excel nos permite calcular ambos
estimadores, siguiendo la secuencia siguiente (muy similar al apartado 3.1.):
En el caso de la cuasivarianza muestral (denominador n-1)
Insertar (en la barra superior de comandos) Funcin VAR (en la categora
de Estadsticas) argumentos.
En el caso de la varianza muestral (denominador n)

-11-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Insertar (en la barra superior de comandos) Funcin VARP (en la categora


de Estadsticas) argumentos.

En el ejemplo anterior, la varianza muestral de las notas de los 10 alumnos es 8,04.

-12-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

4.- CALCULAR INTERVALOS DE CONFIANZA DE LA MEDIA


POBLACIONAL PARA UNA MUESTRA.
4.1.- CON VARIANZA POBLACIONAL CONOCIDA
Si queremos calcular un Intervalo de Confianza para la media poblacional, podemos
utilizar el asistente de funciones para intervalos de confianza con varianza conocida. La
secuencia ser:
Insertar (en la barra superior de comandos) Funcin
INTERVALO.CONFIANZA (en la categora de Estadsticas) argumentos.

-13-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Los argumentos a rellenar son:

Alfa: es el complementario del nivel de confianza, es decir, el nivel de


significacin (). Es necesario introducir este valor con decimales en tantos por
uno (por ejemplo si = 5%, hay que escribir 0,05).
Desv_estndar: es la desviacin tpica de la poblacin (), es decir, es el caso en
el que la varianza poblacional es conocida. Si la varianza poblacional es
desconocida y el tamao muestral n es lo suficientemente grande, podemos
utilizar una aproximacin, poniendo la desviacin tpica muestral en este
argumento y como tamao de la muestra n-1.
Tamao: es el tamao de la muestra (n).

-14-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Por ejemplo, queremos calcular un Intervalo de Confianza para la media poblacional


() a un nivel de significacin del 5%, para una variable aleatoria X (notas de los
alumnos de Estadstica Terica II) que sigue una distribucin Normal (,3). El tamao
muestral es 10.

El resultado de este ejemplo es: 1,859 y representa la mitad de la amplitud del


intervalo. Luego el intervalo se obtiene como media muestral esa cantidad. Por

-15-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

ejemplo si nos dicen que la media muestral es x = = 5, el I.C. para la media poblacional
sera:
[ 5 - 1,859 ; 5 + 1,859 ] = [3,14; 6,85]
Esto es, confiamos, a un nivel de significacin del 5%, en que el verdadero valor del
parmetro, es decir, que la nota media poblacional, se encuentre entre 3,14 y 6,85.
4.2.- CON VARIANZA POBLACIONAL DESCONOCIDA
Cuando no se conoce la varianza de la poblacin, se pueden obtener intervalos de
confianza siguiendo la siguiente secuencia:
Herramientas (en la barra superior de comandos) Analizar Datos
Estadstica Descriptiva.

Puedes rellenar los siguientes argumentos:

Rango de entrada: se selecciona el rango de datos que se desee analizar. La


referencia puede contener dos o ms rangos de datos organizados en columnas
o filas.

Rtulos: Si seleccionamos este campo, estaremos indicando que el primer


individuo es un rtulo y no entra en el anlisis.

Nivel de confianza de la media: esta casilla se activa si se desea incluir una fila
correspondiente al nivel de confianza de la media en la tabla de resultados. En el
cuadro, escribe el nivel de confianza que deseas utilizar. Por ejemplo, un valor
de 95 % calcular el nivel de confianza de la media con un nivel de significacin
del 5 %.

-16-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Resumen de estadsticas: Selecciona esta opcin si deseas que Excel genere un


campo en la tabla de resultados por cada una de las siguientes variables
estadsticas: Media, Error tpico (de la media), Mediana, Moda, Desviacin
estndar, Varianza, Curtosis, Coeficiente de asimetra, Rango, Mnimo,
Mximo, Suma, Cuenta, Mayor (#), Menor (#) y Nivel de confianza.

Rango de salida: Indicamos dnde queremos que se pegue el resultado de


seleccionar una muestra. Esta herramienta genera dos columnas de informacin
por cada conjunto de datos. La columna de la izquierda contiene los rtulos
(nombres) de las estadsticas y la columna de la derecha contiene los resultados
de las estadsticas. Puede ser en:
o Una columna a continuacin de los valores de la poblacin.
o Una hoja nueva
o Un libro nuevo.

IMPORTANTE: Cul es la principal diferencia entre esta forma de clculo con Excel
del Intervalo de Confianza de la media poblacional y la anterior, esto es, con varianza
poblacional conocida y desconocida?
En el caso de que la varianza poblacional sea conocida, no necesitamos ningn dato
muestral o valores de una muestra para calcular el I.C. en Excel. nicamente
tendremos que saber cul es el valor de la media muestral para dar los extremos
superior e inferior del I.C. (vase ejemplo del apartado 4.1.). Sin embargo, cuando no se
conoce la varianza poblacional, necesitamos los valores muestrales, de tal manera que
Excel calcula la media muestral ( x ) y la varianza poblacional (S2), y a partir de ellos,
calcula el I.C.
Veamos un ejemplo. Tenemos una muestra de 10 estudiantes, que han obtenido las
notas que aparecen en la siguiente tabla:
Nota
obtenida

N de
estudiante
1
2
3
4
5
6
7
8
9
10

5
6
5
2
10
9
3
5
6
7

Se pide calcular un I.C. para la media poblacional, a un 5% de nivel de significacin.


Para resolver esta cuestin, lo primero en que debemos fijarnos es en que en este caso
no disponemos del valor ni de la media muestral ni de la varianza poblacional ni
muestral. Sin embargo, a travs de Excel obtendremos todos los valores necesarios.
Siguiendo los pasos del punto 4.1. (fjate en las celdas que se han seleccionado como
rango de entrada y de salida):

-17-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

El resultado que proporciona Excel es:


Nota obtenida

N de
estudiante
1
2
3
4
5
6
7
8
9
10

Columna1
5
6
5
2
10
9
3
5
6
7

Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la muestra
Curtosis
Coeficiente de asimetra
Rango
Mnimo
Mximo
Suma
Cuenta
Nivel de
confianza(95.0%)

5.8
0.77172246
5.5
5
2.4404007
5.95555556
-0.09764941
0.28897872
8
2
10
58
10
1.74575749

Como se puede apreciar en la tabla anterior, Excel nos proporciona una amplia batera
de estadsticos descriptivos (que se estudiaron en Estadstica Descriptiva), de los que
este ao nos interesan la media de la muestra (5,8), la desviacin tpica muestral (0,77)
y el nivel de confianza al 5%, que se interpreta con en el caso 4.1. Esto es, 1,74 es la
mitad de la amplitud del intervalo. Por lo que en este caso, el I.C. de la media
poblacional resulta ser:

-18-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

[5,8 - 1,74 ; 5,8 + 1,74 ] = [4,05; 7,54]


Esto es, confiamos, a un nivel de significacin del 5%, en que el verdadero valor del
parmetro, es decir, que la nota media poblacional, se encuentre entre 4,05 y 7,54.

5.- REALIZAR CONTRASTES DE HIPTESIS (CALCULA EL PVALOR).


Nos centraremos en los contrastes de hiptesis paramtricos para la diferencia de
medias con varianzas conocidas y con varianzas desconocidas.

Contraste de diferencia de medias (x, y) en muestras independientes con


varianzas conocidas (2x, 2y).
Contraste de diferencia de medias (x, y) en muestras independientes con
varianzas desconocidas pero iguales.

5.1.- CONTRASTE DE DIFERENCIA DE MEDIAS EN MUESTRAS CON


VARIANZAS CONOCIDAS.
Se seguir la siguiente secuencia:
Herramientas (en la barra superior de comandos) Analizar Datos Prueba z
para medias de dos muestras.

-19-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Los argumentos que puedes rellenar son:

Rango para la variable 1 y variable 2: se selecciona el rango de datos de la


variable 1 y de la variable 2, es decir, los datos muestrales correspondientes a la
variable X y a la variable Y.

-20-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

Diferencia hipottica entre las medias: al ser un contraste de diferencia de


medias, es el valor de la diferencia que aparece en la hiptesis nula.

Varianza para la variable 1 y 2, conocidas (respectivamente): En esta


casillas se rellena el valor de las varianzas poblacionales de las variables X e Y,
respectivamente.

Alfa: es el nivel de significacin. Se indica en tantos por uno (por ejemplo, 0,10).

Veamos estos casos a partir de un ejemplo: Contraste de hiptesis de que el tiempo de


duracin (en un determinado proceso de produccin) medio de la compaa X excede
en 10 minutos al de la compaa Y, frente a la hiptesis alternativa de que la diferencia
es superior. Utilice un nivel de significacin del 5%. Suponga que la varianza
poblacional de X es 60 y la de Y es de 850.

Compaa X (duracin en Compaa Y


minutos)
(duracin en minutos)
103
94
110
87
98

97
82
123
92
175
88
118

Se trata de un contraste de hiptesis paramtrico para la diferencia de medias


poblacionales con varianzas conocidas. El planteamiento de las hiptesis nula y
alternativa es:
H0: x - y = 10
H1: x - y 10
Con los datos anteriores, y utilizando la secuencia de comandos anterior, tendremos
(fjate en las celdas que se han seleccionado como rangos de las variables y rango de
salida):

-21-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

La salida que nos proporciona Excel es la siguiente:

Prueba z para medias de dos


muestras

Media
Varianza (conocida)
Observaciones
Diferencia hipottica de las medias
z
P(Z<=z) una cola
Valor crtico de z (una cola)
Valor 1crtico de z (dos colas)
EXTREMO INFERIOR
Valor crtico de z (dos colas)
EXTREMO SUPERIOR

Variable 1:
Empresa X
98.4
60
5
10
-1.93178403
0.02669308
1.64485363
0.05338617
1.95996398

Variable 2: Empresa Y
110.714286
850
7
Valor de estadstico de contraste
P(z<-1,93178403)=P(z>1.93178403)
P(z>1,644853630)=0,05
Es 2*P(z<-1,93178403)
P(z>1,95996398)= 0,025

Como puedes comprobar en la tabla anterior, Excel calcula las medias muestrales (98,4
y 110,7, respectivamente), y proporciona los valores crticos (k) tanto si el contraste es
de una sola cola (H0: x - y = 10 frente H1: x - y > 10; o bien H0: x - y = 10 frente
a H1: x - y < 10), como si es de dos colas (H0: x - y = 10 frente a H1: x - y 10).

Realmente no se trata de un valor crtico, sino de una probabilidad, aunque Excel lo denomine valor
crtico.
-22-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

En el ejemplo, al 5% y para la H1: x - y 10, la regin crtica estar formada por


valores del estadstico mayores que 1,96 y menores que -1,96. Dado que el valor del
estadstico de contraste es -1,93178403, no se puede rechazar la hiptesis nula, es decir
la diferencia de tiempos es 10. En trminos del p-valor, en este caso el p-valor es 0,053,
mayor que 0,05 por lo que no se puede rechazar Ho.
5.2.- CONTRASTE DE DIFERENCIA DE MEDIAS EN MUESTRAS
INDEPENDIENTES CON VARIANZAS DESCONOCIDAS PERO IGUALES.
Ahora vamos a exponer el caso en que se quiera realizar un contraste paramtrico de
diferencia de medias, pero en el caso de que las varianzas sean desconocidas aunque
iguales. El procedimiento es el mismo que en el punto 5.1., aunque ahora se escoge:
Herramientas (en la barra superior de comandos) Analizar Datos Prueba t
para dos muestras suponiendo varianzas iguales.

Siguiendo con el ejemplo del punto 5.1. con los datos de tiempo de X e Y, y suponiendo
que se desconocen las varianzas poblacionales respectivamente, pero que son iguales,
contraste de hiptesis de que el tiempo de duracin medio de la compaa X excede en
10 minutos al de la compaa Y, frente a la hiptesis alternativa de que la diferencia es
distinta. Utilice un nivel de significacin del 10%.
En el cuadro de dilogo anterior, que slo se diferencia del punto 5.1. en que no
aparecen las varianzas poblacionales, se rellenan los siguientes datos (fjate en lo que se
ha rellenado en cada campo):
-23-

Notas sobre el Manejo de Excel-2003 en Inferencia


Departamento de Economa Aplicada.

El resultado que proporciona Excel es una tabla como sta:


Prueba t para dos muestras suponiendo varianzas iguales

Media
Varianza
Observaciones
Varianza agrupada
Diferencia hipottica de las medias
Grados de libertad
Estadstico t
P(T<=t) una cola
Valor crtico de t (una cola)
P(T<=t) dos colas
Valor crtico de t (dos colas)

Variable 1:
Empresa X
98.4
76.3
5
652.062857
10
10
-1.49238769
0.0832288
1.37218364
0.1664576
1.8124611

Variable 2: Empresa Y
110.714286
1035.90476
7

Estadstico de contraste
P(t10<-1.49238769)= 0.0832288
P(t10>1,37218364)=0,1
P(t10>1.49238769)+P(t10 <-1.49238769)
P(t10>1.8124611)=0,05

Observa que ahora tenemos informacin sobre los grados de libertad, ya que al ser un
contraste con varianza desconocida la distribucin es la t-Student. Tambin en este
caso sabemos los valores crticos para el caso de contraste de una sola cola o de dos
colas, as como los p-valores (P(T<=t) una cola; P(T<=t) dos colas). En este caso, la
regin crtica estar formada por valores del estadstico por encima de 1,81 y menores
que -1,81. De modo que al 10% de significacin, -1,49 cae en la regin de aceptacin y
no se puede rechazar la hiptesis nula.

-24-

Вам также может понравиться