Вы находитесь на странице: 1из 12

Práctica 6.

Análisis de dos muestras 1

Práctica 6

ANÁLISIS DE DOS MUESTRAS

Objetivos:

En esta práctica utilizaremos SPSS para extender el análisis de una sola muestra visto en la
Práctica 5 al de dos muestras. Realizaremos estimación puntual, cálculo de intervalos de
confianza y contrastes de hipótesis acerca de las medias poblacionales. Asimismo se estudia la
adecuación de las hipótesis necesarias para la aplicación de la prueba T, planteándose, en su
caso, contrastes no paramétricos.

Índice:
1. Análisis de dos muestras independientes
1.1 Prueba T
1.2 Prueba Mann-Whitney
2. Análisis de dos muestras emparejadas o relacionadas
2.1 Prueba T
2.2 Prueba de los signos
3. Prueba de Normalidad
4. Ejercicios complementarios

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 2

1. Análisis de dos muestras independientes


Vamos a considerar la comparación de las medias de dos poblaciones en base a dos muestras
independientes procedentes de éstas. Por ejemplo, abrimos el archivo AMBIENTE y
supongamos que queremos establecer si existe diferencia entre los niveles medios del ph en
zonas con contenidos de ozono normal y alto.

1.1. Prueba T
Para poder efectuar la Prueba T para muestras independientes, SPSS necesita una columna en
el editor de datos que contenga los valores de la variable cuyas medias en las dos poblaciones
se desea comparar, y otra que indica la población o grupo a que pertenece cada individuo.
Comprobamos que así aparece en al archivo AMBIENTE en las columnas ph y ozono. A
continuación, seleccionamos Analizar/Comparar medias/Prueba T para muestras
independientes y nos aparece la ventana siguiente:

En ella, en primer lugar seleccionamos la variable numérica ph y con el puntero la situamos en


la ventana de Contrastar variables. A continuación, seleccionamos la única variable de
agrupación ozono y pulsamos Definir grupos.

En esta ventana debemos especificar los dos valores de la variables de agrupación que definen
al grupo ozono normal y ozono alto, eligiendo entre:

• Usar valores especificados. Escribimos un valor para el Grupo 1 y otro para el Grupo 2.
Los casos con otros valores (si existen) quedarán excluidos.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 3

• Punto de corte. Escribimos un número que divida los valores de la variable de agrupación
en dos conjuntos. Todos los códigos menores que el punto de corte forman un grupo y los
mayores o iguales que el punto de corte forman el otro grupo.

Si la variable de agrupación es de cadena corta, por ejemplo, SÍ y NO , podemos escribir una


cadena para el Grupo 1 y otra para el Grupo 2. Los casos con otras cadenas quedarán
excluidos del análisis.

Una vez completada la ventana y tras pulsar Continuar, volvemos a la ventana de Prueba T
para muestras independientes. Pulsando el botón Opciones podemos introducir un valor entre
1 y 99 para el coeficiente de confianza de un intervalo, cuyo valor por defecto es del 95%.

Tras pulsar el botón Aceptar, SPSS muestra en el Visor de resultados, bajo el título de
Estadísticos de grupo, para cada variable, se muestran: el tamaño de la muestra, la media, la
desviación típica y el error típico de la media. A continuación, bajo el título de Prueba de
muestras independientes, encontramos la Prueba de Levene para la igualdad de varianzas y los
resultados de una Prueba T para la igualdad de medias.

Estadísticos de grupo
OZONO N MediaDesviación típ.Error típ. de la media
PH Normal 144 5,823729 ,553008 4,60840E-02
Alto 156 6,014887 ,513695 4,11285E-02

Prueba de muestras independientes


Prueba de Levene Prueba T para
para la igualdad la igualdad de
de varianzas medias
F Sig. t gl Sig. Diferencia Error típ. IC(95%) para la
(bilateral) de medias de la diferencia
diferencia Inferior Superior

PHvarianzas 2,878,091 -3,104 298 ,002 -,191157 6,159E-02 -,312356 -6,996E-02


iguales
varianzas -3,095291,125 ,002 -,191157 6,177E-02 -,312726 -6,959E-02
no iguales

La Prueba de Levene es un contraste de igualdad de varianzas. En los resultados encontramos


el valor del estadístico del contraste (F) y el p-valor correspondiente (Sig.) al ser 0.091 > 0.05
asumimos la igualdad de varianzas.

Respecto a la prueba T, podemos encontrar el estadístico del contraste (t), los grados de
libertad (gl), el p-valor bilateral (Sig), la diferencia de medias, el error típico de la diferencia,
un intervalo de confianza para la diferencia del nivel dado. Todos estos valores aparecen tanto
en el caso de asumir varianzas iguales, como si no se asume.

En este procedimiento el contraste que realiza el SPSS es el siguiente:

H 0: µ1 = µ 2 

HA: µ1 ≠ µ 2 

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 4

En nuestro caso µ1 y µ2 representan las medias de ph en las poblaciones donde el ozono es


normal y alto, respectivamente. Puesto que el p-valor bilateral es 0.002 < 0.05 rechazamos H0.

Los contrastes direccionales deberán resolverse a partir del p-valor del contraste no
direccional anterior.

Ejercicio 1
¿Podemos considerar que los niveles medios de sulfato son iguales en Castellón y Valencia?

La Prueba T es válida siempre que los tamaños muestrales sean suficientemente grandes o
cuando las muestras provengan de poblaciones con distribuciones normales. En la Sección 3
veremos como comprobar si se satisface esta última condición.

1.2. Prueba de Mann-Whitney


Cuando la Prueba T no sea válida, debemos plantearnos una prueba no paramétrica como
Mann-Whitney. Para obtenerla escogemos Analizar/Pruebas no paramétricas/2 muestras
independientes y nos aparece la ventana siguiente, en la que se escogen, como en el caso de
la prueba T, la variable a contrastar y la variable de agrupación, y se definen los grupos. El
Tipo de prueba es U de Mann-Whitney.

Vamos a realizar la prueba de Mann-Whitney para la variable ph dependiendo del nivel de


ozono. Pulsando el botón Aceptar obtenemos el resultado siguiente donde podemos ver,
además de una pequeña estadística de los rangos, el valor del estadístico U de contraste (junto
al de Wilcoxon y la aproximación Z) y una aproximación del p-valor (Sig. asintót. (bilateral)).

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 5

Rangos
Rango Suma de
OZONO N promedio rangos
PH Normal 144 135,18 19465,50
Alto 156 164,64 25684,50
Total 300

Estadísticos descriptivos
Percentiles
N Media Desv. típica Mínimo Máximo 25 50 (Mediana) 75
PH 300 5,923131 ,540562 4,5191 7,7629 5,576150 5,925300 6,271300
OZONO 300 ,52 ,50 0 1 ,00 1,00 1,00

Estadísticos de contraste
PH
U de Mann-Whitney 9025,500
W de Wilcoxon 19465,500
Z -2,939
Sig. asintót. (bilateral) ,003
a Variable de agrupación: OZONO

Vemos pues que con la prueba de Mann-Whitney la conclusión es la misma que con el test T,
rechazando en ambos casos la hipótesis nula.

2. Análisis de dos muestras emparejadas o relacionadas


Ahora consideraremos la comparación de las medias de dos poblaciones en base a dos
muestras emparejadas o relacionadas. Consideremos, por ejemplo, los datos del archivo
GLUCOSA y supongamos que queremos establecer la influencia de la toma de un jarabe en el
nivel de glucosa en sangre, por lo que se toman los niveles de glucosa antes (g1antes) y
después (g1des) de tomar el jarabe, aquí cada caso representa a un mismo sujeto.

2.1. Prueba T
Para efectuar la Prueba T para muestras emparejadas, a diferencia de las muestras
independientes, se necesita una columna en los datos para cada una de las variables a
comparar. Si seleccionamos Analizar/Comparar medias/Prueba T para muestras
relacionadas nos aparece la ventana:

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 6

En ella seleccionamos las dos variables en cuya diferencia estamos interesados. Al hacer la
primera selección en la columna de variables, esta aparece en el recuadro selecciones actuales
como variable 1, y al realizar la segunda selección aparecerá como variable 2. En ese
momento, ya seleccionadas las dos es cuando las podemos introducir en la columna variables
relacionadas y a continuación para ejecutar el procedimiento pulsamos Aceptar.

Estadísticos de muestras relacionadas


Media N Desviación típ. Error típ. de la
media
Par 1 Glucosa en sangre (mg/dl). 73,9000 80 11,3088 1,2644
Tiempo 1, antes
Glucosa en sangre (mg/dl). 97,2750 80 27,0569 3,0251
Tiempo 1, después

Correlaciones de muestras relacionadas


N Correlación Sig.

Par 1 80 ,152 ,177


Glucosa en sangre (mg/dl). Tiempo 1, antes y
Glucosa en sangre (mg/dl). Tiempo 1, después

Prueba de muestras relacionadas


t gl Sig.
Diferencias relacionadas (bilateral)

Media Desviación típ. Error típ. 95% Intervalo de confianza


de la para la diferencia
media Inferior Superior

Par 1 -23,3750 27,6897 3,0958 -29,5370 -17,2130 -7,551 79 ,000


Glucosa en sangre (mg/dl).
Tiempo 1, antes - Glucosa
en sangre (mg/dl). Tiempo
1, después

En el Visor de resultados podemos encontrar bajo el título de Estadísticos de muestras


relacionadas, la media, tamaño muestral común, desviación típica y error típico de la media

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 7

de cada una de las dos variables. A continuación vemos la correlación existente entre la pareja
de variables escogida. Finalmente, encontramos los resultados de la prueba T de muestras
relacionadas: media, desviación típica y error típico de la media para la diferencia de las dos
muestras, un intervalo de confianza y un contraste para la diferencia de las medias. Puesto que
la significación o P-valor es 0.000 se concluye que hay diferencia significativa entre ambas
muestras.

Ejercicio 2
¿ Son iguales los niveles medios de glucosa medidos por g2antes y g2des ?.

La Prueba T es válida siempre que los tamaños muestrales sean suficientemente grandes o la
diferencia de las muestras tenga una distribución normal. En la Sección 3 veremos como
comprobar si se satisface esta última condición.

2.2. Prueba de los signos


Si la Prueba T pudiera no ser válida, nos plantearíamos una prueba no paramétrica como la
prueba de los signos. Esta prueba contrasta si las dos poblaciones tienen una distribución
similar. Si las dos variables tienen una distribución similar, el número de diferencias positivas
y negativas no difiere de forma significativa.

Para obtenerla elegimos Analizar/Pruebas no paramétricas/2 muestras relacionadas. En la


ventana que aparece seleccionamos las dos variables a contrastar, siguiendo un proceso
similar al expuesto para la prueba T. A continuación, seleccionamos como Tipo de prueba
Signos.

En el Visor de resultados podemos ver además de una pequeña estadística con las diferencias
positivas, negativas y empates, el valor del estadístico Z de contraste y una aproximación del
p-valor ( Sig. asintót. (blilateral) ).

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 8

3. Pruebas de normalidad
Como ya vimos en la Práctica 5 una de las hipótesis que deben comprobarse para la validez de
las Pruebas T, tanto en el análisis de una o dos muestras, es la de normalidad de los datos
cuando el tamaño de las muestras es pequeño. La condición de normalidad puede
comprobarse con la prueba de Kolmogorov-Smirnov y mediante el dibujo de histogramas,
diagramas de cajas o gráficos Q-Q. En estos gráficos, la distribución de los datos debe ser
aproximadamente simétrica y sin valores atípicos.

Para obtener una prueba de normalidad de los datos, seleccionamos el menú


Analizar/Estadísticos descriptivos/Explorar. Aparece la ventana siguiente:

En el caso de dos muestras independientes, situamos la variable a contrastar en la ventana


Dependientes, y la variable que forma los grupos en la de Factores. Para dos muestras
emparejadas hay que construir una nueva variable que contenga las diferencias de las dos
originales en la ventana Dependientes, y dejamos Factores en blanco.

A continuación, debemos pulsar el botón Gráficos y en la nueva ventana escoger la opción de

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 9

Histograma y activar la opción de Gráficos con pruebas de normalidad.

Por ejemplo podemos estudiar la normalidad de la variable ph separada según los dos niveles
de ozono.

En el Visor de resultados encontramos, junto con los algunos estadísticos de la(s) variable(s) a
estudiar, la prueba de Kolmogorov-Smirnov con corrección de Lilliefors para contrastar la
normalidad de la distribución (hipótesis nula) y el (los) histograma(s).

Pruebas de normalidad
Kolmogorov-Smirnov
OZONO Estadístico gl Sig.
PH Normal ,035 144 ,200
Alto ,086 156 ,006
* Este es un límite inferior de la significación verdadera.
a Corrección de la significación de Lilliefors

Histograma Histograma
Para OZONO= Normal Para OZONO= Alto
16 30

14

12
20
10

6
10
Frecuencia

Frecuencia

4
Desv. típ. = ,55 Desv. típ. = ,51
2 Media = 5,82 Media = 6,01
0 N = 144,00 0 N = 156,00
4,
4, 0
5, 5
5, 0
5, 5
5, 0
6, 5
6, 0
6, 5
6, 0
7, 5
7, 0

4,
5, 8
5, 3
5,
5, 3
6,
6,
6, 8
6, 3
7,
7,
7, 8
5
7
0
2
5
7
0
2
5
7
0
25

8
1
38
6
88
13
3
6
88
13
3
63

PH PH

Observamos que el resultado del test Kolmogorov-Smirnov es aceptar la normalidad de la


variable ph si ozono es normal su P-valor es 0.2, mientras que habría que rechazarla si ozono
es alto, su P-valor es 0.006. Observar la asimetría a la derecha que presenta el histograma para
nivel de ozono alto, también observada en el siguiente gráfico Q-Q

Gráfico Q-Q normal de PH Gráfico Q-Q normal de PH


Para OZONO= Normal Para OZONO= Alto
3 3

2 2

1 1

0 0
Normal esperado

Normal esperado

-1 -1

-2
-2

-3
-3
4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5
4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0

Valor observado
Valor observado

Finalmente, los diagramas de caja siguientes, muestran las mismas características

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 10

8
222
45
191
209

5
PH

4
N= 144 156

Normal Alto

OZONO
En cualquier caso, dado que los tamaños muestrales son grandes (144 casos con ozono
Normal y 156 con ozono Alto), es válido utilizar la prueba T.

Ejercicio 3
Realizar el estudio de normalidad de la variable sulfato para las dos poblaciones que define la
variable ozono.

4. Ejercicios complentarios
Resolver los problemas que se plantean a continuación aplicando en cada caso el
procedimiento más adecuado, dependiendo de si las muestras son independientes o
emparejadas y de la adecuación de las hipótesis necesarias para la aplicación de un contraste
paramétrico o no paramétrico. Obtener para todos los problemas
i) Estimadores puntuales de la media y la desviación típicas de las poblaciones.
ii) Intervalos de confianza al 80% y al 95% para la diferencia de las medias (método
agrupado y método no agrupado) en el caso de independencia o para la media de la
diferencia en caso de emparejamiento.
iii) Plantear contrastes de hipótesis análogos a los de ii) y comprobar que conducen a
los mismos resultados.
iv) Realizar contrastes direccionales cuando se considere necesario.

1. (Fichero: Ensalada)
En un estudio del crecimiento de la lechuga, se cultivaron dos variedades diferentes
durante 16 días en una estación espacial. El objetivo de este experimento era comprobar si
ambas tenían el mismo proceso de crecimiento. Los resultados se midieron según el peso
total en seco de las lechugas.

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 11

Las dos variedades estudiadas fueron Ensalada y Bibbs y los datos fueron los siguientes:
Variedad Ensalada: 3.06, 2.78, 2.87, 3.52, 3.81, 3.60, 3.30, 2.77, 3.62
Variedad Bibbs: 1.31, 1.17, 1.72, 1.20, 1.55, 1.53

2. (Fichero: Monedas)
En 1965, una escasez de plata en Estados Unidos, llevó al Congreso a autorizar la
acuñación de monedas de 10 y 25 centavos con una cantidad menor de plata. También se
recomendó que el contenido de plata de las monedas de medio dólar se redujera del 90%
al 40%. Históricamente, las fluctuaciones en la cantidad de metales preciosos utilizados
en las monedas son bastante frecuentes. Los datos de este ejemplo comparan los
contenidos de plata de una moneda Bizantina del siglo doce en dos diferentes momentos
durante el reinado de Manuel I (1143-1180).

El objetivo de este problema es comprobar si la proporción en el contenido de plata de


una moneda bizantina era la misma en las dos acuñaciones. El análisis consiste en
introducir la moneda en una solución con un 50% de ácido nítrico. Esta solución es
tratada con cloruro sódico hasta que todo el cloruro de plata se precipita. Pesando el
precipitado, es posible calcular el porcentaje de plata de la moneda.

Las monedas analizadas son parte de un gran descubrimiento en Chipre. Los datos
corresponden a los contenidos de plata de nueve monedas pertenecientes a la primera
acuñación durante el reinado de Manuel I y de siete del cuarto acuñamiento.
Primer 5.9, 6.8, 6.4, 7.0, 6.6, 7.7, 7.2, 6.9, 6.2
Cuarto 5.3, 5.6, 5.5, 5.1, 6.2, 5.8, 5.8

3. (Fichero: Hipnosis)
La investigación en percepción extrasensorial (ESP) ha tomado diferentes direcciones a
lo largo del tiempo. Recientemente, se ha considerado la posibilidad de que la hipnosis
puede facilitar la aparición de la ESP en personas que creían no tenerla. La manera más
obvia de comprobarlo es comparar las habilidades extrasensoriales de los sujetos cuando
están despiertos y cuando están hipnotizados.

El objetivo del siguiente experimento es determinar si la habilidad de una persona para


acertar cartas aumenta bajo hipnosis. Los experimentos de ESP habitualmente se realizan
con cartas de Zener. Estas cartas especiales tienen solo cinco figuras.

En este estudio, se pidió a 15 estudiantes que trataran de adivinar la forma de 200 cartas
de Zener. Se utilizó la misma persona como canal -esto es, la persona que se concentra en
la carta- para cada intento. Para 100 de los intentos, ambos (estudiante y canal) estaban
despiertos y para los otros 100, los dos estaban hipnotizados.

Los resultados del experimento vienen dados en forma del número de aciertos hecho por
cada sujeto bajo ambas condiciones.

Despiertos: 18, 19, 16, 21, 16, 20, 20, 14, 11, 22, 19, 29, 16, 27, 15
Hipnotizados: 25, 20, 26, 26, 20, 23, 14, 18, 18, 20, 22, 27, 19, 27, 21

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València


Práctica 6. Análisis de dos muestras 12

4. (Fichero: Abejas)
Hay muchos factores que predisponen a una abeja a picar. Una persona que vista ropa
oscura, por ejemplo, es más probable que sea picada por una abeja que otra que lleve ropa
más clara. El aumento de temperatura hace más agresivas a las abejas. Y alguien cuyos
movimientos sean rápidos y bruscos, corre más riesgo que otro que se mueva más
lentamente. Otro factor, muy importante para los apicultores es si la persona acaba de ser
picada por otra abeja.

Este último factor ha sido estudiado en el siguiente experimento. El objetivo era


comprobar si las abejas tenían preferencia por picar objetos que ya han sido picados.

Para realizarlo, se agitaron ocho bolitas de algodón envueltas en muselina alrededor de la


entrada a un panal. Cuatro de ellas, habían sido expuestas previamente a otro enjambre de
abejas furiosas y hambrientas y estaban totalmente llenas de picaduras: las otras cuatro
estaban totalmente sin picaduras. Después de un tiempo prefijado de antemano, se contó
el número de nuevas picaduras en cada grupo de cuatro bolitas. El proceso se repitió
nueve veces en distintos momentos del día.

Número de picaduras nuevas en cada grupo de 4 bolitas.


Con picaduras previas: 70, 9, 33, 33, 4, 21, 20, 27, 33
Sin picaduras previas: 33, 10, 21, 15, 6, 16, 19, 15, 9

5. (Fichero: Lagarto)
En un estudio sobre el lagarto Sceloropis occidentalis , se estudió cuál era el impacto
ecológico de la infección por el parásito de malaria Plasmodium , en lagartos que no
estaban en cautividad. Para ello, se investigó la respuesta de 15 lagartos infectados y 15
no infectados a una prueba de resistencia. Los resultados vienen dados por la distancia (en
metros) que cada animal recorría en dos minutos.
Infectados: 16.4, 29.4, 37.1, 23.0, 24.1, 24.5, 16.4, 29.1, 36.7 28.7, 30.2, 21.8,
37.1, 20.3, 28.3
No infect: 22.2, 34.8, 42.1, 32.9, 26.4, 30.6, 32.9, 37.5, 18.4, 27.5, 45.5, 34.0,
45.5, 24.5, 28.8

6. (Fichero: Notas)
En el siguiente banco de datos, se presentan las notas del primer y segundo parcial de un
grupo de 47 estudiantes de Bioestadística, por orden de lista. El objetivo de este problema
está en investigar si hay evidencia para afirmar si las notas medias son distintas.

1er parcial: 7.6, 4.3, 9.4, 4.1, 9.6, 5.0, 7.1, 2.3, 8.1, 6.6, 1.5, 4.1, 4.0, 4.6, 6.6, 8.5, 7.1,
9.1, 3.5, 2.0, 4.7, 6.6, 9.5, 7.5, 6.8, 3.7, 7.0, 4.0, 5.3, 7.1, 7.5, 2.5, 9.1, 8.3,
3.0, 9.8, 5.8, 7.2, 8.8, 5.7, 6.9, 6.6, 4.2, 1.7, 4.5, 8.0, 8.4

2º parcial: 6.8, 6.2, 7.4, 6.5, 7.0, 7.0, 4.9, 4.2, 4.9, 4.5, 6.0, 5.8, 7.2, 5.8, 6.5, 8.7, 7.0,
9.5, 4.0, 4.0, 5.1, 5.0, 7.2, 5.9, 8.2, 4.6, 8.2, 5.1, 6.8, 6.3, 5.4, 5.1, 9.8, 8.2,
4.0, 8.8, 5.0, 4.7, 8.7, 6.1, 6.0, 4.3, 7.6, 3.9, 2.7, 5.2, 7.8

Prácticas de Bioestadística. Departament d’Estadística i Investigació Operativa. Universitat de València

Вам также может понравиться