Вы находитесь на странице: 1из 37

Prueba de Hipótesis

Contenido
 Prueba de hipótesis y niveles
de significancia
Antonio Meneses  Estudio de la normalidad de
los datos
 Contraste de hipótesis:
medias, varianzas,
proporciones, tablas r x c,
métodos no paramétricos
Prueba de hipótesis:
Introducción
La estadística inferencial es el proceso de usar la información de una muestra para
describir el estado de una población. Sin embargo es frecuente que usemos la
información de una muestra para probar un reclamo o conjetura sobre la población. El
reclamo o conjetura se refiere a una hipótesis. El proceso que corrobora si la
información de una muestra sostiene o refuta el reclamo se llama prueba de hipótesis.

Hipótesis Estadística: Una hipótesis estadística es un reclamo hecho sobre la


naturaleza de una población.

Por ejemplo, la premisa formulada por un productor de baterías para autos de que su
batería dura en promedio 48 meses, es una hipótesis estadística porque el
manufacturero no inspecciona la vida de cada batería que él produce. Si surgieran
quejas de parte de los clientes, entonces se pone a prueba el reclamo del manufacturero.

La hipótesis estadística sometida a prueba se llama la hipótesis nula, y se denota como


H 0.
Hipótesis nula y alterna

Hipótesis Nula (H0): premisa, reclamo, o conjetura que se pronuncia sobre la


naturaleza de una o varias poblaciones.

Por ejemplo, para probar o desaprobar el reclamo pronunciado por el productor de


baterías debemos probar la hipótesis estadística de que ≥ 48. Por lo tanto, la hipótesis
nula es:
H0 : ≥ 48

Luego se procede a tomar una muestra aleatoria de baterías y medir su vida media. Si
la información obtenida de la muestra no apoya el reclamo en la hipótesis nula (H0),
entonces otra cosa es cierta. La premisa alterna a la hipótesis nula se llama hipótesis
alterna y se representa por H1.
Hipótesis nula y alterna

Hipótesis Alterna: Una premisa que es cierta cuando la hipótesis nula es falsa.

Por ejemplo, para el productor de baterías

H0 :  ≥ 48 y
𝐇𝟏 :  < 48

Para probar si la hipótesis nula es cierta, se toma una muestra aleatoria y se calcula la
información, como el promedio, la proporción, etc. Esta información muestral se llama
estadística de prueba.

Estadística de Prueba: Una estadística de prueba se basa en la información de la


muestra como la media o la proporción.
ERROR TIPO 1 Y ERROR TIPO 2

A base de la información de una muestra nosotros podemos cometer dos tipos de


errores en nuestra decisión.

Error Tipo 1: Cuando rechazamos una Hipótesis Nula que es cierta cometemos error
tipo 1.

Error Tipo 2: Cuando aceptamos una Hipótesis Nula que es falsa cometemos error
tipo 2.
NIVEL DE SIGNIFICANCIA ()

Nivel de Significancia: La probabilidad () de rechazar H0 cuando H0 es cierto se


llama nivel de significancia.

Comentario: Para mantener la probabilidad de cometer el error tipo 1 baja, debemos


escoger un valor pequeño de .

Región Crítica o de Rechazo: Usando un valor pre-asignado de  se construye una


región de rechazo o región crítica con la curva normal
estándar, con la curva t, etc, que indica si debemos
rechazar H0.

La región puede ser de una cola o de dos dependiendo de la hipótesis alterna.


NIVEL DE SIGNIFICANCIA ()
Región Crítica o de Rechazo
Ejemplos Para H1 :  > valor aceptado, la región de rechazo está dada por:
(cola derecha, z ó t)

Para H1 :  < valor aceptado, la región de rechazo está dada por:


(cola izquierda, z ó t)

Para H1 :  ≠ valor aceptado, la región de rechazo es de dos colas y está dada por:
(2-colas, z ó t)

/2 /2

Nota: Ejemplos y ejercicios en word


Contrastes de hipótesis
ESTUDIO DE LA NORMALIDAD DE LOS DATOS

Una primera tarea consiste en estudiar la normalidad de los datos, para ello y sin
profundizar se puede hacer lo siguiente:

1.- Analizar si el histograma se ajusta a una distribución normal, para lo que podemos
superponerle la curva normal.
2.- Estudiar si en el gráfico qqnorm() los puntos se ajustan a la recta qqline() o se
separan de ella.
3.- Comprobar si se obtienen p-valores altos en el test de Shapiro-Wilk, con la función
shapiro.test(), o en las pruebas de normalidad disponibles en el paquete nortest:
test de Anderson-Darling, de Cramer von Mises, Kolmogorov-Smirnov, de Pearson
(ji-cuadrado) y de Shapiro-Francia.

Para muestras pequeñas (n ≤ 50) se recomienda utilizar el test de Shapiro-Wilk y


para muestra grandes el test de Lilliefors con la función lillie.test().
Contrastes de hipótesis
ESTUDIO DE LA NORMALIDAD DE LOS DATOS
Ejemplo 1
Estudiar la normalidad de los datos ríos.txt correspondientes a las longitudes en millas
de 141 ríos de Norte América.
Solución en R:

Rios=read.table(“rios.txt”,header=T)
Rios
library(nortest)
# La función es
lillie.test(Rios$rivers)
# Lilliefors (Kolmogorov-Smirnov) normality test
# data: Rivers
# D = 0.2082, p-value < 2.2e-16

Conclusión: Como el p-valor es menor que 0.05 entonces la variable rivers no se


ajusta a una distribución normal con un nivel de confianza del 95%.
Contrastes de hipótesis
ESTUDIO DE LA NORMALIDAD DE LOS DATOS

Ejemplo 2
Se quiere realizar un estudio del precio por metro cuadrado en el Municipio. Para ello
se han tomado 12 viviendas al azar, obteniéndose los valores siguientes, en miles de
dólares por metro cuadrado: 4.01, 3.87, 4.68, 2.83, 3.88, 4.92, 4.46, 5.64, 4.91, 2.35,
4.12 y 1.11. Estudiar la normalidad de esta variable de precios.
Solución:
Precio=c(4.01, 3.87, 4.68, 2.83, 3.88, 4.92, 4.46, 5.64, 4.91, 2.35, 4.12, 1.11)

# Como el tamaño de la variable es pequeño utilizamos Shapiro-Wilk


shapiro.test(Precio)

# Shapiro-Wilk normality test


# data: Precio
# W = 0.9231, p-value = 0.3124

Conclusión: Como el p-valor es mayor que 0.05 entonces la variable Precio se


ajusta a una distribución normal con un nivel de confianza del 95%.
Contrastes de hipótesis
ESTUDIO DE LA NORMALIDAD DE LOS DATOS

Ejemplo 3
La base de datos cars.txt tiene dos variables correspondientes a la velocidad y
distancia requerida por el automóvil hasta que se detenga o pare de moverse. Estudiar
la normalidad de cada una de las variables speed y dist
Solución:
# Lectura de la base de datos
Carros=read.table("cars.txt",header=T)

# Variable Carros$speed

shapiro.test(Carros$speed)

# Shapiro-Wilk normality test


#data: Carros$speed
#W = 0.9776, p-value = 0.4576
Contrastes de hipótesis
ESTUDIO DE LA NORMALIDAD DE LOS DATOS

Ejemplo 3

Conclusión 1: Como los p-valores son mayores que 0.05 entonces la variable speed
se ajusta a una distribución normal con un nivel de confianza del 95%.

# La variable Carros$dist

shapiro.test(Carros$dist)

# Shapiro-Wilk normality test


# data: Carros$dist
# W = 0.9514, p-value = 0.0391

Conclusión 2: Como los p-valores son menores que 0.05 entonces la variable dist
no se ajusta a una distribución normal con un nivel de confianza del
95%.
Contrastes de hipótesis
ESTUDIO DE LA NORMALIDAD DE LOS DATOS

Ejercicios

1.- De la base de datos trees.txt estudiar la normalidad de cada una de las variables,
Girth, Height y Volume

2.- De la base de datos iris.txt estudiar la normalidad de cada una de las variables,
Sepal.Length, Sepal.Width, Petal.Length y Petal.Width
Contrastes de hipótesis
PROCEDIMIENTO GENERAL:

1.- Formule una hipótesis nula y una hipótesis alternativa.

2.- Especifique el nivel de significancia α

3.- Con base en la distribución muestral de un estadístico adecuado, se construye un


criterio para poner a prueba la hipótesis nula contra la hipótesis alternativa dada.

4.- A partir de los datos, calcule el valor del estadístico y el p-valor sobre el cual se
debe basar la decisión.

5.- Decida si hay que rechazar la hipótesis nula o fallar en rechazarla


Contrastes de hipótesis
Contraste para la media de una población normal
(muestras pequeñas y grandes)

Ejemplo:
Se midieron en 10 días tomados al azar los niveles de cloro del agua que sale de una
planta de tratamiento, obteniéndose los valores siguientes: 2.2, 1.9, 1.7, 1.6, 1.7, 1.8,
1.7, 1.9, 2.0, 2.0. Contrastar si se puede aceptar la hipótesis de que provienen de una
población normal de media 1.9.

Solución:
# Contraste de normalidad de la variable cloro
cloro=c(2.2, 1.9, 1.7, 1.6, 1.7, 1.8, 1.7, 1.9, 2.0, 2.0)

shapiro.test(cloro)

#W = 0.9412, p-value = 0.5667

Conclusión: Como el p-valor es mayores que 0.05 entonces la variable cloro


se ajusta a una distribución normal con un nivel de confianza del 95%.
Contrastes de hipótesis
Contraste para la media de una población normal
(muestras pequeñas y grandes)
Solución:
1.- Hipótesis nula e hipótesis alternativa.
Ho: μ=1.9 (La media del nivel de cloro es de 1.9)
H1 : μ≠ 1.9 (La media del nivel de cloro es diferente de 1.9)
2.- Nivel de significancia α=0.05
3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05, donde el estadístico es t

4.- Cálculos:

t.test(cloro, mu=1.9)

#t = -0.8589, df = 9, p-value = 0.4127

5.- Decisión: Puesto que el p-valor = 0.4127 es mayor que 0.05, la hipótesis nula se
acepta, en otras palabras la media del nivel de cloro en la planta de
tratamiento se tiene de 1.9, con un nivel de confianza del 95%.
Contrastes de hipótesis
Contraste para la igualdad de medias de dos muestras
independientes y normales
Ejemplo:
Se quiere saber si existen diferencias significativas en la facturación de dos tiendas de
joyería de la misma cadena. Para ello se eligieron al azar 11 días en los que se
contabilizaron las ventas en la joyería A y otros 10 días en la joyería B. Tomando en
cuenta que las varianzas poblacionales de ambos establecimientos son diferentes.
A: 1320, 1495, 990, 1250, 1290, 1900, 1500, 110, 1250, 1100, 1930
B: 1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210
Solución:
# Contraste de normalidad de las variables A y B
A=c(1320, 1495, 990, 1250, 1290, 1900, 1500, 110, 1250, 1100, 1930)
B=c(1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210)

shapiro.test(A) # W = 0.8812, p-value = 0.1079


shapiro.test(B) # W = 0.9029, p-value = 0.2358

Conclusión: Como los p-valores son mayores que 0.05 entonces las variables A y B
se ajustan a distribuciones normales con un nivel de confianza del 95%.
Contrastes de hipótesis
Contraste para la igualdad de medias de dos muestras
independientes y normales
Solución:
1.- Hipótesis nula e hipótesis alternativa.
Ho: μA= μB (Las medias de las ventas en A y B son iguales )
H1 : μA ≠ μB (Las medias de las ventas en A y B no son iguales)
2.- Nivel de significancia α=0.05
3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05, donde el estadístico es t
4.- Cálculos:

t.test(A, B)

# t = 0.2431, df = 13.511, p-value = 0.2358

5.- Decisión: Puesto que el p-valor = 0.2358 es mayor que 0.05, la hipótesis nula se
acepta, en otras palabras no existe diferencia significativa entre las
medias de las ventas en A y B con un nivel de confianza del 95%.
Contrastes de hipótesis
Contraste para la igualdad de medias de dos muestras
pareadas y normales
Ejemplo:
Las pérdidas semanales promedio de horas-hombre debidas a accidentes en 10 plantas
industriales, antes y después de poner en operación cierto programa de seguridad:
Antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)
Después=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)
Probar si el programa de seguridad es efectivo al 95% de confianza.
Solución:
# Contraste de normalidad de las variables A y B
Antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)
Después=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)

shapiro.test(Antes) # W = 0.9067, p-value = 0.2589


shapiro.test(Después) # W = 0.9002, p-value = 0.2203

Conclusión: Como los p-valores son mayores que 0.05 entonces las variables Antes y
Después se ajustan a distribuciones normales con un nivel de confianza
del 95%.
Contrastes de hipótesis
Contraste para la igualdad de medias de dos muestras
pareadas y normales
Solución:
1.- Hipótesis nula e hipótesis alternativa.
Ho: μD - μA = 0 (No existe diferencia significativa entre las medias de Antes y
Después)
H1 : μD ≠ μA (La media de accidentes de Antes es diferente que la media de
Después de poner el programa)
2.- Nivel de significancia α=0.05
3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05 donde el estadístico es t
4.- Cálculos:

t.test(Después, Antes, paired = TRUE)

5.- Decisión: Puesto que el p-valor es menor que 0.05, la hipótesis nula se rechaza,
en otras palabras la media de accidentes de Antes es mayor que la media de Después
de poner el programa, con un nivel de confianza del 95%.
Contrastes de hipótesis
Contraste sobre la igualdad de varianzas de dos poblaciones
normales
Ejemplo:
Se quieren saber si existen diferencias significativas al 95% de confianza de las
varianzas en la facturación de dos tiendas de joyería de una misma cadena. Para ello se
eligieron al azar 11 días en los que se contabilizaron las ventas en la joyería A y otros
10 días en la joyería B. Los datos obtenidos fueron:
A: 1320, 1495, 990, 1250, 1290, 1900, 1500, 1100, 1250, 1100, 1930
B: 1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210
Solución:
# Contraste de normalidad de las variables A y B
A=c(1320, 1495, 990, 1250, 1290, 1900, 1500, 1100, 1250, 1100, 1930)
B=c(1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210)

shapiro.test(A) # W = 0.8905, p-value = 0.1411


shapiro.test(B) # W = 0.9029, p-value = 0.2358

Conclusión: Como los p-valores son mayores que 0.05 entonces las variables A y B
se ajustan a distribuciones normales con un nivel de confianza del 95%.
Contrastes de hipótesis
Contraste sobre la igualdad de varianzas de dos poblaciones
normales
Solución:
1.- Hipótesis nula e hipótesis alternativa.
Ho: σ2 A= σ2 B (Las varianzas de las ventas en A y B son iguales )
H1 : σ2 A ≠ σ2 B (Las varianzas de las ventas en A y B no son iguales)
2.- Nivel de significancia α=0.05
3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05, donde el estadístico es F
4.- Cálculos:

var.test(A, B)

# F = 2.387, num df = 10, denom df = 9, p-value = 0.2061

5.- Decisión: Puesto que el p-valor = 0.2061 es mayor que 0.05, la hipótesis nula se
acepta, en otras palabras NO existe diferencia significativa entre las
varianzas de las ventas en A y B con un nivel de confianza del 95%.
Contrastes de hipótesis
Contraste sobre una proporción

Ejemplo:
Se ha encuestado a 110 personas sobre si están de acuerdo con la construcción del tren
de alta velocidad, habiendo contestado 48 de ellas afirmativamente. Respalda este
resultado la hipótesis de que la proporción de opiniones afirmativas en la población es
el 50%?
Solución:
1.- Hipótesis nula e hipótesis alternativa.
Ho: p= 0.5 (Proporción de opiniones afirmativas en la población es el 50%)
H1 : p≠0.5 (Proporción de opiniones afirmativas en la población no es el 50%)
2.- Nivel de significancia α=0.05
3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05, donde el estadístico es χ2
4.- Cálculos:
prop.test(x=48, n=110, p=0.5)

# X-squared = 1.5364, df = 1, p-value = 0.2152


5.- Decisión: Puesto que el p-valor = 0.2152 es mayor que 0.05, la hipótesis nula se
acepta, Proporción de opiniones afirmativas en la población es el
50% con un nivel de confianza del 95%.
Contrastes de hipótesis
Contraste sobre la igualdad de varias proporciones

Ejemplo:
Muestras de tres tipos de materiales, sometidos a cambios extremos de temperatura,
dieron los resultados que se presentan en la siguiente tabla:

Use el nivel de significancia de 0.05 para probar si, con las condiciones enunciadas, la
probabilidad de desmoronamiento es la misma para los tres tipos de materiales.
Contrastes de hipótesis
Contraste sobre la igualdad de varias proporciones

Solución:
1.- Hipótesis nula e hipótesis alternativa.
Ho: pA=pB=pC
(Probabilidad de desmoronamiento es la misma para los tres tipos de
materiales)
H1 : Al menos una de las probabilidades de desmoronamiento es diferente a las demás

2.- Nivel de significancia α=0.05


3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05, donde el estadístico es χ2
4.- Cálculos:
Desmoronamiento=c(41, 27, 22)
prop.test (Desmoronamiento, n=c(120, 80, 100))
# X-squared = 4.5754, df = 2, p-value = 0.1015

5.- Decisión: Puesto que el p-valor = 0.1015 es mayor que 0.05, la hipótesis nula se
acepta, es decir la probabilidad de desmoronamiento es la misma para
los tres tipos de materiales con un nivel de confianza del 95%.
Contrastes de hipótesis
Contraste χ2 sobre la homogeneidad de variables aleatorias
(las longitudes de las columnas son iguales)

Ejemplo:
Se contratan tres talleres diferentes para reparar motores eléctricos. Cien motores se
envían a cada taller. Cuando un motor regresa, se pone en uso y luego la reparación se
clasifica como completa, como que requiere un ajuste o como incompleta, ver la
siguiente tabla:

Taller 1 Taller 2 Taller 3 Total


Completa 78 56 54 188
Reparación Ajuste 15 30 31 76
Incompleta 7 14 15 36
Total 100 100 100 300

Verificar si las probabilidades de reparación para los tres talleres son homogéneas al
95% confianza.
Contrastes de hipótesis
Contraste χ2 sobre la homogeneidad de variables aleatorias
(las longitudes de las columnas son iguales)

Solución:
1.- Hipótesis nula e hipótesis alternativa.
Ho: Las probabilidades de reparación para los tres talleres son homogéneas
H1 : las probabilidades de reparación para los tres talleres no son homogéneas
2.- Nivel de significancia α=0.05
3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05, donde el estadístico es χ2
4.- Cálculos:
Completa=c(78, 56, 54)
Ajuste=c(15, 30, 31)
Incompleta=c(7, 14, 15)
TALLERES=data.frame(Completa, Ajuste, Incompleta)
chisq.test(TALLERES)
# X-squared = 15.1683, df = 4, p-value = 0.004364
5.- Decisión: Puesto que el p-valor es menor de 0.05, la hipótesis nula se
rechaza, es decir las probabilidades de reparación para los tres talleres no
son homogéneas con un nivel de confianza del 95%
Contrastes de hipótesis
Contraste χ2 sobre la independencia de variables aleatorias

Ejemplo:
Para determinar si realmente hay una relación entre el rendimiento de un empleado en
el programa de capacitación de la empresa y su éxito subsiguiente en el trabajo, la
compañía toma una muestra de 400 casos de sus muy extensos archivos, de donde
obtiene los resultados que se presentan en la siguiente tabla:
Rendimiento en programa de capacitación
Abajo del Promedio Arriba del Total
promedio promedio
Deficiente 23 60 29 112
Éxito en el trabajo
(Calificación del empleador) Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400
Contrastes de hipótesis
Contraste χ2 sobre la independencia de variables aleatorias
Ejemplo (continuación):
Use el nivel de significancia de 0.01 para probar la hipótesis nula de que son
independientes el rendimiento en el programa de capacitación y el éxito en el trabajo.
Solución:
1.- Hipótesis nula e hipótesis alternativa.
Ho: El rendimiento en el programa de capacitación y el éxito en el trabajo son
independientes.
H1 : El rendimiento en el programa de capacitación y el éxito en el trabajo son
dependientes.
2.- Nivel de significancia α=0.01
3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.01, donde el estadístico es χ2
4.- Cálculos:
Deficiente=c(23, 60, 29)
Promedio=c(28, 79, 60)
Muy_bueno=c(9, 49, 63)
TRABAJ0=data.frame(Deficiente,Promedio, Muy_bueno)
chisq.test(TRABAJ0)
# X-squared = 20.1789, df = 4, p-value = 0.0004604
Contrastes de hipótesis
Contraste χ2 sobre la independencia de variables aleatorias

Solución (continuación):
5.- Decisión: Puesto que el p-valor = 0.0004604 es menor de 0.01, la hipótesis nula
se rechaza, es decir el rendimiento en el programa de capacitación y el
éxito en el trabajo son dependientes con un nivel de confianza del 99%.
Test no paramétricos para dos muestras
Test de Wilcoxon para 2 muestras independientes
(muestras normales o no normales)

Ejemplo 1:
Se quiere saber si existen diferencias significativas en la facturación de dos tiendas de
joyería de la misma cadena. Para ello se eligieron al azar 11 días en los que se
contabilizaron las ventas en la joyería A y otros 10 días en la joyería B. Tomando en
cuenta que las varianzas poblacionales de ambos establecimientos son diferentes.
A: 1320, 1495, 990, 1250, 1290, 1900, 1500, 110, 1250, 1100, 1930
B: 1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210
Solución:
1.- Hipótesis nula e hipótesis alternativa.

Ho: Las distribuciones de las ventas en A y B son iguales


H1 : Las distribuciones de las ventas en A y B son diferentes

2.- Nivel de significancia α=0.05


3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05, donde el estadístico es W
Test no paramétricos para dos muestras
Test de Wilcoxon para 2 muestras independientes

(muestras normales o no normales)


Solución(continuación):
4.- Cálculos:

A=c(1320, 1495, 990, 1250, 1290, 1900, 1500, 110, 1250, 1100, 1930)
B=c(1110, 1405, 985, 1290, 1300, 1705, 1200, 1105, 1150, 1210)
wilcox.test(A,B)
# W = 66.5, p-value = 0.4383

5.- Decisión: Puesto que el p-valor = 0.4383 es mayor que 0.05, la hipótesis nula se
acepta, en otras palabras no existe diferencia significativa entre las
distribuciones de las ventas en A y B con un nivel de confianza del 95%.
Test no paramétricos para dos muestras
Test de Wilcoxon para 2 muestras pareadas
(muestras normales o no normales)

Ejemplo 2:
Las pérdidas semanales promedio de horas-hombre debidas a accidentes en 10 plantas
industriales, antes y después de poner en operación cierto programa de seguridad:
Antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)
Después=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)
Probar si el programa de seguridad es efectivo al 95% de confianza.
Solución:
1.- Hipótesis nula e hipótesis alternativa.
Ho: No existe diferencia significativa entre las distribuciones de Antes y
Después
H1 : La distribución de accidentes de Después es diferente que la distribución de
Antes de poner el programa.
2.- Nivel de significancia α=0.05
3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05, donde el estadístico es V.
Test no paramétricos para dos muestras
Test de Wilcoxon para 2 muestras pareadas
(muestras normales o no normales)

Solución(continuación):
4.- Cálculos:
Antes=c(45, 73, 46, 124, 33, 57, 83, 34, 26, 17)
Después=c(36, 60, 44, 119, 35, 51, 77, 29, 24, 11)
wilcox.test(Después, Antes, paired = TRUE)
#V = 2, p-value = 0.005185

5.- Decisión: Puesto que el p-valor = 0.005185 es menor que 0.05, la hipótesis nula
se rechaza, en otras palabras la distribución de accidentes de Antes es diferenter que la
distribución de Después de poner el programa, con un nivel de confianza del 95%.
Test no paramétricos para varias muestras
Test de Kruskal-Wallis para k muestras independientes

Ejemplo:
De la base de datos iris.txt, determinar si existen diferencias significativas de las
variables Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, con respecto a la
variable Species, al 95% de confianza.

Solución: Realizamos para la variable Sepal.Length

1.- Hipótesis nula e hipótesis alternativa.


Ho: No existen diferencias significativas entre las distribuciones de grupos de
especies.
H1 : Existe diferencia significativa en al menos una de las distribuciones de
grupos de especies.
2.- Nivel de significancia α=0.05
3.- Criterio: Rechazar la hipótesis nula si p-valor < 0.05, donde el estadístico es de
Kruskal-Wallis, chi-squared.
Test no paramétricos para varias muestras
Test de Kruskal-Wallis para k muestras independientes

Solución (continuación):
4.- Cálculos:

head(iris)
kruskal.test(iris$Sepal.Length~iris$Species)

# Kruskal-Wallis chi-squared = 96.9374, df = 2, p-value < 2.2e-16

5.- Decisión: Puesto que el p-valor es menor que 0.05, la hipótesis nula se rechaza,
en otras palabras, existe diferencia en al menos una de las distribuciones de grupos de
especies, con un nivel de confianza del 95%.

Ejercicios: Realizar con las variables Sepal.Width, Petal.Length, y Petal.Width, con


respecto a la variable Species.
Referencias

Manuel Febrero Bande, Pedro Galeano San Miguel, Julio González Díaz,
Beatriz Pateiro López. Estadística. Ingeniería Técnica en Informática de
Sistemas. Departamento de Estadística e Investigación Operativa Universidad
de Santiago de Compostela, 2008.

Richard A. Johnson. Probabilidad y Estadística para Ingenieros. Octava


edición. Pearson Educación, México 2012

Вам также может понравиться