Академический Документы
Профессиональный Документы
Культура Документы
Como se logró en la sesión anterior, importe los datos que están en el archivo “Dia4DatosCategóricos.xlsx”
que se puede descargar en el catálogo. En el caso de lograrlo, los datos deben verse así:
head(Dia4DatosCategoricos)
## # A tibble: 6 x 2
## Creatividad HabilidadesMat
## <dbl> <dbl>
## 1 3.00 3.00
## 2 3.00 4.00
## 3 4.00 4.00
## 4 4.00 1.00
## 5 3.00 4.00
## 6 3.00 2.00
El comando head permite ver las primeras 5 observaciones de una base de datos en particular. En este caso
es utilizado para no mostrar las 101 observaciones totales.
Este caso de ejemplo son las valoraciones subjetivas de los estudiantes de los cursos de Estadística Inferencial
de primer semestre 2018 respecto a su creatividad y su habilidades en matemática:
Creatividad son las respuestas a la pregunta ¿Qué tan creativo se considera? donde 1 es nada creativo y 5
es muy creativo.
HabilidadesMat son las respuestas a la pregunta Según su criterio, ¿qué tal es su rendimiento en temas
relacionados con matemáticas? donde 1 es muy malo y 5 es muy bueno.
Cuando R importa datos desde cualquier fuente (Excel, SPSS, digitación manual) asume que los números
son datos numéricos valorando la variable automáticamente como numérica. En este caso, ambas variables
asignan números a los niveles de valoración. Este tipo de variable se le conoce como escala de Likert, la
cual es muy común en las ciencias sociales. Se sabe que estas escalas son categóricas ordinales, por lo que es
necesario comunicarle a R esta situación:
Dia4DatosCategoricos$Creatividad <- as.factor(Dia4DatosCategoricos$Creatividad)
Con el comando as.factor se asumen los números como categorías o niveles (levels). Es habitual llamar a
las variables categóricas factores. En este caso estamos reescribiendo la nueva variable sobre la anterior.
Lo mismo se hace con la variable HabilidadesMat:
Dia4DatosCategoricos$HabilidadesMat <- as.factor(Dia4DatosCategoricos$HabilidadesMat)
Con el comando levels se puede ver la lista de categorías que tiene la variable:
1
levels(Dia4DatosCategoricos$Creatividad)
##
## 1 2 3 4 5
## 1 11 37 45 7
table(Dia4DatosCategoricos$HabilidadesMat)
##
## 1 2 3 4 5
## 14 22 44 18 3
En ambas variables encontramos categorías con frecuencias bajas (En Creatividad solo hay un individuo
que respondió 1 y 7 que respondieron 5, mientras que en HabilidadesMat solo 3 respondieron 5.). Las
frecuencias menores a 5 afectan negativamente la potencia de la prueba que se tratará en este apartado, así
que es necesario aprender a agrupar categorías.
Agrupando categorías
El comando levels sirve también para renombrar y agrupar categorías. En este caso para la variable
Creatividad se agruparán los niveles 1 y 2 como Poco, 3 queda solo como Medio y los niveles 4 y 5 como
Mucho; mientras que para la variable HabilidadesMat se agruparán los niveles 1 y 2 como Bajo, 3 queda
solo como Medio y los niveles 4 y 5 como Alto:
levels(Dia4DatosCategoricos$Creatividad) <- c("Poco","Poco","Medio","Mucho","Mucho")
levels(Dia4DatosCategoricos$HabilidadesMat) <- c("Bajo","Bajo","Medio","Alto","Alto")
##
## Poco Medio Mucho
## 12 37 52
table(Dia4DatosCategoricos$HabilidadesMat)
##
## Bajo Medio Alto
## 36 44 21
Por ser variables categóricas se podrían graficar en diagramas circulares como en el día 2, sin embargo al ser
ordinales es más recomendable verlas en diagramas de barras con ayuda del comando barplot:
barplot(table(Dia4DatosCategoricos$Creatividad))
2
50
30
10
0
barplot(table(Dia4DatosCategoricos$HabilidadesMat))
40
30
20
10
0
3
Análisis descriptivo bivariado
Hasta el momento se han analizado las variables independientemente, así que es necesario cruzarlas para
profundizar el análisis. Para eso, el mismo comando table permite hacer una tabla de contingencia entre dos
variables categóricas:
table(Dia4DatosCategoricos$Creatividad,Dia4DatosCategoricos$HabilidadesMat)
##
## Bajo Medio Alto
## Poco 6 2 4
## Medio 14 13 10
## Mucho 16 29 7
En teoría se está incumpliendo la condición necesaria para la prueba que se va a realizar por haber una
frecuencia por debajo de 5 (hay solo dos individuos que dicen tener poca creatividad y tener un nivel medio
en matemática), sin embargo se continuará trabajando para presentar el análisis.
Se guardará la tabla resultante en la variable Tabla1 para acortar el largo de los comandos:
Tabla1 <- table(Dia4DatosCategoricos$Creatividad,Dia4DatosCategoricos$HabilidadesMat)
4
20
5 10
0
5
Prueba χ2 de Pearson
Interpretación de la prueba
1. Estadístico de Prueba La evidencia muestral para contrastar con la hipótesis nula se resume en el
estadístico de prueba. En el caso de la prueba χ2 , el estadístico de prueba sigue una distribución χ2 con
(I − 1)(J − 1) grados de libertad, donde I y J son la cantidad de categorías que tiene cada variable,
respectivamente.
En el ejemplo de las valoraciones, el estadístico de prueba es entonces X-squared = 8.4083, df = 4, es
decir un valor χ2 de 8,4083 con 4 grados de libertad.
(Cada variable tiene 3 categorías, es decir, I = 3 y J = 3, por lo tanto los grados de libertad son (3−1)(3−1) =
4)
2. Decisión El estadístico de prueba se traduce al valor de la probabilidad de cometer el error de rechazar
la hipótesis nula cuando no era correcto hacerlo. Esta probabilidad es llamada p-valor. El objetivo
es entonces decidir rechazar la hipótesis nula siempre y cuando el p-valor sea mínimo. El nivel de
significancia para decidir que el p-valor es lo suficientemente pequeño es 0.05(5%).
En el ejemplo de las notas, el p-valor es p-value = 0.07772, por lo que no se puede rechazar la hipótesis
nula al ser mayor a 0.05.
3. Conclusión Si la decisión es rechazar la hipótesis nula, se puede afirmar la hipótesis estadística
soportada por los resultados estadísticamente significativos. Si la decisión es no poder rechazar la
hipótesis nula, no hay resultados estadísticamente significativos para afirmar la hipótesis estadística.
En el caso de las valoraciones, no hay relación estadísticamente significativa entre la autopercepción de
creatividad de estudiantes y su autopercepción respecto a sus habilidades matemáticas (χ2 = 8, 4083, g.d.l. = 4,
p > 0.05).
R tiene un caso de estudio documentado en la base de datos occupationalStatus, la cual consta de la tabla
de contingencia del nivel de ocupación de hombres británicos (destination) y nivel de ocupación de sus
padres (origin). Ambos niveles medidos en 8 categorías:
6
occupationalStatus
## destination
## origin 1 2 3 4 5 6 7 8
## 1 50 19 26 8 7 11 6 2
## 2 16 40 34 18 11 20 8 3
## 3 12 35 65 66 35 88 23 21
## 4 11 20 58 110 40 183 64 32
## 5 2 8 12 23 25 46 28 12
## 6 12 28 102 162 90 554 230 177
## 7 0 6 19 40 21 158 143 71
## 8 0 3 14 32 15 126 91 106
La hipótesis estadística es entonces que sí hay relación entre el nivel de ocupación de hombres británicos y el
nivel de ocupación de sus padres.
chisq.test(occupationalStatus)
Interpretación de la prueba
1. Estadístico de Prueba: X-squared = 1416, df = 49, es decir un valor χ2 de 1416 con 49 grados
de libertad.
(Cada variable tiene 8 categorías, es decir, I = 8 y J = 8, por lo tanto los grados de libertad son (8−1)(8−1) =
49)
2. Decisión: El p-valor es p-value < 2.2e-16, por lo que se puede rechazar la hipótesis nula al ser
menor a 0.05. (2.2e-16 es 2.2 ∗ 10−16 , lo cual es prácticamente cero.)
3. Conclusión: Hay relación estadísticamente significativa entre el nivel de ocupación de hombres
británicos y el nivel de ocupación de sus padres (χ2 = 1416, g.d.l. = 49, p < 0.05).