Вы находитесь на странице: 1из 7

Análisis bivariado categórico-categórico

Natalia Hernández Vargas, Dipl.-Math.


Primer Semestre 2018

En este apartado se tratará el caso de dos variables categóricas.

Ingresar datos con la opción Import Dataset

Como se logró en la sesión anterior, importe los datos que están en el archivo “Dia4DatosCategóricos.xlsx”
que se puede descargar en el catálogo. En el caso de lograrlo, los datos deben verse así:
head(Dia4DatosCategoricos)

## # A tibble: 6 x 2
## Creatividad HabilidadesMat
## <dbl> <dbl>
## 1 3.00 3.00
## 2 3.00 4.00
## 3 4.00 4.00
## 4 4.00 1.00
## 5 3.00 4.00
## 6 3.00 2.00
El comando head permite ver las primeras 5 observaciones de una base de datos en particular. En este caso
es utilizado para no mostrar las 101 observaciones totales.
Este caso de ejemplo son las valoraciones subjetivas de los estudiantes de los cursos de Estadística Inferencial
de primer semestre 2018 respecto a su creatividad y su habilidades en matemática:
Creatividad son las respuestas a la pregunta ¿Qué tan creativo se considera? donde 1 es nada creativo y 5
es muy creativo.
HabilidadesMat son las respuestas a la pregunta Según su criterio, ¿qué tal es su rendimiento en temas
relacionados con matemáticas? donde 1 es muy malo y 5 es muy bueno.

Análisis descriptivo y gráfico

Cuando R importa datos desde cualquier fuente (Excel, SPSS, digitación manual) asume que los números
son datos numéricos valorando la variable automáticamente como numérica. En este caso, ambas variables
asignan números a los niveles de valoración. Este tipo de variable se le conoce como escala de Likert, la
cual es muy común en las ciencias sociales. Se sabe que estas escalas son categóricas ordinales, por lo que es
necesario comunicarle a R esta situación:
Dia4DatosCategoricos$Creatividad <- as.factor(Dia4DatosCategoricos$Creatividad)

Con el comando as.factor se asumen los números como categorías o niveles (levels). Es habitual llamar a
las variables categóricas factores. En este caso estamos reescribiendo la nueva variable sobre la anterior.
Lo mismo se hace con la variable HabilidadesMat:
Dia4DatosCategoricos$HabilidadesMat <- as.factor(Dia4DatosCategoricos$HabilidadesMat)

Con el comando levels se puede ver la lista de categorías que tiene la variable:

1
levels(Dia4DatosCategoricos$Creatividad)

## [1] "1" "2" "3" "4" "5"


Para ver las frecuencias absolutas (conteos) de una variable, el comando table es el indicado:
table(Dia4DatosCategoricos$Creatividad)

##
## 1 2 3 4 5
## 1 11 37 45 7
table(Dia4DatosCategoricos$HabilidadesMat)

##
## 1 2 3 4 5
## 14 22 44 18 3
En ambas variables encontramos categorías con frecuencias bajas (En Creatividad solo hay un individuo
que respondió 1 y 7 que respondieron 5, mientras que en HabilidadesMat solo 3 respondieron 5.). Las
frecuencias menores a 5 afectan negativamente la potencia de la prueba que se tratará en este apartado, así
que es necesario aprender a agrupar categorías.

Agrupando categorías

El comando levels sirve también para renombrar y agrupar categorías. En este caso para la variable
Creatividad se agruparán los niveles 1 y 2 como Poco, 3 queda solo como Medio y los niveles 4 y 5 como
Mucho; mientras que para la variable HabilidadesMat se agruparán los niveles 1 y 2 como Bajo, 3 queda
solo como Medio y los niveles 4 y 5 como Alto:
levels(Dia4DatosCategoricos$Creatividad) <- c("Poco","Poco","Medio","Mucho","Mucho")
levels(Dia4DatosCategoricos$HabilidadesMat) <- c("Bajo","Bajo","Medio","Alto","Alto")

Lo cual resulta en:


table(Dia4DatosCategoricos$Creatividad)

##
## Poco Medio Mucho
## 12 37 52
table(Dia4DatosCategoricos$HabilidadesMat)

##
## Bajo Medio Alto
## 36 44 21
Por ser variables categóricas se podrían graficar en diagramas circulares como en el día 2, sin embargo al ser
ordinales es más recomendable verlas en diagramas de barras con ayuda del comando barplot:
barplot(table(Dia4DatosCategoricos$Creatividad))

2
50
30
10
0

Poco Medio Mucho

barplot(table(Dia4DatosCategoricos$HabilidadesMat))
40
30
20
10
0

Bajo Medio Alto

3
Análisis descriptivo bivariado

Hasta el momento se han analizado las variables independientemente, así que es necesario cruzarlas para
profundizar el análisis. Para eso, el mismo comando table permite hacer una tabla de contingencia entre dos
variables categóricas:
table(Dia4DatosCategoricos$Creatividad,Dia4DatosCategoricos$HabilidadesMat)

##
## Bajo Medio Alto
## Poco 6 2 4
## Medio 14 13 10
## Mucho 16 29 7
En teoría se está incumpliendo la condición necesaria para la prueba que se va a realizar por haber una
frecuencia por debajo de 5 (hay solo dos individuos que dicen tener poca creatividad y tener un nivel medio
en matemática), sin embargo se continuará trabajando para presentar el análisis.
Se guardará la tabla resultante en la variable Tabla1 para acortar el largo de los comandos:
Tabla1 <- table(Dia4DatosCategoricos$Creatividad,Dia4DatosCategoricos$HabilidadesMat)

El diagrama de barras cruzado es entonces:


barplot(Tabla1)
40
30
20
10
0

Bajo Medio Alto

Para ver las barras una al lado de la otra:


barplot(Tabla1,beside=TRUE)

4
20
5 10
0

Bajo Medio Alto

5
Prueba χ2 de Pearson

La prueba χ2 de Pearson es la prueba de hipótesis para evaluar la relación de variables categóricas. La


hipótesis estadística correspondiente a esta prueba plantea que existe relación a nivel poblacional entre las
variables evaluadas. Por lo tanto, la hipótesis nula plantea que las variables son independientes.
En el caso de las dos variables de valoración, la hipótesis estadística es: Existe relación entre la autopercepción
de creatividad de estudiantes y su autopercepción respecto a sus habilidades matemáticas.
El comando para esto sería entonces:
chisq.test(Tabla1)

## Warning in chisq.test(Tabla1): Chi-squared approximation may be incorrect


##
## Pearson's Chi-squared test
##
## data: Tabla1
## X-squared = 8.4083, df = 4, p-value = 0.07772
Observación: el mensaje de alerta (Warning) se debe a lo comentado anteriormente de haber una frecuencia
por debajo de 5.

Interpretación de la prueba

1. Estadístico de Prueba La evidencia muestral para contrastar con la hipótesis nula se resume en el
estadístico de prueba. En el caso de la prueba χ2 , el estadístico de prueba sigue una distribución χ2 con
(I − 1)(J − 1) grados de libertad, donde I y J son la cantidad de categorías que tiene cada variable,
respectivamente.
En el ejemplo de las valoraciones, el estadístico de prueba es entonces X-squared = 8.4083, df = 4, es
decir un valor χ2 de 8,4083 con 4 grados de libertad.
(Cada variable tiene 3 categorías, es decir, I = 3 y J = 3, por lo tanto los grados de libertad son (3−1)(3−1) =
4)
2. Decisión El estadístico de prueba se traduce al valor de la probabilidad de cometer el error de rechazar
la hipótesis nula cuando no era correcto hacerlo. Esta probabilidad es llamada p-valor. El objetivo
es entonces decidir rechazar la hipótesis nula siempre y cuando el p-valor sea mínimo. El nivel de
significancia para decidir que el p-valor es lo suficientemente pequeño es 0.05(5%).
En el ejemplo de las notas, el p-valor es p-value = 0.07772, por lo que no se puede rechazar la hipótesis
nula al ser mayor a 0.05.
3. Conclusión Si la decisión es rechazar la hipótesis nula, se puede afirmar la hipótesis estadística
soportada por los resultados estadísticamente significativos. Si la decisión es no poder rechazar la
hipótesis nula, no hay resultados estadísticamente significativos para afirmar la hipótesis estadística.
En el caso de las valoraciones, no hay relación estadísticamente significativa entre la autopercepción de
creatividad de estudiantes y su autopercepción respecto a sus habilidades matemáticas (χ2 = 8, 4083, g.d.l. = 4,
p > 0.05).

Un caso donde sí hay relación estadísticamente significativa

R tiene un caso de estudio documentado en la base de datos occupationalStatus, la cual consta de la tabla
de contingencia del nivel de ocupación de hombres británicos (destination) y nivel de ocupación de sus
padres (origin). Ambos niveles medidos en 8 categorías:

6
occupationalStatus

## destination
## origin 1 2 3 4 5 6 7 8
## 1 50 19 26 8 7 11 6 2
## 2 16 40 34 18 11 20 8 3
## 3 12 35 65 66 35 88 23 21
## 4 11 20 58 110 40 183 64 32
## 5 2 8 12 23 25 46 28 12
## 6 12 28 102 162 90 554 230 177
## 7 0 6 19 40 21 158 143 71
## 8 0 3 14 32 15 126 91 106
La hipótesis estadística es entonces que sí hay relación entre el nivel de ocupación de hombres británicos y el
nivel de ocupación de sus padres.
chisq.test(occupationalStatus)

## Warning in chisq.test(occupationalStatus): Chi-squared approximation may be


## incorrect
##
## Pearson's Chi-squared test
##
## data: occupationalStatus
## X-squared = 1416, df = 49, p-value < 2.2e-16

Interpretación de la prueba

1. Estadístico de Prueba: X-squared = 1416, df = 49, es decir un valor χ2 de 1416 con 49 grados
de libertad.
(Cada variable tiene 8 categorías, es decir, I = 8 y J = 8, por lo tanto los grados de libertad son (8−1)(8−1) =
49)
2. Decisión: El p-valor es p-value < 2.2e-16, por lo que se puede rechazar la hipótesis nula al ser
menor a 0.05. (2.2e-16 es 2.2 ∗ 10−16 , lo cual es prácticamente cero.)
3. Conclusión: Hay relación estadísticamente significativa entre el nivel de ocupación de hombres
británicos y el nivel de ocupación de sus padres (χ2 = 1416, g.d.l. = 49, p < 0.05).

Вам также может понравиться