Вы находитесь на странице: 1из 12

Metodología de análisis de datos

cuantitativos

Lic. Mario Trógolo

Universidad Siglo 21
Objetivos de la clase

• Repasar algunos contenidos


de la clase anterior
• Comprender la utilidad y la
lógica subyacente al análisis
de varianza (ANOVA)
• Realizar algunos ejercicios
prácticos para afianzar los
contenidos trabajados
Diferencias prueba t y ANOVA
• Las pruebas de hipótesis de dos
poblaciones consistían en poner a
prueba la hipótesis nula de igualdad de
medias de dos poblaciones, a partir de
la comparación entre dos grupos
• El ANOVA constituye un procedimiento
que permite comparar varios grupos
(tres o más) en los valores promedios
de una variable cuantitativa
ANOVA: ejemplo
Se pretende comparar si existen
diferencias en la felicidad laboral entre
trabajadores del sector público, privado, y
ONGs.
• La variable independiente se
denomina factor. La variable sobre la
Factor VD cual se buscan analizar diferencias se
denomina variable dependiente (VD)
• La lógica que subyace al ANOVA reside
G1 µ1 en considerar que las diferencias
observadas estarán dadas
parcialmente por los diferentes grupos
G2 µ2
(niveles del factor) y parcialmente por
otros factores (características
G3 µ3 individuales, por ejemplo)

Niveles del factor


El vocabulario de ANOVA

• El análisis de varianza mide la


distancia que hay entre un
Suma de cuadrados total sujeto y el promedio general.
(SCT)
“variación total” • Esta diferencia se
descompone en:
Varianza inter-grupos – La distancia que hay entre
(SCEx)
“variación explicada por el cada grupo y la media
modelo” general
– La distancia que hay entre
Varianza intra-grupos el individuo y la media de
(SCRes)
“variación debida a
su propio grupo
diferencias individuales”
ANOVA en Infostat: ejemplo

Cociente de varianzas
(SCEx / SCRes)

Varianza Varianza
Explicada Residual
(SCEx) (SCRes)
Prueba de hipótesis sobre las medias de grupos

• No se introducen cambios
conceptuales en la hipótesis nula y H0: µ1 = µ2 = µ3 =…= µk
la hipótesis alternativa H1: Al menos una de las
medias difiere
• Se rechazará H0 cuando las
diferencias debidas a los grupos
(varianza explicada) sea
significativamente mayor a las
diferencias debidas a otros
factores (varianza residual). Para
compararlas debemos calcular el
cociente entre ambas .
• Para rechazar H0 el cociente de F=
𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑑𝑎
varianza debe ser 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑟𝑒𝑠𝑖𝑑𝑢𝑎𝑙
significativamente distinto de 0
Pruebas de hipótesis sobre las medias de grupos

¿Qué tanto más grande debe ser la


parte explicada que la residual para • Para aceptar o rechazar la
que estemos autorizados a rechazar hipótesis nula debemos
H0? calcular la probabilidad de
hallar una diferencia como la
observada si la hipótesis
nula fuera cierta
• Nuevamente, se utiliza como
valor crítico para el rechazo
de H0 p<.05
0,05< X> 0,05

Rechazamos H0 Aceptamos H0
Resumen
• El análisis de varianza permite comparar tres o más grupos en
los valores promedios de una variable cuantitativa
• Contrasta la hipótesis nula que las medias de las poblaciones
son iguales
• La decisión de Rechazar H0 se basa en determinar si las
diferencias atribuibles a los grupos (varianza explicada) son
significativamente más grandes que las producidas por
azar/otros factores (varianza residual)
Ejercicio base “ira y conducción”

• Se pretende analizar si existen diferencias en


“la conducción riesgosa” entre conductores de
distintas edades (<30 años; 30-44 años; >44
años).
1. Indique cuál es: a) variable independiente; b) el factor; 3) variable
dependiente
2. Formule la hipótesis nula y la hipótesis alternativa
3. Calcule las diferencias a un nivel de confianza del 95%
4. En base a la lectura del valor de significación. ¿Cuál sería la
decisión sobre H0?
5. Señale en qué consistiría cometer Error tipo I y Error tipo II en este
caso.
Tarea: base empresas saludables_2016
• Determina si existen diferencias en la felicidad
relacionada con el trabajo feliz de trabajar en la
org_Happy W) según el sector laboral (sector al que
pertenece la empr/org ).
– ¿Qué es lo que se pone a prueba?
– ¿Cuál es la variable independiente (factor)?
– ¿Cuál es la variable dependiente?
– ¿Cuáles son las poblaciones que se comparan?
– ¿Cuál sería la hipótesis nula y la hipótesis alternativa?
– Calcule las diferencias con un nivel de confianza del 95%
– En base a la lectura del valor de significación. ¿Cuál sería la decisión
sobre H0?
– Plantee cuál sería el Error Tipo I y el Error Tipo II en este caso.
– ¿Qué sucedería si elevamos el nivel de confianza a 99%?
+ Tarea

• Se comparan las notas de un examen entre alumnos que cursaron la materia en los turnos mañana, tarde
y noche.

1. Indique cuáles son:


• a. La variable dependiente, o de salida.
• b. El factor.
• c. Los niveles del factor.
• d. La hipótesis nula.
• e. La hipótesis alternativa.

2. La siguiente es la salida (incompleta) de InfoStat®

Cuadro de Análisis de la Varianza


F.V. SC gl CM F p-valor
Modelo 33,65 0,0003
TURNO 33,65 0,0003
Error 909,11 224
Total 976,41 226

• ¿Cuáles la decisión sobre H0?


• Redacte una lectura del valor p