You are on page 1of 19

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-1

4. El Modelo de Analisis de Varianza


Variables indicadoras. de l Comparacion neas rectas. Variables categoricas. Modelos de analisis de varianza. de medias. Una v a: Comparacion

Dos v as.

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-2

Variables Indicadoras
Una variable binaria es aquella que toma solamente dos valores. E.g., s , no; presente, ausente; mujer, hombre; encendido, apagado. Las variables binarias acostumbran a denotarse numericamente mediante va 1. A saber, riables indicadoras como x = 0 o { 0 : no, ausente, mujer, apagado x= 1 : s , presente, hombre, encendido lineal Sea x una variable indicadora y considere el modelo de regresion

y = 0 + 1x +
Entonces,

y (x=0) = 0 y (x=1) = 0 + 1
son respectivamente las respuestas promedio de las mujeres, de los casos ausentes, apagados o negativos; o bien, de los hombres, de los casos presentes, encendidos o positivos. En este contexto, al parametro 1 se le llama el efecto de cambiar del estado 0 al estado 1.
E. Barrios M ODELOS L INEALES Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-3

de l Comparacion neas rectas


Ejemplo: Salarios por genero y antiguedad (Simulado) Una empresa tiene un sistema de puntos, que dependen basicamente de la muy correlacionados con el salario. Se antiguedad del empleado, y que estan una muestra aleatoria de 30 mujeres y 30 hombres y se observaron los tomo de puntos? puntos acumulados. Hay diferencia de genero en la asignacion

hombres mujeres

10

15 puntos

20

25

30

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-4

de l Comparacion neas rectas


Ejemplo: Salarios por genero (cont.)

30 hombres mujeres 25

20 puntos

15

10 y=5.88+1.01*aos y=5.19+0.76*aos

0 0 5 10 aos
E. Barrios M ODELOS L INEALES Verano 2011

15

20

25

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-5

de l Comparacion neas rectas


Ejemplo: Salarios por genero (cont.)
de medias por genero Una prueba de comparacion no rechazar a la hipotesis de igualdad de medias, con un estad stico t = 1.017 (p = 0.31). Sin embargo, gracamente pareciera que, efectivamente, hay diferencias en la asignacion de puntos por genero en un inicio y en el tiempo. Son estas diferencias signicativas? formalmente, que se puede decir de las siguientes hipotesis? Mas
0 M H H0 : 0 = 0 ; 0 M H H1 : 1 = 1

Considere entonces el modelo de regresion y = 0 + 1z + 2t + 3 zt + donde y es la respuesta puntos, z la variable indicadora que denota el genero (z = 0 si es (error) mujer, z = 1 si es hombre), t el tiempo de antiguedad en la empresa, y la variacion aleatoria. Note que 3 = 0 implica que las pendientes no dependen del genero. De otra forma, si 3 = 0, la pendiente de la recta que corresponde al hombre es 2 + 3. Similarmente, los puntos asignados en un inicio a la mujer son 0, mientras que si 1 = 0 los puntos asigna 0 + 1. dos al hombre en un inicio seran

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-6

de l Comparacion neas rectas


Ejemplo: Salarios por genero (cont.)
Estimate Std. Error t value Pr(>|t|) (Intercept) 5.18630 0.53856 9.630 1.76e-13 z 0.68888 0.71298 0.966 0.338 t 0.76163 0.03105 24.530 < 2e-16 zt 0.24965 0.04478 5.574 7.40e-07 Residual standard error: 1.148 on 56 degrees of freedom Multiple R-squared: 0.9664, Adjusted R-squared: 0.9646 F-statistic: 537.6 on 3 and 56 DF, p-value: < 2.2e-16

Estad sticamente 1 0, por lo que concluir amos que en un inicio no hay por genero puntos a los homdistincion pero en el tiempo se le acumulan mas bres (3 > 0) que a las mujeres. En promedio las mujeres ganan 0.76 puntos mientras que los hombres 0.76 + 0.25 = 1.01 puntos por ano. por ano, de Principio de Herencia (de John A. Nelder). Si en un modelo la interaccion cierto orden incluye, por ejemplo, al factor A, entonces el modelo debe incluir el efecto principal del factor A.
E. Barrios M ODELOS L INEALES Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-7

de l Comparacion neas rectas


En el modelo anterior

y = 0 + 1z + 2t + 3 zt + 1 (1 = 0) donde z es una variable indicadora, la no signicancia del estimador nos permite probar la igualdad de ordenadas al origen. Similarmente, la no 3 (3 = 0) nos permite probar la igualdad de pensignicancia del estimador dientes entre ambas rectas.

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-8

Variables Categoricas
Una variable categorica es aquella cuyos valores corresponden a categor as. E.g., turno: matutino, vespertino y nocturno; experiencia: novato, medio y experto; proveedor zona: norte, sur, este, oeste; etc. variables indiNumericamente, las variables categoricas dan lugar una o mas cadoras. Una manera de codicar la variable categorica x con k + 1 categor as es construyendo k variables indicadoras z1, . . . , zk de la siguiente manera: categor as x 1 2 3 . . k+1

z1 0 1 0 . . 0

z2 0 0 1 . . 0

...

zk 0 0 0 . . 1

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-9

Variables Categoricas
Ejemplo: Consumo domestico de electricidad a generadora de electricidad estudia el consumo domestico Una compan co del tamano y del tipo de aire acondicionado en la casa-habitacion. mo funcion de la casa (en m2), y C el tipo (4) del Sea y el consumo (kw-hr ), x el tamano aire acondicionado: sin aire, unidades de ventana, bomba y central.
Tipo de aire acondicionado Sin aire Unidades de ventana Unidad de bomba Unidad central z1 0 1 0 0 z2 0 0 1 0 z3 0 0 0 1

Podr amos construir un modelo lineal como

y = + x + 1z1 + 2z2 + 3z3 +

Montgomery and Peck (1992)

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-10

Variables Categoricas
Ejemplo: Consumo domestico de electricidad (cont.) Luego, dependiendo del tipo de aire acondicionado, los correspondientes modelos ser an Tipo de aire acondicionado Modelo
Sin aire Unidades de ventana Unidad de bomba Unidad central y y y y = + x + = ( + 1) + x + = ( + 2) + x + = ( + 3) + x +

Cuando los efectos de pasar de un estado a otro no son similares, se dice que interactuan.

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-11

Variables Categoricas
Ejemplo: Consumo domestico de electricidad (cont.) Luego, los correspondientes modelos ser an:
Tipo de aire acondicionado Sin aire Unidades de ventana Unidad de bomba Unidad central Modelo y = + x + y = ( + 1) + x + y = ( + 2) + x + y = ( + 3) + x +

que implican un consumo jo dependiendo del tipo de aire acondicionado. Si a su vez el consumo por tipo de aire acondicionado depende del (intera de la casa, el modelo general queda como cciona con) tamano

y = + x + 1z1 + 2z2 + 3z3 + 1xz1 + 2xz2 + 3xz3 +


que da lugar a los modelos
Tipo de aire acondicionado Sin aire Unidades de ventana Unidad de bomba Unidad central
E. Barrios

Modelo y = + x + y = ( + 1) + ( + 1)x + y = ( + 2) + ( + 2)x + y = ( + 3) + ( + 3)x +


Verano 2011

M ODELOS L INEALES

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-12

Modelo de Analisis de Varianza


Un modelo de analisis de varianza es un modelo lineal donde las variables independientes son todas categoricas. Modelo de analisis de varianza de una v a Igualdad de medias sencillo se le conoce como modelo de analisis El modelo mas de varianza de independiente llamada una v a y es aquel con una sola variable (categorica) factor, con a niveles o categor as. El modelo puede representarse como

yij = + i + ij , ij N(0, 2)
con j = 1, . . . , ni; i = 1, . . . , a. Note que la respuesta media para observacio nes bajo el i-esimo tratamiento es E[yij ] = E [ + i + ij ] = + i i es: Son las respuestas similares bajo los distintos Una pregunta de interes tratamientos?. O bien, Son los tratamientos iguales? Formalmente, la pre gunta la podemos plantear con la siguiente hipotesis compuesta:

H0 : 1 = = a vs. Ha : i = j , para al menos un i = j


E. Barrios M ODELOS L INEALES Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-13

Modelo de analisis de varianza de una v a Igualdad de medias


Note que

) + (yij y i) yij = y + ( yi y
Se puede mostrar que
ni a i=1 j =1
SCTCorregido

(yij y )2 =

a i=1

ni ( yi y )2 +
SCTratamientos

ni a i=1 j =1

(yij y i)2

SCResiduales

y que bajo la hipotesis nula H0 : 1 = a a 2 n ( y y ) /(a 1) i i i=1 Fa1,N a Fobs = a ni 2 i) /(N a) i=1 j =1 (yij y a donde a es el numero de niveles o categor as y N = i=1 ni, el numero total de observaciones. Si es el caso que

Fobs > Ftablas(1 ; a 1, N a)


se rechaza la hipotesis nula (al nivel de signicancia ), concluyendo que al menos las respuestas medias de 2 niveles son diferentes. El problema enton categor ces es identicar que as son las distintas.
E. Barrios M ODELOS L INEALES Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-14

Modelo de analisis de varianza de una v a Igualdad de medias


Los calculos anteriores se presentan en una tabla de analisis de varianza
Fuente de variacion Tratamientos Residuales Total Corregido Grados de Suma de Cuadrados libertad (g.l.) cuadrados (SC) medios (CM) a1 N a N 1 SCTrat SCRes SCTot SCRes/(N a) Estad stico F Valor p

SCTrat/(a 1) CMTrat/CMRes

medias son distintas, se calcula el intervalo de conanza para Para ver que todas las diferencias de medias i , y se verica si el intervalo incluye o dado por no el cero. Un intervalo del 100(1 ) % para i esta 1 1 ( i ) t1/2;N a s + , i, = 1, . . . , a; i = ni n donde i = y i , = y y s2 = CMRes = SCRes/(N a).

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-15

Modelo de analisis de varianza de una v a Igualdad de medias


Ejemplo: Resistencia de cajas de carton (lb.) de cuatro tipos distintos de Se compararon la resistencia a la compresion cajas.
Tipo A B C D 655.5 789.2 737.1 535.1 788.3 772.5 639.0 628.7 Resistencia 734.3 721.4 786.9 686.1 696.3 671.7 542.4 559.9 679.1 732.1 717.2 586.9 699.4 774.8 727.1 520.0 y = y i 713.00 756.93 698.07 562.17 682.50 si 46.55 40.34 37.20 39.86

550

resistencia (lb.) 600 650 700

750

B tipo

Devore (1995), Sec. 10.1


E. Barrios M ODELOS L INEALES Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-16

Modelo de analisis de varianza de una v a Igualdad de medias


(cont.) Ejemplo: Resistencia de cajas de carton
Response: resistencia Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 713.00 16.79 42.462 < 2e-16 tipoB 43.93 23.75 1.850 0.0791 tipoC -14.93 23.75 -0.629 0.5366 tipoD -150.83 23.75 -6.352 3.37e-06 Residual standard error: 41.13 on 20 degrees of freedom Multiple R-squared: 0.7898, Adjusted R-squared: 0.7583 F-statistic: 25.06 on 3 and 20 DF, p-value: 5.593e-07 Analysis of Variance Table Df Sum Sq Mean Sq F value Pr(>F) tipo 3 127158 42386 25.055 5.593e-07 Residuals 20 33834 1692 Total 23 160992 Individual 95% CIs For Mean Based on Pooled StDev -----+---------+---------+---------+---(----*----) (----*----) (----*----) (----*----) -----+---------+---------+---------+---560 630 700 770
M ODELOS L INEALES

Salida de R

Salida de Minitab

Level A B C D

N 6 6 6 6

Mean 713.00 756.93 698.07 562.17

StDev 46.55 40.34 37.20 39.86

E. Barrios

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-17

Modelo de Analisis de Varianza de Dos V as


El modelo de analisis de varianza de dos v as es aquel con dos variables (ca tegoricas) independientes o factores A y B , con a y b niveles respectivamente. El modelo puede representarse como

yijk = + i + j + ij + ijk , ijk N(0, 2)


con k = 1, . . . , nij ; i = 1, . . . , a; j = 1, . . . , b, donde i, j y ij denotan el efecto del factor A al nivel i, el efecto del factor B al nivel j y el efecto de del factor A con el factor B . la interaccion La respuesta media para observaciones bajo el i-esimo nivel del factor A y el j -esimo nivel del factor B es: E[yijk ] = E [ + i + j + ij + ij ] = + i + j + ij ij

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-18

Modelo de Analisis de Varianza de Dos V as


Nuevamente, note que las desviaciones respecto a la gran media pueden descomponerse como
) = ( ) + ( ) + (yij y i y j + y ij ) (yijk y yi y yj y ) + (yijk y
ijk SCTCorr

de suma de cuadrados dando lugar a la descomposicion


(yijk y ) =
2

ij

nij ( yi y ) +
2 SCA

ij

2 nij ( yj y ) + (yiju y i y j + y ) + (yijk y ij )2


2 ijk SCB SCAB ijk SCRes

En un analisis de varianza de 2 v as, se pueden probar las siguientes hipotesis:


a) Igualdad de medias factor A H0 : 1 = a = 0 b) Igualdad de medias factor B H0 : 1 = b = 0 c) Interacciones AB nulas H0 : 11 = ab = 0

con los correspondientes estad sticos F dados en la siguiente tabla de analisis de varianza.

E. Barrios

M ODELOS L INEALES

Verano 2011

Tema 4

Variables Categoricas y Modelo Analisis de Varianza

4-19

Modelo de Analisis de Varianza de Dos V as


Tabla de Analisis de Varianza
Fuente Factor A Factor B g.l. A = a 1 B = b 1 SC SCA SCB CM SCA/A SCB/B F FA = CMA/CMRes FB = CMB/CMRes p

AB AB = (a 1)(b 1) SCAB SCAB/AB FAB = CMAB/CMRes Interaccion Residuales Res = ij (nij 1) SCRes SCRes/Res Total Corregido SCTotal ij nij 1

En general, rechazamos las hipotesis nulas H0 si

FTrat > Ftablas(1 ; Trat, Res)


Rechazando alguna de las hipotesis anteriores lo siguiente por averiguar es efecto principal (i o j ) es distinto de cero, o cual de las interacciones cual ij no es nula. Esto es lo que se conoce en el analisis de varianza como comparaciones multiples .

E. Barrios

M ODELOS L INEALES

Verano 2011