Вы находитесь на странице: 1из 30

MODELOS DE ELECCIN DISCRETA

Aitor Bergaretxe Fernndez

DNI: 45629603-H

En el fichero que os he dejado (fichero_de_datos.sav) aparecen diferentes variables: estamento, sexo, campus, etc. En el propio fichero podis ver (en vista de variables) la definicin de cada una de ellas, as como el significado de cada uno de los valores que toman las variables categricas. La variable INTCOM recoge la intencin de comprar artculos que contengan el logotipo de la UPV/EHU antes de ver ninguno de ellos; es decir, se trata de una intencin de compra a priori. En cuanto a las variables INNOVADOR, CLASICO y PRACTICO, recogen la puntuacin del 1 al 7 acerca de en qu medida el encuestado cree que un producto con logotipo de la UPV/EHU debe contener tales caractersticas. La variable que se tiene que explicar es la que aparece como compra*, que recoge la informacin acerca de si el individuo compra o no un determinado grupo de productos que llevan el logotipo de la UPV/EHU. En el fichero hay 49 variables de este tipo. Cada uno de vosotros deber centrarse slo en una de estas variables. Os dejo un fichero (LISTA) con el nmero de variable que os corresponde a cada uno. Lo que se pretende es que encontris el modelo logit que mejor explique el comportamiento del individuo (entre comprar o no comprar el producto) en funcin de las variables explicativas. Deberis determinar cules deben estar en el modelo y cules no, tal vez debis recodificar alguna de las variables que aparecen en el fichero, etc Es decir, debis trabajar con los datos hasta que encontris el que, en vuestra opinin, sea el mejor modelo, justificando vuestra decisin. Una vez que hayis encontrado ese modelo, deberis proceder a su interpretacin: significado de los coeficientes, modo en que vara la probabilidad de compra para los diferentes individuos en funcin de sus caractersticas; podis plantear el realizar un ejercicio de estimacin, Finalmente, y con el mismo modelo que hayis elegido (las mismas variables explicativas), deberis realizar tambin la regresin del modelo probit y comparar los resultados obtenidos con los del modelo logit (aqu no os debis extender tanto; slo se pretende que encontris semejanzas o diferencias).

Vamos a proceder al anlisis de los datos obtenidos mediante el programa SPSS para el anlisis de la variable compra8. En la siguiente tabla podemos observar que de un total de 1.742 casos, son 1.629 los incluidos en el anlisis de la variable (un 93.5% de los datos) y 113 son casos perdidos (6.5%), es decir, que no se han tenido en cuenta en el modelo.

Case Processing Summary Unweighted Casesa Selected Cases Included in Analysis Missing Cases Total Unselected Cases Total N 1629 113 1742 0 1742 Percent 93,5 6,5 100,0 ,0 100,0

a. If weight is in effect, see classification table for the total number of cases.

En esta tabla vemos como se encuentra codificada la variable compra8, la variable dependiente, que queremos explicar. La variable toma el valor 1 cuando el individuo compra el producto y 0 cuando no.

Dependent Variable Encoding Original Value No compra S compra Internal Value 0 1

Analizada la cantidad de casos procesados y la codificacin de la variable, se observa el modelo que incluye las siguientes variables explicativas: ident, satisfaccin, edad, campus, estamento, sexo, intencin de compra, innovador, clsico y prctico. No podemos incluir en el modelo de regresin todas las variables ficticias de cada una de las variables, esto se debe a que sino se producira un problema de multicolinealidad perfecta y el anlisis no sera correcto, por lo que procedemos a eliminar las variables marcadas en la siguiente tabla.

Categorical Variables Codings Parameter coding Frequency SATISF Muy poco satisfecho Poco satisfecho Ni satisfecho ni insatisfecho Satisfecho Muy satisfecho EDAD de 18-23 de 24 a 30 de 31 a 45 Ms de 45 CAMPUS ARABA BIZKAIA GIPUZKOA ESTAM ALUMNO PROFESOR PAS SEXO HOMBRE MUJER Intencin de compra No tiene intencin de a priori (antes de ver el producto) comprar S tiene intencin de comprar 1039 ,000 18 69 316 697 529 298 222 618 491 241 976 412 528 698 403 754 875 590 (1) 1,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 1,000 ,000 ,000 1,000 ,000 ,000 1,000 ,000 1,000 (2) ,000 1,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000 ,000 1,000 ,000 ,000 1,000 ,000 (3) ,000 ,000 1,000 ,000 ,000 ,000 ,000 1,000 ,000 (4) ,000 ,000 ,000 1,000 ,000

Tras realizar la regresin logstica binaria, mediante el programa SPSS, el programa nos proporciona las diferentes tablas:

Block 0: Beginning Block


Esta tabla indica el porcentaje del modelo que est explicado slo por la constante, en este caso es el 82.5%.

Classification Tablea,b Predicted Compra del artculo Observed Step 0 Compra del artculo No compra S compra Overall Percentage a. Constant is included in the model. b. The cut value is ,500 No compra 0 0 S compra 285 1344 Percentage Correct ,0 100,0 82,5

Si observamos las variables incluidas en la ecuacin, vemos que en el bloque inicial solamente incluye la constante.
Variables in the Equation B Step 0 Constant 1,551 S.E. ,065 Wald 565,587 df 1 Sig. ,000 Exp(B) 4,716

Block 1: Method = Enter


En el bloque 1, se considera el modelo con todas las variables. Obtenemos las siguientes tablas:
Omnibus Tests of Model Coefficients Chi-square Step 1 Step Block Model 534,153 534,153 534,153 df 17 17 17 Sig. ,000 ,000 ,000

Model Summary Cox & Snell R Step 1 -2 Log likelihood 976,435a Square ,280 Nagelkerke R Square ,463

a. Estimation terminated at iteration number 6 because parameter estimates changed by less than ,001.

Hosmer and Lemeshow Test Step 1 Chi-square 11,695 df 8 Sig. ,165

Contingency Table for Hosmer and Lemeshow Test Compra del artculo = No compra Observed Step 1 1 2 3 4 5 6 7 8 9 10 101 78 54 38 2 2 3 3 2 2 Expected 102,968 77,334 57,687 26,218 6,217 4,561 3,594 2,883 2,201 1,337 Compra del artculo = S compra Observed 62 85 109 125 161 161 160 160 161 160 Expected 60,032 85,666 105,313 136,782 156,783 158,439 159,406 160,117 160,799 160,663 Total 163 163 163 163 163 163 163 163 163 162

Classification Tablea Predicted Compra del artculo Observed Step 1 Compra del artculo No compra S compra Overall Percentage a. The cut value is ,500 No compra 122 78 S compra 163 1266 Percentage Correct 42,8 94,2 85,2

Variables in the Equation B Step 1a ident SATISF SATISF(1) SATISF(2) SATISF(3) SATISF(4) EDAD EDAD(1) EDAD(2) EDAD(3) CAMPUS CAMPUS(1) CAMPUS(2) ESTAM ESTAM(1) ESTAM(2) SEXO(1) INTCOMP(1) INNOVADOR CLASICO PRACTICO Constant ,444 ,653 -,676 -3,436 ,059 ,228 ,079 2,270 ,539 ,738 ,366 ,228 ,068 ,066 ,059 1,222 ,111 ,172 ,275 ,195 ,598 ,275 -,002 ,441 ,399 ,252 -1,545 -,072 -,599 -,160 ,681 ,357 ,236 ,213 ,000 S.E. ,001 Wald ,119 11,458 5,144 ,041 6,470 ,567 2,660 1,837 ,476 ,000 ,786 ,161 ,777 4,342 ,678 ,783 3,402 227,860 ,758 11,981 1,812 3,452 df 1 4 1 1 1 1 3 1 1 1 2 1 1 2 1 1 1 1 1 1 1 1 Sig. ,730 ,022 ,023 ,840 ,011 ,452 ,447 ,175 ,490 ,993 ,675 ,688 ,378 ,114 ,410 ,376 ,065 ,000 ,384 ,001 ,178 ,063 1,559 1,921 ,509 ,032 1,061 1,256 1,082 9,682 1,117 1,187 1,819 1,317 ,998 ,213 ,930 ,549 ,852 Exp(B) 1,000

a. Variable(s) entered on step 1: ident, SATISF, EDAD, CAMPUS, ESTAM, SEXO, INTCOMP, INNOVADOR, CLASICO, PRACTICO.

Esta ltima tabla es la que ms nos interesa de este bloque 1, variables en la ecuacin, mediante la cual podemos analizar la significatividad de cada variable, la conjunta e individuales y las probabilidades.

Para saber si una variable es significativa es necesario realizar el siguiente contraste de hiptesis:

: la variable explicativa no es relevante para explicar el comportamiento de compra8, no es una variable significativa. : la variable explicativa es relevante para explicar el comportamiento de compra8, es una variable significativa.

De este modo, interesa rechazar la , para ello la significacin de la variable debe ser inferior a 0.05. Por lo tanto, si el coeficiente de significatividad de una variable es inferior a 0,05, esta variable es significativa, ya que se rechaza la hiptesis nula ( ). Y si el coeficiente de significatividad de una variable es superior a 0,05, esta variable no es relevante, ya que no se rechaza la hiptesis nula. Las variables sealadas con color amarillo no son significativas: - La variable ident no es una variable significativa (sign.= 0,730 > 0,05). Se podra quitar esta variable del modelo. - La variable satisf es conjuntamente significativa (sign.= 0,022). Al analizar la significatividad individual, algunas de las variables ficticias creadas a partir de la variable satisf no son individualmente significativas mientras que otras s. Esta variable puede incluirse en el modelo. - La variable edad no es conjuntamente significativa (sign.= 0,447 > 0,05) y las variables ficticias creadas de la variable edad individualmente tampoco. En la decisin de compra no influye la edad. Podemos quitar la edad del modelo. - La variable campus no es conjuntamente significativa (sign.= 0,675 > 0,05) y, ni tampoco individualmente, da lo mismo que el individuo pertenezca al campus de Araba, al de Bizkaia o al de Gipuzkoa, podemos sacar la variable campus del modelo. - La variable estam no es ni conjuntamente significativa (sign.= 0,114 > 0,05) ni individualmente. Pero su valor es cercano a 0,05, por lo que cuando vayamos sacando variables no significativas del modelo puede que esta variable pase a ser siginificativa, que es exactamente lo que ocurrir. - La variable sexo no es relevante (sign.= 0,065 < 0,05), pero ya que no se aleja mucho del 0,05 la mantendremos en el modelo. - La variable intcomp(1) es significativa (sign.= 0,000 < 0,05). Esta variable debe incluirse en el modelo.

- La variable innovador no es significativa (sign.= 0,384 > 0,05). Que el producto sea innovador o no, no influye en la decisin de compra. Se puede sacar la variable del modelo. - La variable clsico es significativa (sign.= 0,001 < 0,05). Esta variable se dejara en el modelo. - La variable prctico no es significativa (sign.= 0,178 > 0,05), pero como ocurre con la variable estam, al sacar variables no significativas veremos cmo esta variable se convierte en significativa. Tras observar que algunas variables no son significativas, hay que eliminarlas del modelo. Pero no se sacan todas a la vez del modelo, sino que se sacan una a una, debido a que al extraer una variable, la significatividad de las dems vara y por tanto una variable que no era significativa podra convertirse en significativa. En este caso como hemos explicado anteriormente, las variables estam y prctico" pasaran a ser significativas para explicar la variable compra8. Se sacan del modelo las variables segn su coeficiente de significatividad de mayor a menor de una en una y observamos si la significatividad de alguna variable cambia. Tras diferentes pruebas he sacado del modelo las variables ident, campus, edad e innovador. As pues, las variables que son relevantes, que mejor explican el modelo y por lo tanto que se encontrarn incluidas en la ecuacin sern: Estamento, Sexo, Satisfaccin, Intencin de compra, clsico y prctico. Las tablas que se muestran a continuacin son las que nos da SPSS incluyendo en el modelo las siguientes variables: estamento, sexo, satisfaccin, intencin de compra, clsico y prctico.

Logistic Regression
En la siguiente tabla podemos observar que de un total de 1.742 casos, son 1.667 los incluidos en el anlisis de la variable (un 5.7% de los datos) y 75 son casos perdidos (4.3%), es decir, que no se han tenido en cuenta en el modelo. Podemos observar en comparacin con los resultados anteriores que lo casos incluidos en el anlisis han aumentado.

Case Processing Summary Unweighted Casesa Selected Cases Included in Analysis Missing Cases Total Unselected Cases Total a. N 1667 75 1742 0 1742 If weight is in effect, see classification table for the total number of cases. Percent 95,7 4,3 100,0 ,0 100,0

Dependent Variable Encoding Original Value No compra S compra Internal Value 0 1

Categorical Variables Codings Parameter coding Frequency SATISF Muy poco satisfecho Poco satisfecho Ni satisfecho ni insatisfecho Satisfecho Muy satisfecho ESTAM ALUMNO PROFESOR PAS SEXO HOMBRE MUJER Intencin de compra a priori (antes de ver el producto) No tiene intencin de comprar S tiene intencin de comprar 1060 ,000 19 70 324 714 540 533 719 415 772 895 607 (1) 1,000 ,000 ,000 ,000 ,000 1,000 ,000 ,000 1,000 ,000 1,000 (2) ,000 1,000 ,000 ,000 ,000 ,000 1,000 ,000 (3) ,000 ,000 1,000 ,000 ,000 (4) ,000 ,000 ,000 1,000 ,000

Block 0: Beginning Block

En este Bloque, slo se ha tenido en cuenta la constante, estando el modelo explicado por la constante en un 82.2%
Classification Tablea,b Predicted Compra del artculo Observed Step 0 Compra del artculo No compra S compra Overall Percentage a. Constant is included in the model. b. The cut value is ,500 No compra 0 0 S compra 296 1371 Percentage Correct ,0 100,0 82,2

Variables in the Equation B Step 0 Constant 1,533 S.E. ,064 Wald 572,060 df 1 Sig. ,000 Exp(B) 4,632

Variables not in the Equation Score Step 0 Variables SATISF SATISF(1) SATISF(2) SATISF(3) SATISF(4) ESTAM ESTAM(1) ESTAM(2) SEXO(1) INTCOMP(1) CLASICO PRACTICO Overall Statistics 69,032 11,540 5,852 38,822 2,740 6,650 ,601 2,280 9,453 466,856 52,121 16,169 518,909 df 4 1 1 1 1 2 1 1 1 1 1 1 10 Sig. ,000 ,001 ,016 ,000 ,098 ,036 ,438 ,131 ,002 ,000 ,000 ,000 ,000

Block 1: Method = Enter


En el bloque 1 a diferencia del bloque anterior, se considera el modelo con todas las variables que se han considerado como significativas.
Omnibus Tests of Model Coefficients Chi-square Step 1 Step Block Model 545,257 545,257 545,257 df 10 10 10 Sig. ,000 ,000 ,000

Model Summary Cox & Snell R Step 1 -2 Log likelihood 1013,989a Square ,279 Nagelkerke R Square ,459

a. Estimation terminated at iteration number 6 because parameter estimates changed by less than ,001. Hosmer and Lemeshow Test Step 1 Chi-square 8,114 df 8 Sig. ,422

Contingency Table for Hosmer and Lemeshow Test Compra del artculo = No compra Observed Step 1 1 2 3 4 5 6 7 8 9 10 103 76 63 37 5 1 5 3 1 2 Expected 105,337 79,226 60,762 28,849 6,517 4,729 3,737 3,009 2,359 1,475 Compra del artculo = S compra Observed 65 91 104 130 162 166 162 164 166 161 Expected 62,663 87,774 106,238 138,151 160,483 162,271 163,263 163,991 164,641 161,525 Total 168 167 167 167 167 167 167 167 167 163

Classification Tablea Predicted Compra del artculo Observed Step 1 Compra del artculo No compra S compra Overall Percentage a. The cut value is ,500 No compra 125 87 S compra 171 1284 Percentage Correct 42,2 93,7 84,5

Variables in the Equation B Step 1a SATISF SATISF(1) SATISF(2) SATISF(3) SATISF(4) ESTAM ESTAM(1) ESTAM(2) SEXO(1) INTCOMP(1) CLASICO PRACTICO Constant ,953 ,359 -,585 -3,434 ,217 ,114 2,281 ,208 ,205 ,165 ,222 ,064 ,054 ,473 -1,628 -,116 -,625 -,241 ,665 ,353 ,230 ,208 S.E. Wald 12,287 5,988 ,108 7,388 1,343 21,752 20,984 3,066 12,490 239,935 11,380 4,440 23,216 df 4 1 1 1 1 2 1 1 1 1 1 1 1 Sig. ,015 ,014 ,743 ,007 ,246 ,000 ,000 ,080 ,000 ,000 ,001 ,035 ,000 2,593 1,432 ,557 ,032 1,242 1,121 9,784 ,196 ,891 ,535 ,786 Exp(B)

a. Variable(s) entered on step 1: SATISF, ESTAM, SEXO, INTCOMP, CLASICO, PRACTICO.

Tras eliminar las variables no significativas del modelo, se observa en la tabla Variables en la ecuacin que las variables satisfaccin y estamento son conjuntamente significativa, pero sus algunas de sus variables ficticias creadas a partir de estas variables no son significativas individualmente. La variable estamento no la vamos a modificar porque su significatividad es muy prxima a 0,05 y no da problemas. Por otro lado, satisf(2) y satis(4) no son significativas, es decir, los individuos poco satisfechos y los satisfechos se comportan igual que los que pertenecen a la variable satisf(5), variable referencia, individuos muy satisfechos. Por lo que hemos recodificado la variable satisfaccin. Valor antiguo Valor nuevo

1 1 2 2 3 2 4 3 5 3

A la variable satisfaccin recodificada la hemos llamado satisf_rec y hemos creado tres variables ficticias. Satis_rec(1): toma el valor 1 si el individuo est muy poco satisfechoy 0 en caso contrario. Satis_rec(2): toma el valor 1 si el individuo est poco satisfecho o indiferentes y 0 en caso contrario Satis_rec(3): toma le valor 1 si el individuo esta satisfecho o my satisfecho y 0 en caso contrario. Despus de eliminar del modelos las variables no significativas y recodificar la variable satisfaccin, las variables que forman el modelos son las siguientes: sexo, estamento, intencin de compra, clsico, prctico y satisf_rec. Los resultados obtenidos son los siguientes:

Logistic Regression
En esta tabla podemos ver los casos incluidos en el anlisis 1.667 y los excluidos 75, que se han perdido.
Case Processing Summary Unweighted Casesa Selected Cases Included in Analysis Missing Cases Total Unselected Cases Total N 1667 75 1742 0 1742 Percent 95,7 4,3 100,0 ,0 100,0

a. If weight is in effect, see classification table for the total number of cases. Dependent Variable Encoding Original Value No compra S compra Internal Value 0 1

Las variables marcadas en rojo son aquellas que no se han incluido en el modelo para no incurrir en un problema de multicolinealidad perfecta.

Categorical Variables Codings Parameter coding Frequency satisf_rec 1,00 2,00 3,00 ESTAM ALUMNO PROFESOR PAS Intencin de compra a priori (antes de ver el producto) No tiene intencin de comprar S tiene intencin de comprar SEXO HOMBRE MUJER 1060 772 895 ,000 1,000 ,000 19 394 1254 533 719 415 607 (1) 1,000 ,000 ,000 1,000 ,000 ,000 1,000 (2) ,000 1,000 ,000 ,000 1,000 ,000

Block 0: Beginning Block


En este bloque, solamente se tiene en cuenta la constante. El porcentaje del modelo que es explicado por la constante es un 82,2%.
Classification Tablea,b Predicted Compra del artculo Observed Step 0 Compra del artculo No compra S compra Overall Percentage a. Constant is included in the model. b. The cut value is ,500 No compra 0 0 S compra 296 1371 Percentage Correct ,0 100,0 82,2

La tabla de clasificacin compara las predicciones con los datos muestrales observados. Para la realizacin del pronstico sobre la decisin del individuo se considera la opcin 1 (comprar) si la probabilidad estimada de que se compre es igual o mayor a 0,5 y en caso contrario elegira la opcin 0 (no comprar). -Tasa de acierto = (0 + 1.371) / 1.667 = 0,822. El modelo tiene una tasa de acierto de 82,2%.

-Tasa de error = (296 + 0) / 1.667 = 0,177. El modelo tiene una tasa de error de 17,7%. -Especificidad = 0 / (0 + 296) = 0. La especificidad es la proporcin de negativos correctos sobre el total de negativos observados. -Sensibilidad = 1.371 / (0 + 1.371) = 1. La sensibilidad es la proporcin de positivos correctos sobre el total de positivos observados. -Tasa de falsos negativos = 0. -Tasa de falsos positivos = 296 / (296 + 1.371) = 0,177. De los 1.670 individuos que se han pronosticado que iban a comprar el producto, 397 no lo compran, es decir un a un 17,7%.

Variables in the Equation B Step 0 Constant 1,533 S.E. ,064 Wald 572,060 df 1 Sig. ,000 Exp(B) 4,632

Variables not in the Equation Score Step 0 Variables ESTAM ESTAM(1) ESTAM(2) SEXO(1) INTCOMP(1) CLASICO PRACTICO satisf_rec satisf_rec(1) satisf_rec(2) Overall Statistics 6,650 ,601 2,280 9,453 466,856 52,121 16,169 62,824 11,540 48,241 516,953 df 2 1 1 1 1 1 1 2 1 1 8 Sig. ,036 ,438 ,131 ,002 ,000 ,000 ,000 ,000 ,001 ,000 ,000

Block 1: Method = Enter

Omnibus Tests of Model Coefficients Chi-square Step 1 Step Block Model 541,613 541,613 541,613 df 8 8 8 Sig. ,000 ,000 ,000

Mediante la tabla Prueba mnibus sobre los coeficientes del modelo se realiza el siguiente contraste: Ho: el modelo que slo incluye la constante y el modelo seleccionado ajustan los datos de la misma forma. H1= el modelo que slo incluye la constante y el modelo seleccionado no se comportan de la misma forma. En la tabla se observa que la significatividad del modelo es de 0,000, como es inferior a 0,05 se rechaza la hiptesis nula, el modelo que slo incluye la constante y el modelo seleccionado no se comportan de la misma forma.

Model Summary Cox & Snell R Step 1 -2 Log likelihood 1017,633a Square ,277 Nagelkerke R Square ,457

a. Estimation terminated at iteration number 6 because parameter estimates changed by less than ,001.

Esta medida de bondad de ajuste reladiona la funcin de verosimilitud del modelo con la constante y la del modelos seleccionado. El coeficiente de Cox y Snell: Este coeficiente tiene el problema de que su valor no est entre 0 y 1. El valor 0 se puede conseguir cuando las funciones de verosimilitud con las variables explicativas y slo con la constante coincidan. No se puede conseguir el valor 1 ya que si pensamos en el ajuste perfecto, en el que L(selec.) = 1, como L(cte.) no es 0, no llegara a R 2 = 1. El valor mximo de Cox y Snell se desconoce. As que, no sabemos si estamos cerca del valor mximo o no. Nos interesa que L(selec.) sea mayor que L(cte.).

Teniendo en cuenta el problema del coeficiente de Cox y Snell, Nagelkerke ser la correccin de este coeficiente, que s queda comprendido entre 0 y 1. Como es el coeficiente corregido, ser el que se va a comentar. El coeficiente de Nagelkerke siempre ser superior al coeficiente de Cox y Snell (0,457 > 0,277).

El coeficiente de Nagelkerke, cuando el modelo sea malo tomar el valor 0 o un valor prximo a 0. En cambio, cuando el modelo sea bueno, el coeficiente tomar valor

1 o un valor aproximado a 1. Como el R cuadrado de Nagelkerke del modelo seleccionado es de 0,457, se podra decir que el modelo seleccionado no es ni el modelo perfecto ni el peor modelo.
Hosmer and Lemeshow Test Step 1 Chi-square 8,393 df 8 Sig. ,396

Contingency Table for Hosmer and Lemeshow Test Compra del artculo = No compra Observed Step 1 1 2 3 4 5 6 7 8 9 10 104 71 66 39 4 2 4 2 3 1 Expected 104,175 78,254 61,234 30,226 6,378 4,898 3,775 3,061 2,428 1,571 Compra del artculo = S compra Observed 63 94 101 129 163 169 163 164 164 161 Expected 62,825 86,746 105,766 137,774 160,622 166,102 163,225 162,939 164,572 160,429 Total 167 165 167 168 167 171 167 166 167 162

En la prueba de Ajuste de Hosmer- Lemeshow se ordenan de menor a mayor las probabilidades estimadas de comprar el producto, para luego separarlas en 10 grupos. De modo que en el primer decil aparecern aquellas probabilidades estimadas ms bajas y en el ltimo decil las probabilidades ms altas. En estos grupos creados de forma artificial, el nmero de individuos que hay en cada grupo no tiene porque ser el mismo, como se observa en la tabla, debido a que en ocasiones aparecen individuos con la misma probabilidad estimada y quedan asignados en el mismo grupo.

En la Tabla de contingencias para la prueba de Hosmer y Lemeshow se observa que en el grupo 1 esperamos que 62,285 individuos elijan comprar el producto, pero en realidad lo compran 63. Por otro lado, esperamos que no compren el producto 104,175 individuos, pero en realidad no lo compran 104.

Con la prueba de ajuste de Hosmer- Lemeshow se realiza el siguiente contraste de hiptesis: Ho: el modelo ajusta bien los datos observados.

H1: el modelo no ajusta bien los datos observados. Interesa que las diferencias entre lo observado y lo estimado sean pequeas. Dicho de otro modo, interesa aceptar la hiptesis nula y para ello la significatividad del coeficiente de Hosmer- Lemeshow debe ser superior a 0,05. En este caso la significatividad de Hosmer- Lemeshow es de 0,396 (sign.> 0,05), por lo que no se rechaza la hiptesis nula, el modelo ajusta bien los datos observados.

Classification Tablea Predicted Compra del artculo Observed Step 1 Compra del artculo No compra S compra Overall Percentage a. The cut value is ,500 No compra 120 87 S compra 176 1284 Percentage Correct 40,5 93,7 84,2

El modelo seleccionado explica un 84,2%. Adems, mediante la Tabla de clasificacin se comparan las predicciones con los datos muestrales observados. Ejemplo, se pronostica que 1.450 individuos (176 + 1284) compraran el producto, pero en realidad de esos 1.450 pronosticados lo compran 1284 individuos, por lo que se comete un error de 176 individuos, los cuales no compraran el producto. En esta misma lnea, se calculan algunas medidas de bondad de ajuste basadas en la eficacia predictivas. -Tasa de acierto = (120 + 1284) / 1.667 = 0,8422. El modelo tiene una tasa de acierto del 84,22% y el modelo que slo incluye la constante tiene una tasa de acierto del 82,2%. La probabilidad de acierto del modelo seleccionado es superior al de la constante. -Tasa de error = (87 + 176) / 1.667 = 0,1577. El modelo tiene una tasa de error de un 15,77% y el modelo que slo incluye la constante tiene una tasa de error de 17,7%. La tasa de error ha disminuido al incluir variables. -Especificidad = 120 / (120 + 176) = 0,405. La especificidad es la proporcin de negativos correctos sobre el total de negativos observados. -Sensibilidad = 1284 / (1284 + 87) = 0,9365. La sensibilidad es la proporcin de positivos correctos sobre el total de positivos observados, entre los que compran se detecta el 93,65%. -Tasa de falsos negativos = 87 / (87 + 120) = 0,4202. Por tanto, de todos los que se -pronosticaron que no compraban, el 42,02% si compran. -Tasa de falsos positivos = 176 / (176 + 1284) = 0,1205. De los 1.284 individuos que se han pronosticado que iban a comprar el producto 176 no lo compran, un 12,05%.

Variables in the Equation B Step 1a ESTAM ESTAM(1) ESTAM(2) SEXO(1) INTCOMP(1) CLASICO PRACTICO satisf_rec satisf_rec(1) satisf_rec(2) Constant -1,463 -,367 2,119 ,650 ,171 ,451 ,922 ,346 -,576 -3,431 ,220 ,114 ,207 ,205 ,165 ,221 ,064 ,054 S.E. Wald 20,639 19,870 2,850 12,175 240,482 11,828 4,466 8,703 5,068 4,588 22,114 df 2 1 1 1 1 1 1 2 1 1 1 Sig. ,000 ,000 ,091 ,000 ,000 ,001 ,035 ,013 ,024 ,032 ,000 ,231 ,693 8,325 2,515 1,413 ,562 ,032 1,246 1,121 Exp(B)

a. Variable(s) entered on step 1: ESTAM, SEXO, INTCOMP, CLASICO, PRACTICO, satisf_rec.

Anlisis de las variables: Contraste hiptesis: Ho: la variable explicativa no es relevante en el modelo, es decir, no es una variable significativa, no sirve para explicar la variable compra8. H1: la variable explicativa influye en la decisin de compra, es decir, es una variable significativa. De este modo, si la significatividad de la variable es inferior a 0,05 se rechaza la hiptesis nula, i.e., es una variable significativa. Por lo contrario si la significatividad es superior a 0,05 no se rechaza la hiptesis nula, por lo que la variable no es significativa. -Estamento: La variable estamento es una variable conjuntamente significativa, ya que su significatividad es inferior a 0,05 (sign.= 0,000 < 0,05). Estam(3) se queda fuera del modelo como variable de referencia. Estam(2) est cerca del 0,05 por lo que no causar ningn problema, luego, estam(1) y estam(2) son variables relevantes. El pertenecer a un estamento o pertenecer a otro si influye en la decisin de compra.

PAS es la variable referente. Estam(1) y estam(2) (estamentos de alumno y profesor), tienen coeficientes positivos. Esto supone que la probabilidad de compra de estos dos estamentos en cuanto la variable compra8 es superior al estamento de PAS. Adems, la probabilidad de compra del producto 8 es mayor entre los alumnos (0,922) que entre los profesores (0,346).

-Sexo: La variable sexo es relevante ya que su sign.= 0,000 < 0,05, por lo que los hombres y mujeres se comportan de forma diferente a la hora de comprar el producto 17. Mujer es la variable referente. Tras observar que la de sexo (1) es -0,576 y que es una variable significativa, podemos decir que los hombres tienen menor probabilidad de compra del artculo en cuestin. -Intencin de compra: La variable intcomp(1) es relevante ya que su sign.= 0,000 < 0,05, de modo que el comportamiento de comprar o no comprar ser diferente si hay intencin de compra o no. Intcomp (2) es la variable referencia, queda fuera del modelo. Intcomp(2) es la variable referente (el individuo si tiene intencin de compra a priori). -3,343, es lgico que los que no tengan intencin de compra tengan menor posibilidad de compra. -Clsico: La variable clsico es significativa ya que (sign.= 0,001 < 0,05). Que al individuo le gusten los productos clsicos o no, influye en la decisin de compra del individuo. Tiene signo positivo. Por lo tanto, un individuo que valore con un valor mayor los productos clsicos tendr una mayor probabilidad de compra. -Prctico: La variable es significativa ya que sig < 0,05, por lo tanto, que el producto sea prctico o no influye en la decisin de compra de los individuos. Tiene signo positivo, por tanto un individuo valora ms un producto prctico que uno que lo sea. -Satisfaccin (satis_rec): La variable satis_rec es una variable conjuntamente relevante, al igual que las variables ficticias creadas a partir de esta. Satis_rec es la variable recodificada de satisfaccin. Como ya se ha mencionado a lo largo del trabajo, las cuatro variables ficticias son: satis_rec(1) si el individuo est muy poco satisfecho o poco satisfecho, satis_rec(2) si el individuo est indiferente, satis_rec(3) si el individuo est satisfecho y satis_rec(4) si el individuo est muy satisfecho. En este caso la variable referente, la cual queda fuera del modelo, es satis_rec(3), compuesta por satisf(4) y satisf(5). En la tabla Variables en la ecuacin los coeficientes de las variables satis_rec son negativos (a menor satisfaccin, menos probabilidad de compra).

LOGIT
Warnings There are 692 (43,9%) cells (i.e., dependent variable levels by combinations of predictor variable values) with zero frequencies.

Case Processing Summary Marginal N Compra del artculo No compra S compra ESTAM ALUMNO PROFESOR PAS SEXO HOMBRE MUJER satis_rec 1,00 2,00 3,00 Intencin de compra a priori (antes de ver el producto) No tiene intencin de comprar S tiene intencin de comprar Valid Missing Total 1060 1667 75 1742 63,6% 100,0% 296 1371 533 719 415 772 895 19 394 1254 607 Percentage 17,8% 82,2% 32,0% 43,1% 24,9% 46,3% 53,7% 1,1% 23,6% 75,2% 36,4%

En la tabla anterior vemos que los casos incluidos en el anlisis son 1.667, mientras que 75 casos no se han incluido, luego se han perdido. En la tabla se distribuyen los casos vlidos entre las categoras de las variables explicativas y la decisin de comprar o no comprar (el 17,8% no ha comprado el producto y el 82,2% lo ha comprado) Por otro lado, la variable intencin de compra se distribuye de esta manera: el 36,4% no tiene intencin de comprar el producto, en cambio el 63,6% si tiene intencin.
Model Fitting Information Model Intercept Only Final Link function: Logit. -2 Log Likelihood 1322,474 780,861 541,613 8 ,000 Chi-Square df Sig.

Esta tabla nos muestra los valores de -2 log de la verosimilitud del modelo que solo incluye la constante (1.410,148) y del modelo seleccionado (724,141). El valor de la Chi-cuadrado se obtiene de la diferencia de los -2log de la verosimilitud del modelo que solo incluye la contante y el modelo. El modelo es conjuntamente significativo, el modelo seleccionado y el modelo constante son diferentes, su significatividad es inferior al 0,05.
Goodness-of-Fit Chi-Square Pearson Deviance Link function: Logit. 880,683 623,862 df 779 779 Sig. ,006 1,000

La desviacin es un estadstico que compara dos funciones de verosimilitud, la del modelo seleccionado y la del saturado y adems sigue una distribucin Chi- Cuadrado. De este modo, se formula el contraste de hiptesis: Ho: los modelos (seleccionado y saturado) explican lo mismo. H1: los modelos no explican lo mismo. En este caso nos interesara no rechazar la hiptesis nula. La tabla nos da una significatividad del 1,000, indica la probabilidad de que se cumpla la hiptesis nula. Al ser 1, no rechazamos la hiptesis nula y por tanto aceptamos que el modelo seleccionado y el saturado son igual de buenos. El modelo seleccionado es bueno.
Pseudo R-Square Cox and Snell Nagelkerke McFadden Link function: Logit. ,277 ,457 ,347

El valor del R- cuadrado de Nagelkerke es superior al de Cox y Snell y el valor de Nagelkerke es superior al de McFadden. El R- cuadrado de McFadden: McFadden propone como medida de bondad de ajuste el ndice del cociente de verosimilitud (ICV), el cual relaciona la funcin de verosimilitud del modelo seleccionado con la funcin de verosimilitud slo de la constante. ICV= 1-ln L (seleccionado)/ln L (constante) El ndice ICV esta entre 0 y 1. Cuando el poder explicativo es muy alto (cuanto mayor sea la diferencia entre el numerador y el denominador del cociente) el valor de ICV ms se acerca a 1. Pero cuando el poder explicativo es pequeo (poca diferencia entre el numerador y el denominador del cociente), el valor de ICV se acerca a 0.

Esta medida de bondad de ajuste suele proporcionar un valor no muy grande. En este caso McFadden toma un valor de 0,347, no es un valor muy alto pero como no indica que el modelo no sea adecuado

Parameter Estimates 95% Confidence Interval Estimate Threshold Location [compra8 = ,00] PRACTICO CLASICO [ESTAM=1,00] [ESTAM=2,00] [ESTAM=3,00] [SEXO=1,00] [SEXO=2,00] [satis_rec=1,00] [satis_rec=2,00] [satis_rec=3,00] [INTCOMP=,00] [INTCOMP=1,00] Link function: Logit. a. This parameter is set to zero because it is redundant. -2,119 ,114 ,220 ,922 ,346 0a . -,576 0a . -1,463 -,367 0a . -3,431 0a . ,221 . ,650 ,171 . 240,482 ,165 . 5,068 4,588 Std. Error ,451 ,054 ,064 ,207 ,205 . 12,175 Wald 22,114 4,466 11,828 19,870 2,850 df 1 1 1 1 1 0. 1 0. 1 1 0. 1 0. ,000 . ,024 ,032 . -3,864 . ,000 . -2,737 -,702 . -2,997 Sig. ,000 ,035 ,001 ,000 ,091 . -,899 . -,189 -,031 Lower Bound -3,003 ,008 ,095 ,517 -,056 . -,252 Upper Bound -1,236 ,220 ,346 1,328 ,747

El modelo (logit) seleccionado es: Xi = -2,119 + 0.922estam(1) + 0,346estam(2) 0,576sexo(1) 3,431intcomp + 0,220clasico + 0,114practico - 1,463satis_rec(1) 0,367satis_rec(2)

PROBIT
Warnings There are 692 (43,9%) cells (i.e., dependent variable levels by combinations of predictor variable values) with zero frequencies.

Case Processing Summary Marginal N Compra del artculo No compra S compra ESTAM ALUMNO PROFESOR PAS SEXO HOMBRE MUJER satis_rec 1,00 2,00 3,00 Intencin de compra a priori (antes de ver el producto) No tiene intencin de comprar S tiene intencin de comprar Valid Missing Total 1060 1667 75 1742 63,6% 100,0% 296 1371 533 719 415 772 895 19 394 1254 607 Percentage 17,8% 82,2% 32,0% 43,1% 24,9% 46,3% 53,7% 1,1% 23,6% 75,2% 36,4%

Model Fitting Information Model Intercept Only Final Link function: Probit. -2 Log Likelihood 1322,474 779,616 542,858 8 ,000 Chi-Square df Sig.

Goodness-of-Fit Chi-Square Pearson Deviance 891,876 622,617 df 779 779 Sig. ,003 1,000

Link function: Probit.

Pseudo R-Square Cox and Snell Nagelkerke McFadden Link function: Probit. ,278 ,457 ,348

Parameter Estimates 95% Confidence Interval Estimate Threshold Location [compra8 = ,00] PRACTICO CLASICO [ESTAM=1,00] [ESTAM=2,00] [ESTAM=3,00] [SEXO=1,00] [SEXO=2,00] [satis_rec=1,00] [satis_rec=2,00] [satis_rec=3,00] [INTCOMP=,00] [INTCOMP=1,00] Link function: Probit. a. This parameter is set to zero because it is redundant. -1,033 ,072 ,132 ,506 ,185 0a . -,320 0a . -,861 -,215 0a . -1,826 0a . ,104 . ,356 ,099 . 310,209 ,094 . 5,853 4,735 Std. Error ,247 ,031 ,037 ,119 ,115 . 11,668 Wald 17,499 5,359 13,122 18,188 2,587 df 1 1 1 1 1 0. 1 0. 1 1 0. 1 0. ,000 . ,016 ,030 . -2,029 . ,001 . -1,559 -,408 . -1,622 Sig. ,000 ,021 ,000 ,000 ,108 . -,504 . -,164 -,021 Lower Bound -1,517 ,011 ,061 ,273 -,040 . -,136 Upper Bound -,549 ,132 ,204 ,738 ,411

Los modelos de logit y probit se basan en el mismo planteamiento bsicamente. La distribucin de probabilidad es la que cambia. El modelo logit utiliza la distribucin logstica y el modelo probit utiliza la distribucin normal. Mediante las tablas de Informacin sobre el ajuste de los modelos, Bondad de ajuste y Pseudo R-cuadrado, las conclusiones obtenidas son iguales que en logit.

Las diferencias se ven en los coeficientes de las variables, en la tabla Estimaciones de los parmetros. Pero los signos de esas variables son los mismos, las variables que en el modelo logit tenga signo positivo en el modelo probit tambin tienen signo positivo. Lo que ocurre con los que tienen signo negativo tambin. Es decir, aunque el coeficiente es diferente, el efecto es el mismo tanto en logit como en probit.

El modelo (probit) seleccionado es: Xi = -1,033 + 0,506 estam(1) + 0,185 estam(2) 0,320 sexo(1) 1,826 intcomp + 0,132clasico + 0,072practico 0,861satis_rec(1) 0,215satis_rec(2)

EJERCICIO DE ESTIMACIN
Probabilidad de compra del producto 8 para individuos con las siguientes caractersticas: lo prctico lo valora con un 3, lo clsico lo valora con un 2, pertenece al estamento = 1, sexo =1, intencin de compra = 0 y satisfaccin (variable recodificado) = 1.

El modelo (logit): Xi = -2,119 + 0.922 * 1 + 0,346 * 0 0,576 * 1 3,431 * 0 + 0,220 * 2 + 0,114 * 3 1,463 * 1 0,367 * 0 = - 2,454 P (xi ) = e-2,454 / 1 + e-2,454 = 0,0791 7,91% la probabilidad que tiene el individuo con las caractersticas mencionadas de comprar el producto 8. El modelo (probit): Xi = -1,033 + 0.506 * 1 + 0,185 * 0 0,320 * 1 1,826 * 0 + 0,168 * 2 + 0,072 * 3 0,861 * 1 0,215 * 0 = - 1,156 P (xi ) = (xi ) = (- 1,156) = 1- (1,156) = 1- 0,8770 = 0,123 12,30 % la probabilidad que tiene el individuo con las caractersticas mencionadas de comprar el producto 8.

ARTCULO:
Desde un primer momento se puede comprobar que la muestra elegida por el Instituto Vasco de Evaluacin e Investigacin (IVEI) como representacin de los escolares de cuarto de la ESO del Pas Vasco es una muestra totalmente sesgada y que invalida cualquier resultado. En primer lugar, la muestra analizada no es una muestra aleatoria, es ms, antes de realizarla se eliminaron todos aquellos escolares que no llegaban a un mnimo de euskera mediante un examen eliminatorio. En segundo lugar, la forma de seleccionar territorialmente al grupo a analizar es escasamente representativa de la realidad vasca ya que la muestra da mayor representacin a los centros de las zonas ms euskaldunizadas, a pesar de ser minora, y a los centros ms pequeos frente a los ms grandes. Por ltimo, aunque en la noticia se exponga como un error el que no se tuvo en cuenta la proporcin de alumnos del modelo A, que en el 2005 representaba casi un tercio del alumnado matriculado, creo que la no consideracin de este estrato del alumnado es correcto debido a que la investigacin pretende analizar los resultados de la nueva reforma lingstica donde pasara a desaparecer el modelo A.

Вам также может понравиться