Вы находитесь на странице: 1из 50

MODELOS DISCRIMINNTE CASO 1 SPSS 18

PASOS Problema de DOS GRUPOS

EN SPSS

TENEMOS VISTA DE VARIABLES DONDE CARGAMOS LAS VARIABLES Y TENEMOS VISTA DE DATOS
DONDE CARGAMOS LOS DATOS.

VAMONOS A VISTA DE VARIABLES (PARA ESPECIFICAR LAS VARIABLES DE NUESTRO MODELO)

VARIABLE Y VOY A LLAMAR GRUPO (mi variable y que por regla general voy a llamar grupo)

Y LAS VARIABLES X2 ( TEST MECANICA) X3(TEST VERBAL) SON VARIABLES CUANTITATIVAS

LA VARIABLE Y O GRUPO SIEMPRE VA SER UNA VARIABLE CUALITATVA

¿POR QIE VA SER UNA VARIABLE CUALITATIVA?

R.- Porque va tomar atributos

1 es satisfactorio

2 no es satisfactorio

1 es riesgozo

2 no es riesgozo

1 es cliente potencial

2 es cliente intermedio

Y asi sucesivamente.
Variable y

Variable x2= test score


Mecánica

Variable X3=test score


verbal

Vista de variables

A mi no me interesan las pestaña tipo, decimales y etiqueta, me voy a la pestaña de valores,

Ahí en la pestaña de valores Le doy un click. Ahí en la pestañas de valores lo que hago es asignarle
valor y etiqueta a estos atributos.

1 Es Satisfactorio (en valor escribo el valor 1, luego en etiqueta escribo satisfactorio luego procedo
añadir)

2 Es Insatisfactorio ( se hace lo mismo que el anterior)


¿ cuando voy a utilizar esa columna de valores? cuando la variable sea cualitativa y tenga atributo.

Después de colocar el nombre y las categorías a mis variables ( ojo en variables x2 y x3 solo coloco
mecánica y verbal no utilizo la pestaña valores)

Vénganse a vista de datos

Abrir hoja de calculo con los datos de la mismahoja de word.

La hoja selección de trabajo copien solamente los datos

Hoja seleccion de
trabajo

Luego peguen en vista de datos

Ojo solo estoy copiando los valores de grupo, mecánica y verbal. No estoy copiando la columna
observaciones.
Asi se ven nuestros datos, pero fijense que la variable grupo es una variable cualitativa, entonces
tengo que dar cambiar texto por la variable, aparece la etiqueta del texto de la variable.

Ir a la pestaña cambiar etiqueta de VALOR

cambiar etiqueta de
VALOR le doy un click
para cambiar la
etiqueta de grupo

Una vez le den click se ve asi:


Cambio a satisfactorio (1)

E insatisfactorio (2)

YA TENEMOS NUESTRAS VARIABLES, YA TENEMOS TODOS NUESTROS DATOS AHORA LO SIGUIENTE


ES QUE EL SPSS HAGA TODO EL TRABAJO. MIN 48.41 -285

EN ESTA PARTE EL CALCULO LO VA HACER EL PROGRAMA, UNA VEZ QUE TENGO TODO ME VENGO
A LA PESTAÑA ANALIZAR.( como les decia la pestaña analizar, el spss es un herramienta mas
poderosa que hay para marketing, en economia, fijense que tiene desde analisis de stadistica
descriptiva hasta las redes neuronales que se utilizan para hacer forecast inteligentes. “estas redes
neuronales lo que hacen es auto aprender en base a como autoaprenden tratan de
proyectarse.Son bastante poderosa estas tecnicas de forecast).

Bien en este modelo lo que vamos hacer ir BASICAMENTE A LO QUE NOS INTERESA:

Lo que nos interes es:

CLASIFICAR.

*VAYANSE A LA PESTAÑA ANALIZAR (dentro de vistade Datos) Y SELECCIONEN CLASIFICAR Y


DENTRO DE CLASIFICAR SELECCIONEN LA TECNICA LLAMADA DISCRIMINANTE.
Bien nos sale esta ventana.

Selecciono la variable grupo y lo llevo al lado derecho.(variable de agrupacion)

Luego le doy definir rango y coloco (1-2) luego de se le da CONTINUAR.

Despues seleccino las variables mecanica y verbal para trasladarlos a lado derecho donde dice
variable Independiente.
Variab. “Y” o
independiente pasado a
este lado.(GRUPO)

Seleccionando rangos de 1-
2(sale de los dos valores :

1) satisfactorio

2) insatisfactorio

Si pueden ver aquí dice INTRODUCIR INDEPENDIENTES JUNTAS (ya esta seleccionado), por defecto
dejenlo así.

De aquí en adelante es solo tiquear.

Ingresemos rapidamente a estadisticos.


Aquí selecciono
estadísticos.

Me salió la ventana : Analisis Discriminante Estadísticos.

Selecciono o tiqueo todo en estadisticos.

Luego le doy Continuar.

Donde dice Clasificar tiqueen:

 Probabilidades Previas (Todos los grupos Iguales)


 Visualizacion (Resultados para cada caso)

 Usar matrices de Covarianza (por defecto dejenlo en INTRA GRUPOS)

 En graficos ( tiquen todo : grupos combinados, grupos separados , mapas territorial)

Como se puede ver en el siguiente grafico:

Demosle continuar . ahora Finalmente donde dice GUARDAR Tiqueen los tres:

 Grupo de pertenencia pronosticado

 Puntuaciones discriminates

 Probabilidades de pertencia al grupo

. Luego denle continuar.


Donde dice BOOSTRAT no vamos seleccionar nada porque no lo vamos a utilizar.

Si todo es correcto le doy ACEPTAR

Se van a activar un conjunto de comandos, esto funciona igual que el i eviews,


Nos aparecen un monton de cuadros a los que voy a interpretar solo los que nos interesan a
continuacion.

Ojo estos cuadros nos aparecen en una nueva VENTANA de SPSS LLAMADA RESULTADO

Grabacion 285 min 1:15:22

Comienzo de grab 286

Bien ¿Qué me interesa cuando yo hago un modelo discriminante?

R.- Necesito responder tres preguntas:

La primera pregunta que debo responder es:

 ¿DE ESTAS VARIABLES INDEPENDIENTES QUE YO TENGO EN EL MODELO CUALES SON


IMPORTANTES?? ¿Qué VARIABLES INDEPENDIENTES SON IMPORTANTES?

 ¿QUÉ FUNCIONES DISCRIMINANTES SON IMPORTANTES?

 ¿Cuál ES EL PODER DE EXPLICACION DEL MODELO?

 FORECAST

Vamos por cada una des estas preguntas, fijense que el SPSS me arroja un monto de cuadros,

El primer cuadro que es:


resumen de analisis de casos= Nada mas me dice ¿cuantas observaciones tengo? y de esa
observaciones ¿cuantas puedo utilizar?

Fijense tengo 20 observaciones en total puedo utilizar el 100% de esas 20 observaciones.

Ahora si tuviera un valor perdido fijense en su pestaña datos ustedes tienen:

Grupo-mecanica-verbal

Y= x2 x3

Y si tuviera un valor perdido por ejemplo alguien no respondio o alguien no hiso el test

Por lo tanto no tendria un dato en spss, automaticamente excluye a ese individuo, lo toma como
un valor perdido, como no tiene suficiente catidad de informacion lo que va ser es agarrar y
excluirlo.En este caso fijense que no tenemos ningun valor perdido, el primer cuadro es mas que
todo de control.

El segundo cuadro lo unico que hace es darme un resumen estadistico de cuanto es la media, de
cuanto es la desviacion estándar por grupo de los que tienen un desempeño satisfactorio, por
grupo de los que tienen un desempeño insatisfactorio y por ultimo por todos los
empleado.primero lo esta separando por grupo y despues lo esta consolidadando el total.
Ahora no se le da mucha importancia al primer cuadro ni al segundo, lo que me interesa es el
TERCER CUADRO.

Prueba de Igualdad de Media de GRUPOS (esto me interesa)

Pensemos en lo siguiente la primer pregunta que tengo que responder es :

1 ¿Qué VARIABLE INDEPENDIENTE SON IMPORTANTES EN EL PROCESO DE DISCRIMINACION?

Piensen en este modelo porfavor suponga que yo quiero construir un modelo discriminante en
el cual los grupos (variable “Y”) sean sean el status social de las personas : de clase media, de
clase alta y de clase de baja. Y asuman que las variables que condiciona este proceso
discriminante de clase social alta media y baja es: el ingreso, los años de educacion y luego ahí
tengo una variable cualitativa como la creencia de la persona, si es protestante, si es catolico, si
es adventista, o lo que ustedes quieran.

Entonces tres Variables, ya el grupo esta compuesto por la clase social.

Bien podria suponer que la primer variable es importante, el nivel de ingresos de las personas,
entonces deberia asumir que aquellas personas que pertenescan a la clase alta en promedio van
a tener un mayor nivel de ingreso que aquellas que pertenecen a la clase social baja.sí, ahora si
esto es cierto tengo grupo1-grupo2-grupo3, si esto es cierto una variable de discriminacion es el
salario o el ingreso, el promedio de esta clase tendria que ser mayor que este promedio e
indudablemente mayor que este otro promedio, osea los promedios de la personas de clase
social alta desde el punto de vista de su salario tiene que ser mayor ¿ para qué? Para que tome
esa variable como una variable que me permita discriminar, no tendria sentido tomar el salario
como una variable que me permita discriminar si todos tienen el mismo salario. Si todos ganan
lo mismo, si todos tienen el mismo ingreso sencillamente esa variable no me esta ayudando a
discriminar entre clase social. Por lo tanto

Es una perdida de tiempo tomar en cuenta esa variable.

Entonces el tercer cuadro de PRUEBA DE IGUAL DE MEDIAS ENTRE GRUPOS me permite ver si la
variable que integran el modelo son o no son importante en el proceso de discriminacion. Y si no
son importantes indudablemente las puedo excluir. Al final recuerden que estos programas
aguantan todo. Ustedes le pueden meter treinta variables pero la pregunta de las treinta
variables independientes cuales son ls que aportan y cuales no?

Entonces si comienzo con este cuadro vamos a tratar de resonder la primer pregunta.

1¿Qué variables on importantes en el proceso de discriminacion?

Para ello observen que en la primer columna tengo un lambda de wilks.Entonces

 si este lambda de wilks es proximo a cero “0” la variable es importante ( en otras


palabras la variable si me ayuda en el proceso discriminante.

Por otro lado

 si este lambda de wikks es proximo a “1” la variable no es importante( la variable no me


ayuda en el proceso de discriminacion).

Esta es una primer forma de como saber si la variables es o no importante.

Por ejemplo si yo observo el lambda de wikks de mecanica me 0,49 entonces quizas podria
suponer que la variable es importante, pero si me fijo en el otro lambda de wilks el valor del otro
lambda de wilks es de 0,83 entonces ese valor estamas proximo a 1 ahí tengo mas certeza de
que esa variable no es importante.

Ahora como salgo de dudas el lambda de wilks es una primera aproximacion para saber si es o
no es importante ¿Cómo salgo de duda?

La forma mas practica de salir de dudas es plantear nuevamente el test de hipotesis.

La ultima columna es el p-value, entonces en que consiste la prueba de hipotesis :

Paso 1 PLANTEO LA HIPOTESIS

Hipótesis Nula H0: Ẍi = Ẍj (La variable no es importante) 15;52 min286

Hipótesis Alternativa H1 : Ẍi ≠ Ẍj (la variable si es importante)

“aquí yo digo que la media del grupo “i” es diferente a la media del grupo “j”. ¿Qué
significa que sea diferente? Significa que este grupo de aca tiene un promedio
Diferente de este grupo de acá por lo tanto si hay diferencia entre clase social medido a
través de ingresos. Para el caso, entonces si yo llego a rechazar esta hipótesis (Ho) y
aceptar esta (H1) yo diré que la variable si es importante.

Paso 2 PLANTEAR LA CANTIDAD DE ERROR EN LA PRUEBA o NIVEL DE SIGNIFICACION


ESTADISTICA gr 16

“(Determino el nivel de significación estadística, este nivel de significación está referido


a la cantidad de error que estoy dispuesto a tolerar en una prueba estadística, la cual
puede ser:

0.01 (1%) - 0.05 (5%) – 0.10 (10%)

Pero esto depende básicamente del investigador, no hay nada que diga que yo no puedo
utilizar por ejemplo un 0.03 (3%), ó 0.07 ( 7%).

Nivel de significación Estadística = 5% = 0.05

Paso 3 APLICAR LA REGLA DE DECISION

Y la regla de decisión que nosotros vamos a utilizar aquí es la misma que nosotros vimos
en modelo de regresión, esa regla de decisión se aplica para pruebas tan sencillas como
pruebas de media que vimos en estadística II o como pruebas de raíces de tallet.

La regla de decisión aquí no cambia “yo digo que el p value (pivaliu) si es mayor al nivel
de significación estadistica yo debo aceptar la Hipótesis Nula (H0)

“este pivaliu esta en la ultima columna del cuadro de Prueba de Igualdad de Media de
GRUPOS con el nombre de *Sig*”.

p-value > α Aceptar H0

Por otro lado si el p value (pivaliu) es menor al nivel significación yo debo rechachazar la
Hipotesis Nula (H0). “este pivaliu esta en la ultima columna del cuadro de Prueba de
Igualdad de Media de GRUPOS con el nombre de *Sig*”.
p-value < α Rechazar H0

“nota= si rechazo la hipótesis nula, solo me queda la hipótesis Alternativa y este me dice
que la VARIABLE SI ES IMPORTANTE O SIGNIFICATIVA”.

En cambio sí Acepto la hipótesis Nula, esto quiere decir que la variable NO ES


IMPORTANTE O SIGNIFICATIVA. Aquí hay que hacer un análisis lógico y comparar con el
paso 1.

Bien entonces lo que queda aca es definir el nivel de significación, vamos a ser mas
rigurosos en nuestra prueba estadística asumiendo que solamente tengo 20
observaciones que es un numero pequeño desde el punto de vista estadístico y además
de eso apenas tengo tres variables. Entonces asigno un 1% qe para efectos de análisis se
reescala a 0.01.

Lo siguiente que queda es aplicar la regla de decisión

Yo tengo aquí mi p-value, y el nivel de significación que es 0.01

¿Cuánto es el p-value asociado a la primer variable?

0.00<0.01 rechazar H0,

Por lo tanto ¿qué aplica aquí? Que este nivel de significación en este caso es mayor
que mi p-value, entonces tengo que rechazar la hipótesis nula por lo tanto el nivel de
significación si es importante. Entonces todo gira en función de la hipótesis nula, en
lo que pase con hipótesis nula yo tomo una decisión respecto a la Hipótesis Alterna
por lo tanto rechazo la hipótesis nula y lo que me queda es la hipótesis alterna ¿qué
sugiere aceptar la hipótesis alterna? Que la media del grupo 1 en este caso es
mecánica es diferente a la media del grupo 2 en el caso de mecánica por lo tanto la
variable mecánica si me está ayudando en el proceso discriminante.

0.080 > 0.01 aceptar H0,

Aquí el p-value es mayor que el nivel de significación eso ¿qué implica? Aceptar la
Hipotesis Nula. si yo acepto la hipótesis nula estoy sugiriendo que la media del grupo
1 es similar a la media del grupo 2 en este caso es verbal, Por lo tanto esa variable
verbal no me está ayudando a Discriminar los datos.
En este primer cuadro me permite responder la primer pregunta ¿qué variables
independientes son importantes en el proceso de discriminación?

Cuando veamos los siguientes ejemplos va tomar mucha pero mucha importancia
estas variables de aca.

En este cuadro podemos ver que la variable mecánica grab 25-286

Bien que más me sirve de todos estos output que tenemos acá, sabemos que todos
estos cuadros son extremadamente importante, me permiten responder la primer
pregunta.

Lo que si voy a utilizar es estos cuadros de acá:

RESUMEN DE LAS FUNCIONES CANÓNICAS DISCRIMINANTES

Y nuevamente aparece un lambda de wilks.(sobre el cuadro de AUTO VALOR SE


HACE EL ANALISIS) Ahora la segunda pregunta que debo responder:

 2¿QUÉ FUNCIONES DISCRIMINANTES SON IMPORTANTES?

Ahora para construir todo esto yo tuve que haber construido mediante un modelo de
regresión (diferente a un modelo de regresión lineal).

Bueno entonces va existir una función discriminante,


A lo que iba ¿qué funciones discriminantes son importantes? Y ¿que tiene que ver
acá el tema de las funciones discriminantes?

Partan de esta idea: Yo quiero aplicar un proceso discriminante para efectos de


seleccionar un universo de consumidores, con una escala alta, una escala intermedia,
y una escala baja. ¿Cuántos grupos tendría ahí?

R.- tengo tres: consumidores con escala alta, media y baja.

Pero ¿Qué tal si en vez de esos tres grupos en realidad solo existen dos:

 Los que tienen un escala alta de consumo y

 Los que tienen una escala baja de consumo

Y se acabó. Fijen si hablo del tema de créditos generalmente es asi. O Cumple o No


Cumple, se acabó también no hay parciales o cumplió o no cumplió y listo no hay
parciales. Entonces yo quizás podría suponer que hay estos tres grupos de consumidores
pero en realidad existen dos entonces cuando hago este TES DE FUNCIONES
DISCRIMINATES yo voy hacer capaz de decir SI REALMENTE DEBERIAN EXISTIR TRES
GRUPOS O DEBERIAN EXISTIR DOS GRUPOS o si de los 6 grupos que pienso que existen
solo deberían existir 3 o quizás 2.

Entonces yo hago un test sobre las funciones del modelo discriminante, en base a eso
digo si la cantidad de grupos que creo que existen es la adecuada. O por ahí tengo un
grupo de sobra en realidad no tiene sentido estar.

Entonces ¿Cuántas funciones discriminantes yo tengo en este modelo?

Cuando yo construyo un modelo discriminante en SPSS:

el número de funciones discriminantes es igual al número de grupos menos1

Numero de funciones Discriminantes = Numero de GRUPOS - 1

Bien ¿cuantos grupos tengo?

R.- dos (2):

1 satisfactorio

2 insatisfactorio

Nro de Funciones= 2-1>1

Entoncs tengo una funcion Discriminante


Por eso aquí en este cuadro aparece funcion 1 (EN EL CUADRO DE LAMBDA DE WILKS TIENE EL
NOMBRE DE CONTRASTE DE LAS FUNCIONES), fijense que tengo una (1)FUNCION
DISCRIMINANTE y ademas de eso tengo VARIANZA ¿ Para qué me sirve esto de varianza?

Ese valor de varianza me esta diciendo que tanto de variabilidad se lleva la primer funcion en
todo el modelo discriminante. Como tengo una funcion solamente, la unica funcion se esta
llevando el 100% de la variacioN. Si tuviera tres funciones me diria cual se lleva el mayor nivel de
variacion. En este caso como tengo una funcion esa unica funcion se lleva el 100% de variacion.

Entonces eso es lo que me dice este cuadro de AUTO VALOR

Ahora vamonos al CUADRO DE LAMBDA DE WIILKS. Ese lambda de wilks nuevamente voy hablar
de lambda de wilks:

Si este lambda de wilks es proximo a cero “0”, la funcion discriminante si es importante

Si este lambda de wilks es proximo a uno “1”, la funcion discriminante no es importante

¿Cuánto es el lambda de wilks?

R.- 0.42, fijense que estoy mas o menos por la mitad fijense que a priori podria asumir de que
esto es importante.

Ahora si no estoy seguro ¿que hice en el caso de las variables?

R.- Prueba e Hipotesis, entonces aquí voy hacer exactamente lo mismo.

Los tres pasos, aquí la hipotesis nula es mucho mas facil de plantear.
PASO 1 PLANTEAR HIPOTESIS

Mi hipotesis nula H0 : voy a decir que la funcion discriminante i no es importante

La Hipotesis alterna H1 :yo digo que la funcion discriminante i si es importante

PASO 2 DEFINIR EL NIVEL DE SIGNIFICACION ESTADISTICA

En nuestro caso mantenemos el 1% (0.01)

Nota: el pvalue está en la ultima columna del cuadro de lambda de wilks

PASO 3 APLICAR REGLA DE DECISION

p-value > α Aceptar H0

p-value < α Rechazar H0

0.001< 0.01 podemos ver que el p- value es menor al nivel de significacion estadistica. Por lo
tanto rechazo la hipotesis Nula y acepto la Hipotesis Alterna y esa Funcion discriminante si es
importante.

Bien Como le digo aquí la varianza o la cantidad de varianza me da una idea de la importancia de
la funcion. Como tengo solo una funcion por logica deberia asumir que en esa poblacion deben
existir dosGRUPOS( **funcion discriminante**=(2”grupos-1)) pero no necesariamente es asi,
como les digo,ustedes se pueden inventar grupos de la nada.diciendo en esta poblacion puedo
discriminar clase alta y clase media pero en realidad solamente existe un grupo. En realidad
Puede darse el caso por eso siempre hay que fijarse en eso, Estamos entonces con la segunda
pregunta respondida.
Bien sigamos la tercer pregunta que debemos responder es:

3.-¿ CUAL ES EL PODER DE EXPLICACION DEL MODELO?

BAJAMOS Y BUSCAMOS EL CUADRO ESTADISTICOS POR CASOS

Fijense que tenemos en el cuadro el grupo real y el grupo pronosticado (forecast in sample).

En el grupo real tiene hasta la observacion 11 el grupo 1 y desde la 12 hasta la observacion 20 el


grupo 2.

Bien en el grupo pronosticado con mis modelo discriminante fijense lo que hemos encontrado.

Este 2** que aprece con dos puntos representa una observacion clasificada incorrecatamente, es
decir en ves de que esa observacion la clasifico en el grupo 1 la clasifico en el grupo 2, entonces
ahí estoy obteniendo un primer error.

Ahora abajo dice de nuevo 2** y en el grupo real dice 1, entonces hay un segundo error

Sigo en el forecast dice 1** y en el grupo real dice 2 hay un tercer error

Y por ultimo en la observacion 13 del grupo pronosticado dice 1** y en el grupo real dice 2 , por
lo tanto hay un 4TO error. Entonces me estoy equivocando 4 veces a la hora de hacer la
CLASIFICACION DE LOS DATOS.

Ahora ¿Qué hago con esto?

Deberia saber capas de calcular el poder que tiene este modelo para discriminar datos.
Osea ¿ qué tan bueno es el modelo?

¿Qué utilizaba en regresion para saber el nivel de explicacion de las variables independientes
respecto a la variable “Y”.?

R.- El COEFICIENTE DE DETERMINACION, eso utilizaba aquí en el SPSS me va entregar algo similar,
un pseudo coefiente de determinacion llamado “R2 CUENTA” es un pseudo coeficiente de
Determinación.

R2 CUENTA= es un pseudo coeficiente de determinación

¿Cómo encuentro este R2 CUENTA?

A que es igual?

R2 CUENTA= Nro de Observaciones Correctas = 16 = 0.8 lo transformo en porcentaje = 80%

Nro de observaciones totales 20

(si tengo 20observaciones y tengo 4 errores le resto los cuatro 20-4=me quedan 16
observaciones clasificadas correctamente)

Interpretacion

El modelo esta clasificando correctamente el 80% de las observaciones.

Me olvide que habiliten una opcion porque esto el SPSS se lo entrega

Como no le tenia ahí fue una excelente oportunidad para ver como sale. En el otro modelo les
voy a mostrar como se habilita esa opcion.

Hasta aca hemos respondido las tres preguntas

 ¿Qué VARIABLES INDEPENDIENTES SON IMPORTANTES?

 ¿QUÉ FUNCIONES DISCRIMINANTES SON IMPORTANTES?

 ¿Cuál ES EL PODER DE EXPLICACION DEL MODELO?

LO ÚNICO QUE ME FALTA ES EL FORECAST

Todavía no vamos a ver el tema del forecast, lo que vamos hacer es otro ejercicio de
aplicación. Pero esta vez tomando en cuenta mas grupos. En la misma hoja de calculo
hay selección de trabajo- selección de trabajo de con tres grupos- credit car- MBA

CASO 2 CREDIT CARD


En el caso credit car me interesa construir un modelo discriminante y responder tres
preguntas;

1¿ de todas esas variables, del tamaño de la familia, el ingreso de las personas, numero
de autos, números de tarjetas de créditos, números de autos, Que variables son
importantes para que una persona cumpla,incumpla o parcialmente cumpla los pagos?

2¿sera que están bien esos tres grupos? O solamente deberían existir cumple o no
cumple, esa pregunta la respondo analizando las funciones discriminates

3Y finalmente quiero ver que tan

bueno es este modelo para clasificar mis datos.

Nota en este caso en la opcion

DISCRIMINANTE

CLASIFICAR TAMBIEN TIQUEE TABLA RESUMEN.

TAMAÑO FLIA 0.884>0.01esta variable no es importante.

Ingresos 0.011< 0.01 esta variable si es importante

Nro de autos 0.233> 0.01 esta variable no es importante

Nro de tarjetas 0.009<0.01 esta variable si es importante

Años de educacion 0.002<0.01 esta variable si es importante


Ver el cuadro siguiente

Para la pregunta 2

El lambda de wilks solamente es una medida para derterminar si la variable o las


funciones son importantes, pero no es concluyente, lo que es concluyente es la prueba
de hipótesis.

Respecto a la primer función discriminante? Es o no importante si tomo un 1% (0.01) de


error.

R.- Si es importante por que el p-value es menor al nivel de significación estadística.

¿que hay sobre la segunda función discriminante?

R.- no es importante, entoncees ¿Cómo funciona esto? Fijense la primer funcion que dice : de 1 a
2, y la segunda dice 2, entonces la primer funcion esta referida entre la division de 1 a 2 y media
3, Entonces esta de aca lo que esta tratando de evaluar es la existencia del grupo 1 respecto al
grupo 2. Entonces como es tan importante el grupo 1 y el grupo 2 en este caso tiene importancia.
Entonces ¿Qué sugeriria esto? R,- en realidad en vez de existir grupo 1, grupo 2 o 3, simplemente
exista un grupo 1 y un grupo2, en vez de tener 3 grupos solamente tome en cuentsa 2 grupos. En
este caso en su poblacion solamente hay estos 2 tipos de consumidores o en este caso de
tenedores de tarjetas con características homogeneas. Cumple e Incumple

En este caso de asignacion de tarjetas eso es lo que nos interesa o cumple o no incumple asi de
simple. Entonces aquí solamente la idea es que deben existir 2 grupos.
Ver el siguiente cuadro.

Mas abajo esta el MAPA TERRITORIAL, LO QUE HACE es mostrarme la distribucion de los datos
por cada funcion discrimante. Y mas abajo tenes el DIAGRAMA DE DISPERSION, fijense que tinen
la funcion 2 versus la funcion 1, fijense que tienen uso centroides, esos centroides son como la
una especie demedi y fijense que alrededor de esas medias estan las observaciones de los
grupos, entonces estos modelos discriminantes clasifican perfectamente lasa observaciones
cuando no tengo valores extralapados.

Para responder a la pregunta tres. En el siguiente cuadro RESULTADO DE CLASIFICACION, mas


especifico debajo del cuadro dice que este modelo explica o esta clasificando correctamente el
90% de las observaciones o datos.

R2 CUENTA= 90º%

¿Cuál es la conclusion de este modelo dsicriminante?

Que de las %% variables solamente tres son importantes, quiere decir si excluyo a 2 ese R2
CUENTA, porque esas 2 no son importantes, entonces no beria verse afectado.

¿Qué mas concluimos?

En realidad no deben haber tres grupos solamente 2 deben existir en vez de 3 grupos.

Y por ultimo este modelo es bueno para clasificar datos, porque nos da un 90% de confiabilidad.
AHORA SOLO ME QUEDA HACER FORECAST

SUPONGAN QUE 6 NUEVAS PERSONAS QUIEREN SOLICITAR TARJETAS DE CREDITO

obs
Y X2 X3 X4 X5 X6
1 ???? 3 44.6 2 3 15
2 ???? 4 75 2 3 21
3 ???? 3 50.4 2 2 21
4 ???? 3 41 1 3 9
5 ???? 5 51.9 2 4 25
6 ???? 4 86.2 1 5 25

La idea es clasificar a estos 6 nuevos postulantes dentro de cada grupo para saber si van a ser
buenos, regulares, o malos pagadores.
Podemos trabajar el forecast en el modelo original o en este caso lo vamos hacer corrigiendo los
datos. ( abriendo una nueva hoja de spss) gab 288 min46

Nuevamente ingreso los datos primero en vista de variables:

Grupo(“Y”)………. Escribo en valores los tres grupos 1 cumple 2 parcial 3 incumple

Y como ya escribimos los nombres de la variable x en el anterior ahora para hacerlo mas rapido
coloco

X2

X3

X4

X5

Ver cuadro siguiente

Luego me voy a vista de datos. Pero antes me voy a la hoja de excel y copien en spss asi en la
hoja de datos
Luego ir analizar, clacificar, discriminante

COLOCAR GRUPOS DEFINIR RANGO DE 1 -3 y luego seleccionar todas laas variables


independientes.
Aquí solo me interesa el forecast, no me interesa responder a las tres preguntas por lo tanto NO
TQUEEN NADA DE ESTADISITICOS

en clasificar solo tiqueo estos


Y en GUARDAR ahora solamente tique pertenencia al grupo pronosticado y probabilidad

Si todo es correcto le doy continuar y ACEPTAR.

Fijense ahora que el output es mucho mas pequeño tiene porquisimas cosas.
Ahora fijense lo que aparece aquí grupo pronosticado

Esta es una manera rustica de hacer la proyeccion.

Si yo tomo el grupo pronosticado que es el penultimo cuadro fijense esto dice sin agrupar es decir
no hay el valor obserbado en y.

FIJENSE QUE LA PERSONA 21,21,22,23 Y ADEMAS DE ESO LA PERSONA 25 SON BUENOS


PAGADORES (cumple(1), en base al analisis de las variables independientes.
cumple

BIEN ¿Qué sugiere el modelo?

Sugiere que la persona 24(observacion 24) no me va a pagar(imcumple(3). Y que la persona 26


alguna vez podria incumplir (que es parcial (2))

AQUÍ TENGO un FORECAST DE MANERA RUSTICA, AHORA ¿CÓMO CONSTRUYO UNA TABLA QUE
ME MUESTRE BIEN DETALLADO ESTO SIN TENER QUE RECURRIR A ESTO.
VAMOS HACERLO EN TRES SENCILLOS PASOS

1ER PASO PARA HACER EL FORECAST

1.- CREAR UNA VARIABLE

¿Cómo creamos una variable? Nos venimos a la pestaña TRANSFORMAR

Luego nos venimos a CALCULAR UNA VARIABLE


Aquí voy a crear una VARIABLE DESTINO LLAMADA “PROB” Escribe PROB de probabilidad donde
dice variable destino.(por si acaso pueden colocarle el nombre que quieran) yo le estoy colocando
PROB. , porque no incide en nada el nombre que le ponga.

Ahora esa variable PROB tiene que ser igual a algo, lo que voy hacer es ir a la pestaña grupo de
funciones y selecciono funciones de BUSQUEDA, selecciono busqueda con un click

Y aquí seleccione la funcion MAX


Ingresen la funcion MAX con doble click

PROB VA SER IGUAL A QUE?

PROB = MAX (¿?)


PROB = MAX (MAXIMO DE QUÉ VALORES? Fijense que aquí tengo las VARIABLES ORIGINALES

tengo el GRUPO PRONOSTICADO


GRUPO
PRONOSTICADO

Y Tengo 3 Variables de PROBABILIDAD

AHÍ DONDE DICE MAX voy a cargar la primer probabilidad (dandole click) luego coloco coma(,)
para cargar la segunda probailidad nuevamente coma(,) para cargar la tercera probabilidad.
LAS 3 VARIABLES TIENEN QUE ESTAR CARGADAS AHI

Va quedar asi: ver el siguiente grafico

Entoces PROB = MAX (PROBABILIDAD1, PROBABILIDAD2, PROBABILIDAD 3)

LE DAMOS ACEPTAR

Nos sale el RESULTADO


fijense al final el COMANDO :

Ese es el comado que nosotros hemos ingresado

Ahora si me vengo al ARCHIVOMDE TRABAJO DEL SPSS DONDE DICE VISTA DE DATOS ahí esta la
variable que creÉ PROB ¿Qué esta haciendo?
De esas 3 probabilidades que ustedes tienen ahí mediante ese comando está seleccionando la
mayor

Entre estas 3 ¿ cual es la mayor?

0.93 es la mayor

Lo que esta haciendo es seleccionar la mAYOR PROBABILIDAD de estas 3 VARIABLES

AHORA EL PASO 2:
2.- FILTRAR LOS DATOS

RAPIDAMENTE para FILTRAR LOS DATOS lo que hago es ir a la pestaña DATOS

aqui ingresamos a SELECCIONAR CASOS

donde dice SELECCIONAR tiqueen si se satisface la condicion


Y tiqueen SI LA OPCION, ingresen ahí y les va aparecer una nueva ventana

la nueva ventana se ve así:


Ahora lo que voy hacer es FILTAR LOS DATOS: Grab 288 min1:00

De esas 26 observaciones que tengo resulta que quiero hacer el forecast para 6. Por lo tanto lo
que voy hacer es excluir las 20 observaciones que sí tienen datos.

Eso es lo que vamos hacer de las 26 observaciones solamente me voy a quedar con6. Para ello lo
que voy hacer aquí es buscar donde dice GRUPO DE FUNCIONES, la funcion VALORES PERDIDOS,

Y AQUÍ seleccionen la FUNCION SYSMIS


Si no tiene un valor perdido lo que hace es devorverme cero (0), entonce 0 mutltiplicado por
cualquier valor es 0.

Entonces selecciono SYSMIS. Entonces la pregunta es ¿ de este modelo de que variables no tengo
Datos? GRUPO no es cierto, le faltan los datos a grupo, entonces aquí seleccionen solamente
grupo.

entonces demosle CONTINUAR, ACEPTAR.

Y FIJENSE EL COMANDO QUE ACABARON DE ACTIVAR


COMANDO QUE
ACTIVAMOS

Ahora ¿ que es loque hicieron en realidad con esto?

Vayanse a VISTA DE DATOS, fijense lo que aparece. Fijense que la observacion 1 hasta la 20
aparecen marcadas que quiere decir que eso multiplicado por cero (0) se elimina, entonces
fijense los que tienen datos le asigne cero(0), los que no tienen datos les asigne uno (1).
Entonces lo que estamoas haciendo acá es filtrar datos.

Ver el siguiente cuadro:


Y finalmente EL PASO 3

PASO 3 ORDENAR LOS DATOS

Para ordenar los datos lo que hago ahora es venirme a la pestaña ANALIZAR

EN la pestañaANALIZAR SELECCIONEN INFORMES


Y ahí en Informes seleccionen RESUMENES DE CASOS

Me va aparecer una nueva ventana con los resumenes de casos

Ahora fijense tienen las variables originales y todo lo que se creo.

Ahora ¿ Que van a ingresar como variables? Y ¿ que dejan afuera?

Dejan afuera todas las variables originales y la variable sysmis. ¿ue ingresan? Ingresan des de
grupo PRONOSTICADO Y LAS PROBABILIDADES.
Donde dice Mostrar Casos dejenlo ahí por defecto. ( y destiqueen limitar los casos a los primeros
y destiqueen mostrar solo los casos Validos).

¿Qué me interesa evaluar? No me interesa evaluar el desempeño de la variable original ni del


filtro, me interesa evaluar la clasificación que obtengo a partir de estas probabilidades.(lo que
hago es dejar afuer las variables originales y la varible sysmis, lo que hago es evaluar
basicamente todo eso>

ESTADISTICOS no me interesa, OPCIONES tampoco entonces DIRECTAMENTE LE DOY ACEPTAR


Aquí lo que me interesa es ordenar los datos, OSEA EL FORECAST LO VOY A OBTENER A PARTIR
DE ESTAS PROBABILIDADES POR LO TANTO DE EXCLUYO DE MI ANALISIS LOS VALORES DE LAS
VARIABLES ORIGINALES Y DE LAS VARIBLES SYSIMISY AHORA NO ME INTERESA MOSTRAR LOS
CASOS VALIDOS PORQUE TODOS SON VALIDOSNI ME INTERESA LIMITAR MIS DATOS, Y
TAMPOCO NO ME INTERESA CALCULAR LA MEDIANA LA MODA.

LE DAMOS ACEPTAR Y AHÍ ESTA EL FORECASt


¿Qué me muestra esto?

Lo mismo que vimos hace rato de una manera rustica. Laprimer observacion o el primer
individuo que solicita tarjetas de credito va cumplir el 2do va cumplir, el 3ro va cumplir, el 5to va
cumplir. Fijense que el 4to no va cumplir y el 6to parciamente va cumplir.

¿Cómo se que se va dar esto? En base a estas probabilidades de ocurrencia.

Esa es la manera en la cual yo ejecuto un forecast para un modelo discriminante.

(ahora fijense ustedes en todos los modelos que les pasetienen para hacer el forecast aquí y
para hacer aquí, ademas de eso en la carpeta 2da semana mucha mas informacion, tienen estos
datos SCORIN, fijense que este ejercicio es super interesante el cual me evalua si un banco tiene
probabilidad de entraren default o es solido en base a estos ratios, entonces es un modelo
bastante interesante de analizar.

Total capital/total activo

Total gasto/total activo

Total prestamo/ total deposito

Bueno evaluan estos tre ratiios y en base a eso determinan donde podria ubicarse un banco,
ejemplo de casas de clientes.

Las aplicaciones son bastantes en la selección de individuos y grupos afines