UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 2
FACULTAD DE INGENIERA CIVIL, SISTEMAS Y ARQUITECTURA ESCUELA PROFESIONAL DE INGENIERA DE SISTEMAS CURSO : METODOS DE PREDICCION TEMA : CASO O1 CONSUMER CREDIT COUNSELING DOCENTE : ING. MARY GUZMAN VALLE AUTORES : CHILN TORRES JENIFFER DAZ COTRINA JOS LUIS HUAMN GUEVARA LADY ROQUE LEONARDO IRVIN
CICLO : 2014 I Lambayeque, Octubre de 2014 Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 3
Caso 01 : CONSUMER CREDIT COUNSELING La operacin de Consumer Credit Counseling (CCC) se describi en el caso 1-2. *Consumer Credit Counseling (CCC), una empresa privada sin fines de lucro, se fund en 1982.4 El objetivo de CCC es proporcionar a los consumidores ayuda en la planeacin y el seguimiento de presupuestos, as como asistencia en la negociacin con acreedores para liquidar deudas con morosidad y en capacitacin sobre la administracin del dinero.+
El director ejecutivo, Marv Harnishfeger, concluy que la variable ms importante que CCC necesitaba pronosticar era el nmero de nuevos clientes que seran atendidos durante el resto de 1993. Marv proporcion a Dorothy Mercer los datos mensuales del nmero de clientes nuevos atendidos por CCC en el periodo de enero de 1985 a marzo de 1993 (vase el caso 3-3). En el caso 3-3, Dorothy utiliz el anlisis de autocorrelacin para explorar el patrn de datos. En el caso 4-3 utiliz los mtodos de promedios mviles y de suavizacin exponencial para pronosticar los meses restantes de 1993. Nmero de clientes nuevos atendidos por CCC
El ndice de actividad econmica Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 4
Dorothy se pregunta si podra utilizar el anlisis de regresin para desarrollar un buen modelo de pronstico. Le pidi a Marv que pensara en algunas variables posibles de prediccin. Marv senta que el nmero de personas con cupones canjeables por alimentos podra estar relacionado con el nmero de clientes nuevos atendidos. Dorothy slo pudo obtener los datos del nmero de personas con cupones canjeables por alimentos a partir de enero de 1989 y hasta diciembre de 1992.A continuacin se presentan esos datos. Marv tambin estaba familiarizado con un ndice de actividad de negocios calculado para el condado por el Consejo de Desarrollo Econmico local. El ndice de actividad econmica era un indicador de los cambios relativos en las condiciones generales de los negocios para la regin. Los datos de este ndice se encuentran en la parte superior de la pgina.
El nmero de personas con cupones canjeables
Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 5
1.- Determine si existe una relacin significativa entre el nmero de clientes nuevos atendidos y el nmero de personas con cupones canjeables por alimentos y/o el ndice de actividad de negocios. No olvide la posibilidad de transformar los datos. PARA LA VARIABLE X1 INDICE ECONOMICO Realizamos primero la grfica de dispersin para cada una de las variables independientes o predictoras, comenzaremos por X1 ndice econmico. PASO N 01 DIAGRAMA DE DISPERSIN
Diagrama de Dispersin para X1(ndice econmico) y la variable dependiente Y (nmero de clientes nuevos atendidos por CCC). Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 6 PASO N 02 - CLCULO DEL COEF. CORRELACIN Con ayuda de minitab, calculamos el coeficiente de correlacin para las variables Y (nmero de clientes nuevos atendidos) y la variable X1 (ndice econmico)
Del resultado podemos decir, que el coeficiente de correlacin que existe entre ambas variables es positivo y fuerte. Positivo porque la pendiente es de manera positiva, adems son directamente proporcionales ambas variables; y fuerte porque es cercano a 1. PASO N 03 - PRUEBA DE HIPOTESIS
Realizamos una prueba de hiptesis para probar el nivel de significancia con respecto a la variable- ndice econmico (x1)
A un nivel de significancia de = 0.05.
Se consideran las siguientes hiptesis: H0: 1=0 H1: 1 0
Tomaremos el valor P de la siguiente tabla y la compararemos con =0.05.
INTERPRETACIN Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 7 Si comparamos el valor P = 0.000 con el valor =0.05, entonces podemos concluir que P<, entonces rechazamos H0. Es decir que tenemos evidencia estadstica suficiente para concluir que la variable X1 ndice econmico es significativa con respecto a los nuevos clientes atendidos por CCC. Observamos tambin que el valor del coeficiente de determinacin es de un 56.5%, nos da una idea que si existe una relacin, siendo esta de tipo moderada, pero aqu no queda todo el trabajo para poder concluir que es nuestro mejor modelo, ms adelante se realizara las pruebas correspondientes.
PARA LA VARIABLE X2 NUMERO DE PERSONAS CON CUPONES CANJEABLES
PASO N 01 DIAGRAMA DE DISPERSIN
Diagrama de Dispersin para X2(nmero de personas con cupones canjeables) y la variable dependiente Y (nmero de clientes nuevos atendidos por CCC).
PASO N 02 - CLCULO DEL COEF. CORRELACIN Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 8 Con ayuda de minitab, calculamos el coeficiente de correlacin para las variables Y (nmero de clientes nuevos atendidos) y la variable X2 (nmero de personas con cupones canjeables).
Del resultado podemos decir, que el coeficiente de correlacin que existe entre ambas variables es positivo y algo bajo (no estn fuertemente correlacionadas). Positivo porque la pendiente es de manera positiva, adems son directamente proporcionales ambas variables.
PASO N 03 - PRUEBA DE HIPOTESIS
Realizamos una prueba de hiptesis para probar el nivel de significancia con respecto a la variable- nmero de personas con cupones canjeables (x2)
A un nivel de significancia de = 0.05.
Se consideran las siguientes hiptesis: H0: 1=0 H1: 1 0
Tomaremos el valor P de la siguiente tabla y la compararemos con =0.05.
Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 9
INTERPRETACIN Si comparamos el valor P = 0.002 con el valor =0.05, entonces podemos concluir que P<, entonces rechazamos H0. Es decir que tenemos evidencia estadstica suficiente para concluir que la variable X2 (nmero de personas con cupones canjeables) es significativa con respecto a los nuevos clientes atendidos por CCC (Y). Observamos tambin que el valor del coeficiente de determinacin es de un 18.6%, nos da una idea que si existe una relacin, siendo esta de tipo muy dbil, porque a un 18.6% la variabilidad de los nuevos clientes atendidos por CCC es explicada por la variabilidad del nmero de personas con cupones canjeables, de esto decimo que este modelo de regresin no nos permite asegurar un buen pronostico con esta variable, adems un 81.4% de la variabilidad no viene siendo explicada por el nmero de personas con cupones. ANALISIS PARA AMBAS VARIABLES X1, X2 PASO N 01 - CLCULO DE LA MATRIZ DE COEF. CORRELACIN Con ayuda de minitab, calculamos la matriz de correlacin para las variables Y (nmero de clientes nuevos atendidos), la variable X1 (ndice econmico) y la variable X2 (nmero de personas con cupones canjeables).
Con esta matriz podemos analizar si existe o no relacin entre todas las variables que tenemos, analizando la imagen podemos observar que los coeficientes de correlaciones para X1 y X2 con respecto a Y, son las mismas que habamos encontrado.
Nos permite observar adems si existe alguna relacin entre variables independientes, si as fuese el caso, se producira un problema de multicolienalidad. Es as, que debemos eliminar una de las variables porque seguro ya viene siendo explicada por una de ellas.
Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 10 Para nuestro caso podemos observar claramente una relacin muy fuerte entre las variables independientes X1 y X2, por lo que nos encontramos con el problema de la multicolienalidad, pasaremos a continuacin a escoger la variable que debemos quitar.
PASO N 02 - PRUEBA DE HIPOTESIS
A un nivel de significancia de = 0.05.
Se consideran las siguientes hiptesis: H0: 1= 2 = 0 H1: 1 2 0
Tomaremos el valor P de la siguiente tabla y la compararemos con =0.05.
INTERPRETACIN Si comparamos el valor P x1 = 0.000 y P x2 = 0.009 con el valor =0.05, entonces podemos concluir que tanto P x1 y P x2 <, entonces rechazamos H0. Es decir que tenemos evidencia estadstica suficiente para concluir que las variables X1(ndice econmico) y X2 (nmero de personas con cupones canjeables) son significativas con respecto a los nuevos clientes atendidos por CCC (Y).
Observamos tambin que el valor del coeficiente de determinacin es de un 45.4%, nos da una idea que si existe una relacin, siendo esta de tipo Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 11 moderada, porque a un 45.4% la variabilidad de los nuevos clientes atendidos por CCC es explicada por la variabilidad del ndice econmico y la variabilidad del nmero de personas con cupones canjeables, pero como sabemos por conocimiento existe multicolienalidad, por lo tanto pasamos a eliminar la variable que ya est siendo explicada por la otra variable independiente.
Entonces pasamos a eliminar a la variable con una probabilidad menos significativa, que en este caso es la variable x2 por tener un valor de p= 0.009.
Conclusin previa antes de escoger el mejor modelo de regresin seria que la variable que mejor se relaciona con la variable a pronosticar es el ndice econmico (x1), por lo tanto pasamos a proceder solo a trabajar con esta variable. Pasaremos entonces a realizar un anlisis de transformacin de esta variable, y ver si alguna de estas modificaciones, mejora el modelo de regresin.
TRANSFORMACION DE LA VARIABLE X2 NUM DE PERSONAS CON CUPONES Por si las dudas realizaremos la matriz de correlaciones para la transformada de la variable x2 para verificar que la relacin que existe es muy dbil aun despus de haber realizado las transformaciones correspondientes, por lo que decidimos desde un comienzo no trabajar con esta variable. Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 12
TRANSFORMACION DE LA VARIABLE X1 INDICE ECONOMICO Realizamos entonces las correspondientes transformaciones de la variable X1 ndice econmico y analizar si entre estas transformaciones, existe una variable transformada que nos proporcione un mejor coeficiente de correlacin con la variable Y, con lo que pueda aportar un mejor modelo de regresin.
De la matriz podemos concluir que la mejor transformacin de la variable X 1 , es la inversa (1/X 1 ) con un coeficiente de correlacin de -0.766, lo que nos permite ver que est fuertemente relacionado con la variable Y. Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 13 Luego pasamos a analizar el modelo de regresin con esta transformada inversa de la variable ndice econmico (1/X 1 ).
INTERPRETACIN Si comparamos el valor P = 0.000 con el valor =0.05, entonces podemos concluir que P<, entonces rechazamos H0. Es decir que tenemos evidencia estadstica suficiente para concluir que la variable 1/X1 inversa del ndice econmico es significativa con respecto a los nuevos clientes atendidos por CCC. Observamos tambin que el valor del coeficiente de determinacin es de un 58.7%, nos da una idea que si existe una relacin, siendo esta de tipo moderada, pero mucho mejor que la variable sin transformacin (X1- ndice econmico), adems podemos ver que el Error estndar de la estimacin (S = 19.4093) disminuye con respecto al inicial (S 0 = 19.9159).
Por lo que podramos decir que esta ecuacin de regresin es mejor para poder pronosticar la cantidad de nuevos clientes de CCC. Pero aqu no acaba todo debemos analizar si realmente es un mejor modelo de regresin lineal, para eso se realizara un anlisis de los residuos ms adelante.
2. Desarrolle una ecuacin de regresin y utilcela para pronosticar el nmero de clientes nuevos para los primeros tres meses de 1993. Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 14 Segn el anlisis de la pregunta anterior tomamos a la inversa del ndice econmico como variable predictora, ya que mejor se adecua al modelo, porque como pudimos apreciar nuestro coeficiente de determinacin es mucho mayor. ECUACION DE REGRESION LINEAL Nuestra ecuacin de regresin lineal quedara expresada de la siguiente manera:
Calculando los pronsticos segn lo que nos plantea el ejercicio, obtenemos lo siguiente utilizando el minitab: PARA LOS MESES DE ENERO, FEBRERO de 1993: El valor de la inversa del ndice econmico es de 0.00800 para ambos caso obtenemos lo mismo
Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 15 PARA EL MES DE MARZO de 1993: El valor de la inversa del ndice econmico es de 0.00769 reemplazando obtenemos:
Resumiendo tenemos los siguientes pronsticos: PRONOSTICOS DEL AO 1993 Enero 167.38 Febrero 167.38 Marzo 178.99
3. Compare los resultados de su pronstico con las observaciones reales para los primeros tres meses de 1993.
INTERPRETACIN: Como apreciamos en la tabla los valores para los meses de Enero y Febrero, el pronstico ha sobreestimado el valor que dio la tcnica utilizada, mientras que en el mes de Marzo el pronstico ha subestimado el valor real. Por lo que es una evidencia que el modelo de la regresin lineal, no nos permite hacer un buen pronstico de los nuevos clientes atendidos por CCC. Meses OBSER. REALES PRONOSTICOS DEL AO 1993 Enero 152 167.38 Febrero 151 167.38 Marzo 199 178.99 Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 16 4. El ndice de actividad de negocios sera un buen factor de prediccin del nmero de clientes nuevos? El ndice de actividad de negocios, si es un buen factor de prediccin el nmero de clientes nuevos, y lo podemos evidenciar realizando una regresin y verificar la probabilidad que obtenemos que sea menor que alfa (0.5), adems podemos observar que el r 2 es igual a 56.5% lo que nos indica una variabilidad de los datos de la variable a pronosticar (y), y poder utilizar este modelo de regresin. ANALISIS DE REGRESIN PARA LOS NUEVOS CLIENTES ATENDIDOS Y EL INDICE ECONMICO
ANALISIS DE REGRESION PARA LOS NUEVOS CLIENTES ATENDIDOS Y LA INVERSA DEL INDICE ECONMICO Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 17
Adems hemos analizado la inversa del ndice econmico, lo que mejora el modelo de regresin lineal, por lo que optamos como el mejor modelo hasta ahora para poder pronosticar, pero ms adelante observaremos que este modelo aun siendo significante no nos permite dar un buen pronstico del nmero de clientes nuevos atendidos por CCC. 5. Los datos consisten en una serie de tiempo. Significa esto que se ha violado el supuesto de la independencia Realizaremos las siguientes pruebas para saber si los datos son o presentan una serie de tiempo: - Primero realizamos una grfica de auto correlaciones a los datos para verificar si presentan un patrn: Para doce desfases a nuestros nuevos clientes que deseamos pronosticar, para el ao de 1993 tenemos la siguiente imagen proporcionada por el minitab:
Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 18 Analizando la grfica podemos observar que los datos estn fuertemente correlacionados entre s, adems podemos evidenciar que los datos siguen un patrn de Tendencia para los primeros meses de cada ao.
Adems vemos que el coeficiente de auto correlacin para los primeros desfases es significativamente diferente de cero, por lo tanto podemos evidenciar que los datos no son aleatorios. Si queremos ms precisin realizamos la prueba del chi-cuadrado, donde el LBQ 121.87 debe ser mayor que el resultado del chi-cuadrado.
Al evidenciar que existe un patrn en los datos, podemos evidenciar que existe una violacin supuesto de independencia porque, es el ms importante, ya que la falta de independencia podra distorsionar en forma drstica en las conclusiones de las pruebas t. Como pudimos ver es riesgoso porque nuestros datos presentan un patrn de serie de tiempo (tendencia).
Posteriormente analizaremos los residuos para verificar si existe o no la violacin del supuesto de independencia. Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 19 6. Suponga que usted desarroll una buena ecuacin de regresin. Usara usted esta ecuacin para hacer un pronstico del resto de 1993? Explique su respuesta. La ecuacin de regresin, encontrada por nosotros no realiza un buen pronstico para el resto de los meses de 1993. Porque est infringiendo el supuesto de independencia, por presentar un patrn como lo habamos mencionado antes, para eso hacemos un anlisis de los residuos que hallaremos para esta regresin, de la siguiente manera: - Realizamos la grfica de residuales, mediante el minitab
- Obtendremos la siguiente figura:
De las siguientes graficas podemos analizar lo siguiente: 1.- El histograma nos ayuda a ver si se cumple con el supuesto de normalidad. Podemos ver que el histograma est ligeramente centrado cerca de 0, por lo que diramos que demuestra un buen supuesto de normalidad, podramos incluso decir que se infringe en un porcentaje muy bajo por as decirlo. Otro motivo que infringe este supuesto es cuando se pueden apreciar una forma de campana. Aunque este supuesto no es muy significativo con respecto a los otros supuestos. 2.- En la grfica de normalidad podemos observar que los residuos en su gran mayora siguen una distribucin normal, aunque para algunos valores no se ajusta muy bien al modelo, estn ligeramente alejados dela recta. Mtodos de prediccin Caso 01
UNIVERSIDAD NACIONAL PEDRO RUIZ GALLO ING. DE SISTEMAS 20 3.- La segunda grfica de la primera fila en la imagen si la dispersin alrededor del cero en la direccin vertical debe ser aproximadamente igual para todos los valores a lo largo del eje horizontal. Es decir, las magnitudes de los residuos para valores ajustados pequeos deben ser aproximadamente iguales que las magnitudes de los residuos para valores ajustados intermedios y aproximadamente iguales que las magnitudes de los residuos para valores ajustados grandes. Este comportamiento ideal sugiere dos cosas: 1. La relacin subyacente entre Y y X es lineal, y 2. la variabilidad del error es constante (las Y para diferentes valores de X tienen la misma dispersin alrededor de la lnea de regresin).
Por lo que diramos que el modelo de regresin no nos asegura con certeza que podemos pronosticar el nmero de clientes nuevos atendidos por CCC para los meses restantes del ao de 1993.