Вы находитесь на странице: 1из 11

Trabajo N2 de anlisis de datos II

TEMA: Anlisis multivariado predictivo

Autor: Luis Montero Vargas Profesor: Eduardo Arteaga

Temuco octubre de 201

11

Introduccin
El presente traba!o presenta las diversas formas de anlisis predictivos multivariado" en este sentido es #ue en el presente se abordan el anlisis de regresi$n lineal m%ltiple" anlisis de regresi$n log&stica" anlisis discriminante ' anlisis de varian(a A)*VA+ ,abe se-alar #ue todas estas t.cnicas estn reali(adas con el fin predecir el comportamiento de la variable dependiente" por medio de unas variables independientes+ La forma es similar en la #ue operar" pero la diferencia fundamental est enmarcada en el tipo de las variables independientes con las #ue traba!an" puesto #ue pueden ser tanto num.ricas" como dicot$micas o no m.tricas+ Por otro lado el traba!o presenta un e!ercicio de anlisis de regresi$n lineal m%ltiple" este est

enmarcado en ver si e/iste discriminaci$n entre mapuc0e ' no mapuc0e" esta se refle!ara en la diferencia entre ingresos per cpita entre estos grupos+ Adems de ello para agregar comple!idad al anlisis se le 0an sumado las variables recodificadas a 1umm' de (ona" se/o ' etnia+

11

Desarrollo primer tem del trabajo N1


Anlisis de regresin lineal mltiple Esta t.cnica sirve anali(ar las relaciones entre una variable dependiente o criterio ' muc0as variables independientes o predictoras+ El ob!etivo del anlisis de regresi$n lineal m%ltiple es usar las variable independientes para predecir la variable dependiente" en este sentido a cada variable independiente es ponderada" estas ponderaciones" muestran cuanto influ'en estas variables independientes a la variable dependientes o en otras palabras" cuanto e/plican las variables independientes de las variables dependientes
1

23air" Anderson" Tat0am" 4 ,+5lac6" 17778+ A este con!unto de variables independientes se le conoce como

valor te$rico de la regresi$n+ Lo #ue arro!a todo este proceso es un modelo de ecuaci$n predictor" este modelo de ecuaci$n entrega una predicci$n del comportamiento de la variable dependiente" cuando es enfrentada a determinadas variables independientes+ 1e esta manera es #ue los anlisis #ue se pueden 0acer con esta t.cnicas son tan diversos ' la t.cnica como tan se ve como una t.cnica sumamente potente #ue se utili(a de manera transversal en las ciencias sociales+ Los principales supuestos para aplicar el anlisis de regresi$n m%ltiple son dos" el primero es #ue los datos deben ser m.tricos" o bien deben ser transformados a una variable m.trica para #ue se pueda anali(ar con esta t.cnica" estas variables no m.tricos" pueden ser convertidas a variables dumm's para dic0o anlisis 23air" Anderson" Tat0am" 4 ,+5lac6" 17778 2+ El segundo supuesto de esta t.cnica es antes de derivar la ecuaci$n" el investigador debe decidir cul ser su variable dependiente e independiente en el anlisis+ Los anlisis de regresi$n lineal m%ltiple 0an sido utili(ados en diversos campos" tanto de la ciencia social como de las ciencias convencionales+ Pero en donde se destaca su utili(aci$n es en la econom&a ' en el mundo empresarial" esto pues es una t.cnica #ue tienes diversas aplicabilidades" esto permite #ue sea propicia para la toma de decisiones sobre negocios" esta capacidad permite ir de los problemas ms generales a los ms espec&ficos+ Los anlisis #ue se reali(an con esta t.cnica van desde a ver como se comportara la econom&a de un pa&s" 0asta ver el comportamiento del mercado frente a un producto nuevo 23air" Anderson" Tat0am" 4 ,+5lac6" 17778+ Los usos de esta t.cnica en las ciencias sociales" estn ligados a las investigaciones tales como de carcter socio9econ$mico" investigaciones de mar6eting" predicciones pol&ticas" 1esigualdad social ' as& un sin n%mero de investigaciones+ :n e!emple es la una investigaci$n de desigualdad .tico9racial en la distribuci$n de

Hair, Anderson, Tatham, C.Black (1999). Anlisis multivariante. Madrid: Pretice Hall

11

ingresos en ,olombia 2,orrea" Vifara" 4 ;uluga" 20108" en este estudio bsicamente lo #ue se reali(o fue ver como la variable de pertenec&a a una etnia incid&a en la valoraci$n del traba!o ' la remuneraci$n #ue los individuos resid&an de este" el m.todo de anlisis #ue reali(aron" fue el anlisis de regresi$n m%ltiple+ Entre los principales 0allados se destacan #ue a los traba!adores afrocolombianos les pagaban menos respecto a los traba!adores no afrocolombianos 2,orrea" Vifara" 4 ;uluga" 20108 Anlisis discriminante Esta t.cnica en particular sirve para traba!ar cuando la variable dependiente es no m.trica 23air" Anderson" Tat0am" 4 ,+5lac6" 1777" pg+ 2<08 " sigue en cierta medida los mismos principios #ue el anlisis de regresi$n lineal+ En este sentido lo #ue 0ace esta t.cnica en cuesti$n es predecir ' e/plicar la relaci$n #ue influ'en en la categor&a en la #ue un ob!eto se encuentra 23air" Anderson" Tat0am" 4 ,+5lac6" 17778" en otras palabras es #ue por medio de este m.todo se puede decir #ue variables independientes se encuentran contenida en una variable dependiente" esto a su ve( se e/plica por medio de factores+ :no de los supuestos #ue se propone en Anlisis multivariado es #ue el anlisis discriminante es la t.cnica estad&stica id$nea para contrastarla 0ip$tesis de #ue las medias de los grupos de un con!unto de variables independientes para dos o ms grupos son iguales 23air" Anderson" Tat0am" 4 ,+5lac6" 1777" pg+ 2<18 para reali(ar esto lo #ue 0ace el anlisis es multiplicar cada variable independiente por su correspondiente ponderaci$n ' suma estos productos+ El resultado de esta multiplicaci$n es una puntuaci$n ; discrim&nate" esta se encuentra compuesta por cada individuo en el anlisis+ Luego para 0acer la diferenciaci$n de los grupos es entorno a sus medias" a la media de cada grupo se le es conocida como ,entroide+ 3a' #uienes se-alan #ue el anlisis discriminante tiene cuatro etapas" una primera es la de estimaci$n de la funci$n discriminante" la segunda es la evaluaci$n de la fiabilidad predictiva" tercero la validaci$n de los resultados ' por %ltimo la interpretaci$n de las funciones discriminantes resultantes" #ue es finalmente donde se describen las caracter&sticas de cada grupo formado tanto por las variables independientes como la variable dependiente =2Alarc$n" 200>" pg+ 178+ Por otro lado en el campo en el #ue 0a sido fruct&fera su aplicaci$n" es nuevamente en el del mar6eting" en los estudios de mercado ' de preferencia" adems de ellos 0a' aplicaciones de esta t.cnica en la ciencia como en la #u&mica+ ?especto de las ciencias sociales se utili(a para los anlisis de grupos focales+ En las ciencias sociales se utili(an este tipo de anlisis para 0acer caracteri(aciones socioecon$micas" para ver los determinantes de compras" como se constitu'en diferentes grupos socioecon$micos" seg%n

Correa, ., !i"#ara, C., $ %&l&'a, !. (2(1(). )esi'&aladad *tnico+racial en la distri,&ci-n de in'resos en Colom,ia: .n an"lisis a /artir de la re'resi-n c&ant0lica. Sociedad y economa , 113+123.
4

Alarc-n, !. 5. (2((6). 7ntrod&cci-n a la in8esti'aci-n en ciancias sociales. DITS, 1+ 46.

11

diversas caracter&sticas atribuidas" tales como a-os de escolaridad" etnia ' otras variables dependientes" en fin las aplicaciones para esta t.cnica son inagotables" esto pues permite traba!ar sobre bases de datos+ Regresin logstica El anlisis de regresi$n log&stica es propicio para cuando se traba!a con variables dependientes con dos dimensiones o bien dos grupos 23air" Anderson" Tat0am" 4 ,+5lac6" 17778+ *tros te/tos consideran a la regresi$n log&stica como un caso especial de regresi$n" dado #ue esta traba!a con variables dicot$micas
<

2@im.ne(" pg+ 18+ El autor plantea #ue: Ase trata de calcular la probabilidad en la que una de las opciones de la variable dicotmica dependiente

suceder en funcin de cmo punta en una serie de variables dependientes que pueden estar en diferentes escalas de medidaB 2@im.ne(" pg+ 18 En el fondo lo #ue busca la t.cnica en cuesti$n es la probabilidad de #ue una variable independiente suceda en la variable dependiente" es decir #ue es un t.cnica predictiva" por#ue en el fondo lo #ue procura es ver lo #ue puede suceder en torno a una muestra" #ue finalmente se puede e/trapolar a una poblaci$n+ Para ello se calcula la funcin Z considerando una muestra aleatoria de nuestra muestra, despus se realiza sobre la totalidad y se mide si el nmero de aciertos es suficientemente elevado. Esto constituye una prueba de bondad de su capacidad de prediccin 2@im.ne(" pg+ 18 En los campos en los #ue 0a sido fruct&fero la aplicaci$n de este modelo" es en el de las encuestas pol&ticas" cuando se enfrenta a la situaci$n de segunda vuelta ' 0a' solo dos contendientes" puesto #ue por medio de este proceso se puede determinar el voto de los individuos respecto a #ue candidato votaran" esto se entiende #ue la variable #ue es la dependiente es el candidato por el cual va a votar ' las variables independientes" pueden estar ligadas a las caracter&sticas socio9econ$micas" demogrficas ' un sinf&n de variables #ue se pueden atribuir como factor determinantes para #ue los individuos voten por uno u otro+ Por otro lado en los propios instrumentos de medici$n como la ,asen" e/isten muc0as preguntas #ue estn formuladas de manera dicot$micas es decir con dos grupos Asi o noB" es decir #ue tanto en la econom&a como en las ciencias sociales son mu' utili(adas" tanto para generar pol&ticas p%blicas" o bien clases de evaluaciones+ Anlisis de arian!a "AN#$A% El anlisis de varian(a A)*VA es un anlisis multivariado #ue al igual #ue los anteriores" se encarga de una variable dependiente ' otras variables independientes" este anlisis mide las diferencias de dos o ms variables m.tricas dependencias basadas en un con!unto de variables categ$ricas no m.tricas #ue act%an como predictoras de variables m.tricas 23air" Anderson" Tat0am" 4 ,+5lac6" 1777" pg+ =>8+ Es decir #ue funciona de manera inversas a la t.cnica como anlisis de regresi$n m%ltiple" dado #ue esta t.cnica en cuesti$n considera variables dependientes m.tricas ' busca saber acerca de estas por medio de las variables no im*ne9, P. :. (s.#.). Universidad de Murcia . ;ec&/erado el 29 de oct&,re de 2(13, de ;e'resi-n <o'0stica: htt/:==>>>.&m.es=docencia=/'&ardio=doc&mentos=Tec?lo'is./d#
1

11

m.tricas" en este sentido este tipo de anlisis no e/ige una transformaci$n de la variable para poder ser traba!ada con esta t.cnica+ Esta t.cnica en cuesti$n se utili(a para el dise-o de e/perimentos" esto es los dise-os de investigaci$n en los #ue el investigador controla o manipula directamente una o ms variables independientes para determinar e efecto en una o ms variables dependientes 23air" Anderson" Tat0am" 4 ,+5lac6" 1777" pg+ =>8 + La manera en la #ue opera la varian(a A)*VA" es #ue se comparan dos clculos independientes de la varian(a para la variable independiente" un primer grupo refle!a la variabilidad general de los encuestados entre los grupos ' otro #ue representa la diferencias entre los grupos #ue se atribu'en a los efectos del tratamiento 23air" Anderson" Tat0am" 4 ,+5lac6" 17778" en cierta medida este anlisis es similar en su forma de traba!ar operar a otro anlisis estad&stico" en donde se busca generar grupos #ue tengan similitudes internas entre los casos #ue las constitu'en ' por otro lado generar grupos lo suficientemente diferenciados" esto bien para 0acer las comparaciones entre grupos+ En el campo de las ciencias convencionales es en donde se utili(a este tipo de anlisis" dado #ue esta permite 0acer estudios e/ploratorio ' donde se pueden comparar las 0ip$tesis" e!emplo de esto es ver c$mo reaccionan los vegetales" enfrentado a diferentes estimulantes para ver c$mo estas crecen o bien se comportan frente a determinados est&mulos+ Adems de esto tambi.n es mu' utili(ada en la medicina" enfermer&a ' algunas ciencias sociales+ ,omo se mencion$ anteriormente" la t.cnica de anlisis de varian(a A)*VA" es mu' utili(ada para comprobar ' compara las 0ip$tesis con las #ue se traba!an en diferentes ciencias sociales+

&egunda parte ' anlisis de regresin lineal mltiple

11

En el presente anlisis pretende ver Ccules son las diferencias entre los ingresos per cpita de mapuc0e ' no mapuc0esD Estas diferencias se vern desde las variables independientes son !ona( se)o( a*os de escolaridad + etnia ",apuc-es + no mapuc-es%( cabe se-alar #ue la variable de (ona" se/o ' etnia 0an sido recodificadas a variables 1umm's+ La variable de a-os de escolaridad no se 0a tratado" dado #ue esta es una variable num.rica+ La variable dependiente ingreso per cpita 0a sido normali(ada por medio de logaritmo natural" puesto #ue esta al no ser normali(ada se comparta de manera mu' anormal ' esta no se a!usta a la recta ecuaci$n de regresi$n" al ser calculada por medio del logaritmo natural" la variable 0a sido normali(ada ' de esta manera propicia para traba!ar+ .r/ico N1

5&ente: Casen 2(11 Podemos 8er @&e des/&*s de la normali9aci-n la 8aria,le de in'resos /er c"/ita se com/orta de manera m&A normal, aB&st"ndose casi en s& totalidad a la c&r8a normal de la distri,&ci-n de los casos.

11

.ra/ico N2

Ee puede en el grafico numero 2 observar #ue la variable dependiente ingreso per cpita se a!usta de manera casi perfecta a la recta de la ecuaci$n de regresi$n lineal m%ltiple" siendo esto representaci$n de una variable mu' normal+

Tabla N1' Resumen del modelo b Modelo ? ? cuadrado ? cuadrado corregida 1 " FFa "1<0 "1<0 Error t&p+ de la estimaci$n "FF=<>

a+ Variables predictoras: 2,onstante8" A-os de escolaridad " Ee/oGdumm'G0ombre" 1umm'GMapuc0e" (ona recodificada dumm' 1 (ona b+ Variable dependiente: ingrGperGLn

La tabla n%mero uno" muestra #ue las variable dependientes e/plican el 1<H de la variable dependiente" es decir" #ue la variable dependiente se puede seguir e/plicando con otras variables independientes+

11

La tabla numero dos nos muestra #ue todas las variables son significativas dentro de este anlisis+ La variable de mapuc0e tiene un peso negativo dentro de la ecuaci$n" es decir #ue el perteneces a la etnia mapuc0e es per!udicial para los ingresos per capitas de los individuos+ ?especto al anlisis ' respuesta a la investigaci$n se puede decir #ue un individuo mapuc0e #ue vive en la (ona urbana" con F a-os de estudios" tiene un ingreso per cpita de 7>+<>I de pesos+ :na persona mapuc0e con igual condici$n pero con 12 a-os de estudios tiene ingresos de 1 1+ 77 ' #ue las personas mapuc0es #ue viven en la ciudad ' con 1I a-os de escolaridad tienen un ingreso per cpita de 17 +10I pesos+ Por otro lado los ingresos per cpita para las personas #ue viven en la ciudad ' tienen F a-os de escolaridad son de 1 2+170 pesos" los ingresos para las personas con 12 a-os de escolaridad es de 1I7+FI1 pesos ' por ultimo para las personas #ue tienen 1I a-os de estudio ' con las mismas caracter&sticas tienen un ingreso per cpita de 2>=+ =2 pesos+ Ee puede ver claramente #ue e/iste diferencia de ingresos per cpita entre mapuc0es ' no mapuc0es" siendo #ue los mapuc0es en todos los niveles de educaci$n ' otras caracter&sticas como masculinidad" (onas e/isten diferencia de ingresos" esto tanto en F a-os de estudio" 12 ' 1I a-os de estudio+ Jinalmente se puede decir #ue el ser mapuc0e es un factor determ&nate de desigualdad en ,0ile" esta desigualdad se refle!an desde el plano de los ingresos per cpita" donde claramente los ingresos per cpita para los individuos son diferentes+

11

0onclusin A modo de concluir el traba!o" se puede decir #ue en las estad&sticas las t.cnicas predictivas tienen una misma forma de operar" es decir" #ue mediante las variables dependientes se e/plican las variables dependientes" esta es la misma forma en la cual se desempe-an las distintas t.cnicas predictivas+ La gran diferencia entre las cuatro t.cnicas de anlisis predictivo est radicada en las variables con las #ue traba!a" puesto #ue 0a' variables #ue traba!an solo con variables num.ricas" como el anlisis de regresi$n lineal" o bien con un mi/to de estas es decir con variable no m.tricas ' variables m.tricas ' finalmente t.cnicas de anlisis predictivos #ue utili(an variables dicot$micas" es decir variables con dos dimensiones o grupos+ Ee puede inferir #ue los anlisis predictivos tienen sus diferencias fundamentales en los tipos de variables con las #ue traba!an ' de esta manera se fundamenta entender esto para poder reali(ar el correcto uso de estas+ Jinalmente ' para cerrar este traba!o se puede decir #ue las t.cnicas predictivas abordas en este traba!o son fundamentales ' mu' %tiles para las investigaciones sociol$gicas" #ue traba!an sobre las bases de datos" estas son 0erramientas potentes para aplicar anlisis dentro de las investigaciones+

11

Bibliografa
Alarc-n, !. 5. (2((6). 7ntrod&cci-n a la in8esti'aci-n en ciancias sociales. DITS, 1+46. Correa, ., !i"#ara, C., $ %&l&'a, !. (2(1(). )esi'&aladad *tnico+racial en la distri,&ci-n de in'resos en Colom,ia: .n an"lisis a /artir de la re'resi-n c&ant0lica. Sociedad y economa , 113+123. Hair, Anderson, Tatham, $ C.Black. (1999). Anlisis multivariante. Madrid: Pretice Hall. im*ne9, P. :. (s.#.). Universidad de Murcia . ;ec&/erado el 29 de oct&,re de 2(13, de ;e'resi-n <o'0stica: htt/:==>>>.&m.es=docencia=/'&ardio=doc&mentos=Tec?lo'is./d#

11