Вы находитесь на странице: 1из 13

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

LA ESTADSTICA: UNA ORQUESTA HECHA


INSTRUMENTO
Curso de Estadstica. Jaume Llopis Prez.

Tema 20: ANLISISDISCRIMINANTE


1. El Anlisis discriminante es una tcnica inferencial. Es una tcnica tpicamente multivariante porque suele
usarse en contextos donde tenemos varias variables, pero evidentemente puede aplicarse con pocas
variables, incluso con una sola variable, pero no es lo habitual.
2. Una caracterstica esencial de esta tcnica es que tenemos previamente denidas dos o ms poblaciones;
o sea, tenemos dos o ms muestras de esas poblaciones con una serie de individuos de cada una de ellas
de los que tenemos medidas una serie de variables.
3. Su nalidad bsica es preparar esa informacin, seleccionarla, trabajarla, con una nalidad clasicadora.
Futuros individuos, a los que les podremos medir esas variables, deberemos clasicarlos como miembros
de alguna de esas poblaciones.
4. Evidentemente partimos del supuesto de que esos nuevos individuos a clasicar pertenecen a una de
esas poblaciones.
5. El Anlisis discriminante tiene un nombre muy apropiado para lo que es su procedimiento. Porque lo que
hace es iniciar, a partir de toda la informacin de que se dispone sobre las poblaciones y las variables, un
proceso de discriminacin, un proceso de separacin lo mayor posible de esas poblaciones.
6. Por lo tanto, a partir de un conjunto de individuos que sabemos ciertamente a qu poblacin pertenecen
cada uno de ellos y a partir de los valores de todas las variables que disponemos mediante el Anlisis
discriminante tratamos de buscar qu combinaciones de esas variables nos permitirn discriminar lo ms
posible entre los grupos que tenemos.
7. Pongamos un ejemplo previo sencillo que puede ayudarnos a claricar el camino de la explicacin de
esta tcnica: Supongamos que queremos encontrar variables que nos permitan clasicar a una persona
entre hombre o mujer teniendo nicamente la informacin de la medida de esa variable.
8. La variable edad no discrimina entre hombres y mujeres, no separa bien esos dos grupos. La variable
altura ya discrimina ms. La variable pie que calza discrimina ms an. Vemoslo en unos datos posibles:
En rojo tendramos una muestra de mujeres y en azul una de hombres:

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

1/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

9. Elegir la edad para pronosticar el sexo nos llevara a mucho error. La mitad de las veces nos
equivocaramos. Elegiendo la altura ya cometeramos menos errores porque las poblaciones estn ms
discriminadas, ms separadas, respecto a esta variable. Eligiendo el pie que calza cometeramos menos
errores an porque de las tres variable es la que discrimina mejor, es la que separa mejor a los dos grupos,
como puede apreciarse en este grco. Esto es as en la realidad: en mujeres y hombres con la misma
altura los hombres tienen el pie ms grande que las mujeres.
10. Si se entiende bien esta idea simple se entender perfectamente lo que persigue el Anlisis
discriminante. Porque esto es lo que hace la tcnica: entre las variables de que disponemos y con las
muestras que tenemos de las poblaciones en estudio debemos buscar qu variables y qu combinacin de
ellas es la que consigue separar ms, discriminar ms, esos grupos. La nalidad es usarlo como mecanismo
para clasicar a un individuo futuro del que tendremos los valores que tiene de esas variables pero del que
no sabremos a qu poblacin pertenece.
11. A veces si tenemos ms de una variable con una de esas variables nos bastar para conseguir una
buena discriminacin, pero a veces ninguna de ellas individualmente nos ir bien y s, en cambio, una
combinacin de ellas. Miremos el siguiente grco:

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

2/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

12. Puede observarse que en el caso de la izquierda la variable X1 es muy buena discriminadora de las dos
poblaciones: la roja y la azul. Desde X1las dos poblaciones se visualizan bien separadas.Tener el valor de
X1 de un individuo que no sabemos si pertenece a la poblacin roja o a la azul nos permitira, con cierta
tranquilidad, clasicarlo de una u otra poblacin y parece que la probabilidad de error sera bajo. En
cambio la X2 no discrimina, no nos separa las dos poblaciones. Esa variable es, pues, un mal referente para
clasicar entre esas dos poblaciones.
13. En el caso de la derecha del grco anterior la situacin nos permite decir que ni X1 ni X2 son buenos
discriminadores por separado. Si miramos la nube de puntos tanto desde X1 como desde X2 las dos
poblaciones se ven mezcladas, no estn discriminadas. Pero si hacemos un giro de los ejes, si hacemos una
combinacin de esas dos variables, podremos discriminar bien. Miremos el giro que hacemos en el grco
siguiente:

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

3/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

14. Ahora la variable a1X1+a2X2 s que discrimina bien. Ver la nube de puntos desde este nuevo eje nos
permite visualizar las dos poblaciones bien separadas. Por lo tanto, el valor que tengamos de un nuevo
individuo de esta combinacin de las dos variables originales nos permitir establecer un criterio de
clasicacin con pocas probabilidades de error. Y no olvidemos que hacer este giro va asociado de una
frmula como sta, una frmula que combina de una forma peculiar y lineal esos dos ejes originales.
15. De hecho, lo que acabamos de hacer no nos debe extraar, lo hemos hecho ya en el Anlisis de
componentes principales y en el Anlisis factorial. Hemos hecho combinaciones de las variables originales,
hemos hecho giros de los ejes, hemos creado componentes, factores. Ahora, en el contexto del Anlisis
discriminante estas combinaciones de las variables originales las llamamos funciones discriminantes. Pero,
en abstracto, es como una componente o un factor: una combinacin lineal de las variables originales.
https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

4/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

16. Y sea el tipo que sea de Anlisis discriminante el que realicemos, de entre los que veremos a
continuacin, el procedimiento siempre es el mismo: se trata de crear un mecanismo de decisin a travs
del cul al nuevo individuo se lo clasica segn el peso que tenga respecto a las densidades de las
diferentes poblaciones. Lo veremos mejor con un ejemplo: Supongamos uno de los casos vistos antes: la
altura como variable que discrimine entre hombres y mujeres. Lo que haremos es crear una funcin de
densidad a partir de la muestra de hombres, otra a partir de la muestra de mujeres y entonces al nuevo
individuo clasicarlo de la poblacin que le tocara ms densidad; o sea, en el grco establecemos una
frontera (en color verde) justo donde cambia la zona de mayor inuencia de una u otra poblacin. Si cae el
nuevo valor a la derecha de esa frontera lo clasicamos de azul, si cae a la izquierda lo clasicamos de rojo:

17. Hay diferentes tcnicas de Anlisis discriminante. Hay el Anlisis discriminante lineal, el Anlisis
discriminante cuadrtico y hay, tambin, todo un repertorio de tcnicas que se suelen encajar bajo la
denominacin de Anlisis discriminante no paramtrico.
18. La creacin de funciones discriminantes, combinaciones de las variables originales desde donde
establecer buenos mecanismos de discriminacin, tal como lo hemos planteado antes, es una idea ligada al
Anlisis discriminante lineal, pero es cierto que aunque los mecanismos usados por los diferentes tipos de
Anlisis discriminante son distintos, todos comparten la atmsfera general que he intentado transmitir
hasta ahora.
19. El Anlisis discriminante lineal y el cuadrtico parten de una serie de suposiciones que no siempre se
cumplen, por eso se han desarrollado una serie de tcnicas que son vlidas sin el cumplimiento de las
suposiciones rgidas que exigen las tcnicas paramtricas. La discriminacin lineal y la cuadrtica requieren
que cada una de las poblaciones siga la distribucinNormal multivariante. Adems, la discriminacin lineal
requiere que la matriz de varianzas-covarianzas sea la misma en todas las poblaciones. La discriminacin
cuadrtica, de hecho, est diseada para no tener que soportar esta suposicin.
20. Las tcnicas no paramtricas en Anlisis discriminante tratan, mediante mtodos diferentes y muy
imaginativos, establecer procedimientos de clasicacin de los nuevos individuos dentro del conjunto de
poblaciones candidatas.
21. Uno de esos mtodos no paramtricos de Anlisis discriminante es el basado en la Estimacin no
paramtrica de funciones de densidad. Veamos un poco la operatividad de este mtodo porque es
conceptualmente muy sencillo e interesante.Supongamos los siguientes datos:

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

5/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

22. Tenemos dos muestras de dos poblaciones distintas: la roja y la azul. El mtodo construye, entonces,
para cada muestra, una funcin de densidad mediante el mtodo Kernel y clasica al nuevo individuo
simplemente asignndolo a la poblacin donde haya ms valor de densidad, que querr decir que por all
hay ms inuencia de esa poblacin, hay ms valores muestrales y, por lo tanto, parece lgico arriesgarse a
clasicarlo de la poblacin que tenga ms representantes por la zona. Es la misma idea que la mostrada
antes con la variable Altura pero en lugar de mediante una campana de Gauss, mediante una funcin de
densidad estimada a partir de la propia muestra.
23. Como hemos dicho al principio del tema, y se ha podido comprobar a lo largo de su explicacin, el
Anlisis discriminante es una tcnica inferencial, una tcnica que hace inferencias, que va ms all de lo que
tenemos, que usa la muestra como medio para decir cosas que no sabemos. En este caso, para clasicar a
individuos dentro de dos o ms poblaciones.
24. Veamos un ejemplo de Anlisis discriminante lineal. Vamos a trabajar unos datos de aos de
supervivencia despus del diagnstico de cncer de pulmn de clulas pequeas. Los datos son los
siguientes:

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

6/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

25. No vamos a entrar en detalles sobre cada una de las variables. Slo decir que son tpicas variables
bioqumica y citolgicas en una analtica sangunea. La ltima columna es la Supervivencia, catalogada con
tres valores: <1, 1-2 y >2, que representan: menos de un aos, entre 1 y 2 aos y ms de 2 aos. Esta es la
columna que nos distingue las poblaciones. Son datos de enfermos que al diagnstico tenan esta analtica
y que acabaron sobreviviendo este tiempo especicado en la ltima columna.
26. El objetivo es, pues, aplicar el Anlisis discriminante para establecer un mecanismo de clasicacin, de
pronstico en este caso. Tenemos tres poblaciones denidas: Supervivencia de <1, de 1-2 y de >2 aos.
Tenemos tres muestras y 12 variables. Se trata de discriminar esas tres poblaciones, mediante esas 12
variables, con la nalidad de que a un nuevo paciente diagnosticado de esa enfermedad le podamos hacer
un pronstico con bastantes posibilidades de acertar.
27. En primer lugar deberamos comprobar la normalidad de los datos y la igualdad de la matriz de
varianzas-covarianzas. La normalidad multivariante es de compleja comprobacin. Aunque la normalidad
de cada variable individual no representa normalidad multivariante los software estadsticos acostumbran
a comprobar esta normalidad univariante con cualquiera de las tcnicas de bondad de ajuste a la normal,
como el Test de Kolmogorov o el de la ji-cuadrado. Respecto a la homogeneidad de las matrices de
varianzas-covarianzas una prueba habitual es el Test M de Box, que es una generalizacin del Test de
Barlett univariante.
28. Una vez comprobadas estas suposiciones pasamos a la realizacin de un Anlisis discriminante lineal.
Dibujamos los datos mediante un grco en tres dimensiones con las dos funciones discriminantes que nos
calcula el programa:

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

7/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

29. Las tres cruces que tienen forma de suma corresponden a los valores promedios de cada una de las
tres poblaciones, de cada uno de los tres grupos de supervivencia.
30. De entrada, ya slo viendo este grco y recordando lo que hemos dicho antes, parece claro que la
Funcin discriminante 1 parece discriminar bien pero la Funcin discriminante 2 no parece que nos
discrimine nada.
31. Veamos la siguiente tabla:

32.Los dos valores propios muestran que la primera funcin discriminante est mucho ms relacionada
que la segunda con los grupos de supervivencia. La correlacin cannica as lo muestra tambin. Pero,
adems, gracias a la Lambda de Wilks podemos comprobar que, adems, la primera funcin discriminante
separa signicativamente grupos, discrimina. Sin embargo, la segunda funcin discriminante no consigue
una separacin signicativa. El Test de la Lambda de Wilks es bsico en muchos mbitos inferenciales
multivariantes. Es un test que bsicamente trata de establecer una relacin entre la dispersin dentro de
los grupos respecto a la dispersin total, sin tener en cuenta los grupos. Si
33. Veamos cules son esas funciones discriminantes:

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

8/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

34. Tenemos las dos pero en realidad slo debemos mirar la primera porque la segunda no nos discrimina.
Como puede verse se trata de macrovariables, como las componentes o los factores. Pero ahora, debido al
contexto donde las hemos creado las llamamos funciones discriminantes. El programa estadstico nos da
dos pero slo una es signicativa.
35. En Anlisis discriminante no suele haber una preocupacin por la interpretacin de esas
macrovariables, de las funciones discriminantes. De hecho, el anlisis est canalizado a la creacin de un
mtodo que funciones, que sea til, no suele haber un inters en ponerle nombre a esas funciones como s
ocurre, por el contrario, en Anlisis de componentes principales o en Anlisis factorial.
36. Para clasicar a un nuevo individuo diagnosticado de cncer de pulmn de clulas pequeas despus
de hacerle una analtica con todos estos parmetros deberamos aplicar los valores de la siguiente tabla
con las llamadas funciones de clasicacin:

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

9/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

37. Estas funciones de clasicacin de los nuevos individuos es creada a partir de las muestras que
tenemos de los tres grupos de supervivencia. La operatividad es la siguiente: Se calculan los tres valores
correspondientes para cada columna con los valores del individuo. El valor ms alto es el valor ms
probable. Digamos que es una forma de calcular bajo qu distribucin de las tres tiene ms probabilidad.
38. Observemos que el procedimiento liga mucho con la idea del uso de Estimadores no paramdicos de la
funcin de densidad con el mtodo Kernel, comentado antes. Y, de hecho, liga con la idea nuclear que gua
todo lo visto en este tema: hay que clasicar all donde haya ms inuencia entre las muestras
previamente establecidas.
39. Cmo podemos cuanticar la ecacia del mtodo de discriminacin? Cul ser su ecacia? Podemos
predecirla? Miremos este interesante mtodo para hacer esta previsin:

40. Se trata de un mtodo ingenioso de estimacin de la ecacia clasicatoria. Consiste en ir tomando uno
a uno cada uno de los individuos de la muestra. Individuos de los que ya sabemos su supervivencia. Pues
bien, aplicamos la tabla de clasicacin establecida a partir de estos datos que hemos visto antes y
miramos dnde quedara clasicado este individuo si no supiramos su supervivencia. Y esto lo hacemos
https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

10/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

con todos los individuos de la muestra. De esta forma tenemos de cada uno de los individuos dos valores
de supervivencia: el real y el pronosticado. Construimos, entonces, esta tabla de clasicacin donde vemos
es las las la supervivencia real (porque es nuestra muestra y la sabemos) y la supervivencia prevista
aplicando nuestro mtodo de clasicacin. As vemos si acertamos o no. Lo bueno es que los valores estn
en la diagonal principal que es la que hace coincidir grupo real con grupo predicho. De esta forma se acaba
calculando un porcentaje de casos correctamente clasicados, que, en nuestro caso, es del 82.05%. Que no
es malo debido a la complejidad de los que estamos hablando.
41. Observemos que hemos trabajado con todas las variables del estudio. Pero aqu, en Anlisis
discriminante lineal tambin podemos hacer una Seleccin de variables hacia adelante o hacia atrs, como
en la Regresin mltiple. Si hicisemos esto a estos datos obtendramos, en primer lugar, la siguiente
representacin de los individuos segn las dos funciones discriminantes:

42. Los valores de signicacin siguen marcando la primera funcin discriminante como nica funcin que
discrimina realmente:

43. El proceso de seleccin del modelo encuentra que con tres variables basta. Con las variables LDH,
Hemoglobina y GPT ya es suciente. Las funciones discriminantes son:

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

11/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

44. La tabla de funciones de clasicacin es ahora la siguiente:

45. Y la tabla de clasicacin que nos mide la calidad de la clasicacin con los valores muestrales es la
siguiente:

46. Tenemos un 79.49% de aciertos, un poco menor que el 82.05% de antes, pero con muchas menos
variables.
https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

12/16

8/10/2016

Tema20:ANLISISDISCRIMINANTE|LAESTADSTICA:UNAORQUESTAHECHAINSTRUMENTO

47. Un breve comentario para acabar: Es interesante establecer conexiones entre el Anlisis discriminante y
la Regresin logstica. De hecho, tienen profundas similaridades. De hecho, se trata de dos formas de
enfrentarse a lo mismo. Observemos que las poblaciones en las que queremos clasicar a un nuevo
individuo se puede ver, en realidad, como una variable cualitativa. Y el procedimiento de discriminacin es
como la bsqueda del modelo de regresin.
48. Cuando la variable es dicotmica y se pretende modelizar la situacin y establecer relaciones entre la
variable dicotmica y un conjunto de variables predictoras mediante Odds ratio, entonces es ms habitual
usar la Regresin logstica. Cuando hay ms de dos poblaciones y adems hay especialmente una voluntad
prctica clasicatoria suele usarse el Anlisis discriminante. Tambin para el uso de una u otra tcnica
juegan cuestiones de tradicin, culturales. Por ejemplo, en Medicina es ms usual la Regresin logstica por
tradicin y por el papel tan destacado que en ese campo juega la Odds ratio. Sin embargo, en mbitos
como la Biologa, la Ecologa, la Sociologa y otros es ms habitual el uso del Anlisis discriminante.
Acercadeestosanuncios

Esta entrada fue publicada en TEMAS el enero 4, 2013


[https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema-20-analisis-discriminante/] .

14 pensamientos en Tema 20: ANLISISDISCRIMINANTE

Alessandro Navarra
septiembre 25, 2013 en 2:53 pm

Gracias por la info, me fue de mucha ayuda

https://estadisticaorquestainstrumento.wordpress.com/2013/01/04/tema20analisisdiscriminante/

13/16

Вам также может понравиться