Вы находитесь на странице: 1из 28

UNIVERSIDAD DE PUERTO RICO

Recinto de Ro Piedras
Facultad de Administracin de Empresas Instituto de Estadstica

ANALISIS DISCRIMINANTE, HERRAMIENTA EN ESTADISTICA GERENCIAL


Jos C. Vega Vilca, PhD Presentacin en la Escuela Graduada Marzo 2008

INTRODUCCION
En negocios hay muchas situaciones donde sujetos en estudio pueden ser separados en dos o ms grupos bien definidos. Estos sujetos pueden ser personas personas, ciudades ciudades, universidades universidades, pases u otros otros. El propsito del Anlisis Discriminante es construir un clasificador basado en datos multivariados, pertenecientes a grupos bien conocidos por el investigador, para ser usado en clasificacin de nuevos sujetos y puedan ser localizados en alguno de estos grupos en estudio. Segn las caractersticas (multivariadas) de los nuevos sujetos, podremos dar respuesta a casos tales como: 1.- Comprar, este cliente nuestro producto, o no? 2 - Devolver, 2. Devolver este cliente el crdito crdito, o no? 3.- Se adaptar, este candidato al puesto de trabajo, o no?

Jos Vega, PhD

EL PROBLEMA GENERAL EN CLASIFICACIN


Poblacin 1: 1 Poblacin 2: 2

Cada punto representa un sujeto, en el p de p p-dimensiones espacio Clasificar estos nuevos objetos, en una de estas dos poblaciones
Jos Vega, PhD 3

CASO PRCTICO: los objetos j se representan p dentro de un espacio muestral

Regin 1: R1

clasificador
Regin 2:

R2

Jos Vega, PhD

CONCEPTOS
R1 : Regin donde los sujetos son clasificados como perteneciente a 1 R2 : Regin donde los sujetos son clasificados como perteneciente a 2 : Espacio muestral, R1 R2 = R1 R2 =

c(i | j) : costo de clasificar un objeto en i , cuando realmente pertenece a j

x = ( x1 , x2 , x3 , L , x p ) )'

vector aleatorio : punto en el espacio

f i (x )

funcin de densidad de poblacin i, i=1,2 Probabilidad apriori de pertenecer a poblacin 1

p 2 = P (x 2 ) Probabilidad apriori de pertenecer a poblacin 2


Jos Vega, PhD 5

p1 = P (x 1 )

REGIONES DE CLASIFICACIN
R1 : c(1 | 2) p2 f1 (x ) f 2 (x ) c(2 | 1) p1
c(1 | 2) p2 f1 (x ) < f 2 (x ) c(2 | 1) p1

R2 :

Generalmente se asume que:

c(1 | 2) c(2 | 1) = 1 y

p2 = 1 p1

Regiones de clasificacin
R1 : D(x ) 0 R2 : D(x ) < 0
Jos Vega, PhD

Es la funcin discriminante
D( x ) = ln f1 (x ) f 2 (x )
6

DISTRIBUCIN NORMAL p-VARIADA


El vector aleatorio x = ( x1 x2 L x p ) tiene distribucin normal p-variada, si su funcin de densidad es :

f (x ) =

(2 )

p 2

1 exp (x )' 1 (x ) 2
11 12 22 21 = M M p1 p 2 L 1p L 2p L M L pp

vector de medias

M p

1 2

Matriz de covarianzas

p = 1: univariada
f (x ) = 1 2
2 1 x exp 2

p = 2: bivariada

Jos Vega, PhD

CLASIFICACIN EN DOS POBLACIONES NORMALES


Sean f1 (x ) y f 2 (x ) las funciones de densidad correspondientes a las p poblaciones en estudio: 1 y 2 , respectivamente p

f1 (x ) = f 2 (x ) =

(2 ) (2 )

p 2

1 2

1 1 ( x 1 ) exp (x 1 )' 1 2 1 1 (x 2 ) exp (x 2 )' 2 2

1
p 2 1 2

Regiones de clasificacin

Es la funcin discriminante

R1 : D(x ) 0

R2 : D(x ) < 0

D(x ) = ln

f1 (x ) f 2 (x )

Jos Vega, PhD

C Caso a) ) : 1 = 2 = (discriminante (di i i t lineal) li l)


R1 : D(x) = (1 2 )' 1 x R2 : D(x) = (1 2 )' 1 x 1 (1 2 )' 1 (1 + 2 ) 0 2 1 (1 2 )' 1 (1 + 2 ) < 0 2

Caso b) : 1 2 (discriminante cuadrtico)


R1 : D(x) =
R2 : D(x) =

1 1 1 x' 1 2 x + 2
1 1 1 x' 1 2 x + 2
+

(
' 1
' 1

1 1

1 '2 2 x k 0

1 1

1 '2 2 x k < 0

donde :
Jos Vega, PhD

1 1 ln 2 2

1 ' 1 1 1 1 1 '2 2 2 2

)
9

CLASIFICACIN: PROBABILIDAD POSTERIOR


P( i | x 0 )
probabilidad de clasificar en i , un vector observado i = 1, 2

x0

Usando probabilidad condicional


P( 2 | x 0 ) = P( 2 x 0 ) P(x 0 ) = P( 2 ) P(x 0 | 2 ) P(x 0 ) = p2 f 2 (x 0 ) P(x 0 )
(1)

Usando probabilidad total

P(x0 ) = P(x0 1 ) + P(x0 2 )


= P(1 ) P(x0 | 1 ) + P( 2 ) P(x0 | 2 ) P(x0 ) = p1 f1(x0 ) + p2 f2 (x0 )
Jos Vega, PhD

(2)
10

Reemplazando (2) en (1) y asumiendo que p1 = p2


P( 2 | x 0 ) = f 2 (x 0 ) f1 (x 0 ) + f 2 (x 0 ) = f1 (x 0 ) f 2 (x 0 ) 1 + 1 = 1 exp[D(x 0 )] + 1

P( 1 | x 0 ) =

f1 (x 0 ) f1 (x 0 ) + f 2 (x 0 )

= 1 +

f 2 (x 0 ) f1 (x 0 )

1 1 + exp[ D(x 0 )]

Regla de clasificacin
Si

P( 1 | x 0 ) > P( 2 | x 0 )

x0

se clasifica en

de otro modo en

Jos Vega, PhD

11

ESTIMACION (1)
En el caso de aplicacin, los parmetros 1 , 2 , 1 y 2 son desconocidos. La funcin discriminante se construye con una muestra de cada poblacin muestra de poblacin 1
x11 x12 L x1p x x L x 21 22 2p X = M M M x x L x np n1 n2

muestra de poblacin 2
y11 y12 L y1p y y L y 21 22 2p Y = M M M y m1 ym2 L ymp

1 S x

1 x

2 2

Sy y

Jos Vega, PhD

12

ESTIMACION (2)
En discriminante lineal se supone que: 1 = 2 La matriz de covarianza comn:

S=

(n 1)S x + (m 1)S y n+m2

REGIONES DE CLASIFICACION
R1 : D(x) = ( x y )' S 1x R2 1 (x y )' S 1 ( x + y ) 0 2 1 : D(x) = (x y )' S 1x ( x y )' S 1 (x + y ) < 0 2

CLASIFICACION Un nuevo sujeto representado por: Ser clasificado en: 1 Ser clasificado en: 2
Jos Vega, PhD

x 0 = ( x1 , x2 , x3 , L , x p )'

si si

D(x 0 ) 0 D(x 0 ) < 0


13

APLICACION 1: Clasificacin en dos grupos


Una empresa tiene el registro de 84 clientes. Algunos de ellos estn suscritos a la revista Wall Street Journal ( (WSJ) ) y los otros no. Grupos: 1) Clientes NO suscritos a Wall Street Journal 2) Clientes suscritos a Wall Street Journal

Variables discriminantes: Ingreso: ingreso anual de la persona Inversin: cantidad total invertido en bonos y acciones

Jos Vega, PhD

14

GRAFICO DE PUNTOS: REPRESENTACION DE LOS DOS GRUPOS

Jos Vega, PhD

15

ANALISIS DISCRIMINANTE ( (1) )


PROMEDIOS grupo N0 SUSCRITOS:NO SUSCRITOS: SI Ingreso Inversin 66042.11 66042 11 24952 24952.63 63 80485.19 53000.00

MATRIZ DE COVARIANZAS COMUN Ingreso Inversin Ingreso 14812033021 6123163684 Inversin 6123163684 7663422105

MATRIZ DE CLASIFICACION N0-suscrito N0 suscrito SI SI-suscrito suscrito NO-suscritos 52 5 SI-suscritos 2 25

TOTAL 57 27 84
16

Jos Vega, PhD

ANALISIS DISCRIMINANTE (2) ( )


FUNCIN DISCRIMINANTE (D)

D(x) = 0.00006586* Ingreso 0.0003527348* Inversin + 8.92316

ECUACION DE LA RECTA RECTA: CLASIFICADOR

D ( x) = 0
0 00006586* Ingreso 0 0.00006586* 0.0003527348* 0003527348* Inversion + 8.92316 8 92316 = 0 Inversin = 0.1867125* Ingreso g + 25297.08

Jos Vega, PhD

17

REPRESENTACION GRAFICA DEL CLASIFICADOR

Malaclasificacion: 5 azules 2 rojos

clasificador

Jos Vega, PhD

18

COMO CLASIFICAR A UN NUEVO CLIENTE?


Nuevo cliente: Ingreso: 60000 Inversin: 10000 Solucin 1: Ubicar x 0 en el grfico de puntos

x 0 = (60000, (60000 10000) '

S l i 2 Solucin 2: U Usar l la f funcin i di discriminante i i t

D (x 0 ) = 0.00006586* 60000 0.0003527348* 10000 + 8.92316

D(x0 ) = 9 9.347412 347412 > 0

El nuevo cliente li t No N est t suscrito a WSJ

Jos Vega, PhD

19

COMO CLASIFICAR A UN NUEVO CLIENTE?


Solucin 3: usando probabilidad posterior (p1 = p2)
P( 2 | x 0 ) = 1 1 = = 0.0000872 exp[D(x 0 )] + 1 exp(9.347412) + 1
1 1 = = 0.9999128 1 + exp[ D(x 0 )] 1 + exp(9.347412)

P( 1 | x 0 ) =

Se cumple que:
P( 1 | x 0 ) > P( 2 | x 0 )

El nuevo cliente No est suscrito it a WSJ

Jos Vega, PhD

20

CLASIFICACIN EN MS DE DOS GRUPOS


Trabajando con tres grupos Usando U d l la f funcin i di discriminante: i i t asumiendo i d que p1 = p2 = p3
clasificar
x 0 en una de las tres poblaciones
D12 (x 0 ) 0
D12 (x 0 ) < 0

1 si
2 si

D13 (x 0 ) 0
D23 (x 0 ) 0

3 si i

D13 (x 0 ) < 0

D23 (x 0 ) < 0

Usando probabilidad posterior


calcular : clasificar
Jos Vega, PhD

P ( i | x 0 ) , i = 1, 2, 3

x 0 en la poblacin donde P( i | x 0 ) es el valor ms grande


21

APLICACION 2: Clasificacin en tres grupos


Una compaia especializada en textos universitarios, es representante de un libro de computacin con el cual ha alcanzado sus mejores ventas. La compaia tiene registrado a 119 universidades en tres grupos: Grupos: ) Universidades U e s dades que NUNCA U C le e co compraron pao e el libro bo 1) 2) Universidades que YA NO compran el libro 3) Universidades que SIGUEN comprando el libro Variables discriminantes: X1: total de alumnos en la universidad X2: promedio SAT X3: porcentaje de cursos que requieren asistencia X4: nmero de PC disponibles en la universidad X5: porcentaje de estudiantes con PC propia X6: promedio anual de estudiantes matriculados
Jos Vega, PhD 22

ANALISIS DISCRIMINANTE (1) ( )


PROMEDIOS: GRUPO X1 X2 X3 X4 X5 X6 1) 14799.05 1134.2750 80.59500 148.1500 54.93250 14997.500 2) 14888.46 921.7297 59.87838 101.6216 43.95135 9878.378 3) 19575.60 950.1429 59.48333 153.2857 51.98571 9680.952

MATRIZ DE COVARIANZAS COMUN X1 X2 X3 503920787.2 -6095139.5 -414582.4 -6095139.5 1016284.4 28703.1 -414582.4 28703.1 4432.8 1403197.0 82864.9 19.3 -689418.9 58951.3 2743.5 -229036851.2 13996125.6 1045238.9 X4 X5 X6 1.40e+06 -689418.9 -229036851 8.29e+04 58951.3 13996126 1.93e+01 2743.5 1045239 8.30e+04 3038.1 3234841 3.04e+03 11217.5 1787913 3.23e+06 1787912.9 1117937215

X1 X2 X3 X4 X5 X6

Jos Vega, PhD

23

ANALISIS DISCRIMINANTE (2) ( )


MATRIZ DE CLASIFICACION GRUPO1 39 0 0 GRUPO2 0 34 3 GRUPO3 1 3 39 TOTAL 40 37 42 119

GRUPO1 GRUPO2 GRUPO3

Jos Vega, PhD

24

FUNCION DISCRIMINANTE
El clasificador consta de tres funciones:

D12 (x)

D13 (x) D23 (x)

C fi i t d Coeficientes de l las f funciones i


Variables X1 X2 X3 X4 X5 X6 Constante

D12 (x)
0.0002646156 0.0103142274 0.5711362115 0.0583431022 -0.0544522169 -0.0001594750 -57.25612

D13 (x)
-0.0007530045 0.0145923633 0.5000922141 -0.0060218883 -0.2357332707 0.0001415569 -25.52921

D23 (x)
-0.0010176201 0.0042781359 -0.0710439974 -0.0643649905 -0.1812810538 0.0003010319 31.72691

Jos Vega, PhD

25

COMO CLASIFICAR A UNA NUEVA UNIVERSIDAD?


Nueva universidad:
X1 17455 X2 1068 X3 79.3 X4 154 X5 46.5 X6 17400

Solucin 1: Usar la funcin discriminante

D12 (x 0 ) = 7.347388 D13 (x 0 ) = 7.143177 D23 (x0 ) = 0.2042108


La nueva universidad i id d pertenence al grupo 1. Nunca comprarn el libro
D12 (x 0 ) 0 D13 (x 0 ) 0

Jos Vega, PhD

26

COMO CLASIFICAR A UN NUEVA UNIVERSIDAD?


Solucin 2: Usar la probabilidad posterior (p1 = p2 = p3)

D12 (x 0 ) = 7.347388 D13 (x 0 ) = 7.143177 D23 (x0 ) = 0.2042108


P( 3 | x 0 ) = 1 = 0.0007891055 exp[D13 (x 0 )] + exp[D23 (x 0 )] + 1

1 P( 2 | x 0 ) = = 0.0006433502 exp[D12 (x 0 )] + 1 + exp[ D23 (x 0 )] P( 1 | x 0 ) = 1 = 0.9985675 1 + exp[ D12 (x 0 )] + exp[ D13 (x 0 )]

La nueva universidad pertenence al grupo 1. NUNCA comprarn el lib libro

Jos Vega, PhD

27

BIBLIOGRAFIA
Albright S., Winston W., Zappe C. (2000). Managerial Statistics, Duxbury M di K Mardia K., K Kent tJ J., Bibb Bibby J J. (1979) (1979). M Multivariate lti i t A Analysis, l i A Academic d i P Press

Jos Vega, PhD

28

Вам также может понравиться