Вы находитесь на странице: 1из 8

Captulo 3

Anlise Discriminante Linear


A expresso Anlise Discriminante tem sido utilizada para identificar diversas tcnicas multivariadas
que, no entanto, tm um objectivo comum. Parte-se do conhecimento de que os n indivduos observados
pertencem a diversos subgrupos e procura-se determinar funes das p variveis observadas que melhor
permitam distinguir ou discriminar entre esses subgrupos ou classes.

3.1

Introduo

Como foi visto no Captulo 2, Componentes Principais no so necessariamente boas solues para efeitos
de discriminao, pois as direces de variabilidade principal no tm que coincidir com as direces
de melhor discriminao. Em Anlise Discriminante coloca-se explicitamente o objectivo de separar
subgrupos de individuos, subgrupos esses que so previamente conhecidos nos dados observados.
Neste Captulo ser abordada uma tcnica discriminante, vlida no contexto descritivo onde nos situamos, conhecida por Anlise Discriminante Linear, ou de Fisher. Existem outras tcnicas discriminantes,
nomeadamente tcnicas que se baseiam em modelos probabilisticos, que no sero abordadas aqui. A
discriminao de Fisher tem a virtude de ser facilmente visualizvel em termos geomtricos. Alm disso,
no exige hipteses adicionais (ao contrrio das tcnicas baseadas em modelos probabilisticos). Tem
tambm a vantagem de permitir discriminar mais que dois diferentes sub-grupos (classes) sem grande
complexidade, facto que nem sempre se verifica nos mtodos baseados em consideraes inferenciais.
Na Anlise Discriminante de Fisher procuram-se as combinaes lineares Xa das p variveis observadas
que melhor separem os subgrupos de individuos indicados, segundo um critrio de separabilidade que
adiante se discute em mais pormenor.
As solues Xa obtidas designam-se eixos discriminantes ou tambm variveis cannicas1 . Podem
1 Embora

tal designao aparea tambm associada a um conceito completamente diferente, no mbito duma tcnica
designada Anlise das Correlaes Cannicas.

90

3.2. O MTODO EM MAIS PORMENOR

ser utilizados para obter uma representao grfica que saliente a distino entre as classes. E podem
tambm ser de utilidade para classificar futuros indivduos (observados nas mesmas variveis), do qual
seja desconhecido partida o subgrupo a que pertence.
Na Seco 3.2 descreve-se de forma mais pormenorizada o mtodo.

3.2

O mtodo em mais pormenor

O ponto de partida para uma Anlise Discriminante uma matriz X de dados observados, mas desta vez
acompanhada pelo conhecimento de que os n indivduos observados se distribuem por k classes (gerando
uma partio, i.e., cada indivduo pertence a uma e uma s classe). Neste contexto (e ao
contrrio da notao usada no Captulo 2 sobre Anlise em Componentes Principais) designamos por
X a matriz de dados sem centragem prvia das colunas.
O critrio que preside determinao de solues na Anlise Discriminante de Fisher baseia-se na seguinte
ideia: de entre as possveis combinaes lineares Xa das variveis observadas, pretende-se
escolher aquela em que os indivduos de cada classe se tornam mais homogneos, e as
diversas classes se tornam mais heterogneas entre si; por outras palavras, pretendemos que os
valores dos ni indivduos da i-sima classe na varivel y = Xa sejam parecidos, e claramente distintos
dos valores que os restantes indivduos (no pertencentes classe i) assumem, nessa combinao linear.
Ver-se- em seguida que a soluo envolve uma projeco ortogonal da matriz dos dados centrados sobre o subespao gerado pelas colunas indicatrizes da constituio de cada classe.
De facto, considere-se a matriz C, cuja i-sima coluna uma coluna indicatriz de pertena ao i-simo
subgrupo de indivduos2 . Admitindo (sem perda de generalidade) que os indivduos duma mesma classe
esto arrumados sequencialmente, a matriz C ter o aspecto indicado na equao (3.1).

2 Esta

matriz desempenha o papel que, no contexto da Anlise de Varincia desempenhado pela matriz do delineamento.
Nesse contexto, opta-se por construir uma matriz do delineamento com uma coluna de uns, e, para evitar os problemas de
multicolinearidade, as restantes colunas eram dadas pelas variveis indicatrizes de todos os nveis do Factor menos um. Esta
opo justificada, na disciplina de Modelao Estatstica I, pelo facto de ser a que melhor se generaliza para ANOVAs com
mais do que um Factor, e melhor permitir a integrao da ANOVA no mbito geral do Modelo Linear. Mas neste contexto,
em que apenas existe um nico Factor (os subgrupos) no existe a necessidade de assegurar uma soluo que se possa
generalizar para outras situaes. Assim, mais fcil expr as ideas admitindo que a matriz do delineamento/classificao
constituda pelas k variveis indicatrizes dos k subgrupos.

ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010

91

CAPTULO 3. ANLISE DISCRIMINANTE LINEAR

6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
C=6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
4

1
1
..
.
1

0
0
..
.
0

0
0
..
.
0

..
.

0
0
..
.
0

0
0
..
.
0

1
1
..
.
1

0
0
..
.
0

..
.

0
0
..
.
0

0
0
..
.
0

0
0
..
.
0

1
1
..
.
1

..
.

0
0
..
.
0

..
.

..
.

..
.

..
.

..
.

0
0
..
.
0

0
0
..
.
0

0
0
..
.
0

..
.

1
1
..
.
1

3
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
5

(3.1)

Observao: A matriz C designa-se a matriz da classificao uma vez que as suas colunas definem a
classe a que cada indivduo pertence. Note-se que as colunas de C so sempre ortogonais entre si, uma
vez que nenhum indivduo pode pertencer a mais do que uma classe. Note-se ainda que a soma das k
colunas da matriz C o vector dos uns, 1n , uma vez que cada indivduo pertence a uma (e uma s)
classe. O quadrado da norma da j-sima coluna de C nj , o nmero de indivduos que pertencem
j-sima classe.
Assinale-se que qualquer vector pertencente ao subespao de Rn gerado pelas colunas da matriz C
caracteriza-se por ter valor igual nos elementos associado s observaes de cada subgrupo. Ou seja,
os elementos z C(C) so da forma:

zt

[ z1 z1 ... z1 | z2 z2 ... z2 | | zk zk ... zk ]


{z
} |
{z
}
{z
}
|
|
n1 vezes

n2 vezes

(3.2)

nk vezes

onde ni (i = 1 : k) indica o nmero de individuos associados i-sima classe.


A matriz de projeces ortogonais sobre o subespao (de IRn ) gerado pelas colunas de C :

PC = C(Ct C)1 Ct
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010

(3.3)
92

3.2. O MTODO EM MAIS PORMENOR

Regressemos ao problema de determinar uma boa combinao linear das colunas da matriz de dados,
Xa, para efeitos de separao de subgrupos.
Pelo que ficou dito, uma combinao linear Xa prxima do subespao C(C) gerado pelas colunas da
matriz C ser uma nova varivel na qual os valores de individuos associados a uma mesma classe sero
semelhantes entre si. Mas existe ainda o outro aspecto do problema a considerar: desejamos que os valores
associados a individuos de classes diferentes sejam tanto quanto possvel diferentes. E a proximidade de
Xa a C(C) apenas no garante essa condio. De facto, o subespao C(C) tambm inclui os mltiplos
escalares do vector 1n (confirme!), pelo que inclui vectores que em nada distinguem os individuos de
classes diferentes. Assim, desejamos uma combinao linear Xa prxima de C(C), mas ao mesmo tempo
o mais diferente possvel dos vectores em C(1n ), ou seja, desejamos uma combinao linear o mais prxima
possvel do subespao C(C) C(1n ) . A forma mais simples de garantir essa condio ser proceder
centragem de qualquer combinao linear Xa, uma vez que esses vectores, dados por (In P1n )Xa,
pertencem necessariamente a C(1n ) . Assim, o nosso objectivo ser determinar a combinao
linear centrada (In P1n )Xa mais prxima possvel do subespao C(C), o que sabemos resulta
da projeco ortogonal dessa combinao linear centrada sobre o referido subespao3 .
Explicitemos a operao de centragem das colunas de X (como foi feito na pg. 45). A matriz de dados
centrados (In P1n )X, e uma combinao linear das colunas desta matriz centrada da forma:
z = (In P1n )Xa
Vamos agora escrever este vector como a soma da sua componente no subespao gerado pelas colunas de
C e da sua componente no complemento ortogonal desse subespao, isto , vamos recorrer decomposio
em soma directa
Rn

C(C) C(C)

(3.4)

obtendo-se ento a seguinte decomposio do vector z:


(In P1n )Xa

PC (In P1n )Xa + (In PC )(In P1n )Xa

Repare-se ainda que, pelo Teorema 1.27 (p. 26):


PC P1n = P1n
uma vez que o vector 1n pertence ao subespao gerado pelas colunas de C. Da resulta que a decomposio
acima referida se pode ainda escrever como:
(In P1n )Xa = (PC P1n )Xa + (In PC )Xa
3 De forma mais formal, e trabalhando com os conceitos de somas directas de mais do que dois subespaos estudados
na disciplina de Modelao Estatstica I, podemos dizer que consideramos o espao Rn como soma directa de trs seus

subespaos: Rn = C(1n ) C(C) C(1n ) C(C) . Procura-se a combinao linear Xa que esteja mais prxima do
segundo desses subespaos.

ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010

93

CAPTULO 3. ANLISE DISCRIMINANTE LINEAR

Uma vez que se trata duma decomposio associada a uma projeo ortogonal, podemos aplicar o Teorema
de Pitgoras (pgina 24) e concluir que:

k(In P1n )Xak2 = k(PC P1n )Xak2 + k(In PC )Xak2

(3.5)

A natureza das projeces efectuadas torna cada uma destas normas ao quadrado relevantes para o
problema sob estudo.
J sabemos que o membro esquerdo (k(In P1n )Xak2 ) proporcional varincia dos valores dos indivduos na varivel y = Xa (ver pgina 46), pelo que representa uma medida da variabilidade total
dos valores observados de y = Xa. A fim de interpretar a natureza das parcelas do membro direito da
igualdade, olhemos para a forma da matriz de projeo PC .
Como vimos h pouco, a matriz de projeces ortogonais sobre o subespao (de IRn ) gerado pelas colunas
de C : PC = C(Ct C)1 Ct . Ora, a ortogonalidade das colunas de C implica que a matriz Ct C uma
matriz diagonal, e que os seus k elementos diagonais so as dimenses de cada classe, {nj }kj=1 . Logo, a
matriz inversa (Ct C)1 tambm uma matriz diagonal, cujos elementos diagonais so os recprocos das
dimenses das classes, 1/nj .
Do que acaba de ser dito resulta que a matriz de projees ortogonais PC tem a forma:

PC =

1
n1

..
.

1
n1

1
n1

..
.

1
n1

..
.

1
n1

1
n1

0n2 xn1
..
.
0nk xn1

..
.

0n1 xn2
1
n2

..
.

1
n2

1
n2

..
.

1
n2

..
.

1
n2

1
n2

..
.

0nk xn2

..
.

0n1 xnk

0n2 xnk

..

..
.

1
nk

1
nk

..
.

..
.

1
nk

1
nk

1
nk

1
nk

..
.

..
.

Exerccio 3.1 Confirme esta afirmao sobre a natureza da matriz PC . Verifique que, se k = n, tem-se
PC = In . Se k = 1, tem-se PC = P1n . Veja as consequncias desta forma da matriz PC nestes dois
casos extremos.
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010

94

3.2. O MTODO EM MAIS PORMENOR

Assim sendo, o vector PC y = PC Xa ser da forma:

PC y =

y(1)
..
.
(1)
y
y(2)
..
.
(2)
y
..
.
(k)
y
..
.
(k)
y

Isto , o vector PC y o vector n-dimensional cujas n1 primeiros elementos so todos iguais mdia dos
valores de y na classe 1, os n2 elementos seguintes so todos iguais mdia dos valores de y para os
indivduos da segunda classe, e por a fora.
Tem-se ento:

(In PC )y =

(j)

onde yi

(1)

y1 y(1)
(1)
y2 y(1)
..
.
(1)
yn1 y(1)
(2)

y1 y(2)
(2)
y2 y(2)
..
.
(2)
yn2 y(2)
..
.
(k)

y1 y(k)
(k)
y2 y(k)
..
.
(k)
ynk y(k)

o valor de y para o i-simo elemento da j-sima classe. Da resulta que


2

k(In PC )yk =

nj
k X
X

(j)

(yi

y (j) )2

j=1 i=1

ou seja, k(In PC )yk2 a soma dos numeradores das varincias de y em cada uma das k classes.
Uma boa varivel y = (I P1n )Xa ser uma combinao linear para a qual esta parcela pequena,
uma vez que esse facto reflectir a existncia de classes internamente homogneas. Designaremos esta
parcela por variabilidade intra-classes dos dados.
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010

95

CAPTULO 3. ANLISE DISCRIMINANTE LINEAR

Por outro lado, temos:

(PC P1n )y =

y(1) y
..
.
y(1) y
y(2) y
..
.
y(2) y
..
.
(k)
y y
..
.
y (k) y

A norma ao quadrado deste vector , pois:


k(PC P1n )yk2 =

k
X

nj (y (j) y)2

j=1

Ou seja, esta parcela mede a disperso das mdias de y de cada classe, em torno da mdia geral dos
valores de y. Uma boa combinao linear dever produzir valores elevados desta parcela, uma vez que
tal facto reflectir a heterogeneidade entre classes dessa varivel y. Designaremos esta parcela por
variabilidade inter-classes dos dados.
Resumindo: A decomposio da combinao linear (centrada) y = (I P1n )Xa na sua parcela projectada sobre o subespao gerado pelas colunas da matriz da classificao e a sua parcela no respectivo
complemento ortogonal gera uma aplicao do Teorema de Pitgoras que se resume na frase: o numerador da varincia dos indivduos no eixo y = Xa resulta da soma da variabilidade intraclasses com a variabilidade inter-classes. Uma vez que a variabilidade total de y no depende da
classificao definida pela matriz C, tem-se que uma combinao linear adequada para salientar
a estrutura de subgrupos ser um vector Xa que minimize a variabilidade intra-classes e,
ao faz-lo, estar simultaneamente a maximizar a variabilidade inter-classes.
Como determinar essa combinao linear, i.e., como determinar o vector de coeficientes a na combinao
y = Xa? A fim de facilitar a obteno dessa soluo, a expresso acima obtida ser re-escrita em notao
matricial. Assim:
k(In P1n )Xak2 =

at Xt (In P1n )Xa =

k(PC P1n )Xak2 + k(In PC )Xak2


at Xt (PC P1n )Xa + at Xt (In PC )Xa

Designe-se:
= n1 Xt (In P1n )X
H = n1 Xt (PC P1n )X
E = n1 Xt (In PC )X

Matriz de varincias-covarincias de X
Matriz da variabilidade inter-classes
Matriz da variabilidade intra-classes

ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010

96

3.2. O MTODO EM MAIS PORMENOR

Tem-se:
(3.6)

=H+E

Exerccio 3.2 Demonstrar esta relao.


A equao resultante do Teorema de Pitgoras pode agora re-escrever-se de forma simples como:
at a = at Ha + at Ea

(3.7)

Com base nestas novas designaes, possvel re-formular o objectivo da Anlise Discriminante que
j havia sido enunciado na Seco 3.1: de entre as combinaes lineares Xa, escolher a que
maximiza o quociente:
at Ha
(3.8)
at Ea
Essa ser a primeira funo discriminante4 , ou primeiro eixo discriminante em Rn .
Assim, o problema de identificar a combinao linear que maximiza a discriminao, um caso particular
do problema geral de maximizao de um quociente de formas quadrticas, problema estudado no Teorema
1.38 (p.38). Sabemos ento que, se E fr uma matriz definida positiva o vector de coeficientes a que
se procura o vector prprio da matriz E1 H associado ao maior valor prprio de E1 H, digamos
o valor 1 . Chegmos, pois, primeira soluo do nosso problema.
A existncia da soluo acima indicada depende da existncia da inversa da matriz E. Ora, E uma
matriz de tipo p p. Ser invertvel se fr de caracterstica plena p (ver o ponto 3, pgina 29). Uma vez
que a caracterstica de um produto de matrizes no pode exceder a menor das caractersticas dos factores
nesse produto (ponto 1.19, pgina 29), tem-se:

car Xt (In PC )X

min{car(X), car(In PC ), car(Xt )}

min{p, n k}

(admitindo car(X) = p)

Logo, se k > n p, E no pode ser invertvel. Em geral, para k n p haver invertibilidade.


A razo de ser do adjectivo primeira nas concluses anteriores advm do facto de podermos estar interessados em determinar novas combinaes lineares discriminantes, caso o primeiro eixo discriminante
tenha uma fraca capacidade discriminante (e caso haja mais do que dois subgrupos de indivduos, por
razes que adiante se compreendero). Tais novas combinaes lineares devero ser solues dum problema anlogo ((In P1n )Xa mais prxima de C(C)), mas agora sujeito condio adicional de serem
no-correlacionadas com a(s) soluo(es) anterior(es), isto , de at a1 = 0. Tendo em conta as propriedades de a1 (sabemos ser um vector prprio de E1 H, associado ao valor prprio 1 ), podemos
4 Assinale-se

que, ao contrrio do que acontece numa Anlise em Componentes Principais, no necessrio impor qualquer
exigncia sobre a dimenso do vector de coeficientes a. De facto, multiplicaes do vector de coeficientes a por um escalar
deixam invariante o quociente
magnitude.

at Ha
,
at Ea

pelo que o critrio (3.8) depende apenas da direco do vector a, e no da sua

ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010

97

Вам также может понравиться