Вы находитесь на странице: 1из 14

Reviso de Tcnicas de Classicao de Padres a e ca o

M.Sc. Csar Christian Castelo Fernndez e a Instituto de Computao, Universidade Estadual de Campinas ca 28 de noviembre de 2011

Nesta seo, faremos uma reviso das principais tcnicas de classicao supervisionca a e ca ada presentes na literatura. Como foi mencionado anteriormente, existem muitas tcnicas de classicao supere ca visionada. No entanto, neste cap tulo faremos uma reviso das mais importantes e mais a utilizadas na literatura. Duda et al. [8] e Theodoris e Koutroumbas [15] propuseram diversas categorias para dividir estas tcnicas. Entre as principais, podemos destacar as e seguintes: tcnicas baseadas em probabilidade (Classicador Bayesiano), tcnicas noe e a paramtricas (k vizinhos mais prximos), discriminantes lineares (Mquinas de Vetores e o a de Suporte) e discriminantes no-lineares (Redes Neurais Articiais). Ademais, aprea sentaremos tambm o classicador baseado em Floresta de Caminhos Otimos, que uma e e tcnica baseada em grafos proposta recentemente e que se mostrou muito ecaz e ee ciente. Nas sees seguintes, apresentaremos os principais conceitos de cada uma das tcnico e cas escolhidas para termos um conhecimento geral das tcnicas mais populares de clase sicao de padres. Nas ultimas sees, enfatizaremos duas tcnicas que tm mais ca o co e e relevncia para este trabalho: o Classicador por Floresta de Caminhos Otimos e as a Mquinas de Vetores de Suporte. O primeiro foi usado como base para os algoritmos de a aprendizado propostos neste trabalho e o segundo ser usado em trabalhos futuros. a

1.

Classicador Bayesiano

O classicador bayesiano um classicador estat e stico que usa o Teorema de Bayes [1] para descobrir a classe de um conjunto de amostras, usando informao estat ca stica das amostras de treinamento, como as probabilidades a priori, a posteriori e as funoes de c densidade de probabilidade. Basicamente, a ideia computar, para cada amostra, o erro e desta pertencer a cada uma das classes, sendo que uma amostra classicada na classe e com menor erro e por isso que ele tambm conhecido como o Classicador Estatstico e e e Otimo [15].

1.1.

Denies co

Dado um problema com M classes 1 , . . . M e uma amostra representada pelo vetor de caracter sticas x, denimos as probabilidades condicionais dela pertencer a cada uma das classes como: P (i |x), i = 1, . . . , M , chamadas de probabilidades a posteriori. Cada uma delas dene a probabilidade da amostra pertencer a cada classe i dado que o vetor tem o valor x.

Para computar a probabilidade a posteriori precisamos de outras duas probabilidades: a probabilidade a priori P (i ) de ocorrncia de cada classe i e a funo de densidade e ca de probabilidade (Probability Density Function - PDF) p(x|i ), i = 1, 2, . . . , M , que descreve a distribuio dos vetores de caracter ca sticas em cada uma das classes. A probabilidade a priori pode ser calculada usando as amostras de treinamento. Seja N o nmero total de amostras e Ni , i = 1, . . . , M o nmero de amostras da classe i , u u denimos P (i ) = Ni /N . A PDF p(x|i ), tambm conhecida como a funao de verosimilhana de i em relao e c c ca a x, tambm pode ser estimada a partir das amostras de treinamento, ou podemos e assumir que tem uma forma conhecida (e.g., uma funo gaussiana). Existem muitas ca abordagens para estimar a PDF. Finalmente, podemos denir as probabilidades condicionais usando o Teorema de Bayes: p(x|i )P (i ) (1) P (i |x) = p(x) onde p(x) a PDF de x, denida como: e
M

p(x) =
i=1

p(x|i )P (i )

(2)

Ento, usando as probabilidades, denimos que a classe de x ser a classe i se: a a P (i |x) P (j |x), j = i (3)

Naturalmente, podemos supor que todas as classes tm a mesma probabilidade de e serem escolhidas (i.., P (i ) = P (j ), i = j). Ento, re-escrevendo e juntando as e a Equaes 1 e 4 podemos deduzir que a deciso depende unicamente do valor da PDF. co a Ento, considerando as PDFs da Figura 1 (duas classes), podemos estabelecer a linha que a passa por x0 como um threshold aceitvel de diviso das classes. No entanto, sabemos a a que seria imposs vel evitar a ocorrncia de erros nessa classicao pela superposio e ca ca das PDFs, sendo que o erro pode ser medido como:

Figura 1: Exemplo de Funes de Densidade de Probabilidade considerando as classes co 1 e 2 . O erro na classicao representado pela regio em cinza. ca e a
x0 +

Pe =

p(x|2 )dx +
x0

p(x|1 )dx

(4)

Logo, o objetivo do Classicador minimizar esse erro, sendo que tal restrio atene ca e dida na Equao 4 (mais detalhes em Theodoris e Koutroumbas [15]). ca Na Figura 2, pode-se observar que realmente as probabilidades condicionais so um a melhor criterio de classicao (Equao 4) do que as PDFs. ca ca

Figura 2: Exemplo de Probabilidades Condicionais para as PDFs da Figura 1, considerando P (1 ) = 2/3 e P (2 ) = 1/3. Para cada x, P (1 ) + P (2 ) = 1.

1.2.

Estimativas de Funes de Densidade de Probabilidade co

Como foi dito, frequentemente a PDF no conhecida, mas pode ser estimada a a e partir dos dados de entrada. Estimar a PDF um processo fundamental em estat e stica, pois uma PDF descreve completamente o comportamento de uma varivel aleatria. a o De modo geral, estimativas de densidade podem ser classicadas como paramtricas e e no-paramtricas. O propsito da abordagem no-paramtrica encontrar uma PDF a e o a e e desconhecida que tenha mxima verossimilhana com o conjunto de dados analisados. A a c alternativa paramtrica assume que os dados seguem um modelo espec e co de densidade. Essa alternativa pode gerar resultados no muito bons quando o conhecimento a priori a no se adequa muito bem aos dados. Por outro lado, quando se conhece uma funo a ca que caracteriza bem o conjunto de dados, o mtodo pode ser muito mais rpido que o e a no-paramtrico. a e Entre as principais tcnicas para estimativa de PDF podemos destacar as apontadas e por Theodoris e Koutroumbas [15]: estimativa por mxima verossimilhana, estimativa a c por probabilidade a posteriori, inferncia bayesiana, estimativa por mxima entropia, e a maximizao da esperana (mistura de PDFs), janelas de Parzen, histogramas, k vizinhos ca c mais prximos, ncleo varivel. o u a At agora foram apresentados os conceitos bsicos do Classicador Bayesiano, unicae a mente para conhecer a lgica atrs do seu funcionamento. Existem muitos outros apectos o a que foram estudados ao longo dos anos na literatura, mas que no so relevantes ao cona a tedo deste trabalho. Aspectos como a Minimizao do Risco na classicao, diferentes u ca ca Superf cies de Deciso, estimativas de Funes de Densidade de Probabilidade, etc, poa co dem ser encontradas em Duda et al. [8] e Theodoris e Koutroumbas [15].

2.

k Vizinhos mais Prximos o

O classicador k-NN caracterizado pela sua simplicidade conceitual e o bom dee sempenho que pode mostrar em muitos problemas de classicao. A ideia de utilizar os ca k vizinhos mais prximos de cada amostra foi inicialmente proposto como uma tcnica o e no-paramtrica para o clculo de funes de densidade de probabilidade, sendo posa e a co teriormente denido como uma regra de classicao. Segundo Theodoris e Koutroumca bas [15], este um classicador no-linear sub-timo, pois representa uma aproximao e a o ca da PDF real dos dados, computada em muito menos tempo. Dado um conjunto de N vetores de caracter sticas, um conjunto de M classes, um vetor x que representa uma nova amostra a ser classicada e uma medida de distncia, a o algoritmo de classicao k-NN pode ser resumido nos seguintes passos ca 1. Identicar as k amostras mais prximas a x, independentemente das classes dessas o amostras. 2. Computar o nmero de amostras ki que pertencem a cada classe i , i = 1, . . . , M . u 3. Atribuir x ` classe i com o maior nmero de amostras ki . a u Para estudar alguns aspectos interessantes do classicador k-NN, vamos considerar a verso mais simples poss a vel, i., k = 1, sendo que neste caso, o algoritmo seria reduzido e a considerar que a classe de x ser aquela da amostra mais prxima a ela. Ento, neste a o a caso, o classicador representa uma partio do espao em N regies Ri , sendo que cada ca c o uma delas denida por: e Ri = {x : d(x, xi ) < d(x, xj ), i = j} (5)

ou seja, Ri contm todos os pontos mais prximos a xi do que a qualquer outro ponto e o no conjunto, considerando a distncia d. Esta partio do espao conhecida como o a ca c e Diagrama de Voronoi (Figura 3).

Figura 3: Exemplo de um Diagrama de Voronoi considerando N = 30 em um espao 2D c e usando distncia euclideana. a Se temos um nmero sucientemente grande de amostras, o comportamento do clasu sicador pode ser bastante bom. Mais especicamente, se N , o erro de classicao ca PN N do classicador limitado por: e 4

PB PN N PB 2

onde PB o erro de classicao Bayesiano (i.., erro timo) [8]. Em outras palavras, o e ca e o erro do classicador 1-NN no mximo duas vezes o erro timo. e a o Por outro lado, se k sucientemente grande, o classicador k-NN melhor que o e e classicador 1-NN. Para o caso de M = 2, por exemplo, Devroye et al. [6] estabeleceram as seguintes desigualdades: 1 PB PkN N PB + ke 2PN N (7) k sendo que as duas desigualdades sugerem que quando k cresce, o comportamento do classicador k-NN tende ao timo. Alm disso, Theodoris e Koutroumbas [15] tambm o e e demonstraram esta aproximao do classicador k-NN ao classicador Bayesiano timo. ca o Contudo, um dos grandes problemas deste classicador a complexidade computae cional para o clculo dos vizinhos mais prximos das amostras no conjunto de treinaa o mento. Se fssemos usar um algoritmo de fora bruta, a complexidade seria O(kN ), o o c qual pode ser invivel para muitos problemas na prtica. Ademais, o problema se coma a plica ainda mais ao trabalharmos com vetores de caracter sticas de altas dimenses. Na o literatura foram propostas algumas alternativas para reduzir o tempo de processamento do classicador, tais como as abordagens de Broder [2], Djouadi e Bouktache [7], Nene e Nayar [12] e Dasarathy [5]. PB PkN N PB +

M PB M 1

2PB

(6)

3.

Redes Neurais Articiais

O projeto de classicadores baseados em Redes Neurais [11] vem de uma metodologia inspirada no funcionamento do crebro humano e amplamente estudado na literatura, e e tanto pelas suas propriedades tericas quanto pelas suas aplicaes prticas. Basicao co a mente, trabalha-se com um conjunto de neurnios (unidades de processamento) interlio gados para formar uma rede de ns, organizados em diferentes camadas, como pode-se o observar no exemplo da Figura 4. O primeiro conjunto de neurnios (camada de entrao da) realiza algum processamento com o conjunto de treinamento e produz um conjunto de sa das que servem como entradas para os neurnios da camada intermediria. Estes o a neurnios realizam um processamento similar e produzem novas sa o das para a camada seguinte, repetindo-se o mesmo processo com as camadas posteriores. A ultima cama da (camada de sa da) deve conter um neurnio por cada classe do problema, os quais o denem a classe de amostras desconhecidas, como veremos nas prximas sees. o co Existem diversas propostas relacionadas ` arquitetura da rede, sendo que essa ara quitetura que dene o modo em que os neurnios so interligados e se existir mais de e o a a uma camada. Ademais, cada uma das interligaes entre os neurnios possui um certo co o peso que usado na computao do neurnio. Comumente, so utilizados trs tipos de e ca o a e arquiteturas de redes neurais: 1. As redes feedforward, que unicamente transformam sinais de entrada em sinais de sa (usados na seguinte camada da rede). da

Camada de Entrada

Camada Intermediria Camada de Sada

Figura 4: Exemplo de uma Rede Neural Articial com trs camadas e duas sa e das. 2. As redes feedback, que igualmente transformam os sinais de entrada para serem usados na camada seguinte, mas tambm podem utilizar os resultados de uma e camada para alimentar neurnios de camadas anteriores, realizando iteraes no o co processo at atingir um estado nal. e 3. Os mapas de auto-organizaao, que permitem interaes entre neurnios vizinhos c co o na mesma camada, a m de transformarem-se em detectores especializados de diferentes padres. o

3.1.

Perceptrons

Um conceito fundamental que revolucionou a pesquisa em redes neurais nas dcadas e de 50 e 60 a inveno das chamadas mquinas que aprendem, os perceptrons [11]. e ca a Essencialmente, um perceptron aprende uma funo de deciso linear que dicotomiza ca a dois conjuntos de treinamento, para o qual utiliza o conjunto de pesos de entrada que chegam a ele atravs das interligaes com outros perceptrons (neurnios). e co o A sa d(x) de um perceptron x denida por uma funao de ativaao () que da e c c tem como parmetro a soma ponderada de sua entrada, ou seja, a d(x) = ()
n

=
i=1

wi xi + wn+1

(8)

onde os coecientes wi , i = 1, . . . , n + 1 so os pesos das conexes. A soma ponderada a o dene um hiperplano no espao n-dimensional. c A funo de ativao pode ter diversas formas, sendo as mais conhecidas: funo ca ca ca limiar, sigmoidal, identidade, etc. Funo limiar: ca () = 1 0 6 se 1 caso contrrio a

Funo sigmoidal: ca () = Funo identidade: ca

1 1 + exp()

() = Utilizando o hiperplano denido por , podemos resolver problemas de classicao ca que envolvem duas classes linearmente separveis. No entanto, quando tentamos rea solver problemas com mais de duas classes (linearmente separveis ou no), esta tcnica a a e no eciente. Para resolver esta inconvenincia, foi proposto o algoritmo Perceptron a e e Multicamadas, conhecido como ANN-MLP (Articial Neural Networks - Multilayer Perceptron) [8, 11]. Nas redes ANN-MLP, temos um conjunto de camadas de neurnios, sendo que o cono junto de sa das de uma camada alimenta as entradas dos neurnios da camada seguinte. o Para cada neurnio, sua entrada corresponde ` soma ponderada das sa o a das da camada anterior. O nmero de neurnios da primeira camada corresponde ` dimensionalidade dos u o a vetores de caracter sticas dos dados de entrada; e o nmero de neurnios da camada de u o sa corresponde ao nmero de classes presentes no problema. Logo, quando um novo da u padro apresentado ` rede, denimos que sua classe wm caso a m-sima sa da a e a e e da rede possua o maior valor de todas as sa das.

3.2.

Treinamento por Retropropagao ca

O algoritmo ANN-MLP descrito anteriormente possui uma arquitetura feedforward, pois os neurnios na rede so ligados unicamente com neurnios de camadas posteriores. o a o No entanto, utilizando uma arquitetura feedback, podemos melhorar o desempenho da rede utilizando nas primeiras camadas informaes obtidas em camadas posteriores. Este co o chamado Treinamento por Retropropagao [3]. e ca Basicamente, o objetivo deste algoritmo minimizar o erro quadrtico total entre as e a sa das desejadas e as sa das obtidas pela rede na ultima camada. Para isso, utilizamos um conjunto de aprendizado do qual conhecemos as classes e classicamos cada uma das amostras utilizando os pesos denidos na rede. Caso a sa obtida pela rede no esteja da a correta, calculamos o erro e o propagamos da camada de sa at a camada de entrada da e e desta at as outras, utilizando a Regra Delta Generalizada, a qual permite o reajuste e dos pesos em toda a rede, de maneira a tentar minimizar a funo de erro (veja [3] para ca mais detalhes). Para a camada de sa Q, o erro quadrtico total EQ denido por: da a e EQ = 1 2
NQ q=1

(rq Oq )2

(9)

onde NQ o nmero de ns na camada Q, rq a sa desejada e Oq a sa obtida e u o e da e da pela rede. Uma vez que todas as amostras no conjunto de aprendizado tenham sido classicadas, podemos usar os pesos nais da rede para classicar novas amostras com classe desconhecida. Como foi dito no comeo da seo, as Redes Neurais so uma das tcnicas de classic ca a e cao mais estudadas na literatura e, como tal, foram propostos muitos outros algoritmos ca de treinamento e arquiteturas alm dos apresentados nesta seo. No entanto, o nosso e ca 7

objetivo foi apenas introduzir alguns conceitos sobre redes neurais por ser uma tcnica e muito conhecida. Mais detalhes sobre os algoritmos e arquiteturas apresentados e outros existentes, podem ser encontradas em Haykin [11], Bryson e Ho [3], Duda et al. [8] e Theodoris e Koutroumbas [15].

4.

Mquinas de Vetores de Suporte a

O classicador baseado em Mquinas de Vetores de Suporte um classicador que a e essencialmente busca dividir um conjunto de dados atravs de um hiperplano escolhido e por otimizao de um conjunto de poss ca veis divisores. Porm, como nem sempre os dados e estaro linearmente divididos no seu espao de caracter a c sticas original, eles so mapeados a a espaos de maior dimenso onde se assume que eles podem ser linearmente divididos. c a

4.1.

Classicao Binria ca a

O classicador SVM foi proposto para denir problemas de classicao binria, que ca a podem ser denidos por: (x1 , y1 ), . . . , (xm , ym ) X {1} onde o objetivo atribuir uma classe j conhecida (+1 ou -1) `s entradas xi , formando e a a assim as sadas yi . A distncia (medida de similaridade) entre dois vetores x,x RN denida como a e o comprimento do vetor diferena y=x-x entre eles, o qual denido atravs do produto c e e y,y . interno: ||y|| = Para obter uma melhor separao entre os dados, os vetores de caracter ca sticas so a mapeados a um espao de maior dimenso. Um tal mapeamento pode ser denido c a para os espaos X e H como : X H, tal que, x x = (x) c Ento, baseando-nos nos conceitos apresentados, podemos propor um algoritmo gea omtrico para classicao binria [14], que uma base para o classicador baseado em e ca a e SVM. A ideia bsica atribuir uma de duas classes `s amostras desconhecidas, baseado a e a na menor distncia entre a amostra e as mdias das classes. a e As mdias c+ e c das duas classes so denidas por: e a c+ =
1 m+ i|yi =+1

xi , c =

1 m i|yi =1

xi

(10)

onde m+ e m so o nmero de amostras de cada classe. a u A classicao feita vericando-se, para uma nova amostra x, se o vetor x c ca e forma um ngulo menor que /2 com o vetor w = c+ c , normal ao hiperplano de a deciso. O ponto c denido como o ponto mdio entre as mdias das classes. Logo, a e e e a classicao feita usando o sinal do produto interno, denindo assim, a funao de ca e c deciso ou classicaao, a qual induz uma fronteria de deciso, que tem a forma de um a c a hiperplano de dimenso N , denido por: a y = sgn (x c), w = sgn( x, c+ x, c + b) onde b um deslocamento denido por: e 1 b = (||c ||2 ||c+ ||2 ) 2 (12) (11)

Os vetores c+ , c e w so obtidos geometricamente a partir dos vetores xi , porm, a e no podem ser usados diretamente para calcular o produto interno pois tm que ser a e expressados em termos do conjunto de entrada xi , . . . , xm . Para express-los desta fora ma usada a funo k, chamada de funao ncleo, que representa o produto interno e ca c u do mapeamento das amostras, denido por: k(x, x ) = x,x = (x), (x ) . Ento, a usando k e (10), a funo de deciso (11) ca assim: ca a 1 1 y = sgn (13) k(x, xi ) k(x, xi ) + b m+ m
i|yi =+1 i|yi =1

1 Neste classicador, os somatrios de cada classe so multiplicados por um peso ( m+ o a 1 ou m ) considerando desta forma, o mesmo peso para todas as amostras da classe +1, assim como para a classe 1. Porm, dependendo do problema, as amostras podem ter e por isso que neste caso temos que considerar um conjunto de pesos pesos diferentes. E i para i = 1, . . . , m para cada vetor, cando o classicador assim: m

e o deslocamento (12): 1 1 b= 2 2 m

(i,j)|yi =yj =1

k(xi , xj )

1 m2 +

(i,j)|yi =yj =+1

k(xi , xj )

(14)

y = sgn
i=1

i k(x, xi ) + b

(15)

Existem algumas amostras que tero i = 0, ou seja, elas no sero consideradas a a a na classicao de novas amostras. No espao de caracter ca c sticas, isto equivalente a e dizer que o vetor w, normal ao hiperplano de fronteira ser representado como uma a combinao linear dos padres de treinamento (com coecientes no uniformes). Esta ca o a representao no-uniforme signica que essas amostras no contribuem na melhora da ca a a classicao e sendo assim, a classicao vai depender somente de algumas amostras ca ca (vetores), as quais so chamadas de Vetores de Suporte (Support Vectors). a

4.2.

Classicao por Hiperplano Otimo ca

O classicador SVM pode ser formulado como uma extenso do classicador gea omtrico apresentado na seo anterior. Nesse algoritmo, tem que ser escolhido um e ca hiperplano timo de diviso que distinguido por atingir a mxima separao entre o a e a ca qualquer ponto de treinamento e ele [16]. Os pontos x que esto nesse hiperplano de a deciso so denidos por w,x + b = 0, ento, a escolha denida por: a a a e mx { m {||x xi || |x H, w,x + b = 0}} a n wH,bR i=1,...,m (16)

onde w o vetor normal ao hiperplano. e Logo, esse problema pode ser reformulado utilizando apenas o comprimento do vetor normal. Segundo a denio dos pontos que esto no hiperplano de separao, os pontos ca a ca que pertencem a cada classe so denidos por: a w,xi + b +1 (quando yi = +1) w,xi + b 1 (quando yi = 1). 9 (17) (18)

Os pontos que esto na fronteira das classes so denidos por H1 : w,xi + b = +1 e a a H2 : w,xi + b = 1 (Figura 5), ou seja, so paralelos pois tm a mesma normal. Ento, a e a podemos atingir a mxima separao denida por (16), da seguinte forma: a ca 1 m n ||w||2 wH,bR 2 que uma otimizaao restrita, sujeita `s restrioes de desigualdade: e c a c yi ( w,xi + b) 1 0, i = 1, . . . , m (19)

(20)

que representam os conjuntos de desigualdades (17) e (18) em um conjunto s. o

Figura 5: Representao do hiperplano divisor, atingindo a mxima separao com os ca a ca pontos de treinamento atravs dos vetores de suporte (ressaltados com c e rculos), os quais denem os hiperplanos H1 e H2 . (Extra de [4]). do Na prtica, a otimizao da Equao 19 resolvida transformando-a em um Laa ca ca e grangiano [4], que posteriormente transformado em sua Formulao Dual equivalente, e ca chamada de Wolf Dual [10]. Porm, para este trabalho apenas aparesentaremos o classie cador como o problema de Otimizao Restrita, denido como uma extenso do Clasca a sicador Binrio (para mais detalhes, consultar [4]). a

5.

Floresta de Caminhos Otimos

A tcnica de classicao supervisionada baseada em orestas de caminhos timos e ca o [13] modela as amostras como sendo os ns de um grafo completo. Os elementos mais o representativos de cada classe do conjunto de treinamento, isto , os prottipos, so e o a escolhidos como sendo elementos pertencentes `s regies de fronteira entre as classes. a o Os prottipos participam de um processo de competio disputando as outras amostras o ca oferecendo-lhes caminhos de menor custo e seus respectivos rtulos. Ao nal deste proo cesso, obtemos um conjunto de treinamento particionado em arvores de caminhos timos, o sendo que a unio das mesmas nos remete a uma oresta de caminhos timos. a o

5.1.

Denies co

Seja um conjunto de amostras Z, o qual dividido em trs sub-conjuntos disjuntos: Z1 e e que usado para projetar o classicador (treinamento); Z2 que usado para o processo e e 10

de aprendizagem (avaliao); e Z3 que usado para fazer a classicao propriamente ca e ca dita (teste), tal que Z = Z1 Z2 Z3 . Seja (s) uma funo que associa a classe correta i para i = 1, . . . , c a uma amostra ca s Z1 Z2 Z3 , entre c poss veis classes. O conjunto de prottipos de todas as classes o representado por S Z1 . e Para representar as amostras no grafo, usado um algoritmo v que extrai n care acter sticas de qualquer amostra s Z1 Z2 Z3 , e retorna o vetor de caracter sticas s = v(s). A distncia d(s, t) entre duas amostras s e t calculada como a distncia a e a entre os seus respectivos vetores de caracter sticas, sendo poss usar qualquer funo vel ca de distncia. a Desta forma, o problema consiste em projetar um classicador que possa associar corretamente a classe (s) para todas as amostras s Z3 . A OPF cria uma diviso a discreta tima do espao de caracter o c sticas, tal que poss classicar qualquer amostra e vel s Z3 segundo essa diviso discreta. A partio uma Floresta de Caminhos Otimos a ca e calculada sobre Z1 usando o algoritmo da IFT [9]. Seja (Z1 , A) o grafo completo que representa o conjunto de treinamento Z1 , tal que todo par de amostras dene um arco em A, sendo A = Z1 Z1 . Um caminho s representado como uma sequncia de amostras distintas t = s = t1 , t2 , . . . , tn = t . e e s = t (i.., s = t); e a concatenaao entre um Esse caminho chamado de trivial se t e e c s s e caminho s e um arco (s , t) denida como s s , t . Para associar um custo a um s e s s e o caminho t , usada uma funo de conexidade f (t ). Um caminho t timo se, para ca s , f ( s ) f ( s ). qualquer outro caminho t t t Neste trabalho, foi escolhida a funo de conexidade fmax , a qual calcula o arco de ca s maior peso no caminho s s , t ; sendo denida da seguinte maneira: fmax ( s ) = 0 + se s S caso contrrio. a (21)

s s fmax (s s , t ) = mx{fmax (s ), d(s , t)} a

O algoritmo de construo da OPF minimiza a funo fmax para cada amostra t Z1 , ca ca de acordo com a funo: ca C(t) =
s t em (Z1 ,A,t)

m n

s {fmax (t )}

(22)

e a associando para todo t Z \ S um caminho timo t de algum s S at t. Ento, a o OPF a unio de todos tais caminhos. (Z1 , A, t) representa o conjunto de todos os e a caminhos em (Z1 , A) que terminam em t. A raiz R(t) S do caminho t pode ser obtida seguindo os antecessores ao longo do caminho. O classicador apresentado uma Floresta de Caminhos Otimos que tm como ra e e zes os prottipos das classes, ou seja, cada amostra pertence a uma rvore de caminho timo o a o que tem como raiz o seu prottipo mais fortemente conexo. Para classicar uma amostra, o so calculados os caminhos timos dos prottipos at a amostra e associado aquele que a o o e e tem o menor peso.

5.2.

Treinamento

Seja S o conjunto de prottipos timos para o classicador, isto , o conjunto que o o e minimiza os erros na classicaao do conjunto Z1 . O treinamento consiste em encontrar c o conjunto S e construir uma OPF com ra zes em S.

11

Para encontrar o conjunto S pode-se usar muitas heur sticas, por exemplo, uma escolha aleatria; porm, tal escolha poderia prejudicar o desempenho do classicador. o e Neste trabalho, S denido calculando a rvore geradora m e a nima (MST) sobre o grafo completo (Z1 , A), obtendo assim, um grafo conexo ac clico que tem como ns as amostras o de Z1 e como pesos nas arestas a distncia entre amostras adjacentes. Pelo fato de a a MST ser tima em comparao com qualquer outra rvore geradora (i.., a soma dos o ca a e pesos das suas arestas m e nima) e como a funo de conexidade usada a denida ca e na Equao 21, ento existe um caminho na MST entre qualquer par de amostras que ca a m e nimo, ou seja, a MST contm um caminho timo para cada amostra em Z1 . e o Logo, os prottipos so denidos como os pares de amostras conexos na MST, mas o a que pertencem a diferentes classes em Z1 (fronteiras entre classes); ento, as arestas que a ligam esses pares so apagadas e os pares tornam-se prottipos timos. Segundo essa a o o denio, uma classe pode ser representada por um conjunto de prottipos timos (i.. ca o o e a rvores de caminhos timos) que podem estar separados, o qual faz com que a OPF o possa resolver o problema de classes no separveis linearmente. a a Finalmente, computa-se a Floresta de Caminhos Otimos utilizando a Equao 22 e ca os prottipos escolhidos. o

5.3.

Classicao ca

A classicao feita calculando-se para cada amostra t Z3 todos os poss ca e veis caminhos at as amostras s Z1 e depois calculado para cada t o caminho timo t e e o com raiz em S, sendo que t classicado como sendo da classe (R(t)) do seu prottipo e o mais fortemente conexo R(t) S. O caminho calculado incrementalmente, cujo custo e dado por: e C(t) = m {mx{C(s), d(s, t)}} n a
sZ1

(23)

ou seja, usando C(s) calculado para cada s Z1 , o custo de R(s) at s, sendo que o e e custo nal at s ser aquele que minimiza esse custo. e a R(s ) um caminho e Seja s Z1 a amostra que satisfaz a Equao 23, ou seja, t ca ) = (R(s )). A classicao simplesmente atribuir L(s ) como o timo; temos que L(s ca e a classe de t (i.., L(t) = L(s )), sendo que um erro se produz quando L(s ) = (t). e A Figura 6 apresenta um exemplo do processo inteiro descrito anteriormente, considerando duas classes distintas. O exemplo contm o Grafo inicial (Z1 , A), a MST come putada a partir desse grafo, os prottipos escolhidos da MST, a OPF resultante e a o classicao de uma nova amostra utilizando a OPF computada. Os valores em cada ca uma das arestas s, t (Z1 , A) nas Figuras 6a, 6b, 6c e 6e, so a distncia d(s, t) ena a tre as amostras s e t. Os valores acima de cada amostra s Z1 nas Figuras 6d, 6e e 6f, representam o custo C(s) que foi atribu a s quando foi computado o caminho do co ca o timo s , usando as Equaes 22 e 23, para as etapas de treinamento e classicao, respectivamente.

Referencias
[1] T. Bayes. An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society of London, 53:370418, 1763. [2] A.J. Broder. Strategies for ecient incremental nearest neighbor search. Pattern Recognition, 23(1-2):171178, 1990. 12

0.40 0.22 0.12 0.30 0.35 0.10 0.20 0.15 0.23 0.10 0.04 0.20 0.21 0.17 0.15 0.05 0.30 0.10 0.30 0.17

0.10 0.10

0.06

0.06

0.05 0.10 0.04

(a)
(0.10)

(b)
(0.00) (0.06)

0.10

0.10 (0.10) 0.04 (0.06)

(0.10)

(0.00) 0.12 0.13 0.15 (0.06) 0.10 (0.10) 0.08 (0.06) 0.07
(0.10)

Figura 6: (a) Grafo completo (Z1 , A) gerado para o conjunto de treinamento Z1 . (b) Arvore MST gerada a partir do grafo completo (Z1 , A). (c) Escolha do conjunto de prottipos S a partir da MST. (d) Floresta de Caminhos Otimos gerada para o grafo o completo (Z1 , A). (e) Classicaao de uma nova amostra: calculam-se os caminhos at cac e da uma das amostras em Z1 . (f) Escolha do caminho timo para a nova amostra. o [3] A.E. Bryson and Y.C. Ho. Applied optimal control: optimization, estimation, and control. Blaisdell Publishing Company, 1969. [4] C.J.C. Burges. A tutorial on support vector machines for pattern recognition. Data mining and Knowledge Discovery, 2(1):121167, 1998. [5] B. Dasarathy. Nearest neighbor Pattern Classication Techniques. IEEE Computer Society Press, 1991. [6] L. Devroye, L. Gyr, and G. Lugosi. A probabilistic theory of pattern recognition. o Applications of mathematics. Springer, 1996. [7] A. Djouadi and E. Bouktache. A fast algorithm for the nearest-neighbor classier. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(3):277282, 1997.

0.02

0.10 0.06 0.05

(0.00)

(0.06)

(c)
(0.00) (0.06)
(0.00) (0.10)

(d)
(0.00) (0.06)

(0.06)

(0.07)

(0.06)

(e)

(f)

13

[8] R.O. Duda, P.E. Hart, and D.G. Stork. Pattern Classication. Wiley-Interscience, 2 edition, 2000. [9] A.X. Falco, J. Stol, and R.A. Lotufo. The image foresting transform: Theory, a algorithms, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 26(1):1929, 2004. [10] R. Fletcher. Practical Methods of Optimization, 2nd Edition. John Wiley and Sons, Inc., 1987. [11] S. Haykin. Neural Networks: a comprehensive fundation. Prentice Hall, 1994. [12] S.A. Nene and S.K. Nayar. A simple algorithm for nearest neighbor search in high dimensions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(9):9891003, 1997. [13] J.P. Papa. Classicaao Supervisionada de Padres Utilizando Floresta de Camc o inhos Otimos. PhD thesis, Instituto de Computao, Universidade Estadual de ca Campinas, 2009. [14] B. Scholkopf and A.J. Smola. Learning with kernels. MIT Press, Cambridge, MA, USA, 2002. [15] S. Theodoris and K. Koutroumbas. Pattern Recognition. Elsevier Science, 1 edition, 1999. [16] V.N. Vapnik. An overview of statistical learning theory. IEEE Transactions on Neural Networks, 10(5):988999, 1999.

14

Вам также может понравиться