Вы находитесь на странице: 1из 19

Captulo

2
Reconhecimento de Padres

2.1 O que reconhecimento de padres ?

H duas maneiras de se reconhecer e/ou classificar um padro [CONNEL,


S. D. & JAIN, A. K. (2001)]: (i) classificao supervisionada: o padro de entrada
identificado como um membro de uma classe pr-definida, ou seja , a classe definida
pelo projetista do sistema, ou (ii) classificao no supervisionada: o padro
determinado por uma fronteira de classe desconhecida.
Um problema de reconhecimento de padro consiste de uma tarefa de
classificao ou categorizao, onde as classes so definidas pelo projetista do sistema
(classificao supervisionada) ou so aprendidas de acordo com a similaridade dos
padres (classificao no supervisionada).
O interesse na rea de reconhecimento de padres tem crescido muito
devido as aplicaes que, alm de serem desafiantes, so tambm computacionalmente
cada vez mais exigentes. A Tabela 2.1 mostra exemplos de domnios do problema com
suas respectivas classes de padres.
Com o ava no e a disponibilidade de vrios recursos computacionais,
tornou-se fcil o projeto e a utilizao de elaborados mtodos de anlise e classificao
de padres. Em muitas aplicaes, no existe somente uma nica abordagem para

CAPTULO 2. RECONHECIMENTO DE PADRES

22

classificao que seja tima e, por isso, a combinao de vrias abordagens de


classificadores uma prtica bastante usada.
O projeto de um sistema de reconhecimento de padres, envolve,
essencialmente, trs etapas:
(i) aquisio de dados (extrao de caractersticas) e pr-processamento
(seleo das caractersticas mais discriminativas);
(ii) representao de dados;
(iii) tomada de deciso (construo de um classificador ou descritor).
A escolha de sensores, tcnicas de pr-processamento, esquema de
representao e mtodo para a tomada de deciso, depende do domnio do problema.
Um problema bem definido e suficientemente detalhado, onde se tem pequenas
variaes intra-classes e grandes variaes inter-classes, produzir representaes
compactas de padres e, consequentemente a estratgia de tomada de deciso ser
simplificada. Aprender, a partir de um conjunto de exemplos (conjunto de treinamento),
um atributo importante desejado na maioria dos sistemas.

Domnio do Problema

Aplicao

Padro de Entrada

Classes de Padres

Bioinformtica

Anlise de Seqncia

DNA/Seqncia de

Tipos conhecidos de

Protena

genes/padres

Busca por padres

Pontos em um espao

Compactar e separar

significantes

multi-dimensional

grupos

Busca na Internet

Documento texto

Categorias semnticas,

Minerao de dados

Classificao de
documentos

(negcios, entre outros)

Anlise de documento de

Mquina de leitura para

imagem

cegos

Automao industrial

Inspeo de placas de

Intensidade ou alcance de

Natureza do produto

circuito impresso

imagem

(defeituosa ou no)

Busca Internet

Vdeo clip

Gneros de vdeo (p.e.

Recuperao de base de

Imagem de Documento

Caracteres alfa-numricos,
palavras

dados multimdia

ao, dilogo, entre


outros.)

Reconhecimento

Identificao pessoal

biomtrico
Sensoriamento remoto

Prognstico da produo

Face, ris, impresso

Usurios autorizados para

digital

controle de acesso

Imagem multi-espectral

Categorias de

de colheita

aproveitamento de terra,
desenvolvimento de
padres de colheita

Reconhecimento de voz

Inqurito por telefone sem

Voz em forma de onda

Palavras faladas

assistncia de operador

Tabela 2.1: Exemplos de aplicaes para o reconhecimento de padres

[JAIN, A. K. et al. (2000b)].

CAPTULO 2. RECONHECIMENTO DE PADRES

23

A escolha de uma abordagem para o reconhecimento de padres no uma


tarefa simples e muitas vezes ela conta com a experincia do projetista. Na prxima
seo, vrias abordagens para o reconhecimento de padres so apresentadas. Vale
observar que elas no so necessariamente independentes, pois desde os primrdios da
pesquisa em reconhecimento de padres, vrias so as tentativas para o projeto de
sistemas hbridos [FU, K. S. (1983)]. E na literatura de reconhecimento de padro, s
vezes a mesma abordagem possui diferentes interpretaes.

2.2 Algumas Tcnicas para reconhecimento de padres

Esta seo apresenta as principais tcnicas para reconhecimento de padres.

2.2.1 Casamento de modelos (Template Matching)

Uma das primeiras e mais simples abordagens para reconhecer padres a


tcnica de casamento de modelos. O casamento uma operao genrica usada para
determinar a similaridade entre duas entidades do mesmo tipo. O modelo tipicamente
um prottipo.
O padro a ser reconhecido comparado com os modelos armazenados,
observando todas as variaes possveis em termos de: translao, rotao e mudanas
de escalas. A medida de similaridade frequentemente uma correlao ou uma funo
de distncia. Muitas vezes o modelo, por si mesmo, aprendido a partir do conjunto
de treinamento. Esse mtodo computacionalmente exigente, mas a atual
disponibilidade de recursos computacionais permite com que essas abordagens
viabilizem-se mais facilmente [JAIN, A. K. et al. (2000a)].
O casamento de modelos faz parte das abordagens de deciso terica que se
baseiam

na

utilizao

de

funes

de

deciso

(ou

discriminantes).

Seja

x = ( x1 , x 2 ,..., x n )T um vetor de padro n-dimensional. Para M classes de padres

w1 , w2 ,..., wM ,

problema

bsico

encontrar

funes

de

deciso

d 1 ( x ), d 2 ( x),..., d M ( x ) , com a propriedade de que, se o padro x pertencer classe


wi ,ento:
d i ( x ) > d j ( x) j = 1,2,..., M ; j i.

(2.1)

CAPTULO 2. RECONHECIMENTO DE PADRES

24

ou seja, um padro desconhecido x pertencer i-sima classe de padres se a


substituio de x em todas as funes de deciso fizer com que d i ( x ) tenha o maior
valor numrico. Empates so resolvidos arbitrariamente.
A fronteira de deciso que separa as classes wi e w j dada pelos valores de
x para os quais d i ( x) = d j ( x) ou, equivalentemente, pelos valores de x para os quais
d i ( x) d j ( x ) = 0

(2.2)

comum identificar a fronteira de deciso entre duas classes pela funo


d ij ( x) = d i ( x) d j ( x) = 0 . Portanto, d ij ( x) > 0 para padres de classe wi e d ij ( x ) < 0

para padres de classe w j [GONZALEZ, R. C. & WOODS, R. E. (1992)].


Muitos pesquisadores atualmente se utilizam da abordagem de casamento de
modelos em diversas reas de aplicaes: i) para determinar a presena de uma imagem
ou objeto dentro de uma cena [CHOI, M.S. & KIM, W.Y. (2000)] e ii) para
reconhecimento de caracteres [CONNEL, S. D. & JAIN, A. K. (2001)]. O aspecto da
segurana em sistemas que utilizam tcnicas de casamento de modelos, em aplicaes
de reconhecimento de pessoas, investigado em [BOLLE, R. M. et al. (2001)], pois eles
so mais vulnerveis a ataques de fora bruta. Isto resulta em invases de privacidade
que acarretam grandes problemas, pois o usurio tem registrado uma imagem de parte
de seu corpo no banco de dados do sistema.

2.2.2 Classificador de distncia mnima

Suponha que cada classe de padres seja representada por um vetor


prottipo (ou mdio):

mj =

1
Nj

j = 1,2,..., M

(2.3)

xw j

em que N j o nmero de vetores de padres de classe wi e a soma realizada sobre


esses vetores. Uma maneira de definir a pertinncia de um vetor padro x desconhecido
atribu- lo classe de seu prottipo mais prximo. A distncia Euclidiana, ou a de

CAPTULO 2. RECONHECIMENTO DE PADRES

25

Hamming, pode ser usada para determinar a proximidade, reduzindo o problema


computao das distncias:
D j ( x) = || x m j || j = 1,2,..., M

(2.4)

em que a = ( aT a) 2 a norma Euclidiana. Atribui-se ento, x classe wi se Di (x ) for a


menor distncia. Ou seja, a menor distncia implica no melhor casamento nessa
formulao. No difcil mostrar que isso equivalente a avaliar a funo

1
d j ( x) = x T m j m Tj m j j = 1,2,..., M
2

(2.5)

e atribuir x classe wi se d i ( x ) levar ao maior valor numrico. Essa formulao est de


acordo com o conceito de funo de deciso, como definido na Equao (2.1).
A partir das Equaes (2.2) e (2.5), pode-se ver que a fronteira de deciso
entre as classes wi e w j para o classificador de distncia mnima

1
d ij ( x) = d i ( x ) d j ( x) = x T ( m i m j ) (m i m j ) T ( m i m j ) = 0
2

(2.6)

A superfcie dada pela Equao (2.6) a bisseo perpendicular do


segmento de linha entre m i e m j . Para n=2 a bisseo perpendicular uma linha, para
n=3 um plano e para n>3 chamado de hiperplano [GONZALEZ, R. C. & WOODS,
R. E. (1992)].

2.2.3 Casamento de modelos por correlao

Segundo [GONZALEZ, R. C. & WOODS, R. E. (1992)], o conceito bsico


de correlao de image ns considerado como a base para encontrar casamentos de uma
sub- imagem w( x, y ) de tamanho J x K dentro de uma imagem f(x,y) de tamanho M x N,
supondo-se que

J M e K N . Embora a abordagem por correlao possa ser

CAPTULO 2. RECONHECIMENTO DE PADRES

26

formulada na forma vetorial, o tratamento direto com uma imagem ou sub- imagem
mais intuitivo.
Em sua forma mais simples, a correlao entre f(x,y) e w(x,y)
c ( s, t ) = f ( x , y) w( x s , y t )
x

(2.7)

em que s=0,1,2,...,M-1 e t=0,1,2,...,N-1, e a soma realizada sobre a regio da imagem


em que f e w se sobreponham. A Figura 2.1 ilustra este procedimento, sendo
considerada a origem de f(x,y) o topo esquerda e a de w(x,y) a regio de seu centro.
Para qualquer valor de (s,t) dentro de f(x,y), a aplicao da Equao (2.7) leva a uma
valor c. Na medida que s e t so varridos, w(x,y) movido na rea da imagem,
fornecendo uma funo c(s,t). O valor mximo de c(s,t) indica a posio em que w(x,y)
melhor se casa com f(x,y). Note que se perde preciso para valores de s e t perto das
bordas de f(x,y), com a amplitude de erro sendo proporcional ao tamanho de w(x,y).

Figura 2.1: Esquema para se obter a correlao de f(x,y) e w(x,y) no ponto (s,t)

[GONZALEZ, R. C.

& WOODS, R. E. (1992)].

A funo de correlao dada na equao (2.7) possui a desvantagem de ser


sensvel a mudanas na amplitude de f(x,y) e de w(x,y). Por exemplo, dobrando-se todos
os valores de f(x,y), dobrar-se-o os valores de c(s,t). Uma abordagem frequentemente
usada para evitar essa dificuldade realizar o casamento atravs do coeficiente de
correlao, que definido como

CAPTULO 2. RECONHECIMENTO DE PADRES

(s , t) =

27

[ f ( x, y ) f (x, y )][ w( x s, y t ) w]
x

2
2
2
[ f ( x, y ) f ( x, y)] [ x( x s, y t ) w]
x
y
x y

(2.8)

em que s=01,2,3,...,M-1 e t=0,1,2,..,N-1, w o valor mdio dos pixels em w(x,y)


(computado apenas 1 vez), f ( x , y ) o valor mdio de f(x,y) na regio coincidente com
a posio corrente de w, e as somas so realizadas sobre as coordenadas comuns, tanto a
f como a w . O coeficiente de correlao ( s , t ) tem sua escala no intervalo -1 a 1,
independentemente de mudanas na amplitude de f(x,y) e w(x,y).
Embora a funo de correlao possa ser normalizada para mudanas de
amplitude atravs do coeficiente de correlao, a obteno da normalizao para
mudanas de tamanho e rotao pode ser difcil. A normalizao em relao ao tamanho
envolve mudana de escala espacial, um processo que acrescenta um custo
computacional considervel. Se uma pista em relao rotao puder ser extrada de
f(x,y), ento bastar rotacionar w(x,y) de maneira que ela mesma se alinhe com o grau de
rotao de f(x,y). Entretanto se a natureza da rotao for desconhecida, as bus ca pelo
melhor casamento requerer rotaes exaustivas de w(x,y). Esse procedimento
impraticvel e, por conseguinte, a correlao raramente usada em casos em que
rotao arbitrria ou sem restries estejam presentes [GONZALEZ, R. C. & WOODS,
R. E. (1992)].

2.2.4 Tcnicas estatsticas

Em reconhecimento de padres com abordagem estatstica, um padro


representado por um conjunto de caractersticas chamado de vetor de caractersticas ddimensional. Os conceitos da teoria de deciso estatstica so utilizados para estabelecer
fronteiras de deciso entre classes e padres. O sistema de reconhecimento operado
em dois modos: treinamento (aprendizagem) e classificao (teste) (de acordo com a
Figura 2.2) [JAIN, A. K. et al. (1996)].

CAPTULO 2. RECONHECIMENTO DE PADRES

28

Figura 2.2: Blocos funcionais para o reconhecimento de padro na abordagem estatstica [JAIN, A. K. et
al. (2000a)].

Na Figura 2.2 a funo do mdulo de pr-processamento capturar o padro de


interesse, remover rudo, normalizar e realizar qualquer outra operao que contribua
para a definio de uma representao compacta do padro.
Um dos problemas bvios encontrados, principalmente quando o padro trata-se
de uma imagem, a alta dimensionalidade dos dados de entrada. Tcnicas que
combinam as variveis (caracters ticas) de entrada mais prximas para produzir um
menor nmero das mesmas, ajudam a aliviar tais problemas. Essas tcnicas podem ser
construdas manualmente, com base no problema particular, ou podem ser derivadas
dos dados, a partir de procedimentos automticos [BISHOP, C. M. (1996)]. Esses
mtodos so chamados de extrao e seleo de caractersticas e sero vistos com mais
detalhes nas sees seguintes. Eles esto presentes no mdulo de treinamento, parte
superior da Figura 2.2. Para encontrar caractersticas apropriadas s representaes de
padres de entrada o classificador treinado para particionar o espao de caractersticas.
Otimizaes do pr-processamento e das estratgias de extrao e seleo de
caractersticas so realizados no caminho recorrente da Figura 2.2. No modo
classificao, o classificador treinado mapeia o padro de entrada em uma das classes de
padres sob considerao, baseado nas caractersticas medidas.
O processo de tomada de deciso estatstica em reconhecimento de padres pode
ser sintetizado como segue:

seja

um

padro

representado

por

um

vetor

x = ( x1 , x 2 ,..., xd ) com d caractersticas, ele ser determinado a uma das c classes


w1 , w2 ,..., wc . Supe-se que cada caracterstica apresente uma densidade de
probabilidade (dependendo das caractersticas serem contnuas ou discretas)

CAPTULO 2. RECONHECIMENTO DE PADRES

29

condicionada cada classe. Assim, um padro x pertencente a uma classe wi visto


como uma observao extrada aleatoriamente a partir de uma funo de probabilidade
classe-condicional p ( x | wi ) . As regras de deciso, incluindo a regra de deciso de
Bayes, a regra da probabilidade mxima (que pode ser vista como um caso particular da
regra de Bayes) e a regra Neyman-Peason so eficazes para definir a fronteira de
deciso. A regra de deciso tima de Bayes para a minimizao do risco condicional
pode ser declarada como segue:

R( wi | x) = L ( wi , w j ).P (w j | x )
j =1

(2.9)

Ela determina a classe wi para o padro de entrada x onde o risco condicional


mnimo, L( wi , w j ) a funo de perda causada na deciso de wi quando a classe
verdade w j e P( wi | x) a probabilidade posterior [JAMISON, T. A. &
SCHALKOFF, R. J. (1998)]. No caso da funo perda ser 0/1, como definido na
equao 2.10, o risco condicional torna-se a probabilidade condicional de falsa
classificao.
0, i = j
L( wi , w j ) =
1, i j

(2.10)

Para a escolha da funo de perda, a regra de deciso de Bayes pode ser


simplificada como mostrado na equao 2.11. Ela determina o padro de entrada x para
a classe wi se
P( wi | x) > P ( w j | x ), para todo j i

(2.11)

Vrias estratgias so utilizadas para projetar um classificador para o


reconhecimento de padres com abordagem estatstica, dependendo da espcie de
informao disponvel a respeito de densidades de classe-condicional. Se todas elas so
especificadas, ento a regra de deciso tima de Bayes pode ser usada para a
classificao. Entretanto, densidades de classe-condicional so frequentemente
desconhecidas na prtica e devem ser aprendidas a partir dos padres de treinamento
disponveis. Se a forma da densidade classe-condicional conhecida, por exemplo uma
Gaussiana multivariada, mas alguns dos parmetros de densidades, por exemplo,

CAPTULO 2. RECONHECIMENTO DE PADRES

30

vetores mdio e matrizes de covarincia, so desconhecidos, ento tem-se um problema


de deciso paramtrico. Uma estratgia comum para esses tipos de problemas
substituir os parmetros desconhecidos na funo densidade por seus valores estimados.
Se a forma da densidade classe-condicional no conhecida, ento opera-se em um
modo no paramtrico. Neste caso, estima-se a funo densidade (ex: abordagem janela
Parzen) ou constri-se diretamente a fronteira de deciso baseada nos dados de
treinamento (ex: k-zimo vizinho mais prximo). O perceptron multicamada pode ser
visto como um mtodo supervisionado no paramtrico que constri uma fronteira de
deciso.
Outra dicotomia na abordagem estatstica para o reconhecimento de padres a
do aprendizado supervisionado versus o aprendizado no supervisionado. Em um
problema de aprendizado no supervisionado, algumas vezes o nmero e as estruturas
de classes devem ser aprendidas mediante o conjunto de exemplos de treinamento. As
vrias dicotomias so mostradas na rvore de estruturas da Figura 2.3.

Figura 2.3: As vrias abordagens estatsticas para o reconhecimento de padro. [JAIN, A. K. et al.
(2000a)].

medida que se percorre a rvore de cima para baixo e da esquerda para


a direita, menos informaes a respeito das caractersticas e classes de padres so
disponveis e, como resultado, a dificuldade de classificao aumenta. Em alguns casos,
a maioria dos mtodos (nas folhas da rvore da Figura 2.3) so tentativas de

CAPTULO 2. RECONHECIMENTO DE PADRES

31

implementar a regra de deciso de Bayes. A anlise de agrupamentos (cluster) trata de


problemas de tomada de deciso no modo no paramtrico e aprendizado no
supervisionado [JAIN, A. K. & DUBES, R. C. (1998)], onde o nmero de categorias ou
clusters no especificado; a tarefa descobrir uma categorizao razovel dos dados
(se existir alguma). Algoritmos de anlise de agrupamentos junto com vrias tcnicas
para visualizao e projeo de dados multi-dimensionais so tambm referidas como
mtodos de anlise exploratria de dados.
Ainda out ra dicotomia baseia-se na maneira como as fronteiras de deciso so
obtidas: direta (abordagem geomtrica) ou indireta (abordagem baseada em densidade
probabilstica). A abordagem probabilstica requer primeiro que a funo de densidade
seja estimada, para ento construir as funes discriminantes que especificam as
fronteiras de deciso. Por outro lado a abordagem geomtrica frequentemente constri
fronteiras de deciso diretamente, atravs de funes de custo fixo.
No importa qual seja a regra de classificao ou deciso usada, ela deve ser
treinada usando os exemplos de treinamento disponveis e o desempenho de um
classificador depender disso e da quantidade desses exemplos. Ao mesmo tempo, o
objetivo principal de um sistema de reconhecimento classificar exemplos de testes
futuros, os quais so provavelmente diferentes dos exemplo vistos durante o
treinamento.

2.3 Super-treinamento e super-adaptao

Otimizar um classificador para maximizar seu desempenho sobre o conjunto de


treinamento pode nem sempre resultar no desempenho desejado para um conjunto de
teste. A habilidade de generalizao de um classificador refere-se ao seu desempenho
em classificar padres de testes que no foram usados durante o estgio de treinamento.
Uma habilidade pobre de generalizao pode ser atribuda a qualquer um dos seguintes
fatores:
(i)

nmero de caractersticas muito grande relativo ao nmero de


exemplos de treinamento;

(ii)

grande

nmero

de

parmetros

desconhecidos

associados

ao

classificador (ex: classificadores polinomiais ou uma rede neural com


nmero excessivo de neurnios na camada intermediria);

CAPTULO 2. RECONHECIMENTO DE PADRES

(iii)

32

um classificador ser intensivamente otimizado no conjunto de


treinamento (super-treinamento).

O super-treinamento, tambm anlogo ao fenmeno de super-adaptao em


regresso, quando existem muitos parmetros livres. Es ses fenmenos so teoricamente
investigados atravs de classificadores que minimizam a taxa de erro aparente (o erro no
conjunto de treinamento). H vrias fases no fenmeno de super-treinamento, por
exemplo, dependendo da relao entre o numero t de exemplos e o nmero m de
parmetros modificveis. Quando t menor ou quase igual a m, os exemplos podem em
princpio, ser memorizados e a sobre-adaptao elevada nesta fase, principalmente
quando t m .
O super-treinamento pode ser dividido em duas categorias:
(i) Absoluto, quando o desempenho de classificao degrada para todas
as categorias de padres e
(ii) Relativo, quando o desempenho de classificao degrada para
algumas categorias, enquanto para outras permanece inalterado ou at
mesmo melhora.

s vezes, h dominncia de padres de algumas categorias no conjunto de


treinamento, ocasionando um super-treinamento do classificador que se adaptar s
mesmas. Isso considerado um super-treinamento relativo. O super-treinamento
absoluto ocorre principalmente devido ao conjunto de treinamento ser um limiar
representativo para o conjunto de teste. Por outro lado, o super-treinamento ocorre
usualmente devido ao conjunto de treinamento apresentar padres confusos nas
regies do envoltrio da fronteira de deciso [CHOI, M.S. & KIM, W.Y. (2000)].
Os estudos clssicos de [GROHMAN, W. M. & DHAWAN, A. P. (2001)], sobre
a capacidade de complexidade de classificadores, provem um bom entendimento dos
mecanismos que levam ao super-treinamento. Classificadores complexos, por exemplo,
aqueles tendo muitos parmetros independentes, podem ter uma grande capacidade, isto
, eles so hbeis para representar muitas dicotomias para um dado conjunto de dados.
As armadilhas da super-adaptao em estimadores, para um dado conjunto de
treinamento, so observadas em muitos estgios de um sistema de reconhecimento de
padres, tais como na reduo de dimensionalidade, estimativa de densidade, e
construo do classificador. O conceito de super-adaptao refere-se demasiada

CAPTULO 2. RECONHECIMENTO DE PADRES

33

adaptao e ajuste do classificador a exemplos especficos, perdendo assim sua


capacidade de generalizao. Em alguns casos consiste de uma distoro local da
fronteira de deciso, ou seja, no cabe supor que sua ocorrncia simultnea em todo o
espao de caractersticas e a distoro pode ocorrer em diferentes locais em diferentes
momentos. Isto implica que em alguns locais a fronteira de deciso continua, enquanto
em outras reas a super-adaptao j est presente [ROSIN, P. L. & FIRENS, F.
(1995)]. Uma soluo certa sempre usar um conjunto teste independente do conjunto
de treinamento para avaliao. Para evitar a necessidade de muitos conjuntos de testes
independentes, estimadores so frequentemente baseados em subconjuntos dos dados
rotacionados, preservando diferentes partes dos dados para otimizao e avaliao.

2.4 O problema da dimensionalidade e o fenmeno de mximo

O desempenho de um classificador depende do inter-relacionamento entre o


tamanho do conjunto de exemplos, o nmero de caractersticas dos padres e a sua
complexidade. Seja o exemplo de uma simples tcnica de tabela de consulta, onde se
particiona o espao de caractersticas em clulas e se associa um nome de classe a cada
clula. Isso requer que o nmero de exemplos de treinamento seja uma funo
exponencial da dimenso de caractersticas [CHAMP, P. (1994)]. Esse fenmeno
chamado de maldio da dimensionalidade, que conduz ao fenmeno de mximo
em um projeto de classificador [JAIN, A. K. et al. (2000a)].
A probabilidade de classificao falsa de uma regra de deciso no aumenta na
mesma proporo que aumenta o nmero de caractersticas, dado que as densidades
classe-condicional sejam completamente conhecidas. Entretanto, tem-se frequentemente
observado que, na prtica, o aumento de caractersticas pode degradar o desempenho de
um classificador se o nmero de exemplos de treinamento que foi usado para projetar o
classificador relativamente pequeno em relao ao nmero de caractersticas. Este
um comportamento paradoxal referido como fenmeno de mximo [SUNG, K. K. &
POGGIO, T. (1998)]. Uma simples explanao sobre este fenmeno dada a seguir. A
maioria dos classificadores paramtricos geralmente usados estima parmetros no
conhecidos e liga-os a parmetros verdadeiros nas densidades de classe-condicional. Em
uma amostra de tamanho fixo, quando o nmero de caractersticas cresce ( medida que
aumenta o nmero de parmetros desconhecidos ) a confiana dos parmetros estimados

CAPTULO 2. RECONHECIMENTO DE PADRES

34

decresce. Consequentemente, o desempenho dos classificadores, para uma amostra de


tamanho fixo, pode degradar com um aumento no nmero de caractersticas.
Todos os classificadores geralmente usados, incluindo redes neurais diretas,
podem sofrer o problema da dimensionalidade, pois muito difcil estabelecer um exato
relacionamento entre a probabilidade de falsa classificao, o nmero de exemplos de
treinamento, o nmero de caractersticas e os parmetros verdadeiros das densidades de
classe-condicional. Algumas linhas de direo so sugeridas com base no tamanho do
conjunto de exemplos para dimensionalidade. geralmente aceitvel que o nmero de
exemplos de treinamento por classe seja, pelo menos, dez vezes o nmero de
caractersticas (n/d>10). Isto seria uma boa prtica a se seguir no projeto de um
classificador [SUNG, K. K. & POGGIO, T. (1998)], maior deveria ser a proporo do
tamanho de exemplos para ser evitado o problema da dimensionalidade.

2.5 Reduo da dimensionalidade

As vantagens em reduzir a dimensionalidade da representao do padro


refletem-se na medida de custo e preciso do classificador. Alm disso, uma pequena
quantidade de caractersticas pode aliviar o problema da dimensionalidade, quando o
nmero de exemplos de treinamento pequeno. Porm, um reduzido nmero de
caractersticas pode levar a uma fraca discriminao e consequentemente a uma
preciso inferior no sistema de reconhecimento resultante. Mas a reduo de
dimensionalidade necessria quando, por exemplo, possvel construir dois padres
arbitrrios similares, codificando-os a partir de um grande nmero de caractersticas
redundantes [WATANABE, S. (1985)]. No entanto, toda reduo de dimensionalidade
implica numa perda de informao, e esta ltima pode vir a ser fundamental para
discriminao dos padres. Por isto, o objetivo principal das tcnicas de reduo de
dimensionalidade preservar o mximo possvel da informao relevante dos dados.
Existem diferenas entre seleo e extrao de caractersticas, embora na
literatura elas sejam usadas indistintamente. O termo seleo refere-se a algoritmos que
procuram selecionar o melhor subconjunto de um conjunto de caractersticas de entrada.
J algoritmos de extrao so mtodos que criam novas caractersticas a partir de
transformaes

ou

combinaes

do

conjunto

de

caractersticas

original.

Frequentemente, a extrao precede a seleo, pois primeiro as caractersticas so


extradas a partir do sentido dos dados (usando componente principal ou anlise

CAPTULO 2. RECONHECIMENTO DE PADRES

35

discriminante) e ento algumas caractersticas extradas, com baixa habilidade de


discriminao, so descartadas.
A escolha entre seleo e extrao depende do domnio de aplicao e dos dados
especficos de treinamento disponveis. A seleo conduz economia na medida de
custo quando algumas caractersticas so descartadas e as que foram selecionadas, retm
suas interpretaes fsicas originais. Alm do mais, as mesmas podem ser importantes
para o entendimento do processo fsico que gera os padres. Por outro lado,
transformaes geradas por extrao podem prover uma melhor habilidade
discriminativa do que o melhor subconjunto de caractersticas originais, mas estas novas
caractersticas podem no ter um claro sentido fsico.
O ponto principal da reduo de dimensionalidade a escolha de uma funo de
critrio. Um critrio geralmente usado o erro de classificao segundo um subconjunto
de caractersticas. Porm, o erro de classificao, por si s, no confivel quando a
quantidade de exemplos de padres pequena em relao ao nmero de caractersticas.
E ainda mais, para a escolha de uma funo critrio, necessrio determinar a
dimensionalidade apropriada do espao de caractersticas reduzido. E em reposta a isto
surge a noo de dimensionalidade intrnseca dos dados, que consiste em determinar se
os padres d-dimensionais originais podem ser descritos adequadamente em um
subespao de dimensionalidade menor do que d. Por exemplo, padres d-dimensionais
ao longo de uma curva aplainada tem uma dimensionalidade intrnseca de um,
independente do valor de d. Deve-se perceber que dimensionalidade intrnseca no o
mesmo que dimensionalidade linear, que consiste de uma propriedade global dos dados,
envolvendo o nmero de autovalores significativos da matriz de covarincia dos dados.
Apesar de haver muitos algoritmos disponveis para estimar a dimensionalidade
intrnseca [TIBBALDS, A. D. (1998)], eles no indicam quo facilmente um subespao
de dimensionalidade pode ser identificado.

2.6 Extrao de caractersticas

Segundo [JAIN, A. K. et al. (2000a)], um mtodo de extrao de caractersticas


determina um subespao apropriado de dimensionalidade m (de uma maneira linear ou
nolinear) no espao de caractersticas original de dimensionalidade d ( m d ) . A
transformada linear, assim como a anlise de componentes principais (PCA) ou

CAPTULO 2. RECONHECIMENTO DE PADRES

36

expanso Karhunen-Love computam os m maiores autovetores da matriz de


covarincia d x d de n padres ddimensionais. A transformao linear definida como

Yn x m = X n x m H n x m

(2.12)

onde X a matriz de padro n x d, Y a matriz derivada n x m, e H a matriz de


transformao linear m x d, cujas colunas so auto-vetores. Visto que PCA usa as
caractersticas mais expressivas (auto-vetores com os maiores autovalores), ele
efetivamente aproxima os dados para um subespao linear usando o critrio do erro
quadrtico mdio. Existem outros mtodos que so mais apropriados para distribuies
no-Gaussianas.
Enquanto que PCA um mtodo de extrao de caractersticas linear e no
supervisionado, anlise discriminante usa a informao de categoria associada com cada
padro para extrao (linear) da maioria das caractersticas discriminatrias. Nela a
separao inter-classes feita por uma medida de separabilidade que resulta no encontro
1

de auto-vetores de S w S b (o produto do inverso da matriz de espalhamento do interior


da classe S w e a matriz de espalhamento entre as classes S b ) [MARR, D. (1982)].
Existem muitas maneiras de definir tcnicas de extrao de caractersticas no
lineares. Um mtodo semelhante e diretamente relacionado ao PCA chamado de
Kernel PCA [HOPCROFT, J. E. & ULLMAN, J. D. (1979)]. A idia bsica do kernel
PCA primeiro mapear os dados de entrada dentro de algum novo espao de
caracterstica F, via uma funo no linear (por exemplo, polinomial de grau p;p>1)
e ento executar um PCA linear no espao mapeado.
Escalonamento multidimensional (MDS) outra tcnica de extrao de
caractersticas no linear. Seu objetivo representar um conjunto de dados
multidimensional em 2 ou 3 dimenses semelhantes onde a matriz distncia, no espao
de caracterstica d-dimensional original preservada to fielmente quanto possvel no
espao projetado. Um problema com MDS que ele no possui uma funo de
mapeamento explcita. Assim, no possvel estabelecer um novo padro em um mapa
j computado por um dado conjunto de treinamento, sem ter que repetir o mapeamento.
Muitas tcnicas tem sido investigadas para tratar essa deficincia que abrange desde
interpolao linear at o treinamento de uma rede neural.

CAPTULO 2. RECONHECIMENTO DE PADRES

37

Uma rede neural direta oferece um procedimento integrado para extrao de


caractersticas e classificao. A sada de cada camada intermediria pode ser
interpretada como um conjunto de novas caractersticas, frequentemente no lineares,
apresentadas camada de sada para classificao. Nesse sentido, redes multi-camadas
servem como extratores de caractersticas [ZIMMERMANN, A. C. et al. (2000)]. Por
exemplo, as redes que apresentam as ento chamadas camadas de pesos
compartilhados, so de fato filtros para extrao de caractersticas em imagens bidimensionais. Durante o treinamento, os filtros so direcionados para os dados de
maneira a maximizar o desempenho da classificao.

Figura 2.4: Redes Auto-associativas para encontrar um subespao. (a) linear, (b) no-linear (nem todas as
conexes so mostradas) [JAIN, A. K. et al. (2000a)].

Redes neurais tambm podem ser usadas diretamente para extrao de


caractersticas em um modo no supervisionado. A Figura 2.4 mostra a arquitetura de
uma rede que hbil para encontrar o subespao PCA. Ao invs de funes sigmides,
os neurnios tem funes de transferncia lineares. Esta rede tem d entradas e d sadas,
onde d o nmero de caractersticas dado. As entradas so tambm usadas como sadas
desejadas, forando a camada de sada a reconstruir o espao de entrada usando somente
uma camada intermediria. Os trs ns na camada intermediria capturam os primeiros
trs componentes principais [CHAMP, P. (1994)]. Se duas camadas no lineares, com
unidades intermedirias contendo funes de transferncia sigmoidais, so includas

CAPTULO 2. RECONHECIMENTO DE PADRES

38

tambm (veja Figura 2.4(b)), ento um subespao no linear encontrado na camada


intermediria (tambm chamada de camada de gargalo). A no linearidade limitada
pelo tamanho dessas camadas adicionais. Estas, ento chamadas redes auto-associativas,
ou redes PCA no lineares , oferecem uma poderosa ferramenta para treinar e descrever
subespaos no lineares [ZADEH, L.A. (1973)].
O mapa de Kohonen [KOHONEN, T. (1995); YAO, X. & LIU, Y. (1998)], pode
tambm ser usado para extrao de caractersticas no lineares. Nesta rede, conhecida
como rede SOM, os neurnios so dispostos em um espao m-dimensional, onde m
geralmente 1,2 ou 3. Cada neurnio conectado a todas s d unidades de entrada. Os
pesos das conexes de cada neurnio formam um vetor de pesos d-dimensional.
Durante o treinamento, padres so apresentados rede de forma aleatria. A cada
apresentao o vencedor, que o vetor peso mais prximo do vetor de entrada,
identificado primeiro. Ento, todos os neurnios na vizinhana do vencedor so
atualizados de modo que seus vetores de pesos movam-se em direo ao vetor de
entrada. Depois que o treinamento feito, os vetores de pesos dos neurnios da
vizinhana tornam-se bem parecidos com os padres de entrada que esto prximos no
espao de caractersticas original. Assim, uma mapa de preservao de topologia
formado, ou seja, a rede SOM oferece um mapa m-dimensional com uma conectividade
espacial, que pode ser interpretada com a extrao de caractersticas.

2.7 Seleo de Caractersticas

O problema da seleo : para um dado conjunto de d caractersticas, selecionar


um subconjunto de tamanho m que conduza ao menor erro de classificao. O interesse
da aplicao de mtodos de seleo deve-se ao grande nmero de caractersticas
encontradas nas seguintes situaes: (i) unio de multi-sensores e (ii) integrao de
mltiplos modelos de dados [JAIN, A. K. et al. (2000a)].
Seja Y o conjunto de caractersticas dado, com cardinalidade d e seja m o nmero
de caractersticas desejado no subconjunto selecionado X , X Y . Seja J(X) a funo de
critrio de seleo para o conjunto X. Supe-se que o maior valor de J indique um
melhor subconjunto de caractersticas; a escolha natural da funo critrio
J = (1 Pe ) , onde Pe denota o erro de classificao. O uso de Pe na funo critrio faz o
procedimento de seleo depender do classificador usado e dos tamanhos dos conjuntos

CAPTULO 2. RECONHECIMENTO DE PADRES

39

de treinamento e teste. A maioria das abordagens diretas para o problema de seleo ir


d
d!
requerer (i) exame de todos os possveis =
subconjuntos de tamanho m
m m! ( d m) !
e (ii) seleo do subconjunto com o maior valor de J(.). Entretanto o nmero de
subconjuntos possveis cresce combinatorialmente, fazendo desta uma busca exaustiva
impraticvel mesmo para valores pequenos de m e d. O nico mtodo de seleo timo
que evita a busca exaustiva pelo uso de resultado intermedirios para o valor final de
critrio, est baseado no algoritmo de ramificao e fronteira [JAIN, A. K. et al.
(2000a)].
Dado que os procedimentos de extrao e seleo de caractersticas tenham
encontrado uma representao apropriada para os padres, deve-se escolher a
abordagem na qual o classificador estatstico ser projetado, que na prtica um
problema difcil e na maioria das vezes esta escolha frequentemente baseada na
experincia do projetista e nos acontecimentos ocorridos entre classificador e usurio
[JAIN, A. K. et al. (2000a)].

2.8 Consideraes Finais

Neste captulo fo ram discutidos mtodos de reconhecimento de padres,


considerando os mtodos de extrao de caractersticas que determinam um subespao
apropriado de dimensionalidade m (de uma maneira linear ou nolinear) no espao de
caractersticas original de dimensionalidade d ( m d ) . Tambm foi abordado o
problema da seleo, no qual dado conjunto de d caractersticas, selecionar um
subconjunto de tamanho m que conduza ao menor erro de classificao.
Foi tambm mostrado o problema da dimensionalidade no qual a probabilidade
de classificao falsa de uma regra de deciso no aumenta na mesma proporo que
aumenta o nmero de caractersticas, dado que as densidades classe-condicional sejam
completamente conhecidas e com isto foi mostrado tambm as vantagens em reduzir a
dimensionalidade da representao do padro que se refletem na medida de custo e
preciso do classificador.

Вам также может понравиться