Академический Документы
Профессиональный Документы
Культура Документы
1. Introduo
Atualmente com o aumento considervel de bases de dados de imagem e vdeo devido
s inovaes tecnolgicas tornou-se necessrio manter algum tipo de mecanismo de
indexao para posterior recuperao de dados. Executar esta indexao manualmente
uma tarefa sensvel a interpretaes subjetivas, laboriosa e sujeita a erros [ANTANI
02, SEBE 01, BRUNELLI 00, RUI 97, SMITH 96]. Mtodos automticos de indexao
e recuperao baseados em algum tipo de caracterstica (cor, forma, textura ou regio de
uma imagem) so interessantes neste contexto porque reduzem a interveno humana. A
idia de recuperao de imagens por exemplos uma extenso da idia de recuperao
de pginas web que contenham no texto as palavras-chave especificadas na pesquisa
(por exemplo, Google, Altavista e outros). No caso de imagens, busca-se recuperar em
uma base de dados de imagens aquelas que contenham o elemento grfico procurado
como, por exemplo, uma determinada cor, textura, forma ou a combinao destes
elementos.
Definimos imagem-exemplo como sendo um exemplo que contm o elemento
grfico procurado durante uma recuperao e que pode ser uma imagem completa,
regio de uma imagem, cor, forma ou textura. As regies de uma imagem que no so o
alvo da recuperao so denominadas de imagem-de-fundo. As caractersticas extradas
de uma imagem so atributos derivados da cor, textura e ou da forma e que denotam
alguma propriedade da imagem que pode ser utilizada para comparao entre imagens.
Podemos citar como aplicao do programa IMatch seu emprego nas reas de
viso computacional e robtica, levantamento automtico da ocorrncia de logomarcas e
localizao de objetos em uma cena. A seguir iremos descrever como este programa
opera e a metodologia empregada.
3.1. Mtodo de reconhecimento utilizando redes neurais artificiais
O programa IMatch realiza a extrao de caractersticas das imagens utilizando a cor
como atributo bsico (a verso atual do sistema no considera a forma dos objetos
presentes em uma cena). Sistemas unicamente baseados na cor iro recuperar imagens
com uma composio similar de cor, independentemente do contexto das imagens serem
diferentes. Apesar desta limitao, trabalhar com as cores possui algumas vantagens em
relao extrao de caractersticas baseadas em textura ou forma. A cor uma das
caractersticas mais utilizadas nos sistemas CBIR porque relativamente independente
quanto ao tamanho da regio de interesse em relao imagem-de-fundo, rotao,
escala, e ocluso parcial da imagem-exemplo, sendo computacionalmente menos cara
do que os outros mtodos [ANTANI 02, CIOCCA 01, RUI 97]. Alm disto, esta
abordagem permite que seja definida uma composio de cores (conjunto simultneo de
cores), o que permite caracterizar adequadamente muitos objetos e cenas.
A abordagem utilizando RNAs requer que exista uma fase de treinamento da
rede. Isto implica que a arquitetura do IMatch tambm possua um subsistema de gerao
da base de aprendizado de imagens e um subsistema de pesquisa (reconhecimento de
imagens) na base. A Figura 1 apresenta o modelo esquemtico do IMatch. No
subsistema de gerao da base de imagens prepara-se uma base que ser utilizada para
treinar a RNA. Esta base deve conter imagens de treinamento de duas categorias que
denominaremos de: Classe e No-Classe. As imagens da categoria classe so imagensexemplo representantes do que se pretende que a RNA aprenda a reconhecer na procura
(por exemplo, logotipos, latas de Coca-Cola, placas, sinalizaes, etc). A categoria NoClasse contm imagens-exemplo que no so relacionadas com a categoria Classe
(tipicamente imagens-de-fundo) e servem para que a RNA aprenda a delimitar o espao
de procura para imagens da categoria Classe. Estas imagens de treinamento so
extradas de regies retangulares de imagens que contenham a Classe/No-Classe.
Devemos definir o tamanho desta regio de acordo com o tipo de imagens de
treinamento disponvel. Quanto maior for esta regio em relao ao objeto a ser
reconhecido, menor ser a preciso de localizao da Classe procurada porque ir
ocorrer uma maior contribuio do fundo da imagem. Se a regio escolhida for muito
pequena em relao ao objeto perde-se em generalizao dos atributos que compem a
Classe. No nosso caso escolhemos uma regio de 64 x 64 pixels, para os experimentos
que sero descritos a seguir.
A partir desta base de imagens de treinamento ento realizada uma extrao de
caractersticas principalmente referentes cor utilizando o sistema de cor RGB ou HSV
(Figura 1, Subsistema de Treinamento). Para cada imagem da base de treinamento
aplica-se o mtodo de reduo de cor Median Cut [GOMES 94] que resulta numa paleta
de N cores e, ento se calcula o histograma de cores desta paleta. O resultado da
extrao de caractersticas um vetor de caractersticas de tamanho igual a N * 4, onde
N a quantizao de cores aplicada, sendo que para cada trs conjuntos de componentes
(RGB ou HSV) possumos uma freqncia de ocorrncia da cor (histograma). Este vetor
No subsistema de reconhecimento, o usurio informa ao programa uma imagemexemplo e o programa ir percorrer esta imagem procurando a classe aprendida no
treinamento. Neste reconhecimento, uma janela deslizante, que possui as mesmas
dimenses da janela utilizada para o treinamento, varre a imagem-exemplo com uma
sobreposio ajustvel usando um deslocamento configurvel pelo usurio (usualmente
32 x 32 pixels). Esta sobreposio contribui para que um padro tenha maior chance de
ser reconhecido atacando, em certo grau, o problema da escala. Para cada janela de
varredura aplicado o mesmo pr-processamento para extrao de caractersticas que
foi utilizado para o treinamento compondo o vetor de entrada que ser passado para o
SimNeu [OSRIO 99]. O SimNeu um simulador de RNAs que usa uma rede
previamente treinada e realiza a ativao da rede a fim de classificar os padres que lhe
so apresentados. A sada da RNA indicar se aquela regio da imagem-exemplo
similar ao padro que est sendo procurado (no caso, sada igual a 1 0). O programa
permite ainda que se especifique um critrio de limiar (threshold criteria) para ser
aplicado a sada de ativao da rede.
O mtodo de janela deslizante com sobreposio permite uma identificao mais
precisa de qual regio da imagem-exemplo possui o padro procurado, o que um
diferencial em relao a outros sistemas CBIR que somente retornam uma coleo de
imagens que atendem ao critrio de pesquisa, sem destacar quais regies da imagem
foram responsveis pela similaridade.
imagens factvel e isto nos levou a duas abordagens para tentar obter as superfcies de
classificao fechadas que iremos abordar nas prximas sees.
4.1. A influncia das superfcies de classificao na recuperao de imagens
O reconhecimento e recuperao imagens produz um vetor de entrada com uma
variabilidade muito grande nos padres que o compe. O nmero de combinaes de
cores e propores em que elas ocorrem numa imagem extremamente grande. Esta
variabilidade principalmente problemtica nas regies da imagem que no contm o
padro procurado (imagem de fundo). Isto implica que os padres apresentados a RNA
durante uma procura possuam grande probabilidade de se encontrarem fora do domnio
dos padres de treino. Como vimos na seo anterior, quando ocorre esta situao,
RNAs do tipo MLP que no possurem regies fechadas de classificao no podero
executar uma rejeio confivel, ocasionando assim um falso reconhecimento. Durante
nossos experimentos com o IMatch foi verificada esta situao. Os resultados obtidos
apresentaram mais falso-positivos do padro Classe do que o no reconhecimento do
padro Classe
4.2. Abordagem para Fechar as Superfcies de Classificao
Nossa primeira abordagem (Regies de Imagens) para se obter uma superfcie de
classificao fechada, ou quase fechada, foi utilizar regies de algumas imagens
classificadas erroneamente como pertencentes categoria Classe, incluindo-as como
exemplos de No-Classe na base de treinamento e executando um novo treino da RNA.
O sistema Ikona emprega uma abordagem similar de refinamento. Aps a determinao
dos mtodos de extrao e comparao de caractersticas, executam-se simulaes de
recuperao na base preparada. O usurio pode ento executar um refinamento
especificando nas imagens recuperadas, imagens como sendo exemplos positivos ou
negativos que o sistema ir utilizar para melhor refinar as pesquisas futuras. O ponto
negativo desta abordagem obter uma RNA especializada para determinada base de
imagem. Modificaes no contedo da base de imagens tornariam necessria uma nova
simulao de recuperao e talvez um novo refinamento.
A segunda abordagem (Nuvem de No-Classe) para fechar as superfcies de
classificao visou reduzir a especializao resultante de se utilizar regies de imagens
da base de pesquisa disponvel e aumentar a automatizao do processo. Para isto
procuramos gerar automaticamente exemplos de No-Classe que preenchessem o
espao de cores (conforme foi visto na Figura2D, a incluso de exemplos de Nuvem0
permitiu que a RNA ajustasse os pesos para determinar uma superfcie fechada de
classificao) para serem utilizadas no treinamento da RNA junto com exemplos de
No-Classe provenientes de regies de imagens. O mtodo utilizado foi gerar novos
padres aleatoriamente utilizando uma distribuio uniforme para as n triplas de cores e
n histogramas. Podemos citar como desvantagem o fato desta abordagem ser do tipo
fora-bruta.
5. Resultados
Experimentos foram realizados utilizando uma RNA treinada para reconhecer latas de
Coca-Cola. A base de treinamento foi confeccionada a partir de regies de 64 x 64
pixels de imagens fotogrficas obtidas com cmera fotogrfica digital em condies no
controladas de iluminao. Foram utilizadas 1000 regies de imagens de latas de CocaCola de diferentes tipos, ngulos e aproximao como exemplos do padro Classe, e
1000 regies de imagens diversas (sem conter latas de Coca-Cola na sua composio)
como exemplos do padro No-Classe. A Figura 3 apresenta algumas das imagens
utilizadas como exemplo para os padres. A Figura 4 mostra o conjunto de imagensexemplo utilizadas na comparao das abordagens para o fechamento das superfcies de
classificao. As figuras 4A a 4D foram escolhidas para demonstrar a robustez do
mtodo quanto rotao, variao de iluminao e escala do objeto procurado na cena.
E as figuras 4E e 4F so cenas com uma grande variao de objetos e composio de
cores. O sistema de cor utilizado foi o RGB com uma reduo para 5 cores. O passo de
varredura utilizado foi 32 x 32 pixels e um limiar de 0,96.
E1
A1
E2
A2
E3
A3
E4
A4
E5
A5
E6
A6
11
10
10
10
11
10
11
14
35
38
39
17
17
E1
A1
E2
A2
E3
A3
E4
A4
E5
A5
E6
A6
10
10
11
14
11
18
35
25
39
32
31
28
6. Concluses e Perspectivas
Com esta abordagem baseada em tcnicas de Inteligncia Artificial e aprendizado
(Machine Learning) pretende-se melhorar a preciso da recuperao de imagens. O uso
de um conjunto de imagens, no lugar de uma nica imagem, nos permite focar melhor
o processo de busca e recuperao de imagens em bases de dados. Apresentamos um
Referncias
ANTANI, S. et alii. (2002) A survey on the use of pattern recognition methods for
abstraction, indexing and retrieval of images and video., Pattern Recognition,
Amsterd, Pases Baixos, Elsevier Science B.V., n. 35, p. 945-965.
BRUNELLI, R.; MICH, O. (2000) Image Retrieval by Examples., IEEE
TRANSACTIONS ON MULTIMEIA, IEEE, v.20, n.3, p. 164-171.
CIOCCA, G. et alii. (2001) On Pre-Filtering with Retinex in Color Image Retrieval,
Internet Imagin II, Proceedings of SPIE. V.4311, p. 140-147.
GOMES, J.; VELHO, L.. Computao Grfica: Imagem. (1994) IMPA/SBM, Rio de
Janeiro, Brasil, p. 424.
IKONA IRNIA / IMEDIA Project Research Team. (2002) http://wwwrocq.inria.fr/imedia/ikona (visitado em 10/10/2002).
OSRIO, F. S.; AMY, B.. (1999) INSS: A hybrid system for constructive machine
leaning., Neurocomputing. Amterd, Pases Baixos, Elsevier Science B.V., v. 28, p.
191-205.
FAHLMAN, S. E.; LEBIERE, C. (1991) The Cascade-Correlation Learning
Algorithm, Advances in Neural Information Processing Systems 3, D. S. Touretzky
(ed.), Morgan Kaufmann, Los Altos CA, p. 190-196.
GORI, M.; SCARSELLI, F. (1998) Are Multilayer Perceptrons Adequate for Pattern
Recognition and Verification ?, IEEE Transactions on Pattern Analysis and Machine
Intelligence, v.20, n.11, Nov. 1998.
Rui, Y. et alii. (1997) Image Retrieval: Past, Present, and Future., International
Symposium on Multimedia Information Processing, Taipei.
SEBE, N.; LEW, M. S. (2001) Color-Based Retrieval., Pattern Recognition Letters,
Amsterd, Pases Baixos, Elsevier Science B.V., n. 22, p. 223-230.
SMITH, J. R.; CHANG, S. (1996) Tools and Techniques for Color Image Retrieval.,
IS&T/SPIE In Symposium on Electronic Imaging: Science and Technology - Storage
& Retrieval for Image and Video Databases IV, San Jose, CA. v. 2670.