Вы находитесь на странице: 1из 87

4

Distncia
Mahalanobis

2
0

w
Distncia
Ortogonal

0
2
2

Deteco de pedestres em imagens:


Uma nova abordagem baseada em reduo de dimensionalidade e
regras de deteco de outliers

Fbio Ivan Maia Roque dos Reis

Dissertao para a obteno de Grau de Mestre em


Matemtica e Aplicaes

Jri
Presidente:

Prof. Antnio Manuel Pacheco Pires

Orientador:

Prof. Alexandre Jos Malheiro Bernardino

Co-orientador:
Vogais:

Prof. Maria da Conceio Esperana Amado


Prof. Ana Maria Nobre Vilhena Nunes Pires de Melo Parente
Prof. Jorge dos Santos Salvador Marques

Outubro de 2011

ii

Dedico este trabalho a todos os que gostam de sonhar e atingir novas metas...

iii

iv

Agradecimentos
Quero agradecer aos que me so prximos, pois sem eles no teria conseguido terminar a tempo.
Quero agradecer especialmente Dbora, por ter sido um grande suporte. Aos meus pais e, principalmente ao meu irmo que muito me ouviu, sendo sobre ele que caa a minha falta de pacincia!
Quero agradecer ao Chris, ao Artur e ao Dinis, pois sempre me deram fora e questionavam o que
fazia e demonstravam interesse sobre o meu trabalho. Por m, mas sem menos importncia, aos meus
orientadores e ao Matteo que sem eles nada deste trabalho seria possvel e atingvel, a eles muito lhes
devo, principalmente por terem acreditado que era possvel.
Agradeo a Deus por tudo...

vi

Resumo
O problema de deteco de pees ou pedestres em imagens digitais uma rea de investigao relativamente recente e de grande importncia em sistemas de vigilncia e segurana. Vrios mtodos
tm vindo a ser propostos usando modelao dos contornos do pedestre, de forma local ou global,
aliado a vrios mtodos de classicao. Neste trabalho proposta uma nova abordagem classicao utilizando uma pr-ltragem dos dados baseada num mtodo de deteco de outliers aplicado s
componentes principais de vectores descritores de aparncia de pessoas em imagens. Uma vez que,
na maior parte dos casos, a deteco de um pedestre em imagens um acontecimento raro (de todas
as sub-janelas possveis de uma imagem, apenas uma pequena fraco contm exemplos positivos),
esta pr-ltragem permite rejeitar de uma forma muito rpida uma grande quantidade de janelas de
anlise negativas, de forma anloga aos primeiros estgios de classicadores em cascata, acelerando
os estgios posteriores de classicao. Face aos primeiros estgios de classicao frequentemente
utilizados neste tipo de problemas (por exemplo classicadores fracos em boosting), a metodologia proposta tem a vantagem de s necessitar de exemplos positivos e utilizar rotinas numricas de anlise de
componentes principais muito ecientes e, portanto, ter tempos de treino muito reduzidos. Neste trabalho mostrar-se- que a abordagem proposta usando descritores de imagem do tipo histogramas de
orientao de gradientes (HOG), tem desempenhos semelhantes ao estado-da-arte mas com tempos
de treino vrias ordens de grandeza mais curtos.

Palavras-chave:

anlise de componentes principais, cascata de classicadores, deteco

de outliers, HOG, reconhecimento de pedestres.


vii

viii

Abstract
The problem of pedestrian detection in digital photographs is a relatively recent investigation area and
it is of great importance to vigilance and security systems. Several classication methods have been
proposed using pedestrian edges, both locally and globally. In this work it is proposed a new approach
to the classication using a pre ltration of the data based on a outlier detection method applied over
the principal components calculated for the descriptor vectors of the pedestrians shape in digital photographs. Since a pedestrian detection in images is a rare event (of all the windows possibles of an image,
only a fraction of this are positive examples), applying the pre ltration it is possible to quickly reject an
high number of negative examples, as in the rst stages of cascade structured classiers, speeding the
proceedings stages of the classication. Although, compared to the usual rst stages of classication
used in this type of problems (for example weak classiers in boosting), the proposed methodology has
a quicker training time as it only uses positive examples and quick, and efcient, numerical routines for
the principal components analysis. In this work it will be shown that the proposed approach, using the
histogram of oriented gradients image descriptor, has similar performances to the state of the art but
with training times several times faster.

Keywords: cascade of classiers, HOG, outlier detection, pedestrian detection, principal components analysis.
ix

ndice
Agradecimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

vii

Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

ix

Lista de Tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xiii

Lista de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvi


1 Introduo

2 Extraco de Caractersticas e Classicao

2.1 Extraco de Caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.1 Tons-de-cinza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1.2 Equalizao de histograma para imagens em escalas de cinza . . . . . . . . . . .

11

2.1.3 Filtro Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

2.1.4 Deteco de arestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

2.1.5 Histograma da orientao de gradientes . . . . . . . . . . . . . . . . . . . . . . . .

18

2.2 Classicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

2.2.1 Adaboost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

3 Reduo de dimensionalidade e regras de deteco de outliers

27

3.1 Reduo de dimensionalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

3.2 Deteco de outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

4 Resultados

37

4.1 Anlise da base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

4.2 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

4.2.1 Metodologia - Classicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

4.2.2 Metodologia - Deteco e Classicao . . . . . . . . . . . . . . . . . . . . . . . .

40

4.2.3 Avaliao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

4.3 Resultados - Classicao

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

4.4 Resultados - Classicao e Deteco . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51

4.5 Resultados - Tempo de processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

4.6 Mtodo Escolhido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61

xi

4.6.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 Concluses

61
65

5.1 Conquistas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

5.2 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

xii

Lista de Tabelas
1.1 Tabela descritiva dos pontos positivos e negativos das abordagens estudadas. . . . . . .

4.1 Sumrio estatstico da base de dados INRIA person dataset. . . . . . . . . . . . . . . . .

38

4.2 Sumrio estatstico dos pedestres na base de dados INRIA person dataset. . . . . . . . .

38

4.3 Descrio das dimenses dos conjuntos de treino , validao e teste para a avaliao
da classicao de uma janela. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

4.4 Descrio das dimenses dos conjuntos de treino , validao e teste para a avaliao
da deteco e classicao de janelas em imagens. . . . . . . . . . . . . . . . . . . . . .

40

4.5 Tabela com a nomenclatura utilizada na classicao. . . . . . . . . . . . . . . . . . . . .

41

4.6 Tempos mdios de classicao de uma janela em cada mtodo e descritor . . . . . . .

60

xiii

xiv

Lista de Figuras
2.1 Ilustrao da transformao para tons-de-cinza de uma imagem colorida. . . . . . . . . .

10

2.2 Ilustrao do modelo aditivo RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.3 Imagem com um histograma mal distribudo na gama de cinzentos. . . . . . . . . . . . .

12

2.4 Equalizao do histograma de uma imagem com um histograma mal distribudo. . . . . .

12

2.5 Realce de rudo ao aplicar uma equalizao de histograma. . . . . . . . . . . . . . . . . .

13

2.6 Imagem da Lena aplicada de diferentes ltros gaussianos. . . . . . . . . . . . . . . . . .

14

2.7 Imagem ilustrativa de um ltro gaussiano contnuo e o discreto equivalente. . . . . . . . .

15

2.8 Ilustrao dos vrios passos do processo de extraco de arestas Sobel a duas dimenses. 16
2.9 Diviso de uma imagem em clulas e blocos, no ambiente de HOG. . . . . . . . . . . . .

19

2.10 Figura ilustrando uma visualizao dos histogramas por clula numa dada imagem. . . .

20

2.11 Pseudo-cdigo do mtodo de extraco de descritores de uma imagem. . . . . . . . . . .

20

2.12 Diagrama de um classicador em cascata. . . . . . . . . . . . . . . . . . . . . . . . . . .

22

2.13 Exemplo de um classicador fraco baseado em divises ortogonais. . . . . . . . . . . . .

26

3.1 Ilustrao do conceito de distncia ortogonal e de Mahalanobis. . . . . . . . . . . . . . .

31

3.2 Ilustrao dos mtodos aplicados na fase de pre-processamento de uma dada imagem,
no cenrio Gauss. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

3.3 Ilustrao da imagem correspondente mdia do conjunto MIT e o resultado de remover


esta mdia a uma nova imagem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

3.4 Ilustrao de nove componentes principais calculadas sobre o conjunto MIT. . . . . . . .

35

3.5 Ilustrao da energia acumulada associada s vrias componentes principais. . . . . . .

35

3.6 Ilustrao da disperso dos dados face a dois valores de k e os respectivos limiares de
deciso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

4.1 Imagem que ilustra as propriedades dos exemplos positivos no conjunto de treino dos
dados INRIA person dataset

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37

4.2 Grcos de FPPJ e Sensibilidade vs. nmero de componentes no classicador proposto,


estudo de Classicao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

4.3 Ilustrao do conjunto de validao sobre as distncia de Mahalanobis e ortogonal no


dcimo nono cenrio, no estudo de classicao. Para k = 1 e k = 85. . . . . . . . . . . .
xv

46

4.4 Grcos de ROC Sensibilidade vs. falsos positivos por janela face variao dos valores
de p1 e p2 , para k = 1 e k = 85 componentes principais, no mtodo proposto neste trabalho. 47
4.5 Ilustrao do conjunto de validao sobre as distncia de Mahalanobis e ortogonal no
dcimo primeiro cenrio, no estudo de classicao. Para k = 1 e k = 85. . . . . . . . . .

48

4.6 Histograma dos valores de sensibilidade atingidos nos dois mtodos abordados, em cada
um dos cenrios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

4.7 Histograma dos valores de FPPJ atingidos nos dois mtodos abordados, em cada um
dos cenrios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

4.8 Ilustrao do conjunto de teste sobre as distncia de Mahalanobis e ortogonal no oitavo


cenrio, no estudo de classicao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50

4.9 Grcos de ROC da Sensibilidade vs. FPPJ e FPPI face variao dos valores de p1 e
p2 , para k = 1 componentes principais, no mtodo proposto neste trabalho. . . . . . . . .

53

4.10 Ilustrao do conjunto de validao sobre as distncia de Mahalanobis e ortogonal no


dcimo primeiro cenrio, no estudo de classicao e deteco. . . . . . . . . . . . . . .

54

4.11 Ilustrao do conjunto de validao sobre as distncia de Mahalanobis e ortogonal no


dcimo nono cenrio, no estudo de classicao e deteco. . . . . . . . . . . . . . . . .

55

4.12 Histograma dos valores de sensibilidade e FPPJ atingidos nos dois mtodos abordados,
em cada um dos quatro cenrios nais, no estudo de classicao e deteco. . . . . . .

56

4.13 Histograma dos valores de FPPI atingidos nos dois mtodos abordados, em cada um dos
quatro cenrios nais, no estudo de classicao e deteco. . . . . . . . . . . . . . . . .

4.14 Ilustrao do conjunto de validao

sobre as distncia de Mahalanobis e ortogonal no

dcimo primeiro cenrio, no estudo de classicao e deteco. . . . . . . . . . . . . . .

4.15 Ilustrao do conjunto de validao

57

57

sobre as distncia de Mahalanobis e ortogonal no

dcimo nono cenrio, no estudo de classicao e deteco. . . . . . . . . . . . . . . . .

58

4.16 Dimenso do treino vs. Tempo de treino em minutos em ambos os mtodos estudados .

59

xvi

Captulo 1

Introduo
Nesta tese pretende-se estudar o problema de deteco de pedestres em fotograas digitais. Este um
problema de grande relevncia e aplicao prtica em vrios domnios, desde a vigilncia segurana
automvel.
Apesar de, para os seres humanos, a deteco de pedestres (ou objectos em geral) ser bastante
fcil e intuitiva, para um computador ainda encerra grandes diculdades. Uma fotograa digital a cores
(tipicamente vermelho, verde e azul) representada num computador como uma matriz uma matriz
3 n m-dimensional, onde n e m indicam, respectivamente, o nmero de pxeis horizontal e vertical da fotograa. Desta forma, o computador no interpreta uma fotograa, como um ser humano
interpreta/v, mas sim como uma matriz e, portanto, no existe forma concreta de identicar um determinado conceito numa fotograa, como por exemplo: um pedestre ou uma bola. Como tal, o problema
de identicao de conceitos/objectos numa fotograa bastante difcil e por isso geralmente abordado localmente, ou seja, para um conceito/objecto especco. A deteco de pedestres, ou outros
objectos, em fotograas digitais geralmente feito com recurso a mtodos numricos, quer determinsticos, quer estatsticos. Estes mtodos executam uma extraco de caractersticas (descritores) das
imagens e sobre estes descritores aplicado um mtodo de classicao.
Este trabalho prope uma nova abordagem classicao de pedestres, sendo esta baseada na
deteco de outliers aps uma anlise de componentes principais da distribuio de caractersticas
das imagens de treino. As regies de imagem potencialmente contendo pedestres so representadas
atravs de vectores de caractersticas (descritores) de tamanho xo, que so posteriormente classicados em exemplos positivos (contendo pedestres) ou negativos (no contendo pedestres). O descritores
que melhores resultados proporcionou baseado em histogramas da orientao de gradientes (HOG)
Dalal and Triggs [2005]. O classicador obtido neste trabalho, cujo desempenho ser avaliado sobre a
base de dados INRIA Person Dataset, utiliza informao dada pelos exemplos positivos de um conjunto
de dados e no dever ser comparado com classicadores complexos que usam exemplos positivos e
negativos. No entanto, poder servir para uma rejeio prvia de grande parte dos negativos (considerados como outliers), sendo por isso adequado para os primeiros nveis de uma estrutura de classicadores em cascata. Em comparao com classicadores fracos comuns treinados atravs de boosting,
1

o mtodo proposto apresenta desempenhos comparveis mas muito mais rpido de treinar devido a
no necessitar de exemplos negativos e de utilizar rotinas ecientes de anlise de componentes principais. Ser portanto mais adequado em contextos onde o tempo disponvel para o treino do classicador
limitado, por exemplo quando se pretendem incorporar, em tempo real, novos exemplos de treino.

Motivao
O problema de deteco de pedestres em fotograas surge no mbito de deteco automtica de
pedestres para viaturas. Pretende-se criar um mtodo que detecte automaticamente pedestres em
imagens, por forma a poder avisar o condutor ou activar um sistema de segurana, e evitar assim um
possvel acidente. Este problema est igualmente associado vdeo-vigilncia de centros comercias,
na deteco automtica de pessoas para softwares de tratamento de imagens como Photoshop c , entre
outros.

Trabalho Relacionado
Nesta seco ir-se- expor, de uma forma geral, algumas abordagens recentes, que tm vindo a ser
propostas no mbito de reconhecimento de padres em imagem. Esta anlise permitir identicar quais
as melhores abordagens a este problema e como construir, melhorar e comparar, uma nova abordagem.
Este estudo permitir tambm, escolher qual a melhor base de dados para ser utilizada na construo
do novo mtodo.
A descrio dos trabalhos ir ser seccionada em duas partes, uma sobre descritores, outra sobre
classicao, e, em cada uma delas, ordenadas cronologicamente do mais antigo para o mais recente.

Descritores
Felzenszwalb and Huttenlocher, 2000, Efcient Matching of Pictorial Structures
O mtodo apresentado em Felzenszwalb and Huttenlocher [2000] utiliza o conceito de estrutura para
descrever um objecto, neste caso, uma pessoa. Cada componente desta estrutura identica partes
mais simples do objecto, por exemplo: antebraos; coxas; cabea; peito; abdmen. Na estrutura est
denido um modelo base que interliga todas as componentes, atravs de uma funo Mola. Esta funo permite que cada componente possa variar ligeiramente de objecto para objecto, ou seja, que cada
pessoa possa ter uma pose diferente, p. ex. sentada, inclinada, em p. A identicao/reconhecimento
de cada parte do objecto realizado atravs da cor. O modelo base associado estrutura dene qual a
cor associada a cada parte do objecto. Sero agora expostos alguns pontos fortes e fracos identicados
neste mtodo, face ao pretendido para esta tese. Foram detectados como pontos fortes as seguintes
propriedades: a robustez deste mtodo face a alteraes geomtricas do objecto a classicar, sendo
possvel classicar variadas poses; fcil generalizao a outras classes de objectos, sendo apenas
necessrio especicar uma nova estrutura que melhor englobe as propriedades gerais do objecto de
2

interesse; identicao de objectos recorrendo a um modelo qualitativo. Os pontos fracos detectados,


no mbito desta tese, foram os seguintes: mtodo fortemente dependente da cor/iluminao presente
na imagem face ao da estrutura, e.g. uma pessoa com uma roupa laranja no identicada correctamente por uma estrutura cuja cor, designada para deteco, o amarelo; e a necessidade da utilizao
de um modelo qualitativo para identicao dos objectos.

Dalal and Triggs, 2005, Histograms of Oriented Gradients for Human Detection
No trabalho de Dalal and Triggs [2005] os autores introduziram um novo espao de descritores designados por Histogram of Oriented Gradients, doravante HOG. O artigo assenta sobre o estudo do desempenho deste descritor face a outros, na altura mtodos recorrentes, assim como quais os parmetros
que maximizam o desempenho na deteco de pessoas. tambm analisado o impacto de vrios processamentos, sobre as imagens, no desempenho do classicador como por exemplo a equalizao de
histogramas. Neste artigo os autores optaram por um classicador simples, Support Vector Machine,
que visa encontrar o hiperplano no espao de descritores que melhor separe objectos positivos de
negativos, maximizando a distncia entre estes. Este mtodo, face aos demais apresentados pelos
autores, tem um desempenho superior. Como pontos fortes, tem-se: robusto a diferentes iluminaes
numa mesma imagem. Como aspectos negativos: tal como o caso anterior, a utilizao deste mtodo
para outras classes de objectos requer que se treine o classicador, assim como anar manualmente
alguns parmetros que foram optimizados apenas para a deteco de pessoas; caso os objectos de
interesse, neste caso pessoas, estejam em poses diferentes das que se encontram no conjunto de
treino, por exemplo pessoas sentadas ou deitadas, o mtodo no as conseguir detectar; diculdade
associada implementao do mtodo de extraco de descritores.

Zickler and Efros, 2007, Detection of multiple deformable objects using PCA-SIFT
Os autores Zickler and Efros [2007] tentam criar um mtodo que identique objectos que sejam comuns entre um conjunto de imagens. Estas imagens podem ser de locais diferentes ou descreverem
uma mesma cena de ngulos diferentes entre si. O descritor utilizado para este efeito designado
por Scale Invariant Feature Transform (SIFT). Este descritor tem um custo computacional signicativo
dicultando assim a implementao em sistemas com componentes de custo reduzido, e.g. telemveis/sistema de deteco automvel. Os autores, para combater este aspecto negativo, aplicaram
anlise de componentes principais para reduzir a dimensionalidade do descritor. Este descritor identica pontos chaves - key points, ou seja, zona de pxeis que contenham informao relevante. Para a
deteco de um dado objecto, numa nova imagem, realizado uma procura de pontos chaves nesta.
As zonas que possuem pontos chaves semelhantes entre si e aos apresentados no conjunto de treino
so aglomeradas e feito um estudo de associao. Caso a associao seja forte feita uma deteco
do objecto de interesse. Este tipo de deteco foi aplicado na procura de robots em diferentes poses
e num ambiente de jogo de futebol de robots. Novamente, foram analisados os aspectos positivos e
negativos. Os seguintes aspectos foram considerados como positivos: rapidez de deteco do objecto
3

de interesse numa nova imagem; conjunto de treino de dimenses reduzidas; carcter local do mtodo,
ou seja, utilizao da informao da cor/iluminao em pequenas janelas da imagem. Como aspectos
negativos: o carcter local do mtodo, visto que, caso o objecto de interesse contenha uma grande
variao em cor e/ou iluminao de imagem para imagem, o mtodo no o conseguir identicar correctamente, dependendo das caractersticas presentes no conjunto de treino; existe a necessidade de
o objecto em causa ter alguma complexidade geomtrica e/ou diferenas na sua textura, por forma a
facilitar a deteco de pontos de interesse/pontos chave; o artigo explorou o mtodo numa classe de
objectos com poucas diferenas intra-classe o que no uma propriedade existente nos seres humanos.

hong Liang et al., 2007, Pedestrian Detection using KPCA and FLD Algorithms
Em hong Liang et al. [2007] proposto um novo descritor que consiste na aplicao do mtodo KPCA,
kernel Principal Component Analysis, ao descritor baseado em haar wavelet tentando assim reduzir a
sua dimensionalidade. Aps o clculo deste novo descritor os autores aplicam o mtodo de discriminante de Fisher linear como mtodo de classicao, projectando este descritor numa nica dimenso tentando maximizar a separao entre os exemplos positivos e os exemplos negativos, minimizando a variao existente em cada uma das classes. Na anlise de desempenho o mtodo proposto comparado a um mtodo baseado em Support Vector Machines e a um mtodo baseado em
Feed Forward Neural Networks, ambos apoiados sobre o descritor haar wavelet. Como pontos positivos identicados: tempo de treino reduzido, face aos mtodos apresentados; reduo do tempo de
processamento, e memria, associado aos descritores originais. Como pontos negativos: a escolha do
nmero de componentes a ter em conta.

Felzenszwalb et al., 2010, Object Detection with Discriminatively Trained Part-Based Models
Em Felzenszwalb et al. [2010] proposto um mtodo de extraco de descritor baseado num modelo
dividido em partes sobre o descritor HOG. Este modelo por partes tem como objectivo capturar e
ajudar na identicao de objectos que tenham uma grande variabilidade, como o caso de pedestres.
O mtodo de deteco proposto pelos autores est dividido em duas fases, a primeira fase consiste
na procura das janelas que possam corresponder classe de interesse, a segunda fase consiste na
procura das janelas que possam corresponder, identicar, partes do modelo associado classe de
interesse. Por exemplo, no caso de deteco de pedestres, a primeira fase procura o local, ou os locais,
onde possa existir uma pessoa utilizando para tal o modelo completo da pessoa, a segunda fase procura
os locais onde existe a possibilidade de ocorrer as vrias partes constituintes do modelo da pessoa,
braos, cabea, pernas e ps. Por m a resposta a cada uma das fases combinada devolvendo uma
resposta nal com a, ou as, possveis localizaes do objecto de interesse. Os autores recorrem a
uma reduo de dimensionalidade, por meio da anlise de componentes principais, para reduzir a alta
dimensionalidade associada ao descritor HOG. Como pontos positivos identicados: a robustez deste
mtodo face a alteraes geomtricas do objecto a classicar, sendo possvel classicar variadas poses
4

e a diferentes escalas; o elevado nmero de parmetros a ajustar permite um maior controlo sobre
o desempenho obtido. Como pontos negativos tem-se: complexidade associada implementao do
descritor e classicador; diculdade em encontrar os parmetros que maximizem o desempenho, devido
ao nmero elevado de parmetros; necessidade de implementar um processo extra, na fase de treino,
para a identicao/seleco das partes que maximizem o desempenho nal.

Classicadores
Huang et al., 2004, Boosting Nested Cascade Detector for Multi-View Face Detection
Em Huang et al. [2004] os autores recorrem a cinco classicadores para detectar faces humanas, um
para cada uma das cinco orientaes diferentes da face consideradas. Estes classicadores so organizados por nveis, cascata, em que a imagem classicada em cada nvel e apenas se passar
todos os nveis classicada como positivo. Caso a imagem falhe na passagem de algum dos nveis,
automaticamente classicada como falsa. Novamente, tentou-se identicar os pontos fortes e fracos
deste trabalho. Os pontos fortes identicados foram: rapidez de processamento de uma nova imagem,
podendo ser utilizado em tempo real (quasi-tempo real); controlo directo sobre a robustez do mtodo,
fazendo variar o nmero de camadas da cascata de classicadores, assim como quais classicadores
a usar. Como pontos negativos identicados: complexidade da implementao do classicador; complexidade temporal do treino do classicador; e impossibilidade de generalizao a outros objectos sem
ser necessrio re-treinar um novo classicador.

Malagn-Borja and Fuentes, 2009, Object detection using image reconstruction with PCA
Em Malagn-Borja and Fuentes [2009] apresentado um mtodo de deteco de pedestres baseado
no clculo de erros de reconstruo associado a um estudo prvio de anlise de componentes principais. Neste trabalho os autores consideram como descritores de pedestres a intensidade dos pxeis,
em tons de cinzento, juntamente com os contornos associados a cada pedestre. Sobre o conjunto de
treino descrito custa dos dois descritores, intensidade dos tons de cinzento e os respectivos contornos, elaborada uma anlise de componentes principais sobre os exemplos positivos e os exemplos
negativos em separado. Obtendo assim quatro subespaos diferentes, dois subespaos associados s
componentes principais calculadas sobre a intensidade dos tons de cinzento e sobre os contornos dos
exemplos positivos, os dois ltimos subespaos esto associados s componentes principais calculadas sobre a intensidade dos tons de cinzento e sobre os contornos dos exemplos negativos. Dada uma
nova imagem, o classicador proposto pelos autores ir calcular os descritores, ou seja, o primeiro ser
a respectiva imagem em tons de cinzento, e o segundo a respectiva imagem de contornos. Estes descritores sero projectados sobre o subespao respectivo nos exemplos positivos e negativos. Aps a
projeco calculado o erro associado recuperao da imagem utilizando cada uma das quatro projeces. Por m, o classicador ir classicar como positivo se o erro total de recuperao associado
aos subespaos gerados pelos exemplos positivos for menor que o erro total de recuperao associado
aos subespaos gerados pelos exemplos negativos. O desempenho deste classicador ento com5

parado a um classicador baseado em Support Vector Machines, onde o classicador proposto obtm
resultados superiores ao segundo. No entanto os autores combinam os dois classicadores, onde o
desempenho superior aos dois individualmente. Os pontos fortes identicados foram: descritores
simples e de clculo rpido; classicador, baseado em erros de reconstruo, de implementao simples; vrios parmetros para optimizao consoante o tipo de desempenho pretendido. Como pontos
negativos: a escolha do nmero de componentes principais a utilizar que maximize o desempenho.

Schwartz et al., 2009, Human Detection Using Partial Least Squares Analysis
Em Schwartz et al. [2009] apresentado um mtodo baseado em Partial Least Squares - PLS, para
a reduo de dimensionalidade, e na anlise de discriminantes quadrticas, QDA, como mtodo de
classicao. Os autores deste trabalho implementam, como descritores, os descritores HOG adicionando informao sobre cor e textura. Devido alta dimensionalidade inerente ao mtodo de HOG
adicionado, ainda, da informao sobre cor e textura, optaram por utilizar uma tcnica de reduo de
dimensionalidade, designada por mnimos quadrados parciais. Em semelhana ao mtodo de anlise
de componentes principais, o mtodo PLS visa procurar quais as variveis que melhor explicam a variabilidade existente nos dados tendo em conta, ao contrrio do mtodo PCA, a classe associada a cada
indivduo. Neste artigo avaliado o desempenho do mtodo PLS face aos mtodos concorrentes e face
ao mtodo de PCA, atingindo nveis de desempenho bastante elevados em aplicaes a vrias bases
de dados de imagens. Este artigo avalia tambm o desempenho de outros mtodos de classicao
baseados nos descritores propostos, sendo o mtodo QDA o melhor. A leitura e interpretao deste
artigo permite concluir que este mtodo tem, face aos restantes, vrios aspectos positivos, sendo a
velocidade de treino e classicao aliados a um desempenho elevado, o aspecto mais aliciante. Uma
anlise deste mtodo face a outros mais recentes, pode ser encontrada em Dollr et al. [In Press].
Na tabela 1.1 pode-se encontrar um resumo com os principais pontos positivos e negativos de cada
abordagem.
Para nalizar refere-se que nos trabalhos recentes de Dollr et al. [2009], Dollr et al. [In Press] e
Enzweiler and Gavrila [2009] se podem encontrar um sumrio das vrias abordagens que tm vindo a
ser introduzidas na rea de deteco de pedestres, onde os autores tentam uniformizar os resultados
obtidos face ao tipo de avaliao, classicao e base de dados utilizadas.

Organizao
Esta tese est organizada em captulos com um grau de dependncia baixo entre si. Nos captulos, 2
e 3, iro ser estudados vrios mtodos de extraco de caractersticas e de deteco, que sero utilizados para a construo de novos mtodos para o reconhecimento de padres, no mbito de deteco
de pedestres em fotograas digitais. No captulo 3 introduzido em detalhe o classicador proposto
por este trabalho. No quarto captulo sero expostos os resultados do mtodo proposto face aos resultados de um dos mtodos estudados no captulo 1. Para terminar, ser feita uma concluso sobre
6

Geometria
Felzenszwalb and Huttenlocher, 2000
Dalal and Triggs, 2005
Zickler and Efros, 2007
Huang et al., 2004
Schwartz et al., 2009
hong Liang et al., 2007
Felzenszwalb et al., 2010
Malagn-Borja and Fuentes, 2009

Descritor
Iluminao

Cor

+
-

+
-

Classicador
Classicao Dimenso

Treino

+
+

+
+
-

+
+

+
+
+
+

Tabela 1.1: Tabela descritiva dos pontos positivos e negativos das abordagens estudadas nesta seco. Os pontos associados ao classicador, Treino, Classicao e Dimenso tentam descrever, respectivamente, o tempo/facilidade de implementao do treino, tempo/facilidade de implementao da
classicao e, por m, a dimenso do conjunto de treino para obter o respectivo desempenho.
a aplicabilidade do mtodo escolhido, os seus aspectos positivos e negativos, assim como possveis
melhoramentos e/ou novas abordagens.
Todo o cdigo presente neste tese foi realizado pelo autor e foi escrito na linguagem R, R Development Core Team [2011], excepo de algumas funes que foram escritas na linguagem C, cujo
criador e visionrio Dennis Ritchie faleceu em 2011. Estas funes, no entanto, foram criados para
serem utilizados no software R. Este cdigo no constar no corpo deste trabalho.
Todas as imagens presentes foram criadas especicamente para este trabalho ou sero de uma
base de dados/repositrio livre de direitos de autor, onde a sua utilizao noutros trabalhos permitido.

Captulo 2

Extraco de Caractersticas e
Classicao
Neste captulo sero apresentadas as diferentes metodologias que sero discutidas na anlise experimental. Estas so constitudas por duas fases. A primeira, designada por extraco de caractersticas,
consistir no tratamento de imagens, por exemplo transformao em tons-de-cinza, e na extraco de
informao das imagens, ou seja, a extraco de descritores para utilizao nos classicadores. A fase
seguinte, deteco, consiste na aplicao de um classicador aos descritores provenientes da fase
anterior.
Cada uma destas fases pode ser composta por um ou vrios mtodos, este captulo focar-se- na
descrio de cada um dos mtodos considerados neste trabalho. Na fase de extraco de caractersticas descrevem-se os seguintes mtodos: transformao de imagens a cores para tons-de-cinza;
aplicao de um ltro gaussiano a uma imagem, dando um efeito de blur; extraco de arestas de uma
imagem; e por m, histograma de orientao de gradientes. Na fase de deteco apenas se apresenta
o classicador Adaboost, que ser utilizado como uma abordagem do estado-da-arte a comparar com
o mtodo proposto nesta tese. O classicador proposto neste trabalho ser introduzido no captulo
seguinte.

2.1
2.1.1

Extraco de Caractersticas
Tons-de-cinza

Uma fotograa pode ser descrita utilizando diversos modelos de cor. O modelo mais utilizado, e ptimo
para aplicaes electrnicas, o modelo aditivo RGB - Red, Green and Blue. Este modelo representa
cada pxel de uma fotograa atravs de trs valores, nas trs cores primrias aditivas: vermelho; verde
e azul. A percepo simultnea destes trs valores reproduz a cor pretendida, vide gura 2.2. Este
modelo no permite a reproduo de todas as gamas de cores existentes, mas reproduz a gama de
cores percetveis ao olho humano.
9

(a)

(b)

Figura 2.1: A imagem em (a), criada por brainleek07 e disponibilizada sobre o acordo CCA 3.0, uma
imagem representada com o modelo RGB. Em (b) est representada a imagem em (a) mas em tons
de cinza. No dever ser dado nenhum crdito sobre o trabalho em (a) e (b), visto pertencerem a outro
autor. Assim como (b) no dever ser visto como um trabalho de arte mas sim apenas como uma
ilustrao de um processamento de imagem.

Figura 2.2: Esta imagem ilustra a aditividade do modelo RGB.

Como foi dito anteriormente uma fotograa digital pode ser vista como trs matrizes, cada uma
associada s trs cores: vermelho, verde e azul. Cada matriz tem a dimenso da fotograa em pxeis e
a cada entrada da matriz, por outras palavras: a cada pxel, est associado um valor entre 1 e 255 (ou
entre 0 e 1) denotando a amplitude da respectiva cor nesse pxel. Um valor elevado corresponde a uma
cor mais brilhante, e a um valor muito baixo uma cor mais escura. Neste trabalho as fotograas sero
trabalhadas em tons de cinzento, ou seja, a cada pxel est associado apenas um valor, entre 1 e 255,
denotando o nvel do cinzento. A valores altos esto associado tons mais brancos e a valores baixos
tons mais negros. A transformao entre o modelo RGB e o modelo Grayscale (escala de cinzentos)
ser feita de acordo com o mapeamento em Shih [2010]. Note-se que existem outros mapeamentos
diferentes. Este mapeamento consiste numa ponderao dos valores nas trs diferentes cores com
os seguintes coecientes: 0.3; 0.59; 0.11, para vermelho, verde e azul respectivamente, sendo este o
mapeamento que preserva a luminncia original da imagem. Em Shih [2010], Acharya [2005], Johnson
[2006], entre outros, encontra-se informao sobre os vrios modelos de cor existentes, os mtodos
de transformar uma imagem em tons-de-cinza e, tambm, sobre a luminncia de uma fotograa. A
transformao de uma fotograa numa imagem1 em tons de cinza ser o primeiro processo a ter em
conta na transformao de imagens.

1 H que notar que uma fotograa uma descrio do que estava do outro lado da lente da mquina fotogrca. Ao ser feito
qualquer tipo de alterao, deixa de ser uma fotograa e sim uma imagem.

10

2.1.2

Equalizao de histograma para imagens em escalas de cinza

Uma imagem de um cenrio com poucos contrastes pode-se tornar difcil de interpretar, ou seja, de
retirar informao tal como a gura 2.3.a o demonstra. Nestes casos a gama de valores das cores so
muito prximas entre si, tendo um histograma da imagem (diagrama onde se representa a frequncia
de ocorrncia de cada nvel de cinzento) muito concentrado numa zona apenas, tal como se pode
observar na gura 2.3.b. Por forma a realar estas pequenas diferenas pode-se recorrer ao mtodo
de equalizao de histogramas, que nivela o histograma de uma imagem, como se pode observar na
gura 2.4. Esta equalizao separa os valores mais prximos, realando assim a diferena entre estes.
Ao aplicar este algoritmo promove-se a extraco de informao de uma imagem. No entanto este
mtodo promove e reala rudos que possam existir na imagem, podendo diminuir a qualidade geral
desta e, com isso, piorar a extraco de informao, tal como mostrado na gura 2.5.
Um histograma pode ser visto como uma estimativa da distribuio de probabilidade da varivel
aleatria que representa os nveis de cinzento numa imagem. A equalizao de histograma um
mtodo que permite redistribuir os valores dos tons de cinzento de modo a obter um histograma de
uma distribuio aproximadamente uniforme. De seguida ser introduzida a teoria, e a funo de
equalizao de histogramas, de acordo com a notao e denio presentes em Shih [2010].
Considere-se o caso de uma imagem em tons-de-cinza, em que cada pxel tem uma intensidade
0 r 1, logo r pode ser visto como uma concretizao de uma varivel aleatria R, onde R denota
a imagem original. Esta varivel aleatria, R, tem como funo densidade de probabilidade contnua,
pR (r), e funo de distribuio: FR (r) = P [R r]. Seja ento s = T (r) o mapeamento entre a imagem original e a imagem resultante da equalizao de histograma. Por forma a realizar a equalizao
do histograma necessrio considerar que pS (s) seja constante, onde S denota a varivel aleatria
associada distribuio de intensidades da imagem resultante e pS (s) a sua funo de densidade.
No cenrio de tons-de-cinza, caso estes tenham valores entre 0 e 1, a varivel aleatria S ter uma
distribuio uniforme nesse intervalo. O denominado mapeamento, entre R e S, ter uma distribuio
uniforme no intervalo (0, 1). Ou seja, T (R)

S, onde S tem distribuio uniforme no intervalo (0, 1).

Ser agora apresentado o mapeamento para imagens digitais, que tm um carcter discreto pois
existe um nmero nito de pxeis. Seja n o nmero de pxeis na imagem, nG o nmero de tons de
cinza utilizados (neste trabalho considerou-se 255 tons de cinza) e seja nrj o nmero de pxeis com
intensidade rj . Considere-se que a imagem original, assim como a imagem resultante, tm nG tons de
cinza no intervalo: [0, 1, . . . , nG 1]. O mapeamento ir atribuir intensidade original rk o valor sk , em
que k = 0, 1, . . . , nG 1, de acordo com a equao (2.1).
k

sk = T (rk ) = (nG 1)
j=0

n rj
(nG 1)
=
n
n

n rj

(2.1)

j=0

A equalizao de histogramas ser um dos processamentos a ter em conta na fase de extraco


de caractersticas. Vrios testes de desempenho sero feitos para vericar se este promove, ou no, a
qualidade do modelo/classicador.
11

(a)

(b)

Figura 2.3: A imagem em (a), disponibilizada sobre o acordo CCA 2.0, uma imagem cujo histograma
est concentrado apenas em intensidades elevadas, como se pode observar em (b) que representa o
histograma das frequncias relativas de (a) assim como a funo de distribuio associada a este.

(a)

(b)

Figura 2.4: A imagem em (a), corresponde imagem 2.3.a) cujo histograma fora equalizado. A imagem
em (b) o respectivo histograma e estimativa da respectiva funo de distribuio.

2.1.3

Filtro Gaussiano

Numa imagem com muito rudo ou um elevado nvel de detalhe, pouco relevante para um determinado
problema como a textura da roupa, existe a possibilidade de tentar remover, ou diminuir, tais factores
tal como ilustrado na gura 2.6. Para tal pode ser aplicada a tcnica de blur ou low-pass lters2 .
Esta tcnica conseguida atravs do processo matricial designado por convoluo. A convoluo
de matrizes pode ser denida atravs da convoluo de funes de duas variveis. Neste trabalho ser
denida de forma matricial e no cenrio de tratamento de imagem.
Seja A a matriz de interesse, por exemplo uma imagem, com dimenso p q e seja M um ltro/mscara a aplicar sobre a matriz de interesse com dimenso rs. A matriz resultante, R = A M ,
de aplicar o ltro M matriz de interesse A, dada pela equao (2.2), onde [.]ij denota a entrada
(i, j) da respectiva matriz.
2 Low-pass lters, tendo esta designao pois, dada uma imagem como input, o resultado uma imagem onde os pxeis de
frequncia espacial alta, na imagem original, foram atenuados enquanto que os de baixa frequncia espacial se mantiveram.

12

(a)

(b)

Figura 2.5: A imagem em (a) corresponde a uma imagem com baixa denio cujo histograma est
mal distribudo e (b) mesma imagem aps o processo de equalizao de histograma, note-se o rudo
existente agora nesta imagem, assim como uma melhoria da clareza da imagem.

[R]i,j =

[M ]uv [A]iu+1,jv+1

(2.2)

Onde u e v esto denidos de acordo com as dimenses de A e M , Note-se que a matriz resultante
poder assumir valores fora da regio da imagem, nesses casos os valores [.]i,j sero considerados
como zero caso os ndices i e j no sejam vlidos. Caso a mscara M possa ser factorizada em M1
M2 = M , onde denota o produto matricial e M1 e M2 com dimenses r1 e 1s respectivamente,
ento a convoluo A M requer um maior tempo de execuo do que executar as convolues
sucessivas: (A M1 ) M2 .

Ir-se ento utilizar a tcnica de convoluo para aplicar um ltro gaussiano a uma dada imagem. O
ltro gaussiano ir ponderar a frequncia do pxel central com a dos pxeis adjacentes, de acordo com
a distribuio gaussiana bivariada em que = (0, 0) e = 2 I. A funo de densidade gaussiana
no-nula em qualquer ponto nito, no entanto esta decresce rapidamente podendo ser truncada para
valores sucientemente afastados de . Neste caso, o truncamento de cada distribuio marginal
feito para valores a uma distncia de superior a 3. Como os pxeis esto distribudos num espao
bidimensional discreto, o ltro gaussiano utilizado na convoluo ser uma matriz de dimenso k k,
em que

k
2

representa o nmero de pxeis a considerar em qualquer direco do pxel central, havendo

alguns ajustes quando k par/mpar. O valor de ser ajustado de acordo com k. A matriz apresentada
em (2.3) corresponde discretizao de um ltro gaussiano em que k = 5.

4
1

6
273

17

28

17

28

45

28

17

28

17

13

(2.3)

(a)

(b)

(c)

(d)

Figura 2.6: A imagem em (a) corresponde famosa imagem de Lena utilizada em computer vision,
mais informaes sobre esta imagem pode ser encontrado no web-site: Lena Sderberg @ wiki. A
imagem em (b) corresponde (a) adicionada de um rudo aleatrio de pxeis brancos e pretos. Em
(c) e (d) observa-se o resultado de aplicao de um ltro gaussiano de dimenso k = 5, a (a) e (b)
respectivamente.

Ser agora descrito o processo de criao de um ltro gaussiano discreto tal como o utilizado neste
2
trabalho. Seja fX (x X , X ), denida na equao (2.4), a funo de densidade de uma varivel alea-

tria normal, X , com parmetros e . Como o interesse deste ltro o de convoluo, o parmetro
ser nulo. Considere-se agora Y, identicamente distribuda e independente (i.i.d) a X , com funo
2
dada por fY (y Y , Y ). A varivel aleatria X Y ento uma distribuio gaussiana bivariada com

parmetros = (X , Y ) e =

2
X 0
2
0 Y

, com funo de densidade f (x, y |, ) dada pela equao

(2.5). Pode-se ento concluir que a funo de densidade bivariada pode ser vista como a aplicao
de duas funes univariadas. Esta propriedade importante pois permite facilitar os clculos da convoluo, ao fazer-se a convoluo atravs de dois ltros gaussianos unidimensionais sucessivos, um
na orientao vertical e outro na orientao horizontal, em vez de efectuar uma convoluo com um
ltro bidimensional. A diviso da convoluo em dois passos permite diminuir a complexidade temporal
da convoluo de O(k 2 ) para O(k), como referido em Shih [2010]. A complexidade temporal de um
dado algoritmo denota a ligao entre a dimenso do input do algoritmo e o tempo necessrio para a
execuo deste sobre esse mesmo input, medido custa de vrias funes, neste caso polinomiais.
Quanto maior o grau do polinmio, em funo do valor k, maior ser o tempo necessrio execuo
do algoritmo.
14

fX (x |, ) =

f ( x, y| = (0, 0),

X =Y

I) =

1
2 2

1
2
2X

(x)2
2 2

,x R

(xX )2
2 2
X

(2.4)

(yY )2
2 2
Y

2
2Y

(x)2
(y )2
1
e 22 2 2
2
1 x22 y22
e 2 2
=
2 2
1 x2 +y2
=
e 22
2 2

(2.5)

A funo em (2.5) est denida num espao contnuo, ir de seguida descrever-se como foi feita
a discretizao neste trabalho. A gura 2.7.a) apresenta a sobreposio de um ltro gaussiano sobre
uma janela de uma imagem, ambas com as mesmas dimenses (55). Pode-se observar que a um
nico pxel est associada uma zona inteira do ltro, portanto o peso associado ao pxel ser a mdia
do valor do ltro nos quatro cantos do pxel. Ficando ento com a mscara em 2.7.b). Esta mscara,
criada atravs da mdia da gaussiana contnua em cada um dos vrtices do pxel, ser designada
por ltro gaussiano discreto. Existem outros mtodos que utilizam sries de Fourier para efectuar esta
discretizao, tal como descrito em Shih [2010].

(a)

(b)

Figura 2.7: Na imagem em (a) encontra-se um ltro gaussiano contnuo sobreposto a uma janela de
5 5 pxeis de uma dada imagem (apenas se observa os limites dos pxeis, no plano horizontal), a
vermelho corresponde a associao de um dado pxel ao valor seu do ltro. Na imagem (b) encontra-se
de novo um ltro gaussiano, desta vez discreto, sobreposto a uma janela de 55 pxeis, tal como no
caso anterior a vermelho indica a associao do pxel-ltro.

15

(a)

(b)

(c)

Figura 2.8: A imagem (a) diz respeito imagem do Steve aquando da aplicao de um ltro de Sobel 2D,
com o sentido horizontal. A imagem em (b) corresponde ao caso em que o ltro tem o sentido vertical
e, por m, a imagem em (c) corresponde magnitude total de cada aresta, ou seja, (a)2 + (b)2 . O
Steve o nome atribudo, pelo autor desta tese, a uma imagem do conjunto MIT em homenagem ao
Steve Jobs (este exemplo ser explorado posteriormente).

2.1.4

Deteco de arestas

Se existir interesse nos contornos dos objectos numa determinada imagem, podem utilizar-se vrios
mtodos que transformam uma imagem, dita normal, numa de contornos, vide Shih [2010]. Estes mtodos, designados em ingls por edge-detection methods, pertencem a um grupo de ltros designados
por high-pass lters3 . Os mtodos de deteco de arestas recorrem iluminao dos pxeis para detectar contornos. Se k pxeis adjacentes tiverem uma diferena acentuada de iluminao poder signicar
que existe um contorno entre estes. Os algoritmos de deteco de arestas, fazem-no atravs da convoluo de um ltro, com a imagem original, tal como no caso do ltro gaussiano. Existem diferentes
ltros, que marcam a diferena entre os vrios algoritmos de deteco de arestas existentes. Estes
ltros so, geralmente, de dimenses reduzidas assumindo que um contorno tambm de dimenses
reduzidas, comparativamente dimenso total da imagem. Neste trabalho ser considerado o mtodo
Sobel, a uma e a duas dimenses, cujos ltros sero denidos de seguida. Foram analisadas outros
ltros, como por exemplo os ltros Prewitt e Canny (assim como os respectivos mtodos), no entanto
3 High-pass lters, tem esta designao pois dada uma imagem como input, o resultado uma imagem onde os pxeis de
frequncia espacial baixa na imagem original foram atenuados, enquanto que os de frequncias espaciais altas se mantiveram.

16

optou-se por utilizar o ltro Sobel por ser este o utilizado, e estudado, nos artigos e livros analisados,
facilitando assim a comparao com resultados j existentes. Outra razo para a escolha do ltro Sobel
face aos restantes, recai sobre a facilidade de sua implementao. Em Dalal and Triggs [2005], Wu and
Nevatia [2007], Dollr et al. [2009] e Dollr et al. [In Press], encontram-se tabelas de desempenho de
vrios mtodos de deteco de pessoas em imagens, onde alguns destes utilizam tcnicas de deteco
de arestas, nomeadamente o ltro Sobel.
O mtodo Sobel est dividido em trs etapas. A primeira e a segunda consistem na convoluo da
imagem com uma mscara, de orientao horizontal e vertical, respectivamente. O resultado de cada
uma destas etapas corresponde intensidade/magnitude da aresta, na respectiva orientao, em cada
pxel, ou seja, o gradiente da diferena de iluminao em cada orientao. Nas guras 2.8.a) e .b) pode
ver-se o resultado da aplicao destas duas etapas a uma imagem. A terceira etapa corresponde ao
clculo da magnitude deste gradiente. Para ser possvel visualizar estes resultados, como uma imagem,
efectuada uma normalizao no valor do gradiente para os valores possveis da intensidade, ou seja,
entre 1 e 255. Na gura 2.8.c) pode observar-se o resultado da terceira etapa.
O mtodo Sobel a uma dimenso tem esta designao porque os ltros, de convoluo, tm uma
das dimenses unrias, enquanto que no mtodo Sobel a duas dimenses as mscaras tm duas
dimenses. Estes ltros, de duas dimenses, para alm de permitirEM calcular o gradiente, tm tambm um efeito de blur. Tendo sido feito o clculo da magnitude do gradiente na direco horizontal e
vertical, em toda a imagem, ca-se com a magnitude do gradiente em cada uma das direces Gh e
Gv , respectivamente. Considere-se agora a magnitude horizontal e vertical do gradiente no pxel (i, j),
respectivamente [Gh ]ij e [Gv ]ij . Esta informao permite o clculo da magnitude do gradiente, assim
como a sua orientao. Estes clculos podem ser efectuados da seguinte forma: seja G a magnitude
do gradiente, ento G dado pela equao (2.6):

[G]ij =

(2.6)

[Gh ]ij + [Gv ]ij

A gama de valores para a orientao do gradiente depende de aplicao para aplicao. Neste
tipo de aplicaes no h interesse sobre a sentido da orientao, e.g. um gradiente ter um sentido
da direita para a esquerda dever ser igual a um com o sentido contrrio. Interessa no entanto a sua
direco, ou seja, se um contorno horizontal, vertical, inclinado, etc. Por isso no se ter em conta
o sinal do ngulo do gradiente, cando assim com uma gama de valores entre

2.

Em Dalal and

Triggs [2005] foram estudados outros casos mas os autores concluram que esta abordagem era a que
atingia melhores resultados. A orientao do gradiente ento calculada segundo a equao (2.7).

[O]ij = arctan

[Gv ]ij
[Gh ]ij

(2.7)

O mtodo de deteco de arestas, magnitude e orientao, far parte integrante do mtodo seguinte,
onde se avaliar o desempenho deste sobre cada uma das abordagens referidas anteriormente, Sobel
a uma e duas dimenses.
17

2.1.5

Histograma da orientao de gradientes

O mtodo de extraco de informao de imagens Histogram of Oriented Gradients4 - HOG, foi introduzido em Dalal and Triggs [2005]. Este mtodo visa extrair informao sobre a orientao das arestas
existentes numa imagem, sendo estas arestas calculadas atravs de mtodos, como Sobel, explicados
anteriormente. Ser feito uma pequena introduo ao funcionamento do mtodo, no entanto, esta explicao dever ser vista como um resumo da existente em Dalal and Triggs [2005]. Tentar-se- descrever
o mtodo de forma clara e concisa, permitindo ao leitor mais interessado implementa-lo sem a necessidade de recorrer a outras fontes. Assumindo que se est a trabalhar com imagens em tons-de-cinza
e com as dimenses necessrias, o mtodo est dividido em quatro fases: clculo da orientao e
magnitude das arestas na imagem; diviso da imagem em blocos e clulas; clculo do histograma de
gradientes por clulas, agrupados em blocos; concatenao destes histogramas. Um vector descritor
ser ento a concatenao dos vrios histogramas.
A primeira fase, clculo da orientao e magnitude das arestas, ser conseguida de acordo com os
mtodos explicados em 2.1.4. Segundo os autores Dalal and Triggs [2005], um das que conduz a bons
resultados a utilizao da tcnica, de deteco de arestas, Sobel a uma dimenso.
Na segunda fase consideram-se duas estruturas, designadas por clulas e blocos. Estas clulas
so janelas da imagem original, com dimenses de v v pxeis. A gura 2.9 ilustra a diviso de uma
imagem em clulas. Um bloco visto como uma juno de nc nc clulas, perfazendo um total de
(nc v) (nc v) pxeis. Tal como em Dalal and Triggs [2005], considera-se que de bloco para
bloco existe sobreposio de uma clula em qualquer uma das direces, horizontal ou vertical, na
diviso da imagem em blocos. Esta diviso em clulas e blocos tem como objectivo tentar maximizar o
ganho de informao na avaliao de uma imagem, permitindo haver alguma estatstica associada aos
descritores e no apenas a observao directa da magnitude da cor ou aresta num pxel. Tambm na
gura 2.9 observa-se o agrupamento de clulas em blocos.
A terceira fase, a mais elaborada, consiste no agrupamento das direces das arestas num histograma com nb divises, neste caso nb = 9 corresponde diviso do espao [90, 90] de orientao em:
nb

9
90+ 180 i, 90+ 180 (i+1)
n
n
b

90+20i, 90+20(i+1)

. Este agrupamento ser feito por clulas num

l=0

l=0

dos blocos, repetindo-se este processo para os restantes blocos. Antes de ser feito o agrupamento
em nb orientaes, dar-se- uma ponderao das magnitudes dos gradientes, em cada pxel do bloco,
dando maior importncia aos valores centrais do bloco. Esta ponderao ser efectuada utilizando uma
mscara gaussiana5 , Mg , ou seja, o valor do pxel actualizado, pxij , ser dado por pxi,j = pxi,j [Mg ]i,j .
Na quarta fase, ser calculado o histograma das orientaes dos gradientes, por bloco, em cada
uma das clulas separadamente, ou seja, um total de n2 histogramas por bloco. Considere-se um
c
pxel pxi,j da clula ck , de um determinado bloco, seja a magnitude do gradiente deste pxel dado por
si,j e a sua orientao por ol , com l = 1, 2, , nb . Este pxel contribuir para a orientao l do
i,j
histograma da clula ck com o valor da sua magnitude, ou seja, si,j . Este processo repetido para
os restantes pxeis da clula, sendo o resultado um vector de dimenso nb . Na gura 2.10 pode ser
4 Cuja

traduo para a lngua portuguesa pode ser vista como: Histograma da orientao de gradientes
caso no se trata de convoluo de matrizes, mas sim a ponderao directa do pxel i, j do bloco com o peso i, j da
mscara gaussiana.
5 Neste

18

Figura 2.9: Esta gura corresponde diviso de uma imagem, neste caso o Steve, em clulas (preto)
e blocos (vermelho). Apenas constam trs blocos, no entanto a diviso em blocos ser mais densa,
havendo um novo bloco de uma em uma clula (em qualquer das duas orientaes). Note-se tambm
que h pxeis da imagem que no so capturados por nenhuma clula, pxeis que se encontram perto
do nal da imagem, sendo a informao contida nesses pxeis descartados.
visualizado uma ilustrao dos histogramas por clula da imagem Steve. Por m, executada uma
normalizao do histograma de forma a este poder ser visto como uma estimativa de uma funo
de densidade de probabilidade. Este processamento repetido para cada uma das nc nc clulas
do bloco, sendo o resultado de todas estas clulas concatenado. Este resultado designado por
descritor HOG. Como dito inicialmente, este processo ser repetido para cada um dos blocos de uma
imagem. Estes descritores sero ento concatenados, formando um nico vector, sendo este vector
o descritor de uma determinada imagem e ser o utilizado para vericar se esta contm, ou no, uma
pessoa. Relembra-se novamente que se trata de uma imagem com dimenses especicadas a priori,
geralmente com as dimenses da classe de objectos em causa. Para uma imagem geral, esta ser
dividida em janelas com as dimenses necessrias, sendo sobre estas janelas que sero calculados
os descritores HOG.
A execuo deste mtodo ser, adicionalmente, explicada por pseudo-cdigo, facilitando assim a
leitura e implementao. Em pseudo-cdigo apresentado na gura 2.11.

19

Figura 2.10: Esta imagem ilustra uma visualizao dos histogramas da orientao do gradiente por
clulas, antes de ser agrupado por blocos e normalizado, da imagem do Steve.

1. Fixar os valores de: n2 - nmero de clulas por bloco; v 2 nmero de pxeis por clula; e nb nmero
c
de divises do histograma de orientao. Fixar qual o mtodo de deteco de arestas a utilizar.
2. Clculo do gradiente de arestas com orientao vertical e horizontal, Gv e Gh respectivamente.
3. Clculo da magnitude do gradiente em cada pxel, atravs da equao (2.6);
4. Clculo do ngulo da aresta, atravs de (2.7);
5. Diviso da matriz de orientao e gradiente, O e G, em blocos de nc nc clulas, em que blocos
adjacentes tm duas clulas de sobreposio entre si (em cada orientao) e, clulas estas, de
dimenso vv pxeis;
6. Aplicao de uma mscara gaussiana de dimenso (nc v) (nc v) a cada um dos blocos
da matriz de gradientes, dando assim, um peso reduzido aos gradientes consoante se encontrem
mais afastados dos gradientes centrais do bloco.
7. Clculo de histogramas de orientao, com nb divises, em cada uma das clulas. Cada orientao pesada no histograma pela respectiva magnitude do seu gradiente.
8. Concatenao dos n2 histogramas, formando um descritor HOG;
c
9. Normalizao do descritor segundo a norma l2:

x
x2 +

10. Repetio dos passos 6 9, para cada bloco e concatenao de todos os descritores, obtendo
assim o resultado nal;
Figura 2.11: Pseudo-cdigo do mtodo de extraco de descritores HOG.

20

Os cinco processamentos estudados anteriormente, de extraco de caractersticas (descritores),


iro ser agrupados de diferentes formas, formando assim vrios cenrios de estudo diferentes, cada
um com o seu descritor. Estes descritores sero avaliados durante a fase de deteco, onde apenas
alguns dos melhores passaro fase nal de avaliao de resultados. Em qualquer um dos cenrios a considerar, ser primeiramente efectuada uma transformao da imagem em tons-de-cinza (vide
2.1.1). Segundo Dollr et al. [In Press], a utilizao de imagens a cores aumenta o desempenho dos
mtodos, aumentando tambm o tempo de processamento e memria necessria, que neste trabalho
era um compromisso invivel. Os cenrios a ter em considerao, para a seco seguinte, so os que
se seguem: 1 - Normal, cenrio em que no considerada nenhuma transformao adicional, onde
o descritor o prprio valor dos pxeis em toda a imagem; 2 - Gauss, o descritor ser a amplitude
dos pxeis na imagem aps um efeito de blur; 3 - Hist, neste caso, em semelhana aos anteriores, o
descritor formado pela frequncia de cada um dos pxeis aps uma equalizao de histograma da
imagem; 4 - Sobel1D e 5 - Sobel2D, cenrios em que o descritor consiste na magnitude do gradiente
das arestas calculadas atravs dos respectivos mtodos de deteco de arestas; 6 - Sobel1D_HOG
e 7 - Sobel2D_HOG, cenrios em que os descritores so os descritores HOG calculados com o auxlio dos respectivos mtodos de deteco de arestas; Restam os cenrios: 8 - Gauss_Sobel1D; 9
- Gauss_Sobel2D; 10 - Gauss_Sobel1D_HOG; 11 - Gauss_Sobel2D_HOG; 12 - Hist_Sobel1D; 13
- Hist_Sobel2D; 14 - Hist_Sobel1D_HOG; 15 - Hist_Sobel2D_HOG; 16 - Gauss_Hist_Sobel1D; 17 Gauss_Hist_Sobel2D; 18 - Gauss_Hist_Sobel1D_HOG; 19 - Gauss_Hist_Sobel2D_HOG, cujos descritores e propriedades so facilmente deduzidos atravs da explicao dos primeiros cenrios. Todos
estes descritores sero avaliados durante a fase de deteco e classicao, no entanto, devido ao
elevado nmero de cenrios (19) alguns resultados no sero apresentados em detalhe.

2.2

Classicao

Designa-se por classicador uma entidade/funo/algoritmo que, ao receber um objecto e um conjunto


de classes de objectos, atribui uma classe a esse objecto. Associado a um classicador est a sua
eccia na classicao do objecto. O conjunto de classes disponveis para a classicao de um
objecto, tambm designado por label set na rea de inteligncia articial. Um classicador ento
uma entidade/funo/algoritmo, H, que satisfaz a propriedade (2.8), onde x um objecto, i = 1, , p
denota o nome de cada classe assumindo que existem p classes diferentes, Yi com i = 1, , p denota
o domnio da classe i e, por m, hH (x) o processo associado a H que atribui uma classe a um objecto
x.

1,

2,
H(x) =
.
.
.

p,

hH (x) Y1
hH (x) Y2

(2.8)

hH (x) Yp

Um classicador pode ser determinstico ou probabilstico, onde no caso probabilstico atribudo


21

a x, no uma classe, mas sim as probabilidades de pertena a cada uma das classes. Existem vrias formulaes de classicadores, dependendo da rea e o problema de interesse. O termo treino,
geralmente associado a um classicador, a habilidade de o classicador aprender a classicar correctamente o objecto x a partir de um conjunto de exemplos. Este trabalho aborda dois tipos de classicadores, classicadores fracos e meta-classicadores.
Um classicador fraco tal que o seu desempenho na classicao, num determinado problema,
ligeiramente melhor que a atribuio aleatria. Ou seja, a resposta deste classicador ligeiramente
correlacionada com a classicao real do objecto. Este conceito de classicador fraco surge como
parte integrante do conceito de meta-classicador.
H x

Nvel 1

h1 x
1

Nvel 2

Nvel m

h2 x
1

y2

y2

yn1

h22 x
n

yn2

f y1 , , yn1

f y1 , , yn1

f y1 , , yn2

f y1 , , yn2

hm x
1
hm x
2

y1
y2

hmm x
n

y1

h2
2

h11 x
n

y1

h1
2

ynm
f y1 , , ynm

f y1 , , ynm

H x

H x

Figura 2.12: Esta gura mostra uma possvel estrutura de um meta-classicador, mais especicamente
em cascata. A funo hi denota um classicador fraco onde i denota o nvel a que pertencem e j o
j
nmero do classicador. Estes classicadores devolvem um valor yj = {1, 1} denotando a classe do
objecto x. A funo f (y1 , ..., yni ) pondera as vrias respostas dos classicadores fracos, do respectivo
nvel, e devolve uma classicao nal para esse nvel, como exemplo de funo f tem-se a mediana,
o objecto x passa ao nvel seguinte se a classicao nal do nvel actual tiver sido positiva, 1.
Um meta-classicador uma estrutura que interliga/pondera diferentes classicadores, para tentar
atingir um nvel de desempenho superior a cada uma das partes que o compem, vide gura 2.12.
Neste trabalho falar-se- de meta-classicadores organizados em cascata num ambiente de classicao binria, sim ou no. Esta cascata dividida por nveis e a cada nvel i associado um nmero
de classicadores fracos, ni . Cada nvel da cascata caracterizado pela especicidade, habilidade
de detectar correctamente objectos que no pertenam classe de interesse - negativos, associada
a cada um dos classicadores fracos que a compem e, inerentemente, a sua complexidade. H que
notar que exigido que os classicadores fracos classiquem correctamente a (quase) totalidade dos
objectos da classe de interesse - positivos, medido atravs da sensibilidade.
O intuito da estrutura em cascata o de tentar retirar os objectos negativos, mais simples, nos primeiros nveis e deixando para os ltimos nveis os objectos que mais se assemelham classe positiva.
Ou seja, este meta-classicador ao receber um objecto x f-lo passar pelo primeiro nvel da cascata.
Se este nvel classicar o objecto como negativo, devido sensibilidade elevada dos classicadores
fracos o meta-classicador atribui a classicao nal como sendo negativo. Caso este nvel atribua a
classicao positiva o objecto muda para o nvel seguinte, onde ser novamente testado. O processo
ento repetido um nmero de vezes igual ao nmero de nveis. A classicao nal do objecto x ser
positivo, caso em que cada nvel da cascata o tenha classicado como positivo, e ser negativo se
22

tiver sido classicado como tal em algum dos nveis. O treino de um meta-classicador designado por
boosting e consiste, geralmente, na procura dos classicadores fracos, e na ponderao destes, que
maximize o desempenho do classicador nal.
Designa-se ento por classicao a aplicao de um mtodo, a designar, a um conjunto de imagens
que podem, ou no, ser de uma certa classe de objectos. Estas imagens devem ter uma dimenso de
acordo com a classe de objectos e o ambiente do problema. Este mtodo, dado este conjunto de
imagens, dever decidir quais as que tm o objecto de interesse, ltrando assim imagens positivas das
negativas, com nfase em deixar passar o mximo6 de imagens positivas rejeitando grande parte dos
negativos. Esta classicao, e o mtodo que a constitui, pode ser vista como um classicador fraco.
Este trabalho assentar-se- sobre a procura e anao de um classicador fraco para, em trabalho
futuro, ser implementado sobre um meta-classicador organizado em cascata. Tal como foi dito antes, um meta-classicador composto por vrios classicadores organizados sobre uma determinada
estrutura. A estrutura, neste caso, o de cascata. Cada nvel da cascata ser composto por vrias
iteraes do classicador fraco proposto por este trabalho. Dado um novo objecto w este ser avaliado
em cada um dos nveis da cascata sucessivamente, passando ao seguinte apenas se tiver sido classicado como positivo no nvel anterior. Em cada nvel ser feito uma ponderao sobre a classicao
do objecto w tendo em conta as respostas de cada um dos classicadores fracos que compe o nvel.
A ttulo de exemplo, esta ponderao poder ser baseada na maioria, ou seja, o nvel i classica o
objecto w como positivo se mais de metade dos classicadores fracos, que o compem, o classiquem
como tal.
Pretende-se ento criar/encontrar um classicador fraco de desempenho elevado face aos encontrados nos trabalhos relacionados. Este desempenho pode ser medido atravs de duas medidas estatsticas, sensibilidade e especicidade, e pela velocidade de classicao e treino. A sensibilidade
e a especicidade, enquanto medidas estatsticas, esto associadas a classicadores binrios e esto
denidas no intervalo real [0, 1]. A sensibilidade a probabilidade de que o mtodo de classicao
classique um objecto como positivo sabendo que esse objecto positivo. Esta medida pode ser estimada pela equao em (2.9), no entanto, na rea de deteco de pedestres utilizado a medida
miss rate que corresponde ao complementar da sensibilidade.

sensibilidade = P (P ositivo |classicao real = P ositivo )


=

Nm. Verdadeiros Positivos


Nm. Verdadeiros Positivos + Nm. Falsos Negativos

(2.9)

A especicidade a probabilidade de que o mtodo de classicao classique como negativo sabendo que esse objecto negativo. Esta medida pode ser estimada pela equao em (2.10) e, tal
como na sensibilidade, na rea de deteco de pedestres so utilizados as medidas FPPJ e FPPI, respectivamente falsos positivos por janela e por imagem. A medida FPPJ corresponde ao complementar
da especicidade, no entanto, a medida FFPI corresponde ao nmero de falsos positivos por imagem,
6 Dependendo de problema em problema, ter uma alta sensibilidade prefervel a uma elevada especicidade, noutros problemas ocorre o inverso, sendo limites que se podem alterar de problema em problema.

23

estando denida no intervalo real [0, m] onde m corresponde ao nmero de janelas numa imagem.

especicidade = P (N egativo |classicao real = N egativo )


=

Nm. Verdadeiros Negativos


Nm. Verdadeiros Negativos + Nm. Falsos Positivos

(2.10)

Na criao de um novo classicador fraco pretende-se atingir uma elevada sensibilidade e especicidade, mantendo a velocidade de classicao e tentando, tambm, minimizar o tempo de treino
necessrio para atingir um determinado desempenho, face aos mtodos concorrentes. Em Dollr et al.
[In Press] so estudadas algumas das abordagens existentes ao problema de deteco de objectos,
assim como os mtodos de classicao. Esse mesmo estudo demonstra que grande parte dos mtodos de classicao utilizam mtodos como: Adaboost e SVM - Support Vector Machine. Decidiu-se
ento estudar a abordagem de Adaboost, que de uso mais frequente em classicadores em cascata,
e comparar directamente os resultados obtidos deste mtodo face aos obtidos pelo algoritmo explorado
neste trabalho que ser explicado posteriormente.

2.2.1

Adaboost

O mtodo Adaboost foi introduzido em Freund and Schapire [1995] e utiliza uma tcnica, denominada
por Boosting, para o treino de um meta-classicador custa de classicadores mais fracos. A tcnica
de Boosting, como se pode ler em Valiant [1984] e Freund and Schapire [1995], surgiu como resposta
armativa pergunta: Ser possvel utilizar classicadores fracos, cujo desempenho seja apenas ligeiramente superior ao de um mtodo aleatrio, para criar um classicador forte?. Como existem vrias
formas de formular um algoritmo de Boosting, focar-se- a ateno toda no caso especco, e mais
estudado, do Adaboost. Para a criao de um meta-classicador, utilizando o mtodo Adaboost e seguindo a denio em Freund and Schapire [1999], suponha-se que se tem um conjunto de dados para
treino formado por X e Y da forma:

(x1 ,y1 ), (x2 ,y2 ), , (xn ,yn ) .

O vector xi dene as caractersticas de

cada objecto i do conjunto de treino, yi = 1, 1 dene a classe a que o objecto i pertence, onde 1
signica que no pertence classe de interesse e, por oposio, 1 denota a pertena classe de interesse. Seja t = 1, , T o nmero de iteraes a considerar para a formao do meta-classicador, ou
por outras palavras, o nmero de classicadores fracos a considerar. A cada iterao do mtodo ser
associado um peso aos vrios objectos no conjunto de treino, onde inicialmente todos tm o mesmo
peso, no entanto, na iterao t o objecto i ter o peso Dt (i), que aumenta se o classicador fraco, em t,
falhar a sua classicao. Este processo permite que, de iterao para iterao, o prximo classicador
fraco foque a aprendizagem nos objectos que, at altura, no tenham sido classicados correctamente. Um classicador fraco, ht : X 1, 1, tenta minimizar o erro de m classicao de acordo
com Dt1 . O erro de m classicao denido por (2.11):

= P [ht (xi ) = yi ] =

Dt (i)
i:ht (xi )= yi

24

(2.11)

Aps se ter descoberto o classicador fraco, ht , com menor erro de m classicao, a distribuio
dos pesos Dt actualizada para Dt+1 . Esta actualizao elaborada de acordo com (2.12), onde
t = ln

, quantica a importncia/qualidade do classicador ht . Note-se que t 0 se

e t maior quanto menor for

Dt+1 (i) =

1
2

Dt (i)

Zt

et ,se ht (xi )=yi


e

,se ht (xi )=yi

Dt (i)et yi ht (xi )
=
Zt

Dt (i)
,
Dt (i)

(2.12)

onde Zt um factor utilizado para garantir que Dt+1 seja uma distribuio de probabilidades, neste
caso corresponde soma de todos os pesos actualizados.
Para nalizar a descrio do mtodo Adaboost resta apresentar o meta-classicador H, apresentado
em (2.13) e denir um mtodo de paragem. Este algoritmo atribui a classicao 1 e 1 de acordo com
os classicadores fracos ht , com t = 1, , T , e os respectivos coecientes de qualidade/importncia
t , novamente t = 1, , T . O mtodo de paragem pode ser denido a priori, ao xar o valor de T , ou
in loco consoante a distribuio de Dt ou ento com o auxilio de um conjunto de validao, parando o
treino quando atingido uma determinado desempenho.
T

t ht (xi )

H(xi ) = sign

(2.13)

t=1

Para a aplicao do mtodo Adaboost neste trabalho implementou-se em R o algoritmo apresentado em Freund and Schapire [1999]. A classe de classicadores fracos utilizada a classe baseada
em divises ortogonais no espao dos descritores, que minimizem o erro de classicao, estes classicadores so usualmente designados por Decison Stumps na literatura inglesa. Um exemplo de um
classicador fraco ht , pertencente a esta classe, pode ser visto na gura 2.13 e denido em (2.14),
onde x descrito custa de duas variveis de interesse, var 1 e var 2.

ht (x) =

7 ( )
t
t

1, se x2 2
1,
c.c.

1
2
t

25

(2.14)

Classificador fraco
baseado em divises ortogonais
q

10

q
q
q
qq q
q
q qq
q
q
q
qq q
qq
qqq
qq q
q
q q q qq qq q q
q
q q
q
qq q q
q qq q q
q q qq q q
q q qq qq q q
q qq q
q q qq
qq
qq
qq qq qqq q q
q q
qqqq q q
q
qq qq
q qq qqq qq q
q
q q q
q
qqq qq
qqq qqq
q
q q qqq q
q qqqqq q q
qqqqqqqqq q
qq q qqq
q qqq
q q q q qq
qq qq
qq
q qq qqq q
q qq qq
q qq q
qq
q qq
qqqqq
q
q qqq qqqq qq
q
q
q qq qq q q
q qq qq
q q qqqqq q
q q q qqqqqqq q
q qq
q qq
q
qq q
qqqqqqq qq
qq q q
qqqqq qq q
qqqq q
qq qq qqq q qqqq
q qqqqqq q qq
qq qq q q
qqqq q q
qqqqqqq q q
q qq
qqqqq q
qqqqqqqqqqq qq
q
q q
qqqq q q
qq q qq qq q
q qq
q q
qqq qq q
q qqq qqqqqqq
qqq q q
q
q qq
qqqq qqq q q
q q
q qqqqq q q
q q
q
q qqqqqq q
q
q qqqqqqqqqq q
qq qqqq q q
q qqqq q
q q
q
q qq q qqqq q
qq q
q qqq q
q q q qqqqq q q
q qq
q
q
q q qqqq q
q qq q
qq qq q
q qqqqq q q qq
qqqqq q
qq qq qq qq
q
q
q q qqqq qq
qq
q qq
q q qqqq
qq
qqq qqqqq q q q
q qq
q q q qqqq q q
q q qqqq
q qqqqq q
q
q qqqqq
q qqqqq
q qq q
qq
qq q q
qq q
q qqq qqq
qqqq qq q q q
qqq
q qq
q qqqqqqqqq qq
q
q q qqq q q
qqqqq q q
q qq qqq q q
q
q
q qq q
q qqq q q
q qq q
q q qqqq q q
qq q q qq
q
q
q q qq
qq q q q
q qq q
qq
q
qqq
q q qq q q q q q
q
qq
q
qq q
q
q qqq qq q
q qqqqq
q q
q qq q
qq
q
qq
q
qq q q
q
qq q q
q q
q
q
qq q
q
q qq q
q
q

var 2

q
q q

q
q
q

q
q
q q q q q
q
q q
q q q q q q qq q q q q q q
q
q q qq q
qq q q qqq q q q qq q
qq
q
q
qq
q
q
q
q q qq qq q qq qqqq q qq qqq qqqq
q
q
qq q q q q q qq q
q q
q q q q qqq q
q
q
q q q qq qqq qqqqqqq qqqqqqqq qqq qqq q qq q qq qqq q
q
qqq qqqqqq q qqqq qqqq q qqq qqq q
qq
qq q qq q q
q q qqqqqqq qqqqq qqqqqqqq qqq q qq qqq q qq qq qq
q
q
q
q q q q qqq q q q q q q q qqq q q q q
q q q q qqqq q q qqq q q qqq q q qq q q q q q q qq q q
qq
q
q
q
q qqqq qq q q qqqq qqqq q qq q q
q
q
q
q
q
q q q q qqq q qqqqqqqq q q q q qq q
q q qqq q qq qqqqqqqqqqq q qqqqqqqqqqqqqqqqqq qqqqqq
qqq
q q qq q q qqqq q q
qq q qqqqq q qqq qqq q q
q qq
q q
q q qqqq q
q q qqqq qq qqqqq qq qqq qqqqqqqq qqqq q qqqq q qqq qqq
qq
qq qqqqqq qqqqqqqq qq q q qqqq q q qq q
q
qq qq qq q q
q
qq
q
q
q qqqq q qqqqqq qqqqqqqqqqqq qqqq qqq qqqqqqq qqq q q
q
qq q qqqq qqq q q q qqq
q q
q
q q q q q q qqqqqq qqqqq qqqq q qqq qqqqq qq qqqq q
q qqqq q qq qqqqqq qqqqqqq q q qq q
q
qq
q
q qqq qqqqq
q q qqqqqqq qq qqqqq qqqqq qq q
qq qq q q q q
q
q q q
q
q q
qq qq qq q q qq qq qq q q q
q
q q
q
q
q
q q q q
q qq q qq q qq q q qqq qqqqqqq
q
qq
q
q q q
q
q
qq
qq
q q
q
qq q
q
q q q
q
q

10

15

q
q
qq
q
qqq
q
q

q q

q
q
q

Negativos
Positivos
20

var 1

Figura 2.13: Esta gura ilustra um classicador fraco baseado em divises ortogonais, num espao de
dados descritos custa de duas variveis. Este classicador fraco corta a varivel var 2 no ponto 2
e atribui a classicao negativa (1) a todos os objectos que tenham valor em var 2 superior a 2, e
atribui a classicao positiva caso contrrio.

26

Captulo 3

Reduo de dimensionalidade e
regras de deteco de outliers
3.1

Reduo de dimensionalidade

A Anlise de Componentes Principais consiste no mtodo matemtico de transformao dos dados


para um novo sistema de coordenadas, onde cada coordenada deste novo sistema ortogonal s restantes, e onde a projeco dos dados originais neste sistema de coordenadas tal que: a projeco
dos dados que tenha maior varincia coincida com a primeira coordenada; a projeco que levar segunda maior varincia coincida com a segunda coordenada; etc. Cada uma destas novas coordenadas
so respectivamente designadas por: primeira componente principal; segunda componente principal;
etc. Este mtodo permite que dado um novo objecto, com propriedades semelhantes aos dos dados
utilizados para a criao do novo sistema de coordenadas, possa ser projectado neste sistema de coordenadas. Caso este novo objecto pertena mesma classe de objectos, que os dados originrios
das componentes principais, ento esperado que esta projeco mantenha a variabilidade original,
no sofrendo alteraes, caso no pertena de esperar que o inverso acontea, e que a informao
inerente a este objecto seja perdida na projeco, caso em que se designa como outlier ao conjunto de
treino.
De seguida explica-se o processo de analise de componentes principais seguindo a notao presente em Jolliffe [2002]. Seja d um vector de p variveis aleatrias e seja D o conjunto formado por
vrias observaes de d. O conjunto D pode ser visto como uma matriz de dimenses mp, ou seja, m
objectos/indivduos por p covariveis que descrevem cada um destes objectos. As noes de variabilidade, correlao e assim como covarincia, esto associadas ao conjunto D e exprimem a informao
presente neste conjunto. A variabilidade mostra o quo diferentes so os objectos que compem D,
correlao e covarincia mostram a ligao existente entre os vrios objectos de D. Como por vezes
os valores de m e p so elevados, a anlise destas propriedades de D torna-se difcil e, portanto,
surge a necessidade de utilizar um mtodo que o facilite, nesta necessidade que surge a anlise de
componentes principais - PCA. A anlise de componentes principais procura novas covariveis de tal
27

forma que, com um nmero reduzido (

p), preservem a informao presente em D utilizando para

tal a variabilidade, covarincia e correlao existente no conjunto. A primeira componente principal,


ou seja, a primeira covarivel que maximiza a variabilidade nos dados dada por 1 , onde 1 um
vector de p elementos 11 , , 1p . A segunda componente principal dada por 2 e tal que maximiza a variabilidade presente em D ao mesmo tempo sendo no correlacionada com 1 . A k-sima
componente principal k tal que, como nos casos anteriores, maximiza a variabilidade presente em
D sendo em simultneo no correlacionada com 1 , 2 , , k1 . Caso se pretenda projectar o conjunto D numa dimenso inferior k < p para, por exemplo, visualizao grca da distribuio dos dados
(k = 2), a projeco feita como descrito em (3.1), onde Ak =

1 , 2 , , k

e denota o operador

de transposio usual.

D m k

d11

d12

d1p

d21
= .
.
.

dm1

d22
.
.
.

..
.

dm2

d2p

. . 1
.
.
dmp

= D.A

(3.1)

p k

m p

Seja D a matriz de dados de dimenso m p onde, as m linhas dizem respeito aos m indivduos
e as p colunas s p variveis de interesse que descrevem cada indivduo. A matriz de dados D pode
ser transformada na matriz de dados centrada X (ou seja, a mdia de cada varivel, sob os indivduos,
nula), obtida de D por remoo da mdia amostral a cada varivel de interesse, X = D 1 .
Considere-se agora a decomposio em valores singulares (SVD) apresentado em Jolliffe [2002], de
X, X = U LA . Onde as matrizes U e A, de dimenso mr e pr respectivamente, so compostas
por colunas ortonormadas tal que: U U = I r , A A = I r . A matriz L uma matriz diagonal r r,
cuja diagonal contm a raiz quadrada dos valores prprios de X X. Cada coluna da matriz A, de
dimenso p r, corresponde aos vectores prprios de X X e a matriz U aos vectores prprios de
XX . Caso r = rank(X) < p, ou seja, se houver observaes em X dependentes, a decomposio
SVD no ser nica, este caso no ser explorado em detalhe mas, para um leitor mais interessado,
pode encontrar em Jolliffe [2002] alternativas e solues. Assume-se tambm que, para este trabalho,
r = rank(X) = p. A reduo de dimensionalidade de X para k, por outras palavras a projeco destes
dados nas k primeiras componentes principais, pode ser efectuada, em semelhana a (3.1), da forma
apresentada em (3.2).

X m k = X m p .Akp k

(3.2)

Dada uma nova observao w descrita custa de p variveis de interesse, pode-se projectar esta
observao no subespao gerado pelas k componentes principais calculadas para D. Esta projeco
ento conseguida de acordo com (3.3).

w = (w ) .Ak

(3.3)

1 = [D] , [D] , , [D]

.1
.2
.p . Usa-se a notao [A].i e [A]i. para representar a i-sima coluna e a i-sima linha, respectivamente, da matriz A.

28

Cada componente principal, ou vector prprio, pode ser visto como a interligao entre as vrias
variveis de interesse, no entanto, a independncia entre componentes s pode ser garantida caso as
variveis de interesse o sejam. Sabendo como fazer a reduo de dimensionalidade, resta a questo:
Qual o menor valor possvel de k garantindo, em simultneo, que a perda de informao seja mnima?.
Tal como foi dito anteriormente, cada componente principal tem associada uma certa taxa da variabilidade existente nos dados originais. Caso se considere todas as componentes principais, ento
a variabilidade associada a estas a variabilidade total dos dados, no havendo qualquer compactao de informao. Os valores prprios associados matriz diagonal L correspondem variabilidade de cada uma das componentes principais que, por construo, esto ordenadas de forma
crescente/decrescente. Dois mtodos possveis para a escolha do nmero de componentes so os
seguintes: Mtodo do cotovelo, onde a escolha das k primeiras componentes principais decorre de
uma anlise do grco dos valores prprios, onde o valor prprio k encontra-se na zona de cotovelo
deste; Fixando uma taxa de variabilidade mnima pretendida , usualmente 80% (vide Jolliffe [2002]
para outros mtodos de seleco), neste caso, o nmero k de componentes principais dado por:
j

i
k = argmin
j

i=1
n

(3.4)

i
i

Neste trabalho utilizar-se- outro mtodo de seleco do nmero k, este mtodo consistir na anlise do desempenho do classicador fraco associado deteco de outliers aps a reconstruo com
base na anlise de componentes principais.

3.2

Deteco de outliers

Antes de se descrever o mtodo de deteco de outliers, tentar-se- denir o que um outlier. Existem
vrias tentativas de denir formalmente um outlier tal como dito em Jolliffe [2002], mas de uma forma
geral pode dizer-se que um outlier uma observao, num grupo de n > 1 indivduos provenientes
de uma amostra aleatria, que se diferencia invulgarmente dos restantes. Este tipo de observaes
podem ocorrer por erros na extraco de informao, erros de clculo, ou pode, como em Zehr [1994],
ser uma observao descritiva de um fenmeno/acontecimento atpico e que, nestes casos, pode ser
importante identicar.
Neste trabalho o conjunto de dados ditos normais sero imagens de uma pessoa, ou seja, um
outlier ser uma imagem que no contenha uma pessoa. A seguir descreve-se uma tcnica de identicao de outliers no cenrio de deteco de pedestres aps a aplicao de anlise de componentes
principais a um dado conjunto de treino.
Mantendo a notao da seco anterior, suponha-se que D o conjunto de treino formado por vrias observaes distintas, d, de uma determinada classe de objectos, e.g. imagens de seres humanos
em posies verticais, e que k so as componentes principais associadas a D. O classicador fraco
consistir em: remover a mdia a uma observao nova x, w; projectar/comprimir w nas k compo29

nentes escolhidas, obtendo w; analisar a distncia de w a w, ou seja, analisar a perda de informao

associada compresso; analisar a distncia de w ao centro do subespao gerado pelas projeces

dos vrios objectos em D, D; por m com uma tcnica de deteco de outliers ir fazer a classicao,
classicando como negativo os outliers detectados. Na gura 3.1 encontra-se uma ilustrao destas
duas distncias. A distncia de uma projeco w ao seu elemento originrio w, designando-se por

Distncia Ortogonal, tal como apresentado em Branco and Pires [2011]. Esta distncia surge no mbito de deteco de outliers, procurando um valor de corte nesta a partir do qual se pode armar, com
determinada conana, que um elemento no pertence ao grupo em questo. A distncia ortogonal,
OD(.), de w a w, denida em (3.5).

1/2

ODk (w) =

2
2

(w ) i

i=1
1/2

2
2

wi
2

(3.5)

i=1
2 1/2
2

2
2

2
2

=
onde .

w
w

2
2

w.Ak

2 1/2
2

denota o quadrado da norma euclidiana de um vector, que corresponde soma do quadrado

de todas as entradas do respectivo vector.


A Distncia de Mahalanobis dene a distncia, de uma determinada projeco w, ao centro do

subespao, gerado por X. Esta distncia foi tambm estudada em Branco and Pires [2011], num
contexto de identicao de outliers. Neste mtodo, em semelhana ao anterior, considera-se um

determinado objecto como outlier se: a sua distncia ao centro de X for superior a um nvel predenido,
nvel este, associado geralmente a um certo quantil de probabilidade. A distncia de Mahalanobis de
w denida por (3.6).

M Dk (w) =
i=1
k

=
i=1

(w ) i
i
wi
2
i

= w.Ak .

note-se o abuso de notao em

1
,
Lk 2

1/2

1/2

1
Lk 2

(3.6)

1/2

que corresponde matriz diagonal: diag

1
, 1 ,
2 2
1
2

1
, 2 .
k

Na gura 3.1 pode ser visualizado um grco que ilustra o que a distncia de Mahalanobis e a
distncia ortogonal no caso em que k = 2. Este grco foi criado apenas com o propsito de ilustrar
estas distncias e, como tal, os dados foram todos gerados aleatoriamente.
Como foi dito anteriormente, sero necessrios dois nveis, um por cada distncia estudada, para
30

Distncia
Mahalanobis

2
0

w
Distncia
Ortogonal

0
2
2

Figura 3.1: Nesta gura pode-se observar uma nuvem de pontos a roxo que correspondem a simulaes de objectos de um conjunto D e as respectivas projeces em duas dimenses, k = 2. A laranja
encontra-se um novo objecto w que projectado em w (vermelho) de acordo com as k = 2 compo
nentes. A distncia ortogonal de w consiste na distncia entre w e w e a distncia de Mahalanobis

corresponde distncia entre w e o centro da nuvem (a azul). (Esta imagem dever ser vista a cores.)

a deciso se dada projeco , ou no, um outlier. A estes nveis ir-se designar por limiares e para
terminar o estudo de cada um dos mtodos aplicados neste trabalho, ir-se explorar, e denir, duas
tcnicas para o clculo desses limiares para as distncias ortogonal e Mahalanobis. Estes limiares,
CODk e CM Dk , sero calculados com base em dois conceitos, cobertura e conana. O conceito
de cobertura, p1 , refere a rea de exemplos positivos que o respectivo limiar abrange, denido por
P (ODk (w) CODk |wP ositivo ) e P (M Dk (w) CM Dk |wP ositivo ). Pretende-se que a rea de cobertura seja mxima, garantindo assim que no se classica erradamente um verdadeiro positivo. O
conceito de conana, p2 , diz respeito ao nvel de conana associado a essa rea de cobertura. Este
conceito permite garantir o valor de p1 , mesmo para observaes exteriores ao conjunto original. Ou
seja, pretende-se que, dado w, se tenha (3.7) e (3.8) com nvel de conana p2OD

p+ = P [ODk (w) CODk |y(w) = 1]


1OD

1 e p2M D

1.

(3.7)

p+ D = P [M Dk (w) CM Dk |y(w) = 1 ]
1M

(3.8)

p = P [ODk (w) CODk |y(w) = 1]


1OD

(3.9)

p D = P [M Dk (w) CM Dk |y(w) = 1 ]
1M

(3.10)

Neste trabalho xar-se-o os valores de p1 e p2 para ambas as distncias e, com estes valores,
calcular CODk e CM Dk , tentando em simultneo minimizar p (para ambas as distncias).
1
Seja ento D o conjunto de treino utilizado para construir o subespao de componentes principais
da classe de interesse. Seguindo a abordagem de Branco and Pires [2011], consideram-se as dis31

tncias ortogonais, elevadas a 2/3, aproximadas por uma distribuio normal de mdia e varincia
2 . Nesse caso podem ser utilizadas estimativas robustas, e , para e . Estas estimativas so

2/3

dadas pela mediana e Qn de ODi

, onde ODi , i = 1, , m, corresponde distncia ortogonal do

i-simo elemento no conjunto de treino. A estimativa dada por Qn explorada em Rousseeuw and
Croux [1993], correspondendo a uma estimativa robusta para o valor do desvio padro de uma amostra
normal. Com estas suposies o valor CODk dado por (3.11).

CODk (p1 , p2 ) = + tn1,p2 zp1 n

3/2

(3.11)

onde tdf,p2 (x) consiste no quantil p2 de uma distribuio t-student no central com df graus de liberdade
e parmetro de no-centralidade x e zp1 o quantil p1 de uma distribuio normal com mdia 0 e desvio
padro 1.
O limiar para a distncia de Mahalanobis no de clculo directo e, mesmo assumindo a normalidade dos dados, no tm uma soluo exacta. Em Lee and Mathew [2004] apresentada um mtodo
para o clculo de uma estimativa deste limiar. No entanto esta estimativa foi obtida por estudo de
simulaes de monte carlo, simulaes estas sobre o clculo deste limiar.
O clculo de CM Dk (p1 , p2 ) ento dado por (3.12), no entanto fortemente aconselhado a leitura
de Branco and Pires [2011] e Lee and Mathew [2004].

1
n
(1 + d2 )2
e=k
d4
d4
f=
1 + d2
d2 (k + 2) +
= d2
d=

2
CM Dk (p1 , p2 ) =

d4 (k + 2)2 + (2d2 + 1)k(k + 1)


2d2 + 1

(n 1) e f
2 1 () Fe,nk,p2
k,p
(n k)(k + )

(3.12)

onde 2 1 () devolve o quantil p1 de uma distribuio 2 no central, com k graus de liberdade e


k,p
como parmetro de no-centralidade, Fe,nk,p2 denota o quantil p2 de uma distribuio F com (e, n k)
graus de liberdade.
Neste trabalho considerou-se que o nvel de conana para ambas as distncias seriam iguais, tal
como a probabilidade de cobertura serem iguais em ambas, ou seja, p2OD = p2M D e p1OD = p1M D = p1 ,
deixando a procura de melhores parmetros como trabalho futuro.
Para melhor integrar o que foi introduzido neste captulo, ir ser exposto um exemplo ilustrativo de
como todo o processo est encadeado. Desde o tratamento de imagem, extraco de informao das
componentes principais, terminando com a projeco de um elemento nestas componentes e anlise
de outliers.
32

Exemplo ilustrativo
Este exemplo ser executado no cenrio Gauss, ou seja, as imagens sero transformadas em tonsde-cinza, de seguida ir ser aplicado uma mscara gaussiana a toda a imagem. Este exemplo ser
aplicado sobre a base de dados MIT pedestrian data set2 . Esta base de dados bastante simples,
contendo imagens recortadas de pessoas em posies rectas, estas imagens tm 128 pxeis de altura
e 64 pxeis de largura. um conjunto de 924 imagens, no entanto existem 4 imagens repetidas (imagens 1, 21, 25 e 26), perfazendo um total de 920 imagens, que ser dividido num conjunto de 919 e
num conjunto singular, o primeiro conjunto ser utilizado como treino, D, e o segundo como teste, w.
Considere-se a imagem em 3.2.a), de um homem, que doravante ser o Steve, esta ser a imagem
no conjunto singular, ou seja, a imagem que se testar se contm, ou no, um ser humano.
A imagem do Steve ser transformada numa imagem em tons-de-cinza, vide 3.2.b), de seguida
ser aplicado um ltro gaussiano de dimenso 33 dando 3.2.c) como resultado. Este processo ser
replicado em cada uma das restantes imagens no conjunto de treino. Terminado a extraco de caractersticas, parte-se para a fase de classicao onde se considera o mtodo de deteco de outliers
baseado na anlise de componentes principais. Seguindo os passos na seco 3.1, onde D o conjunto treino, necessrio retirar a este conjunto a mdia do conjunto por varivel de interesse, ou seja
, que ser um vector de dimenso (64 128) e que, se transformado numa matriz pode ser visualizado
como uma imagem, sendo a gura em 3.3.a) esta mdia e em 3.3.b) a imagem do Steve subtraindo
esta mdia.
Tendo agora o conjunto X, em que a linha i corresponde ao indivduo di de D retirado da mdia ,
resta calcular as componentes principais, que ser utilizado a funo prcomp, do ambiente de programao R, no entanto estas poderiam ser calculadas mo, ou noutro ambiente, calculando os vectores
prprios de X X. Na gura 3.4 pode-se observar as 9 primeiras componentes principais associadas a
X, e em 3.5 a energia acumulada associada a cada uma destas.

(a)

(b)

(c)

Figura 3.2: A imagem em (a), o exemplo per00007 do conjunto de dados do MIT, exemplo denominado neste trabalho por Steve. A imagem em (b) corresponde anterior (a) transformada para tons de
cinza. Em (c) corresponde (b) aps a aplicao de uma mscara gaussiana de dimenso 33.
A elaborao de um estudo sobre estas componentes, revela que a primeira componente est associada correlao/variabilidade associada a cada pxel onde se encontram as pessoas nestas imagens.
A segunda componente demonstra um fenmeno interessante, que o facto de estar a dar importncia
relao entre o cho e o cu nas imagens, pois neste conjunto, tipicamente, as pessoas esto sobre
2 Esta

base de dados encontra-se disponvel em http://cbcl.mit.edu/software-datasets/PedestrianData.html.

33

(a)

(b)

Figura 3.3: A imagem em (a) corresponde media do conjunto D, proveniente dos dados do MIT. A
imagem em (b) corresponde imagem em 3.2.c) onde fora subtrado a mdia amostral em (a).
um cho escuro e um cu claro. A terceira componente reala a parte do tronco, sendo a terceira maior
fonte de variabilidade dos dados. A quarta componente d importncia zona das pernas. Pode-se observar ento, que a primeira componente, a terceira e a quarta, so componentes que descrevem com
bastante detalhe a informao associada classe descrita pelas pessoas neste conjunto. Fazendo a

reduo de dimensionalidade para k = 1 e k = 120 no conjunto X, obtm-se os conjuntos X 1 e X 120 .


Calculando as distncias ortogonais e de Mahalanobis associada a estes conjuntos, assim como os
limiares para p1 = p2 = 0.999 de cada uma das distncias, e por m, fazendo um grco da distncias
ortogonais vs. distncias de Mahalanobis, adicionando os limiares de cada uma, obtm-se o grco em
3.6.
Analisando a gura 3.6.a), pode-se concluir que dado uma nova observao, neste caso o Steve,
este ser considerado como ser humano se a distncia ortogonal e de Mahalanobis, associado sua
imagem, for inferior a

6970.46 e

3.55, respectivamente. Calcule-se agora a projeco da imagem do

Steve, w. Primeiro necessrio retirar a w a mdia amostral de D, , obtendo a gura 3.3.b), e fazendo

a projeco nas k componentes escolhidas, obtendo assim w1 e w120 . Calculando a distncia de

Mahalanobis de wk ao subespao gerado pelas k componentes principais e a sua distncia ortogonal,

ou seja a distncia de w a w, obtm-se o resultado apresentado na gura 3.6.a) e .b). Ou seja, como
se pode facilmente concluir, o Steve de facto um ser humano, de acordo com o mtodo aplicado neste
exemplo.

34

Figura 3.4: Esta imagem corresponde s primeiras 9 componentes principais calculadas sobre D,
proveniente dos dados do MIT

Figura 3.5: Esta imagem ilustra a energia acumulada associada a cada uma das componentes principais, a vermelho denota o nmero de componentes principais escolhidas de acordo com o mtodo do
cotovelo, ou seja k = 120.

35

(a)

(b)
Figura 3.6: Ambas as imagens presentes nesta gura dizem respeito ligao entre a distncia de
Mahalanobis e a distncia ortogonal no conjunto de treino e os limiares de deciso para cada uma
destas para um nvel de conana a 0.999 e probabilidade de cobertura: p1 = 0.999. A imagem em
(a) corresponde ao caso em que k = 1 e a imagem em (b) ao caso k = 120. O ponto a vermelho
corresponde ao ponto (distncia de Mahalanobis, distncia ortogonal) do Steve.

36

Captulo 4

Resultados
Neste captulo ser feita a anlise de dois mtodos diferentes de classicao, Anlise de Outliers e
Adaboost a uma base de dados. A base de dados escolhida para treinar e testar os classicadores, foi:
INRIA person dataset, introduzida em Dalal and Triggs [2005]. Primeiramente ser feita uma pequena
anlise sobre esta base de dados, justicando a razo da sua escolha, assim como as suas caractersticas gerais. Aps esta anlise, ser ento exposta a metodologia utilizada para avaliar o mtodo e o
classicador, e por m apresentam-se os resultados obtidos.

4.1

Anlise da base de dados

Esta base de dados foi inicialmente introduzida no trabalho Dalal and Triggs [2005] com o intuito de
criar um conjunto de dados que se mostrasse desaante face base de dados MIT, introduzido em
Oren et al. [1997]. As tabelas 4.1 e 4.2 ilustram as propriedades mais relevantes do conjunto INRIA.
Este conjunto de dados est dividido em dois sub-conjuntos. O primeiro, conjunto de treino, composto
por 2416 exemplos positivos e 1218 exemplos negativos. Os exemplos positivos correspondem a fotograas recortadas de pessoas, onde apenas metade destas so nicas, a outra metade a reexo
destas sobre um eixo vertical. Diz-se que as fotograas so recortadas, pelo facto do tamanho destas
corresponder ao tamanho da pessoa nelas presentes, vide gura 4.1.

Figura 4.1: Esta imagem ilustra o formato das imagens positivas existentes no conjunto de treino dos
dados INRIA. A este tipo de imagem, cuja altura e largura corresponde de uma pessoa, designado
por janela.
37

Todos os exemplos positivos tm uma dimenso de 96 pxeis de largura e 160 pixeis de altura,
onde a pessoa est ao centro desta, com uma margem de 16 pxeis em cada lado, ou seja, a caixa
correspondente a cada pessoa tem como dimenso: 64 pxeis de largura, por 128 pxeis de altura. Esta
dimenso, 64 pxeis de largura e 128 pxeis de largura, ser a utilizada doravante como a dimenso das
imagens no processo de deteco. Os exemplos negativos correspondem a fotograas em que no est
presente qualquer pessoa. O conjunto de teste, tal como o conjunto de treino, est dividido em positivos
e negativos. O conjunto de positivos contm 288 fotograas, em cada uma destas existe pelo menos
uma pessoa, existindo alguns exemplos com crianas e outros de ajuntamentos de pessoas. A maioria
destas fotograas no so realistas, num mbito de sistema de deteco de pedestres para veculos,
por exemplo: fotograas de pessoas numa encosta de uma montanha; vista elevada de crianas a
jogar futebol; etc, existindo, no entanto, alguns casos de ocluso parcial, e.g. uma pessoa em frente de
outra. Os exemplos negativos so idnticos aos do conjunto de treino, sendo fotograas de paisagens,
estradas, entre outros, em que no est presente qualquer pessoa. Associados aos exemplos positivos,
de ambos os conjuntos, esto os termos ground truth e bounding box. Um ground truth, corresponde
localizao de uma ou mais pessoas, numa determinada imagem, sendo portanto a localizao dos
positivos em cada imagem. O termo bounding box corresponde ao menor rectngulo que engloba o
positivo numa determinada imagem, ou seja, ao rectngulo do ground truth.

Treino
Teste

Positivos
Nm. Imagens Nm. Pessoas
1208
1208
288
589

Negativos
Nm. Imagens
1218
453

Tabela 4.1: Sumrio estatstico da base de dados INRIA person dataset. Deve mostrar-se que o nmero
de imagens positivas no conjunto de treino no tem em conta as repeties por simetria.

Treino
Teste

Q10%
139

Altura
Mediana
64
279

Q90%
456

Q10%
47

Largura
Mediana
128
92

Q90%
164

Tabela 4.2: Sumrio estatstico sobre a altura e largura, em pxeis, dos exemplos positivos no conjunto
de treino e Validao, da base de dados INRIA. Qp100% representa o quantil amostral de ordem
p 100%.

4.2

Metodologia

No decorrer do trabalho presente nesta tese, foram identicados dois problemas associados deteco
de padres em imagens, mais especicamente, na deteco de pessoas em imagens. Ambos os problemas surgiram durante a avaliao dos mtodos/classicadores. O primeiro diz respeito habilidade
do mtodo/classicador classicar correctamente um exemplo como positivo, ou negativo, no caso em
que os exemplos positivos correspondem a pessoas centradas e com a altura e largura coincidentes
com a altura e largura da janela de pesquisa. O segundo problema, advm do anterior e est associado
habilidade do mtodo/classicador em detectar correctamente os positivos, no caso em que estes so
38

obtidos atravs de um mtodo de procura na imagem de interesse. Ou seja, ser necessrio percorrer com janelas cada imagem, estas janelas podem no conseguir captar correctamente uma pessoa.
Caso a janela no capte correctamente a pessoa, o classicador dicilmente ir identicar essa janela
como sendo uma pessoa. Tendo em conta estes dois problemas, optou-se por os separar, analisando o
desempenho dos mtodos em cada um dos dois. Como tal, aplicou-se duas metodologias, que sero de
seguida explicitadas, metodologias estas que sero utilizadas em ambos os mtodos/classicadores.

4.2.1

Metodologia - Classicao

De modo a poder-se analisar o desempenho de um determinado mtodo, apenas na habilidade de


classicar correctamente uma janela, abstraindo assim o mtodo do problema de deteco de um
pedestre numa imagem, optou-se por dividir o conjunto de treino, referido em 4.1, em novos conjuntos
de treino, validao e teste. Esta deciso foi tomada tendo em conta os resultados apresentados na
tabela 4.2, que mostra a variabilidade da altura e largura dos pxeis nos exemplos positivos no conjunto
de treino e tambm tendo em conta o nmero, relativamente elevado, de exemplos positivos disponveis.
Portanto, denotando com

os conjuntos de treino, validao e teste para esta metodologia, a diviso

ser ento feita da seguinte forma: 60% para Treino ; 30% para Validao ; 10% para Teste . Os
exemplos negativos sofrero uma diviso idntica, no entanto sero retiradas aleatoriamente apenas
10 janelas por imagem negativa. Na tabela 4.3 encontra-se ilustrado o nmero de exemplos, agora
existentes, para esta metodologia.

Treino
Validao
Teste

Positivos
Nm. Imagens Nm. Pessoas
724
724
362
362
122
122

Negativos
Nm. Janelas
7300
3650
1230

Tabela 4.3: Dimenses dos conjuntos de treino , validao e teste para a avaliao da classicao
de uma janela.
Tendo estes novos conjuntos de treino, validao e teste a abordagem ser similar explicada
no captulo 2. As imagens sero processadas de acordo com a(s) transformao(es) pretendida(s),
mencionadas na seco 2.1, tendo sido inicialmente transformadas em tons-de-cinza. Aps terem
sido processadas realiza-se uma amostragem aleatria, sem reposio, deste conjunto de imagens em
conjunto de Treino , conjunto de Validao e de Teste , de acordo com as dimenses apresentadas
na tabela 4.3, permitindo assim introduzir uma componente de variabilidade nos resultados. Terminada a diviso em subconjuntos, utilizar-se- o conjunto de treino para treinar o mtodo/classicador
de interesse. Tendo o mtodo/classicador treinado, analisa-se o desempenho deste no conjunto de
validao , ajustando os parmetros de forma a tentar maximizar o seu desempenho. Ao obter os resultados pretendidos, validar-se- o modelo no conjunto de teste . Pretende-se, com esta abordagem,
minimizar ambiguidades provenientes de anaes de parmetros e/ou da variabilidade presente no
conjunto de treino . de notar que, sempre que se pretende treinar e avaliar um classicador novos
conjuntos de treino , validao e teste sero criados.
39

4.2.2

Metodologia - Deteco e Classicao

Ao ter sido avaliada a capacidade de um mtodo classicar correctamente um dado exemplo, seguese o passo seguinte, a avaliao do desempenho quando necessrio executar uma procura sobre
a imagem e avaliar os resultados por imagem. Neste contexto, ir ser utilizado o conjunto de treino
original enquanto que o conjunto de teste ser dividido em dois subconjuntos: conjunto de Validao ;
conjunto de Teste . Na tabela 4.4 so apresentadas as caractersticas dos conjuntos utilizados nesta
metodologia. Tal como no caso anterior, o conjunto de treino, validao e teste iro ser reamostrados sempre que forem utilizados, no entanto, uma mesma imagem s poder estar presente num dos
conjuntos. Em semelhana metodologia na subseco 4.2.1, o mtodo/classicador ser treinado no
conjunto de treino. Seguidamente ser aplicado sobre o conjunto de Validao, utilizando o desempenho neste conjunto para reajustar os parmetros provenientes da metodologia anterior, e assim tentar
atingir um desempenho superior. Por m, o mtodo/classicador ser avaliado no conjunto de Teste ,
cujos resultados sero apresentados neste captulo. No entanto, na fase de validao e teste , no
sero utilizadas imagens negativas, pois as imagens positivas so compostas por janelas positivas e
negativas, no sendo assim necessrio avaliar os mtodos em imagens que no contenham janelas
positivas.

Treino
Validao
Teste

Positivos
Nm. Imagens Nm. Pessoas
724
724
201
87
-

Negativos
Nm. Janelas
7300
-

Tabela 4.4: Descrio das dimenses dos conjuntos de treino , validao e teste para a avaliao
da deteco e classicao de janelas em imagens, sobre o conjunto de dados INRIA. O nmero de
pessoas no conjunto de Validao e Teste no pode ser explicitado pois varia consoante as imagens
selecionadas em cada um dos conjuntos na reamostragem, assim como o nmero de janelas negativas.
Esta metodologia diferencia-se da anterior pois a avaliao do classicador sobre a diviso de
uma imagem em janelas. E sobre estas janelas que o classicador avalia a existncia, ou no, de um
pedestre.
Como as dimenses e posio de um pedestre, numa dada imagem, so incertas ser necessrio
redimensionar a imagem e dividi-la em janelas. Para maximizar a probabilidade de se encontrar o
pedestre na imagem ser necessrio considerar-se um nmero razovel de redimensionamentos e que
possa haver sobreposio entre janelas. Quanto maior sobreposio entre janelas houver, maior ser
o nmero de janelas por imagem. O aumento do nmero de redimensionamentos tambm conduz ao
aumento do nmero de janelas.
Devido a limitaes de tempo associadas a este trabalho, optou-se por usar apenas quatro tipos de
redimensionamento: a imagem original; contraco para 2/3 do original; contraco para 1/2 do original; e, por m, uma contrao para 2/5 do original. Optou-se tambm por considerar uma interseco
de 30 pxeis entre janelas sucessivas, que corresponde, sensivelmente, a metade da menor dimenso
de uma janela, ou seja metade de 64 pxeis.

40

1
-1

Classicador

Class.
1
V.P.
F.N.

Real
-1
F.P.
V.N.

Tabela 4.5: Tabela de nomenclatura das classicaes. V. - Verdadeiro. P. - Positivo. F. - Falso. N. Negativo.

4.2.3

Avaliao

Nesta seco ser explicitado o input de um classicador, o clculo do groundtruth por imagem e, por
m, os tipos de deteces existentes: verdadeiro positivo; falso positivo; falso negativo; verdadeiro
negativo. Cada um dos classicadores estudados recebe uma imagem como input, divide-a em janelas
de tamanho 12864 e classica cada uma destas janelas como sendo positivo ou negativo, ou seja, em
como contm ou no um ser humano, respectivamente.
O nome groundtruth est associado verdadeira classicao dessa janela. No conjunto INRIA so
disponibilizadas anotaes para cada uma das imagens no conjunto de teste, desde que contenham
pelo menos uma pessoa. No conjunto de treino uma imagem positiva coincide com a janela da pessoa,
no sendo necessrio anotaes sobre a presena e local dessa pessoa na imagem. Estas anotaes
indicam o nmero de pessoas por imagem e a respectiva posio na imagem. Neste trabalho, estas
anotaes sero alteradas por forma a indicar, por janela e por redimensionamento da imagem original,
a classicao real desta. Considera-se uma janela w de uma dada imagem I, com n indivduos e
respectivas anotaes das posies destas GTi , i = 1, , n. Esta janela w d origem a uma nova
anotao que classicada como positivo, 1, de acordo com a relao em 4.1.

1
i{1, ,n} :

Anotao (janela) =

rea janela

GTi

rea janela

GTi

c.c.

0.5

(4.1)

Tendo estas novas anotaes, considera-se a classicao de um classicador como verdadeiro


positivo ou verdadeiro negativo, caso a classicao deste coincida com a verdadeira (groundtruth).
Considera-se falso positivo se o classicador atribuir positivo a um negativo, por m, um falso negativo
designado aos exemplos em que o classicador atribui negativo e a sua classicao real verdadeiro
(groundtruth), vide a tabela 4.5.

41

4.3

Resultados - Classicao

Nesta seco, e na seguinte, constaro os resultados dos (19) cenrios, em dois classicadores fracos
diferentes, ou seja: 1 - Normal; 2 - Gauss; 3 - Hist; 4 - Sobel1D; 5 - Sobel2D; 6 - Sobel1D_HOG; 7 Sobel2D_HOG; 8 - Gauss_Sobel1D; 9 - Gauss_Sobel2D; 10 - Gauss_Sobel1D_HOG; 11 - Gauss_Sob
el2D_HOG; 12 - Hist_Sobel1D; 13 - Hist_Sobel2D; 14 - Hist_Sobel1D_HOG; 15 - Hist_Sobel2D_HOG;
16 - Gauss_Hist_Sobel1D; 17 - Gauss_Hist_Sobel2D; 18 - Gauss_Hist_Sobel1D_HOG; 19 - Gauss_His
t_Sobel2D_HOG. Estes cenrios dizem respeito a dois tipos de descritores, um baseado na intensidade
dos pxeis da imagem e o outro baseado no descritor HOG, entre cada grupo de descritor so considerados vrios processamentos diferentes levando, assim, ao total de dezanove cenrios diferentes.
Estes cenrios sero avaliados sobre dois classicadores diferentes, Adaboost e deteco de outliers
aps anlise de componentes principais. O primeiro classicador, baseado no Adaboost e descrito no
captulo 2, ser constitudo por dois classicadores fracos baseados em cortes ortogonais, no valor dos
descritores. A escolha de se usar dois classicadores fracos, baseados em cortes ortogonais, foi feita
por forma a tentar-se equilibrar os resultados entre o mtodo Adaboost e o mtodo de deteco de
outliers, em que neste ltimo so utilizados dois limiares para a classicao. O segundo classicador,
tal como dito no captulo 3, ser baseado na deteco de outliers aps uma anlise de componentes
principais, cujos parmetros sero optimizados nesta seco. Tal como referido anteriormente, os resultados aqui apresentados ilustram o desempenho dos classicadores sobre a habilidade de classicar
correctamente novas janelas.
Analisar-se- agora o desempenho do mtodo proposto por este trabalho consoante a variao
dos seus parmetros. Primeiro analisa-se a variao deste mtodo face ao nmero de componentes
principais utilizadas, k, guras 4.2, com p1 e p2 xos e iguais a 0.999.
Tendo em conta a informao apresentada na gura 4.2.a) verica-se que quanto maior o nmero
de componentes principais consideradas, menor ser o nmero de falsos positivos por janela, havendo
um aumento para valores de k pequenos, para ambos os grupos de descritores. Neste grco podese observar a melhoria de desempenho, nos descritores baseados em HOG, quando acrescentado
algum tipo de processamento, onde o caso em que se considera uma mscara gaussiana seguida de
uma equalizao de histogramas e, por m, o clculo do descritor HOG com o auxilio do mtodo Sobel
a duas dimenses, o cenrio que atinge o melhor desempenho. Para terminar, segundo este grco
deveria-se considerar 100 componentes principais para os descritores HOG, para os restantes descritores depende de caso para caso, onde o mnimo atingido para k = 16 no cenrio de equalizao
de histogramas. No grco da gura 4.2.b) observa-se que quanto maior o nmero de componentes
principais menor ser o desempenho do mtodo. Este fenmeno, contra-intuitivo, pode ser atribudo ao
overtting do mtodo ao conjunto de treino, ou seja, o mtodo especializado nas imagens de treino
perdendo a capacidade de generalizao para uma nova imagem. Ou pelo facto de a um nmero elevado de componentes principais estar associada uma maior variao das imagens, podendo estar a
ser introduzido rudo que no identica apenas a classe dos pedestres. Neste grco pode-se ainda
observar que os descritores baseados em HOG so os que pioram mais rpido face ao nmero de
42

componentes utilizadas. Tendo em conta esta anlise segue-se a escolha do melhor valor de k, no entanto esta escolha dever depender de problema para problema. Neste trabalho pretende-se construir
um mtodo que sirva como um processo de ltragem para os primeiros nveis de um meta-classicador
organizado em cascata, ou seja, pretende-se um classicador com mxima sensibilidade e com o menor valor de FPPJ possvel para essa sensibilidade. Para este caso deveria-se considerar k = 1 e os
descritores baseados em HOG, onde o cenrio 19, Gauss_Hist_Sobel2D_HOG, atinge sensibilidade
mxima, 1, e FPPJ na ordem de 0.8. A escolha de k = 1 permite tambm que o processo de ltragem
seja executado mais rapidamente, pois so precisos menos clculos para a classicao. Num problema de classicao pura, onde se pretende construir um classicador com valores de sensibilidade
elevados e um rcio de FPPJ baixo, o k escolhido ser diferente de k = 1. Neste problema necessrio xar um valor de sensibilidade mnimo, por exemplo 0.95, e encontrar o valor de k que minimize
o desempenho face ao nmero de falsos positivos. Fixando o valor de sensibilidade mnimo em 0.95,
o valor de k que minimiza o rcio de FPPJ k = 85, cujo cenrio que atinge desempenho mximo ,
novamente, o cenrio 19. Para os resultados seguintes xar-se- o valor de k para cada um dos dois
problemas, ou seja, k = 1 e k = 85.
Resta agora analisar o desempenho do mtodo de deteco de outliers face variao dos valores
de p1 e p2 , regio de abrangncia e conana dessa regio, respectivamente. Antes dessa anlise
representa-se na gura 4.3, a distncia ortogonal versus a distncia de Mahalanobis no conjunto de
treino para k = 1 e k = 85 no dcimo nono cenrio, por forma a analisar o tipo de disposio dos
dados de validao , ou seja, positivos e negativos. A gura 4.3 ilustra a necessidade do estudo de
desempenho dos limiares no problema de deteco de pedestres.
Ser agora feita a anlise do desempenho do mtodo proposto neste trabalho face a variaes nos
valores de p1 e p2 , para os dezanove cenrios e para os casos em que se consideram k = 1 e k = 85
componentes principais.
Nos grcos presentes na gura 4.4, pode-se concluir que k = 1 o nmero de componentes
principais a escolher, devido ao desempenho superior conseguido face ao desempenho atingido por
85 componentes principais. importante referir o fraco desempenho obtido em alguns cenrios, cujos descritores so baseados na intensidade dos pxeis e para k = 85, este desempenho inferior a
um classicador aleatrio. No entanto conjectura-se que este fraco desempenho esteja directamente
relacionado com o facto de se alterar os valores de p1 e p2 para ambas as distncias de forma igual.
Outro motivo, para tal desempenho, est relacionado com o elevado nmero de componentes principais, componentes estas que captam a variabilidade existente no conjunto de treino que, como este
conjunto tem uma elevada variabilidade em relao ao cenrio onde o pedestre se encontra, acaba
por reconstruir melhor uma imagem negativa, do que uma positiva. Para compreender melhor este
fenmeno observe-se os grcos da gura 4.5.
Tendo em conta os duas vertentes na construo de um classicador, construo de um classicador para fazer parte de um meta-classicador ou a construo de um classicador por si s, pode-se
armar que o melhor mtodo para ambas as vertentes atingido quando k = 1. Para a primeira vertente, onde se pretende ter sensibilidade mxima e com essa restrio minimizar o rcio de falsos posi43

tivos, FPPJ, consegue-se atingir uma sensibilidade de 0.98 com um rcio de falsos positivos mnimo de
0.59, correspondendo aos valores de p1 = 0.99 e p2 = 0.5, valores referentes ao melhor cenrio. Para
a segunda vertente, onde se pretende minimizar o valor de FPPJ mantendo a sensibilidade superior a
um dado mnimo, neste caso 0.95, dada esta restrio e o grco a) da gura 4.4 pode-se observar
que consegue-se uma sensibilidade de 0.95 e um rcio de FPPJ mnimo de 0.5, correspondendo aos
valores p1 = 0.97 e p2 = 0.5, valores referentes ao melhor cenrio. Em ambas as vertentes o melhor cenrio corresponde, novamente, ao cenrio 19 que consiste na aplicao de um ltro gaussiano seguido
de uma equalizao de histogramas e, por m, o clculo do descritor HOG com o auxilio do mtodo
Sobel a duas dimenses.
Tendo sido escolhido o melhor cenrio e os valores para k, p1 e p2 para ambas as vertentes associadas construo de um classicador, resta ento comparar os resultados deste mtodo face ao
Adaboost, guras 4.6 e 4.7, no conjunto de teste, onde foi feito um estudo de variabilidade ao reamostrar
o conjunto de treino e de teste um total de vinte vezes.
Este estudo da habilidade de classicao pura, do mtodo de deteco de outliers e Adaboost
face aos diferentes cenrios, permite concluir que o mtodo proposto atinge nveis de desempenho
similares ao mtodo Adaboost. No entanto era esperado que os resultados fossem superiores, tal no
ter sucedido pode dever-se ao facto de os limiares no serem os mais adequados para o problema de
deteco de pedestres, tal como se pode observar nas guras 4.3 e 4.8.

44

0.8
0.7

Normal
Sobel1D
Sobel2D
Histogram
GaussMask
Hist_sobel1D
Hist_sobel2D
Gauss_sobel1D
Gauss_sobel2D
Gauss_Hist_sobel1D

0.5

0.6

Rcio FPPJ

0.9

1.0

Rcio FPPJ vs. Nm. Componentes


Todos os cenrios

20

Gauss_Hist_sobel2D
Sobel1D_hog
Sobel2D_hog
Hist_sobel1D_hog
Hist_sobel2D_hog
Gauss_sobel1D_hog
Gauss_sobel2D_hog
Gauss_Hist_sobel1D_hog
Gauss_Hist_sobel2D_hog

40

60

80

100

Nmero de Componentes

(a)

0.90

Sensibilidade

0.95

1.00

Sensibilidade vs. Nm. Componentes


Todos os cenrios

0.85

Normal
Sobel1D
Sobel2D
Histogram
GaussMask
Hist_sobel1D
Hist_sobel2D
Gauss_sobel1D
Gauss_sobel2D
Gauss_Hist_sobel1D

20

Gauss_Hist_sobel2D
Sobel1D_hog
Sobel2D_hog
Hist_sobel1D_hog
Hist_sobel2D_hog
Gauss_sobel1D_hog
Gauss_sobel2D_hog
Gauss_Hist_sobel1D_hog
Gauss_Hist_sobel2D_hog

40

60

80

100

Nmero de Componentes

(b)
Figura 4.2: No grco a) pode-se ver o desempenho, medida pelo rcio de falsos positivos por janela,
FPPJ, em relao a cada um dos cenrios. Quanto menor o valor de FPPJ melhor ser o desempenho
do classicador. Em b) pode-se observar a variao do desempenho, medido pela sensibilidade, face
ao nmero de componentes principais consideradas, em relao a cada um dos cenrios. Neste grco
quanto maior o valor de sensibilidade melhor ser o desempenho. Os resultados so apenas sobre o
mtodo proposto neste trabalho e para valores de p1 e p2 ambos iguais a 0.999.

45

(a) - (k = 1)

(b) - (k = 85)
Figura 4.3: Esta imagem ilustra a disperso do conjunto de validao face s distncias de Mahalanobis e ortogonal, note-se a elevada disperso e os limiares para ambas as distncias, representados
pelas rectas horizontais e verticais, calculados com p1 = 0.999 e p2 = 0.999, que no grco b) superior
ao valor 11 e no representado. O grco a) corresponde disperso das distncias para k = 1, o
cenrio b) a k = 85.

46

0.6
0.4

Normal
Sobel1D
Sobel2D
Histogram
GaussMask
Hist_sobel1D
Hist_sobel2D
Gauss_sobel1D
Gauss_sobel2D
Gauss_Hist_sobel1D

0.0

0.2

Sensibilidade

0.8

1.0

Curva ROC face variao de p1 e p2


Todos os cenrios, k = 1

0.0

0.2

0.4

0.6

Gauss_Hist_sobel2D
Sobel1D_hog
Sobel2D_hog
Hist_sobel1D_hog
Hist_sobel2D_hog
Gauss_sobel1D_hog
Gauss_sobel2D_hog
Gauss_Hist_sobel1D_hog
Gauss_Hist_sobel2D_hog

0.8

1.0

FPPJ

(a) - (k = 1)

0.6
0.4

Normal
Sobel1D
Sobel2D
Histogram
GaussMask
Hist_sobel1D
Hist_sobel2D
Gauss_sobel1D
Gauss_sobel2D
Gauss_Hist_sobel1D

0.0

0.2

Sensibilidade

0.8

1.0

Curva ROC face variao de p1 e p2


Todos os cenrios, k = 85

0.0

0.2

0.4

0.6

Gauss_Hist_sobel2D
Sobel1D_hog
Sobel2D_hog
Hist_sobel1D_hog
Hist_sobel2D_hog
Gauss_sobel1D_hog
Gauss_sobel2D_hog
Gauss_Hist_sobel1D_hog
Gauss_Hist_sobel2D_hog

0.8

1.0

FPPJ

(b) - (k = 85)
Figura 4.4: Nesta gura ilustrado dois grcos da sensibilidade versus o rcio de falsos positivos por
janela, FPPJ, do mtodo proposto neste trabalho face variao nos valores de p1 e p2 , para os casos
em que se consideram k = 1 e k = 85 componentes principais, respectivamente a) e b). de salientar
o fraco desempenho de alguns cenrios cujo descritor baseado na intensidade dos pxeis.

47

(a) - (k = 1)

(b) - (k = 85)
Figura 4.5: Esta imagem ilustra a disperso do conjunto de validao face s distncias de Mahalanobis e ortogonal. Note-se, na gura b) em que k = 85, a disperso dos exemplos negativos face aos
positivos, em que os exemplos negativos tm um erro de reconstruo menor em relao a estes, fenmeno associado ao elevado nmero de componentes principais e variabilidade existente no conjunto
de treino. Este fenmeno j no acontece na gura a), k = 1. Cenrio cujo descritor baseado apenas
na intensidade dos pxeis.

48

1.0

Deteco de outliers versus Adaboost


Sensibilidade

q
q
q

0.6
0.0

0.2

0.4

Sensibilidade

0.8

Det. Outliers
Det. Outliers
Adaboost
p1 = 0.99
p2 = 0.5

p1 = 0.97
p2 = 0.5

Adaboost

Mtodo

Figura 4.6: Este grco ilustra a sensibilidade do mtodo proposto, nos dois valores de p1 e p2 escolhidos, versus a do mtodo Adaboost, no cenrio 19.

0.8

1.0

Deteco de outliers versus Adaboost


FPPJ

0.6

FPPJ

0.0

0.2

0.4

Det. Outliers
Det. Outliers
Adaboost
p1 = 0.99
p2 = 0.5

p1 = 0.97
p2 = 0.5

Adaboost

Mtodo

Figura 4.7: Este grco ilustra o rcio de FPPJ atingidos pelo mtodo proposto, nos dois valores de p1
e p2 escolhidos, versus o do mtodo Adaboost, no cenrio 19.

49

Figura 4.8: Esta imagem ilustra a disperso do conjunto de teste face s distncias de Mahalanobis e
ortogonal, note-se a elevada disperso dos dados e a impreciso dos limiares para ambas as distncias,
representados pelas rectas horizontais e verticais, calculados com p1 = 0.99 e p2 = 0.5. Um ajuste nos
valores de p1 e p2 independente para cada distncia poderia levar a maior um desempenho.

50

4.4

Resultados - Classicao e Deteco

Em semelhana seco anterior, apresenta-se de seguida alguns dos resultados obtidos durante
a fase de validao (conjunto de validao ). Nesta seco no ser explorado o desempenho do
mtodo de deteco de outliers face ao nmero de componentes utilizados na anlise de componentes
principais, ser utilizada apenas uma componente principal, k = 1, por ser este o valor de k com melhor
desempenho na seco anterior. No entanto ser feita uma anlise do desempenho face aos valores de
p1 e p2 utilizados para o clculo dos limiares nas distncias de Mahalanobis e ortogonal. Esta anlise,
sobre o conjunto de validao , pode ser vista na gura 4.9 que apresenta duas curvas ROC a primeira,
a), baseada no rcio de falsos positivos por janela e a segunda, b), baseada em falsos positivos por
imagem. de notar que a sensibilidade nesta seco exprime o nmero de pessoas reconhecidas
pelo menos uma vez em cada imagem, no tendo em conta se classicou correctamente mais de uma
instncia da mesma pessoa. Na gura 4.9 pode-se observar que o descritor associado ao melhor
desempenho corresponde ao descritor baseado na intensidade dos pxeis na imagem ao contrrio dos
resultados obtidos na seco anterior. interessante notar que o melhor cenrio, do descritor baseado
na intensidade dos pxeis, corresponde ao anlogo do melhor cenrio obtido na seco anterior. Com
esta gura em mente e tendo em conta os dois tipos de problemas na construo de um classicador,
abordados na seco anterior, os valores de p1 e p2 que melhor respondem a cada um dos problemas
so idnticos e correspondem a uma sensibilidade de 0.95 e um rcio de falsos positivos de 0.7, ou
390 FPPI, atingida pelo cenrio 11 Gauss_Hist_Sobel1D onde p1 = 0.999 e p2 = 0.999. Para terminar,
de notar a fraca generalizao associada ao melhor mtodo da seco anterior, para tentar responder
a este fenmeno ir-se analisar este cenrio, juntamente com o melhor cenrio discutido antes, para
os mesmos valores de p1 e p2 .
Antes de partir para a comparao entre estes dois mtodos e o mtodo Adaboost, analisa-se a
disperso das distncias de Mahalanobis e ortogonal para os dois cenrios considerados pela a anlise
da gura 4.9, disperso apresentada nas guras 4.10 e 4.11.
Tendo em conta as concluses anteriores xar-se os valores de p1 = 0.999, p2 = 0.999 e k = 1,
valores estes que sero utilizados na avaliao do desempenho do mtodo de deteco de outliers
proposto por este trabalho face ao mtodo Adaboost sobre o conjunto de teste nos dois cenrios: 11
- Gauss_Hist_Sobel2D; 19 - Gauss_Hist_Sobel2D_HOG. Nas guras 4.12 e 4.13 comparam-se os
desempenhos do mtodo de deteco de outliers e do mtodo Adaboost, desempenho medido pela
sensibilidade, FPPJ e FPPI de cada um, onde foi feito um estudo de variabilidade ao reamostrar o
conjunto de treino e de teste um total de vinte vezes. Tal como na seco anterior os resultados obtidos
permitem concluir que ambos os mtodos so similares, algo que seria esperado face aos resultados
obtidos no estudo de classicao, no entanto e como no se aprofundou o desempenho do mtodo
Adaboost, devido ao elevado tempo de treino associado, no se consegue comparar directamente para
o caso do descritor HOG. Novamente coloca-se a questo sobre a escolha adequada dos limiares a
usar neste tipo de problema, pois nas guras 4.14 e 4.15 estes limiares dividem o espao de uma forma
grosseira.
51

Pelos resultados obtidos verica-se que o mtodo proposto neste trabalho tem um desempenho
similar face ao mtodo Adaboost. Pode-se tambm conjecturar que o mtodo de deteco de pedestres
proposto neste trabalho atinge um desempenho superior aliado ao descritor baseado em HOG. No
entanto, o mtodo proposto apenas utiliza informao sobre os exemplos positivos para a classicao
ao contrrio do mtodo Adaboost que utiliza informao dos negativos e positivos. O mtodo Adaboost
utiliza 8748 exemplos (positivos e negativos) enquanto o mtodo de deteco de outliers utiliza apenas
1448 exemplos positivos e obtm um desempenho semelhante. O factor que diferencia um mtodo do
outro o tempo associado ao treino, como tal, ser feito na seco seguinte um estudo sobre o tempo
necessrio para o treino de ambos os classicadores, face ao nmero de exemplos de treino.

52

0.6
0.4

Normal
Sobel1D
Sobel2D
Histogram
GaussMask
Hist_sobel1D
Hist_sobel2D
Gauss_sobel1D
Gauss_sobel2D
Gauss_Hist_sobel1D

0.0

0.2

Sensibilidade

0.8

1.0

Curva ROC face variao de p1 e p2


Todos os cenrios

0.0

0.2

0.4

Gauss_Hist_sobel2D
Sobel1D_hog
Sobel2D_hog
Hist_sobel1D_hog
Hist_sobel2D_hog
Gauss_sobel1D_hog
Gauss_sobel2D_hog
Gauss_Hist_sobel1D_hog
Gauss_Hist_sobel2D_hog

0.6

0.8

1.0

FPPJ

0.6
0.4

Normal
Sobel1D
Sobel2D
Histogram
GaussMask
Hist_sobel1D
Hist_sobel2D
Gauss_sobel1D
Gauss_sobel2D
Gauss_Hist_sobel1D

0.0

0.2

Sensibilidade

0.8

1.0

Curva ROC face variao de p1 e p2


Todos os cenrios

20

50

100

Gauss_Hist_sobel2D
Sobel1D_hog
Sobel2D_hog
Hist_sobel1D_hog
Hist_sobel2D_hog
Gauss_sobel1D_hog
Gauss_sobel2D_hog
Gauss_Hist_sobel1D_hog
Gauss_Hist_sobel2D_hog

200

500

FPPI

Figura 4.9: No grco a) ilustrado o grco da sensibilidade versus o rcio de falsos positivos por
janela, FPPJ, enquanto que no grco b) ilustrado a curva de sensibilidade versus falsos positivos
por imagem. Ambos os grcos correspondem ao mtodo proposto neste trabalho face variao nos
valores de p1 e p2 , para o caso em que se considera k = 1 componentes principais no conjunto de
validao . A sensibilidade neste grco exprime o nmero de pessoas classicadas correctamente
pelo menos uma vez, no tendo em conta repeties.

53

Figura 4.10: Este grco ilustra a disperso do conjunto de validao , no cenrio Gauss_Hi
st_Sobel2D, face s distncias de Mahalanobis e ortogonal, note-se a elevada disperso dos dados
e a impreciso dos limiares para ambas as distncias, representados pelas rectas horizontais e verticais, calculados com p1 = 0.999, p2 = 0.999 e k = 1.

54

Figura 4.11: Este grco ilustra a disperso do conjunto de validao , no cenrio Gauss_His
t_Sobel2D_HOG, face s distncias de Mahalanobis e ortogonal, note-se a elevada disperso dos
dados e a impreciso dos limiares para ambas as distncias, representados pelas rectas horizontais e
verticais, calculados com p1 = 0.999, p2 = 0.999 e k = 1.

55

1.0

Deteco de outliers versus Adaboost


Sensibilidade
q
q

0.6
0.4
0.2

Sensibilidade

0.8

0.0

Det. Outliers
Adaboost
HOG

Pxel
Descritor

(a)

1.0

Deteco de outliers versus Adaboost


FPPJ
q

0.2

0.4

FPPJ

0.6

0.8

0.0

Det. Outliers
Adaboost
HOG

Pxel
Descritor

(b)
Figura 4.12: Esta gura ilustra a sensibilidade, grco a), e rcio de FPPI, grco b), do mtodo proposto versus o mtodo Adaboost, em cada um dos dois cenrios.

56

500

Deteco de outliers versus Adaboost


FPPI
q
q
q

20
2

10

FPPI

50

100

200

Det. Outliers
Adaboost
HOG

Pxel
Descritor

Figura 4.13: Este grco ilustra o valor de FPPI atingidos pelo mtodo proposto versus os do mtodo
Adaboost, em cada um dos dois cenrios.

Figura 4.14: Este grco ilustra a disperso do conjunto de validao , no cenrio Gauss_His
t_Sobel2D, face s distncias de Mahalanobis e ortogonal, note-se a elevada disperso dos dados e a
impreciso dos limiares para ambas as distncias, representados pelas rectas horizontais e verticais,
calculados com p1 = 0.999, p2 = 0.999 e k = 1.

57

Figura 4.15: Este grco ilustra a disperso do conjunto de validao , no cenrio Gauss_His
t_Sobel2D_HOG, face s distncias de Mahalanobis e ortogonal, note-se a elevada disperso dos
dados e a impreciso dos limiares para ambas as distncias, representados pelas rectas horizontais e
verticais, calculados com p1 = 0.999, p2 = 0.999 e k = 1.

58

4.5

Resultados - Tempo de processamento

Nesta seco ir ser analisado o tempo de processamento necessrio para cada um dos mtodos,
cronometrando o tempo de execuo utilizando a funo proc.time() do R. Analisar-se- o tempo
necessrio para a fase de treino e o tempo necessrio para a classicao de uma janela de uma imagem. Na gura 4.16 pode-se constatar que o tempo necessrio para treinar um classicador baseado
em componentes principais face ao tempo necessrio para treino o Adaboost muito inferior, mesmo
quando o nmero total de exemplos considerados em cada um dos mtodos similar.

Deteco de outliers versus Adaboost

60
40
0

20

Tempo de treino em minutos

80

Det. Outliers
Adaboost

Pos.=244
Neg.=1230

Pos.=724
Neg.3650

Pos.=1448
Neg.=7300

Pos.=4448
Neg.=

Dimenso do conjunto de treino

Figura 4.16: Neste grco pode-se observar o tempo de treino necessrio para cada mtodo em minutos de acordo com a dimenso do conjunto de treino. H que salientar que no se tem em conta
o tempo de extrao dos descritores das imagens, ou seja, est-se a contabilizar apenas o tempo de
treino aps a fase de pre-processamento ter sido concluda. Pode-se observar que o tempo de treino
do mtodo de deteco de outliers consideravelmente menor face ao tempo de treino do mtodo
Adaboost, mesmo tendo em conta um nmero total de exemplos similar. Tempos calculados face a
conjuntos formados por imagens com o descritor HOG que tem uma dimenso superior ao descritor
simples baseado na intensidade dos pxeis.
Por m, foi feita uma anlise do tempo de classicao em ambos os mtodos, excluindo o tempo
de pre-processamento que, por razes de optimizao em R atingem valores elevados. Esta anlise
consistiu na aplicao de cada um dos trs classicadores, Adaboost, deteco de outliers baseado
em HOG e baseado na intensidade de pxeis, a um conjunto de 700 janelas medindo o tempo necessrio para a sua classicao, para evitar inuencias de outros softwares efectuou-se este processo
10000 vezes. Os tempos mdios, em segundos, obtidos para a classicao de uma nica janela so
apresentados na tabela 4.6.
59

Mtodo
det. Outliers
Adaboost

Descritores
HOG
Pxel
2.87 104 1.92 104
1.61 107 1.49 107

Tabela 4.6: Nesta tabela pode-se observar os tempos mdios, em segundos, de classicao de uma
nica janela de uma imagem, onde o mtodo Adaboost consideravelmente mais rpido, no entanto
ambos os mtodos so bastante rpidos.
Como se pode constatar, neste caso, o classicador baseado na deteco de outliers atinge tempos
de classicao similares ao do Adaboost, no entanto e como se pode observar pela literatura estudada,
o mtodo Adaboost consideravelmente mais rpido. Em Schwartz et al. [2009] estudado um mtodo
similar ao proposto por este trabalho, onde os autores conseguem atingir velocidades comparveis aos
valores do Adaboost na literatura estudada, pode-se ento conjecturar que os tempos obtidos aqui
podem ser ainda mais optimizados. de salientar que os tempos obtidos esto relacionados com o
ambiente de programao utilizado, R, e esperado que ao implementar o mtodo numa linguagem de
baixo nvel, como C, possa levar a tempos ainda mais baixos.

60

4.6

Mtodo Escolhido

Pelos resultados obtidos verica-se que o melhor cenrio, para a aplicao do mtodo de deteco de
outliers baseado na anlise de componentes principais o uso de descritores provenientes do mtodo
de histogramas de orientao dos gradientes baseado no algoritmo de extraco de arestas Sobel a
duas dimenses, aps uma a aplicao de uma mscara gaussiana seguida de uma equalizao de
histogramas da imagem em tons-de-cinza. Foi ainda com k = 1 componente principal, p1 = 0.999 e
p2 = 0.999 que se obteve o melhor desempenho Este mtodo ser descrito, em pseudo-cdigo, na
seguinte seco.

4.6.1

Algoritmo

Nesta seco apresenta-se o pseudo-cdigo associado ao mtodo de deteco de pedestres em imagens. Este pseudo-cdigo ser dividido em duas fases: treino e classicao.

Treino
Seja dir o directrio onde se encontram r imagens, de dimenses mn, do conjunto de treino, denindo
tambm alguns valores: k o nmero de componentes principais a utilizar; seja p1 e p2 os valores
utilizados para o clculo dos limiares para a distncia de Mahalanobis e ortogonal, respectivamente; n2
c
o nmero de pxeis em cada clula; c2 o nmero de clulas em cada bloco; sth = stv = st o nmero de
clulas de interseco de um bloco para o seguinte.
\*Fase de Pre-Processamento*\
Para i de 1 a nmero de fotos em dir:
Ler foto i;
Transformar foto i em tons-de-cinza;
Aplicar uma mscara gaussiana imagem;
Efectuar uma equalizao de histogramas sobre a foto i;
sh <- Convoluo da mscara sobel2D horizontal com a foto i (matriz de dimenso mn);
sv <- Convoluo da mscara sobel2D vertical com a foto i (matriz de dimenso mn);
grad <-

s2 + s2 (matriz de dimenso mn);


v
h

orient <- Clculo da orientao, no espao [90, 90] graus, utilizando a funo atan; (matriz
de dimenso mn)
orient <- Organizao das orientaes por blocos igualmente espaados, em que cada bloco
corresponde a 20 graus (matriz de dimenso mn);
\*Extraco do descritor HOG*\
m <- nmero de clulas que cabem em m pxeis, dado por: f loor

61

mnc
nc

+ 1;

n <- nmero de clulas que cabem em n pxeis, dado por: f loor

nnc
nc

mb <- nmero de blocos que cabem em m pxeis, dado por: f loor


nb <- nmero de blocos que cabem em n pxeis, dado por: f loor

+ 1;

mc
(cst)nc
mc
(cst)nc

+ 1;
+ 1;

Diviso de grad e orient em blocos: gradj e orientj , com j entre 1 e mb nb ;


Para cada j;
gradj < Ponderao de cada entrada de gradj com uma mscara gaussiana com a
mesma dimenso que um bloco, 3 3 de onde calculado o valor de , centrada em
gradj ;
Diviso de gradj e orientj em clulas;
Clculo do histograma histj utilizando a informao em orientj , onde cada orientao
contribui para o histograma com o valor do seu gradiente em gradj ;
Concatenao do histj com os anteriores;
Normalizao do vector nal dos histj ;
Devolver resultado HOGi ;
Criar matriz, Dados, auxiliar de dimenses (mb c 9) (nb c 9) r;
Dados[, i] < HOGi , para todo o i;
Dados <- Transposta(Dados);
\*Clculo de Componentes Principais*\
Seja i = media(Dados[i, ]), considere-se agora o vector = (1 , , (mb c9) (nb c9) );
Dadosc [i, ] = Dados[i, ] ;
calcular valores prprios L e vectores prprios A, de Dadosc Dadosc ;
escolher k componentes principais;
reter as k primeiras componentes principais: A[, 1 : k];
calcular o limiar para a distncia de Mahalanobis, utilizando Dadosc e A[, 1 : k]: CM Dk ;
calcular o limiar para a distncia ortogonal, utilizando Dadosc e A[, 1 : k]: CODk ;
Classicao
Dada uma imagem img nova, seja a funo preprocessamento, a funo que refaz os passos descritos
na fase de pre-processamento descrita anteriormente, escolha-se sc escalas diferentes, que sero
utilizadas para ampliar/reduzir a imagem
Para i de 1 at sc:
Redimensionar a imagem img de acordo com i;
62

Dividir img em janelas de mn, imgj ;


Para cada imgj :
imgjp = pre processamento(img);

Projectar imgjp nas k componentes: imgj = imgjp .A[, 1 : k];

Calcular a distncia de Mahalanobis: M dk (imgj , imgjp , Dadosc );

Calcular a distncia de ortogonal: Odk (img, imgjp , Dadosc );

Classicar imgj como Positivo se M dk (img, img) < CM Dk e Odk (img, img) < CODk e
como Negativo caso contrrio;
Caso se saiba as anotaes verdadeiras da imagem img, comparar o resultado obtido em cada
uma das janelas, com a respectiva verdadeira anotao, tendo em conta os vrios escalamentos
de img.

63

64

Captulo 5

Concluses
Este trabalho permitiu abordar e compreender o problema associado deteco de padres em fotograas digitais. Existem vrias tentativas para responder a este problema, umas melhores que outras,
mas todas com pontos positivos e nicos. O mtodo proposto neste trabalho utiliza um descritor forte
aliado a um mtodo de deteco de outliers baseado em anlise de componentes principais. A anlise
de componentes principais permite projectar um novo indivduo nas respectivas componentes e, com
mtodos de deteco de outliers, identicar se este pertence, ou no, ao padro de interesse.
Pelos resultados obtidos, vericou-se que este mtodo no consegue um bom desempenho se
aliado a um descritor fraco, por exemplo quando se usava a magnitude de cada pxel. Este descritor
denomina-se fraco pois apenas descreve a imagem localmente, no a descrevendo de uma forma
global, como o caso do descritor HOG.
O mtodo Adaboost utilizado neste trabalho consiste em dois classicadores fracos que dividem o
espao do descritor ortogonalmente, em busca de pontos ptimos de corte, em que o corte ir servir
de fronteira entre exemplos positivos e negativos. Infelizmente este mtodo no foi optimizado devido
ao tempo de treino necessrio para o fazer, e face ao tempo disponvel para a elaborao desta tese.
no tempo de treino que o mtodo proposto por este trabalho atinge excelente desempenho, onde
possvel treinar este classicador em tempo til e quase em tempo real, como se pode observar por
4.16. tambm no mesmo tema de tempo que reside o ponto fraco do mtodo proposto, em que a
classicao de uma nova imagem mais lenta que o tempo de classicao de uma imagem pelo
mtodo Adaboost, apesar de ser numa gama de valores baixa a aplicao deste mtodo a um nmero
sucientemente grande de imagens a diferena poder ser signicativa. Ambos os tempos obtidos
neste trabalho devero ser vistos apenas como ilustrativos, pois noutras linguagens de programao
este dever ser consideravelmente inferior. Os resultados do mtodo proposto por Schwartz et al.
[2009] mostram tempos de processamento semelhantes com os do Adaboost. Esta observao feita,
pois o mtodo desse autores consiste num clculo matricial similar ao executado pelas componentes
principais, o que leva a conjecturar que possvel melhorar, substancialmente, este ponto fraco.
Os resultados obtidos neste trabalho no podem ser directamente comparveis aos vrios trabalhos
estudados, pois este reside sobre o estudo do desempenho dos classicadores fracos e na proposta de
65

uma nova alternativa. Seria necessrio implementar o classicador proposto numa estrutura de metaclassicador e observar ento o desempenho nal, assim como o tempo necessrio para o treino deste
meta-classicador e o tempo de classicao de uma nova imagem.

5.1

Conquistas

Este trabalho prope uma nova abordagem aos classicadores fracos utilizados at ento. Em que o
mtodo proposto destaca-se dos restantes pelo tempo necessrio para a fase de treino, que consideravelmente inferior ao tempo necessrio para o mtodo Adaboost, e por apenas recorrer informao
associada a exemplos positivos, atingindo nveis de desempenho similares ao mtodo Adaboost que
recorrer informao dos exemplos positivos e negativos. Este mtodo prima pela sua simplicidade
de implementao, onde todas as ferramentas necessrias sua implementao esto disponveis nas
linguagens de programao mais comuns.

5.2

Trabalho Futuro

Os resultados obtidos neste trabalho abriram muitas portas para trabalhos futuros, tentar-se- dar alguns exemplos do que se poder vir a explorar futuramente. No incio deste estudo, a primeira questo
que surgiu foi sobre as dimenses utilizadas para o treino do classicador, em Dollr et al. [In Press]
demonstrado o fraca desempenho dos classicadores actuais em pessoas com dimenses mdias,
entre 30 a 80 pxeis de altura. Portanto, seria interessante avaliar o desempenho deste classicador
fraco nestas condies, como por exemplo no conjunto criado no respectivo artigo. Este ponto ainda
foi abordado inicialmente, para janelas de dimenso de 58 pxeis de altura e 24 de largura, no entanto
optou-se por usar as dimenses estudadas, 128 pxeis de altura e 64 de largura, por ser estas as
presentes no conjunto de dados INRIA person dataset e MIT person dataset.
Como este trabalho assenta sobre a criao de um novo classicador fraco, seria importante e interessante implementar uma cascata de classicadores formados por vrias instncias do classicador
proposto e avaliar o desempenho global deste mtodo face s abordagens existentes at data.
Outro ponto tambm interessante seria o de estudar o desempenho deste mtodo em imagens
a cores, pois em Dollr et al. [In Press] os resultados apresentados so superiores em imagens a
cores, por existir uma maior informao disponvel para o classicador. de notar que o classicador
fraco criado neste trabalho facilmente extensvel a este cenrio. Ainda no mbito de melhorar o
desempenho do classicador fraco proposto surge a questo de velocidade de classicao, que pensase ser possvel melhorar o tempo de classicao, pois em Schwartz et al. [2009] a metodologia
semelhante e tm velocidades de classicao bastante elevadas.
Existem muitos problemas de classicao automtica, e.g. caras/msseis/desordem pblica/etc.,
seria interessante aplicar este mtodo nesses cenrios.
Uma diculdade encontrada neste trabalho foi, tal como dito no captulo 4, o de ultrapassar o problema de deteco de pedestres numa fotograa nova. Onde necessrio percorrer a imagem em
66

busca da janela que poder conter um ser humano, e ampliar/reduzir esta imagem, por forma a poder
apanhar todos os casos possveis. Esta questo , no entanto, diferente da questo abordada nesta
tese, pois trata-se de um problema de procura ao passo que o problema abordado nesta tese o de
classicao. Existem, no entanto, algumas abordagens inovadores para o caso em que o descritor
o HOG, vide Dollr et al. [2010].

67

68

Bibliograa
Tinku Acharya. Image processing : principles and applications. John Wiley, Hoboken, N.J, 2005. ISBN
0471719986.
Optical Society Of America. Handbook of Optics, Vol. 2: Devices, Measurements, and Properties,
Second Edition. McGraw-Hill Professional, 2 edition, September 1994. ISBN 0070479747. URL

http://www.worldcat.org/isbn/0070479747.
Joo A. Branco and Ana M. Pires.

A robust principal component analysis that can handle high-

dimensional data. Submitted, 2011.


Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In In CVPR, pages
886893, 2005.
Piotr Dollr, C Wojek, B Schiele, and P Perona. Pedestrian detection: A benchmark. IEEE Conference
on Computer Vision and Pattern Recognition, pages 304311, 2009. URL http://ieeexplore.ieee.

org/lpdocs/epic03/wrapper.htm?arnumber=5206631.
Piotr Dollr, Serge Belongie, and Pietro Perona. The Fastest Pedestrian Detector in the West. In
Proceedings of the British Machine Vision Conference. BMVA Press, 2010. doi: 10.5244/C.24.68.
URL http://bmvc10.dcs.aber.ac.uk/proc/conference/paper68/index.html.
Piotr Dollr, Christian Wojek, Bernt Schiele, and Pietro Perona. Pedestrian detection: An evaluation of
the state of the art. Transactions on Pattern Analysis and Machine Intelligence (PAMI), In Press. URL

http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5975165.
Markus Enzweiler and Dariu M. Gavrila. Monocular pedestrian detection: Survey and experiments. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 31:21792195, 2009. ISSN 0162-8828.
doi: http://doi.ieeecomputersociety.org/10.1109/TPAMI.2008.260.
Pedro F. Felzenszwalb and Daniel P. Huttenlocher. Efcient matching of pictorial structures. In Proc.
IEEE Computer Vision and Pattern Recognition Conf., pages 6673, 2000.
Pedro F. Felzenszwalb, Ross B. Girshick, David McAllester, and Deva Ramanan. Object detection with
discriminatively trained part-based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32:16271645, 2010. ISSN 0162-8828. doi: http://doi.ieeecomputersociety.org/10.1109/
TPAMI.2009.167.
69

Y. Freund and R. Schapire. A short introduction to boosting, 1999. URL citeseer.ist.psu.edu/

freund99short.html.
Yoav Freund and Robert Schapire. A desicion-theoretic generalization of on-line learning and an application to boosting, 1995. URL http://dx.doi.org/10.1007/3-540-59119-2_166.
Ying hong Liang, Zhi yan Wang, Sen Guo, Xiao wei Xu, and Xiao ye Cao. Pedestrian detection using
kpca and d algorithms. In Proc. of the IEEE International Conference on Automation and Logistics,
pages 15721575, 2007.
Chang Huang, Haizhou Ai, Bo Wu, and Shihong Lao. Boosting nested cascade detector for multiview face detection. In Proceedings of the Pattern Recognition, 17th International Conference on
(ICPR04) Volume 2 - Volume 02, ICPR 04, pages 415418, Washington, DC, USA, 2004. IEEE
Computer Society. ISBN 0-7695-2128-2. doi: http://dx.doi.org/10.1109/ICPR.2004.221. URL http:

//dx.doi.org/10.1109/ICPR.2004.221.
Stephen Johnson. Stephen Johnson on digital photography. OReilly, Beijing Sebastopol, 2006. ISBN
059652370X.
I. T. Jolliffe. Principal Component Analysis. Springer, second edition, October 2002. ISBN 0387954422.
URL http://www.worldcat.org/isbn/0387954422.
Yi-Tzu Lee and Thomas Mathew. Tolerance regions in multivariate linear regression. Journal of Statistical Planning and Inference, 126(1):253 271, 2004. ISSN 0378-3758. doi: 10.1016/j.jspi.2003.07.
002. URL http://www.sciencedirect.com/science/article/pii/S0378375803002295.
Luis Malagn-Borja and Olac Fuentes. Object detection using image reconstruction with pca. Image and
Vision Computing, 27(1-2):2 9, 2009. ISSN 0262-8856. doi: 10.1016/j.imavis.2007.03.004. URL

http://www.sciencedirect.com/science/article/pii/S0262885607000820.

<ce:title>Canadian

Robotic Vision 2005 and 2006</ce:title>.


M. Oren, C.P. Papageorgiou, P. Sinha, E. Osuna, and T. Poggio. Pedestrian detection using wavelet
templates. In cvpr, pages 19399, 1997.
Charles A. Poynton. Digital video and HDTV : algorithms and interfaces. Morgan Kaufmann series in
computer graphics and geometric modeling. Morgan Kaufmann Publishers, 1st edition, 2003. ISBN
1558607927. URL http://www.worldcat.org/isbn/1558607927.
William K. Pratt. Digital image processing. John Wiley & Sons, Inc., New York, NY, USA, 1978. ISBN
0-471-01888-0.
R Development Core Team. R: A Language and Environment for Statistical Computing. R Foundation
for Statistical Computing, Vienna, Austria, 2011. URL http://www.R-project.org. ISBN 3-90005107-0.
70

Peter J. Rousseeuw and Christophe Croux. Alternatives to the median absolute deviation. Journal of
the American Statistical Association, 88(424), 1993. ISSN 01621459. doi: 10.2307/2291267. URL

http://dx.doi.org/10.2307/2291267.
W. R. Schwartz, A. Kembhavi, D. Harwood, and L. S. Davis. Human Detection Using Partial Least
Squares Analysis. In International Conference on Computer Vision, 2009. URL http://www.umiacs.

umd.edu/~{}lsd/papers/PLS-ICCV09.pdf.
Frank Shih. Image processing and pattern recognition fundamentals and techniques. IEEE Press Wiley,
Piscataway, NJ Hoboken, N.J, 2010. ISBN 9780470404614.
L. G. Valiant. A theory of the learnable. Commun. ACM, 27:11341142, November 1984. ISSN 00010782. doi: http://doi.acm.org/10.1145/1968.1972. URL http://doi.acm.org/10.1145/1968.1972.
Bo Wu and Ram Nevatia. Detection and tracking of multiple, partially occluded humans by bayesian
combination of edgelet based part detectors. Int. J. Comput. Vision, 75:247266, November 2007.
ISSN 0920-5691. doi: 10.1007/s11263-006-0027-7. URL http://dl.acm.org/citation.cfm?id=

1286000.1286005.
Stephen C. Zehr.

Accounting for the ozone hole:.

Sociological Quarterly, 35(4):603619, 1994.

ISSN 1533-8525. doi: 10.1111/j.1533-8525.1994.tb00419.x. URL http://dx.doi.org/10.1111/

j.1533-8525.1994.tb00419.x.
Stefan Zickler and Alexei Efros. Detection of multiple deformable objects using pca-sift. In Proceedings
of the 22nd national conference on Articial intelligence - Volume 2, pages 11271132. AAAI Press,
2007. ISBN 978-1-57735-323-2. URL http://dl.acm.org/citation.cfm?id=1619797.1619827.

71

Вам также может понравиться