Академический Документы
Профессиональный Документы
Культура Документы
o classificador KNN
Fabio Abrantes Diniz1
Thiago Reis da Silva2
Francisco Eduardo Silva Alencar3
Resumo: Neste artigo, apresenta-se um estudo emprico de otimizao das taxas de acurcias
resultantes de um sistema de reconhecimento facial baseado nas tcnicas Eigenfaces e K-Nearest
Neighbors. Foram investigadas as seguintes variveis: imagens com trs dimenses distintas,
nmero de caractersticas (Eigenfaces), valores de k da tcnica K-Nearest Neighbors e trs
medidas de distncia (euclidiana, Manhattan e euclidiana normalizada). Os estudos foram
importantes para entender empiricamente quais parmetros so os mais relevantes para as tcnicas
analisadas e que resultam em melhores taxas de acurcias de reconhecimento facial. Os resultados
dos experimentos comprovaram que as imagens com dimenses 12x9 pixels produzem as
melhores taxas de acurcias de reconhecimento facial, combinando com a medida de distncia
euclidiana normalizada e um nmero de Eigenfaces igual a vinte.
1 Introduo
O reconhecimento facial um dos processos de identificao mais utilizado pelos seres humanos, pois
permite identificar rapidamente qualquer indivduo. Embora o reconhecimento facial seja uma tarefa simples
para o ser humano, no trivial implementar esse processo em uma mquina. A grande dificuldade est na
modelagem de uma face que abstraia as caractersticas que as diferenciem de outras faces, j que apresentam
poucas diferenas substanciais entre si [1]. Pois, embora diferentes, todas as faces possuem caractersticas
semelhantes, uma boca, dois olhos e um nariz. Alm disso, imagens com diferentes dimenses dificultam o
processo de reconhecimento facial, principalmente nas etapas de extrao das caractersticas faciais e
1
Instituto Federal de Educao, Cincia e Tecnologia do Piau IFPI, campus Paulistana.
{fabio.abrantes.diniz@ifpi.edu.br}
2
Instituto Federal de Educao, Cincia e Tecnologia do Maranho IFMA, campus So Raimundo das Mangabeiras.
Doutorando em Sistemas e Computao na Universidade Federal do Rio Grande do Norte UFRN.
{thiago.reis@ifma.edu.br}
3
Universidade do Estado do Rio Grande do Norte, Universidade Federal Rural do Semi-rido UFERSA.
{eduardu.dudu@gmail.com}
http://dx.doi.org/10.5335/rbca.2015.5227
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 50
classificao, pois quanto maior a dimensionalidade da imagem, maior a matriz de vetores e, portanto, maior
o custo computacional e menor a preciso do classificador.
Vrios algoritmos de reconhecimento facial foram propostos [2] a fim de resolver esses problemas. No
presente trabalho apresentado um estudo emprico de otimizao dos resultados da varivel dependente taxa de
acurcia de um sistema de reconhecimento facial [3] baseado nas tcnicas de Eigenfaces [4] e K-Nearest
Neighbors (K-NN) [5]. Foram analisadas as seguintes variveis independentes das tcnicas abordadas:
a) trs dimenses das imagens;
b) nmero de caractersticas faciais (Eigenfaces);
c) o valor de k da tcnica K-NN;
d) o uso de trs medidas de distncias (euclidiana, Manhattan e euclidiana normalizada).
Este estudo preocupou-se com a anlise dos problemas de dimensionalidade de imagens para o
reconhecimento facial ao verificar quais dimenses de imagens so ideais para fornecer as caractersticas faciais
mais significativas, alm disso, proporcionou uma anlise dos valores dos parmetros para as tcnicas abordadas.
O presente estudo foi realizado por meio de um experimento que utilizou uma base de dados prpria
contendo 1.280 imagens de um total de 64 indivduos. Cada indivduo dessa base de dados foi representado por
vinte imagens em cinco poses distintas. De acordo com os principais resultados dos testes do experimento,
verificou-se que imagens de dimenses diferentes produziram taxas de acurcias diferentes. Alm disso,
evidenciou-se que a melhor acurcia no sistema reconhecimento facial foi encontrada na seguinte combinao de
parmetros: dimenso 12x9 pixels, distncia euclidiana normalizada, valor de k igual a um e nmero de
caracterstica igual a vinte. Comprovou-se, tambm, que as imagens de menor dimenso analisadas (12x9)
produziram as melhores taxas de acurcias de reconhecimento facial em relao s outras dimenses estudadas.
Portanto, este artigo segue organizado em sete sees, a partir desta introduo. A seo 2 descreve o
sistema de reconhecimento facial abordado e suas tcnicas, a seo 3 apresenta o planejamento do experimento,
e suas subsees, as questes de pesquisa e hipteses (3.1), as definies formais das hipteses (3.2), as variveis
dependentes e independentes (3.3), o design do experimento e as unidades experimentais (3.4). Na seo 4, so
apresentados os resultados do estudo, nas suas subsees so expostas as identificaes do modelo matemtico
(4.1) e a validao do modelo (4.2). Na seo 5, descreve-se a anlise de varincia, nas suas subsees, a
alocao de variao (5.1), a significncia dos efeitos (5.2) e a verificao das hipteses (5.3). Posteriormente, na
seo 6, so apresentadas as discusses das verificaes das hipteses, na seo 7, as ameaas validade do
experimento, e, por fim, a seo 8 apresenta as concluses e indicaes para trabalhos futuros.
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 51
Aps o pr-processamento, a imagem da face normalizada serviu de entrada para o mdulo de extrao de
caractersticas, com o objetivo de encontrar as principais caractersticas a serem utilizadas para a classificao.
Cada imagem do indivduo foi transformada em uma matriz de tamanho w x h, em que w e h so,
respectivamente, os nmeros de pixels referentes largura e altura da imagem. Cada valor do pixel da imagem
corresponde a uma componente do vetor.
Devido alta dimenso dos vetores, nessa etapa, foi implementada a tcnica de Eigenfaces, a fim de
reduzir a quantidade de caractersticas de uma imagem. O algoritmo Eigenface visa fornecer um conjunto de
vetores de distribuies probabilsticas para resolver o problema da deteco de padres em imagens, e seu
fundamento bsico a utilizao desses vetores para gerar uma informao matemtica do rosto de um ser
humano para sua futura identificao.
Com a ajuda de um classificador de padres, as caractersticas extradas da imagem da face so
comparadas com as amostras do conjunto de treinamento de face. A imagem da face ento classificada como
conhecida ou desconhecida. Neste trabalho, foi analisado o algoritmo de reconhecimento de padro K-NN [2].
A ltima etapa da arquitetura o conjunto de treinamento, que visa encontrar caractersticas apropriadas
para a representao de padres de entrada, sendo o classificador treinado para particionar o espao de
caractersticas, formando padres de todas as classes existentes. Foram usadas 75% das imagens faciais da base
de dados para o conjunto de treinamento e 25% das imagens para os testes. Na seo seguinte, esto detalhadas
as tcnicas de Eigenfaces e K-NN.
b) calcular a face mdia (2) para eliminar informaes redundantes na face, isto , uma imagem de face
poderia ser representada com poucos componentes principais devido sua redundncia;
(2)
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 52
c) criar uma matriz com as faces de treino com os pixels dispostos em linhas e as M faces do conjunto de
treinamento dispostas em colunas;
d) subtrair a imagem mdia de cada imagem de , gerando uma nova matriz A (3), que contm somente
as variaes de cada face em relao face mdia. O vetor (4) contm todas as variaes de uma
determinada face em relao face mdia ;
3 Planejamento do experimento
O planejamento deste estudo permitiu o aprimoramento de processos, a reduo da variabilidade de
resultados, a reduo do tempo de anlise e dos custos envolvidos. Nesta seo, detalhada a conduo do
experimento, seguindo as orientaes propostas por Wohlin et al. [8] e Kitchenham, Pickard e Pfleeger [9].
H1-0: a acurcia do sistema de reconhecimento facial para imagens faciais com dimenses faciais
diferentes igual;
H1-1: a acurcia do sistema de reconhecimento facial para imagens faciais com dimenses
faciais diferentes diferente.
A fim de que os resultados finais da pesquisa sejam bem compreendidos, necessrio conhecer as
interaes entre os fatores e a varivel resposta. Dessa forma, preciso saber quais dos fatores do experimento
so mais responsveis pela variao nas sadas obtidas nas execues dos tratamentos. Para isso, as seguintes
questes foram definidas:
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 53
QP2: Qual distncia aplicada na dimenso especfica da imagem facial produz melhores taxas de
acurcias no reconhecimento facial?
QP3: Qual nmero de caracterstica (Eigenfaces) aplicada na dimenso especfica da imagem facial
produz melhores taxas de acurcias no reconhecimento facial?
QP4: Qual nmero de k do classificador K-NN aplicada na dimenso especfica da imagem facial
produz a melhor taxa de acurcia?
Esses questionamentos levam s seguintes hipteses:
A a funo que retorna o valor da mtrica acurcia aplicada nas seguintes variveis: dimenses (Dim1, Dim2 e Dim3), distncias
(D1, D2 e D3), Eigenfaces (E15, E16, E17, E18, E19 e E20), valor de k (A(k1)=A(k3)=A(k4)=A(k5)=A(k6)= A(k7)=A(k8)=A(k9)=A(k10)).
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 54
Tabela 2: Nveis dos fatores
Fator Tipo de Varivel Nvel
Dimenso das imagens faciais Qualitativa 120x90, 32x24, 12x9
Eigenfaces Quantitativa 15, 16, 17, 18, 19, 20
Vizinhos mais prximos (k) Quantitativa 1, 3, 4, 5, 6, 7, 8, 9,10
Distncias Qualitativa euclidiana, Manhattan e
euclidiana normalizada
Fonte: elaborao dos autores com base nos dados da pesquisa.
No caso deste estudo, analisada somente a taxa de acurcia como a varivel dependente. J as variveis
independentes utilizadas no experimento so:
a) dimenso das imagens faciais: cada imagem representante do indivduo foi transformada em uma
matriz de tamanho w x h, em que w e h so, respectivamente, os nmeros de pixels referentes largura
e altura da imagem;
b) caractersticas principais (Eigenfaces): conjunto de vetores de distribuies probabilsticas
(autovetores da matriz de covarincia) que gera uma informao matemtica do rosto de um ser
humano [4];
c) vizinhos mais prximos (k): o algoritmo baseado na procura dos k vizinhos mais prximos do
padro de teste. O padro dito pertencer classe que apresentar a maior frequncia dentre os k
vizinhos utilizados [5];
d) distncias: a busca pela vizinhana pelo algoritmo K-NN [5] feita utilizando uma medida de
distncia nessa procura.
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 55
abordada. por meio dessas unidades que ser possvel obter a variao estatstica na anlise dos resultados da
investigao. Houve uma randomizao para a formao da base de treinamento com 75% das imagens faciais
da base de dados utilizadas para o conjunto de treinamento e 25% das imagens para os testes.
4 Resultados do experimento
Esta seo apresenta a anlise dos dados coletados durante a execuo do experimento. Os resultados
coletados se encontram empacotados no respectivo link4. Para a varivel dependente abordada, esta anlise inclui
a anlise da identificao do modelo matemtico, a validao do modelo matemtico e a anlise de variao dos
efeitos.
Em que ijkml o valor observado da varivel resposta para a dimenso i, distncia j, Eigenface k, valores
do fator k-vizinhos m, e repetio l; a mdia estimada da varivel resposta, considerando todas as
observaes; i o efeito estimado da dimenso i na sada; m o efeito estimado dos valores de k-vizinhos m na
sada; j o efeito estimado dos valores das distncias j na sada; k o efeito estimado dos valores de Eigenfaces
k na sada; im a interao entre os fatores primrios; ij a interao entre os fatores primrios; ik a
interao entre os fatores primrios; mk a interao entre os fatores primrios; mj a interao entre os
fatores primrios; jk a interao entre os fatores primrios; imj a interao entre os fatores primrios;
ijk a interao entre os fatores primrios; mjk a interao entre os fatores primrios; imjk a interao
entre os fatores primrios; ij o erro experimental para a dimenso i, distncia j, Eigenface k, valores do fator k-
vizinhos m, e repetio l.
(
(9)
4
Disponvel em: <https://docs.google.com/file/d/0B4d9yu3dP4GJdU5GNUY1S2R5ak0/edit>.
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 56
somente conteve os respectivos coeficientes e interaes entre os fatores. O valor 0.94 a mdia estimada do
modelo.
(A) (B)
(C)
a) Normalidade: o Q-Q Plot (Figura 1A) sugere que os resduos no so exatamente normais,
possivelmente pela presena de outliers existentes.
b) Independncia dos erros: o Lag Plot (Figura 1C) indica que no h forte correlao entre os erros, o
que sugere independncia dos resduos.
c) Variao constante: no grfico de disperso entre resduos (Figura 1B), no possvel identificar
padres de crescimento contnuo (formato de funil) [12], logo, no h indcio de que a variao no
constante.
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 57
5 Anlise de varincia
As hipteses desta investigao cientfica foram testadas de duas formas: a) utilizando o Anova e b) em
testes no paramtricos. Nas subsees seguintes, apresenta-se a alocao da variao da varivel-resposta entre
os efeitos dos fatores, entre os efeitos da interao dos fatores e os efeitos dos erros. Aps apresentar a alocao
de variao, verificou-se a significncia dos efeitos. E, por fim, foram analisadas as hipteses de investigao
formuladas inicialmente.
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 58
Para responder s hipteses H1-0, H2-0, H3-0 e H4-0, primeiramente, analisou-se visual e separadamente
os intervalos de confiana de cada fator presentes nas imagens (Figuras 2, 3, 4 e 5, e Tabela 6).
Tabela 6: Resultado do F-test
Dimenso Distncia k Eigenface
Valor F 227.31 477.445 8660.670 85.948
Tabela F 3.9 3.05 3.9 3.9
Fonte: elaborao dos autores com base nos dados da pesquisa.
A anlise referente aos intervalos de confiana est ilustrada na Figura 3, comparando-se o fator distncia
aplicado nas imagens com dimenses 120x90, 32x24 e 12x9. Ao analisar a Figura 3, percebe-se que na dimenso
12x9 a melhor distncia a euclidiana normalizada, seguida da Manhattan e, por ltimo, da euclidiana. Isso para
5% de nvel de significncia e independente da realizao do F-test. J nas dimenses 32x24 e 120x90, percebe-
se que a distncia euclidiana normalizada tem acurcia maior que as outras distncias. No entanto, no h como
afirmar qual maior ou menor entre as distncias Manhattan e euclidiana, pois h sobreposio entre os
intervalos. Para se ter certeza de qual o maior, foi feito um teste de comparao estatstico (F-test), como foi
detalhado na Tabela 6.
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 59
Figura 3: Intervalo de confiana do fator distncia
Na Figura 4, apresenta-se a anlise referente aos intervalos de confiana do fator k aplicado nas imagens
com dimenses 120x90, 32x24 e 12x9. Fica evidenciado que, na dimenso 12x9, k=1 apresenta a maior
acurcia, seguida de k=4 e k=3, resultado abordado para 5% de nvel de significncia. Evidenciam-se
sobreposies entre os fatores k=5 e k=6 e entre k=9 e k=10, logo, no h como afirmar qual maior ou menor
entre esses valores. J nas dimenses 32x24 e 120x90, verifica-se a sobreposio entre k=1 e k=4. Assim, para as
dimenses 32x24 e 120x90, constata-se a dificuldade de conhecer qual o melhor valor k que produz maiores
valores para a mtrica acurcia. Para se ter a certeza de qual o melhor valor de k, foi feito o teste de comparao
estatstico (F-test), j descrito na Tabela 6.
Figura 4: Intervalo de confiana do fator k
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 60
sobreposies entre os valores de Eigenfaces em todas as dimenses, logo, no h como afirmar qual valor de
Eigenface produz maior ou menor valor de acurcia, e se realmente o fator Eigenfaces afeta na acurcia da
estimativa do sistema de reconhecimento facial. Para se ter certeza de qual valor Eigenface produz o melhor
valor de acurcia, foi feito o teste de comparao estatstico (F-test), cujo resultado tambm j foi descrito na
Tabela 6.
Figura 5: Intervalo de confiana do fator Eigenfaces
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 61
Por fim, concluiu-se que o fator k que produz os maiores efeitos no resultados da mtrica acurcia,
seguido dos fatores distncia, dimenso e Eigenface respectivamente.
Agradecimentos
Os autores agradecem Capes e ao CNPq pelo suporte parcial a esta pesquisa.
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 62
Referncias
[1] AGARWAL, M. et al. Face recognition using principle component analysis, eigenface and neural network.
In: II INTERNATIONAL CONFERENCE ON SENSORS, AND SIGNALS AND VISUALIZATION,
IMAGING AND SIMULATION AND MATERIALS, Wisconsin, USA, 204-208, 2009.
[2] ZHAO, W.; CHELLAPPA, R. Face recognition: a literature survey. ACM Computing Surveys, v. 35, n. 4,
p. 399-458, 2003.
[3] DINIZ, F. A. et al. RedFace: um sistema de reconhecimento facial baseado em tcnicas de anlise de
componentes principais e autofaces: comparao com diferentes classificadores. Revista Brasileira de
Computao Aplicada, Passo Fundo, v. 5, n. 1, p. 42-54, 2013.
[4] KSHIRSAGAR, V. P.; BAVISKAR, M. R.; GAIKWAD, M. E. Face recognition using Eigenfaces. In: III
INTERNATIONAL CONFERENCE ON COMPUTER RESEARCH AND DEVELOPMENT, 3, 2011,
Shanghai, China 2011. p. 302-306. v. 2.
[5] JIANGSHENG, Y. Method of k-Nearest Neighbors. China - Pequim: Institute of Computational
Linguistics, Peking University, 2002.
[6] VIOLA, P. A.; JONES, M. J. Robust real-time object detection. International Journal of Computer Vision,
Cambridge, Massachusetts, v. 57, n. 2, p. 137-154, 2004.
[7] CHEON, Y.; KIM, D. A natural facial expression recognition using differential-AAM and K-NNS.
Multimedia. In: TENTH IEEE INTERNATIONAL SYMPOSIUM ON MULTIMEDIA, Berkeley, CA,
2008, pp. 220-227.
[8] WOHLIN, C. et al. Experimentation in software engineering: an introduction. Norwell, MA, USA: Kluwer
Academic, 2000.
[9] KITCHENHAM, B.; PICKARD, L.; PFLEEGER, S. L. Case studies for method and tool evaluation. IEEE
Software, v. 12, n. 4, p. 52-62, 1995.
[10] PRADO, M. P.; SOUZA, S. R. S.; MALDONADO, J. C. Resultados de um estudo de caracterizao e
avaliao de critrios de teste estruturais entre os paradigmas procedimental e OO. In: X
EXPERIMENTAL SOFTWARE ENGINEERING LATIN AMERICAN WORKSHOP, Goinia - Gois
2010. p. 91-100.
[11] JURISTO, N.; MORENO A. M. Basics of Software Engineering Experimentation. Boston: Kluver
Academic Publischers, 2010.
[12] GRAVETTER, F. J.; WALLNAU, L. B. Statistics for the Behavioral Sciences. Belmont, USA: Cengage
Learning, 2013.
Revista Brasileira de Computao Aplicada (ISSN 2176-6649), Passo Fundo, v. 8, n. 1, p. 50-63, abr. 2016 63