Академический Документы
Профессиональный Документы
Культура Документы
Anai
sdo13ºWor
kshopdeVi
sãoComput
aci
onal
real
i
zadonaUFRN,Nat
al,Br
asi
lem 2017
Organizadores:
Rafael
Bes er
raGomes
Lui
zMar cosGarci
aGonçal
ves
1ªEdi
ção
Natal
,2018
EDUFRN
Catalogação da Publicação na Fonte. UFRN / SISBI / Biblioteca Setorial
Especializada do Centro de Ciências Exatas e da Terra – CCET.
❈♦♠✐tês ❞♦ ❊✈❡♥t♦
❈♦♠✐tê ❉✐r❡t♦r
▼❛r❝❡❧♦ ❆♥❞r❛❞❡ ❞❛ ❈♦st❛ ❱✐❡✐r❛ ✭❯❙P✮ ▼❛r❝♦ ❆♥tô♥✐♦ P✐t❡r✐ ✭❯◆❊❙P✮
❆♣❛r❡❝✐❞♦ ◆✐❧❝❡✉ ▼❛r❛♥❛ ✭❯◆❊❙P✮ ▼❛✉rí❝✐♦ ❈✉♥❤❛ ❊s❝❛r♣✐♥❛t✐ ✭❯❋❯✮
❊✈❛♥❞r♦ ▲✉ís ▲✐♥❤❛r✐ ❘♦❞r✐❣✉❡s ✭❯❙P✮ ▼❛✉rí❝✐♦ ▼❛r❡♥❣♦♥✐ ✭▼❛❝❦❡♥③✐❡✮
❍❡♠❡rs♦♥ P✐st♦r✐ ✭❯❈❉❇✮
❈♦♠✐tê ❞❡ Pr♦❣r❛♠❛
❆❞✐❧s♦♥ ●♦♥③❛❣❛ ✭❯❙P✮ ❏♦sé ❘♦❜❡rt♦ ◆♦❣✉❡✐r❛ ✭❯◆❊❙P✮
❆♥❛ ❈❧❛✉❞✐❛ ▼❛rt✐♥❡③ ✭❯❋❯✮ ❏ú❧✐♦ ❈és❛r P❛✉❧✐♥♦ ❞❡ ▼❡❧♦ ✭❯❋❘◆✮
❆♥❞ré ❇❛❝❦❡s ✭❯❋❯✮ ❏✉❧✐♦ ❈❡s❛r ◆✐❡✈♦❧❛ ✭P❯❈✲P❘✮
❆♣❛r❡❝✐❞♦ ◆✐❧❝❡✉ ▼❛r❛♥❛ ✭❯◆❊❙P✮ ❏✉r❛♥❞② ❆❧♠❡✐❞❛ ✭❯◆■❋❊❙P✮
❆r✐stó❢❛♥❡s ❙✐❧✈❛ ✭❯❋▼❆✮ ▲❡❛♥❞r♦ ◆❡✈❡s ✭❯◆❊❙P✮
❆②❧t♦♥ P❛❣❛♠✐ss❡ ✭❯◆❊❙P✮ ▲❡❛♥❞r♦ ❖❧✐✈❡✐r❛ ✭❯❋●❖✮
❇r✉♥♦ ▼♦tt❛ ❞❡ ❈❛r✈❛❧❤♦ ✭❯❋❘◆✮ ▲❡♦♥❛r❞♦ ▼❛t♦s ✭❯❋❙✮
❈❛r❧♦s ❚❤♦♠❛③ ✭❋❊■✮ ▲✉❝❛s ❋❡rr❛r✐ ❞❡ ❖❧✐✈❡✐r❛ ✭❯❋P❘✮
❈❤✐❞❛♠❜❛r❛♠ ❈❤✐❞❛♠❜❛r❛♠ ✭❯❉❊❙❈✮ ▲✉❝✐❛♥♦ ▲✉❧✐♦ ✭❯❙P✮
❈r✐st✐❛♥❡ ❋❡rr❡✐r❛ ✭❯❋●✮ ▲✉❝✐❛♥♦ ❙✐❧✈❛ ✭❯❋P❘✮
❈r✐st✐♥❛ ❱❛s❝♦♥❝❡❧♦s ✭❯❋❋✮ ▲✉✐③ ▼❛r❝♦s ●❛r❝✐❛ ●♦♥ç❛❧✈❡s ✭❯❋❘◆✮
❉❛♥✐❡❧ ❆❜❞❛❧❛ ✭❯❋❯✮ ▼❛r❝❡❧♦ ❆♥❞r❛❞❡ ❞❛ ❈♦st❛ ❱✐❡✐r❛ ✭❯❙P✮
❉❛♥✐❧♦ ❊❧❡r ✭❯♥❡s♣✮ ▼❛r❝❡❧♦ ❞♦ ◆❛s❝✐♠❡♥t♦ ✭❯❋❯✮
❉❡❜♦r❛❤ ❋❡r♥❛♥❞❡s ✭❯❋●❖✮ ▼❛r❝✐♦ ❆❧❡①❛♥❞r❡ ▼❛rq✉❡s ✭❯◆❊❙P✮
❉❡♥✐s ❙❛❧✈❛❞❡♦ ✭❯◆❊❙P✮ ▼❛✉r✐❝✐♦ ❈✉♥❤❛ ❊s❝❛r♣✐♥❛t✐ ✭❯❋❯✮
❉✐❜✐♦ ▲❡❛♥❞r♦ ❇♦r❣❡s ✭❯◆❇✮ ▼❛✉r✐❝✐♦ ●❛❧♦ ✭❯◆❊❙P✮
❊♠❡rs♦♥ P❡❞r✐♥♦ ✭❯❋❙❈❛r✮ ▼❛✉r✐❧✐♦ ❇♦❛✈❡♥t✉r❛ ✭❯◆❊❙P✮
❊✈❛♥❞r♦ ▲✉✐s ▲✐♥❤❛r✐ ❘♦❞r✐❣✉❡s ✭❯❙P✮ ▼❛①✐♠✐❧✐❛♠ ▲✉♣♣❡ ✭❯❙P✮
●✐❧s♦♥ ●✐r❛❧❞✐ ✭▲◆❈❈✮ ▼♦❛❝✐r P♦♥t✐ ✭❯❙P✮
●✉st❛✈♦ ❇✳ ❇♦r❜❛ ✭❯❚❋P❘✮ ▼✉r✐❧❧♦ ❍♦♠❡♠ ✭❯❋❙❈❛r✮
❍❡❧✐♦ P❡❞r✐♥✐ ✭❯◆■❈❆▼P✮ ❖❧❣❛ ❇❡❧❧♦♥ ✭❯❋P❘✮
❍❡♠❡rs♦♥ P✐st♦r✐ ✭❯❈❉❇✮ ❖r✐✈❛❧❞♦ ❱✐❡✐r❛ ❞❡ ❙❛♥t❛♥❛ ❏ú♥✐♦r ✭❯❋❘◆✮
❍❡r♠❛♥ ●♦♠❡s ✭❯❋❈●✮ P❛✉❧♦ ▼✐r❛♥❞❛ ✭❯❙P✮
■á❧✐s P❛✉❧❛ ❏r ✭❯❋❈✮ P❛✉❧♦ ❆♠❜rós✐♦ ✭❯❊❙❈✮
■♥❡s ❇♦❛✈❡♥t✉r❛ ✭❯❙P✮ ❘❛❢❛❡❧ ❇❡s❡rr❛ ●♦♠❡s ✭❯❋❘◆✮
■s❛❜❡❧ ▼❛♥ss♦✉r ✭P❯❈✲❘❙✮ ❘❛✐ss❛ ❚❛✈❛r❡s ❱✐❡✐r❛ ✭❯❋❘◆✮
❏❛❝♦❜ ❙❝❤❛r❝❛♥s❦✐ ✭❯❋❘●❙✮ ❘♦♥❛❧❞♦ ❈♦st❛ ✭❯❋●✮
❏❛❝q✉❡s ❋❛❝♦♥ ✭P❯❈✲P❘✮ ❙✐❧✈✐❛ ▼❛rt✐♥✐ ❘♦❞r✐❣✉❡s ✭❯▼❈✮
❏❛♥❞❡r ▼♦r❡✐r❛ ✭❯❋❙❈❛r✮ ❚❤✐❛❣♦ P✐r♦❧❛ ❘✐❜❡✐r♦ ✭❯❋❯✮
♦❛♦ P❛♣❛ ✭❯◆❊❙P✮ ❚✐❛❣♦ ◆❛s❝✐♠❡♥t♦ ✭❯❋P❇✮
❏♦sé ❙❛✐t♦ ✭❯❋❙❈❛r✮ ❲✐❧❧✐❛♠ ❙❝❤✇❛rt③ ✭❯❋▼●✮
❏♦sé ❊❞✉❛r❞♦ ❈❛st❛♥❤♦ ✭❯◆❊❙P✮
❙✉♠ár✐♦
❈♦❧♦r ❚❡①t✉r❡ ❈❧❛ss✐✜❝❛t✐♦♥ ❜② ✉s✐♥❣ ❖♣♣♦♥❡♥t ❈♦❧♦r ❛♥❞ ▲♦❝❛❧ ▼❛♣♣❡❞ P❛tt❡r♥ ✳ ✳ ✳ ✳ ✳ ✶
❆ ❝♦♠♣✉t❡r ✈✐s✐♦♥ s②st❡♠ ❢♦r s♦②❜❡❛♥ ❞✐s❡❛s❡s r❡❝♦❣♥✐t✐♦♥ ✉s✐♥❣ ❯❆❱s✿ ♣r❡❧✐♠✐♥❛r② r❡s✉❧ts ✼
❋❛❝✐❛❧ ❇✐♦♠❡tr✐❝s ❢♦r ❆❝❝❡ss ❈♦♥tr♦❧ ❯s✐♥❣ ▲❇P ❚❡①t✉r❡ ▼❡❛s✉r❡s ❛♥❞ ❊▲▼ ◆❡✉r❛❧ ◆❡t✇♦r❦s ✶✸
❈♦♠♣❛r❛t✐✈❡ ❆♥❛❧②s✐s ♦❢ ▲❇P ✇✐♥❞♦✇ ❢♦r ▲✉♥❣ ❋✐ss✉r❡ ❙❡❣♠❡♥t❛t✐♦♥ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✾
Pr❡❝✐s❡ ❡②❡ ❧♦❝❛❧✐③❛t✐♦♥ ✉s✐♥❣ t❤❡ ♥❡✇ ♠✉❧t✐s❝❛❧❡ ❤✐❣❤✲❜♦♦st ❲❡❜❡r ❧♦❝❛❧ ✜❧t❡r ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✷✺
❇✐♦♠❡tr✐❝ ✐r✐s ❝❧❛ss✐✜❝❛t✐♦♥ ✇❤❡♥ t❤❡ ❡②❡s ♣✉♣✐❧ r❡❛❝ts t♦ ❧✐❣❤t ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✸✶
❆ ♥♦✈❡❧ ♠❡t❤♦❞ ❢♦r s❤❛♣❡ ❛♥❛❧②s✐s ❜❛s❡❞ ♦♥ st❛t✐st✐❝s ♦❢ ❊✉❝❧✐❞❡❛♥ ❞✐st❛♥❝❡s ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✸✼
❆✉t♦♠❛t✐❝ s❡❣♠❡♥t❛t✐♦♥ ♦❢ t❤❡ ❤✉♠❛♥ ❜♦♥❡ ✈❛s❝✉❧❛r ♥❡t✇♦r❦ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✹✶
❊①♣❧♦r✐♥❣ ❢✉③③② ♥✉♠❜❡rs ❢♦r ✐♠❛❣❡ t❡①t✉r❡ ❛♥❛❧②s✐s ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✹✼
❇✐♥❛r✐③❛t✐♦♥ ❆❧❣♦r✐t❤♠s ❆♣♣❧✐❡❞ t♦ ❈❤r♦♠♦s♦♠❡s ■♠❛❣❡ ❙❡❣♠❡♥t❛t✐♦♥ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✺✸
▼✉❧t✐✲❝❧❛ss ❙❡❣♠❡♥t❛t✐♦♥ ♦❢ ❙❛t❡❧❧✐t❡ ■♠❛❣❡s ❜② ❈♦❧♦r ▼✐①t✉r❡ ❛♥❞ ◆❡✉r❛❧ ◆❡t✇♦r❦ ✳ ✳ ✳ ✳ ✺✾
❋❛❝✐❛❧ ❇✐♦♠❡tr✐❝s ❯s✐♥❣ ❙■❋❚✴❙❯❘❋ ✐♥ ❈♦♠♣❛r✐s♦♥ ✇✐t❤ ❊✐❣❡♥❢❛❝❡s ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✻✺
❆✉t♦♠❛t✐❝ ❱❡❤✐❝❧❡ ❈♦✉♥t ✐♥ ▼✉❧t✐♣❧❡ ❈❧✐♠❛t✐❝ ❛♥❞ ■❧❧✉♠✐♥❛t✐♦♥ ❈♦♥❞✐t✐♦♥s ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✼✶
▼❡t❤♦❞s ♦❢ ❞❡t❡❝t✐♥❣ ❛♥❞ r❡❝♦♥str✉❝t✐♥❣ ♣❛rt✐❛❧ ♦❝❝❧✉s✐♦♥s ✐♥ ❢❛❝❡ ✐♠❛❣❡s✿ ❙②st❡♠❛t✐❝ ▲✐t❡✲
r❛t✉r❡ ❘❡✈✐❡✇ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✼✻
❋❛❝❡ ❘❡❝♦❣♥✐t✐♦♥ ❇❛s❡❞ ♦♥ ❛ ▼✉❧t✐✲❙❝❛❧❡ ▲♦❝❛❧ ▼❛♣♣❡❞ P❛tt❡r♥ ▼❡t❤♦❞ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✽✷
❋❛❝✐❛❧ ❘❡❝♦❣♥✐t✐♦♥ ✐♥ ❉✐❣✐t❛❧ ■♠❛❣❡s ✉s✐♥❣ ▲♦❝❛❧ ❇✐♥❛r② P❛tt❡r♥ ▼❡t❤♦❞s ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✽✽
❆ ▼✉❧t✐✲❧❡✈❡❧ ❚❤r❡s❤♦❧❞✐♥❣ ▼❡t❤♦❞ ❇❛s❡❞ ♦♥ ■♠♣r♦✈❡❞ ●r♦✉♣ ❙❡❛r❝❤ ❖♣t✐♠✐③❛t✐♦♥ ❛♥❞
❖ts✉ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✾✹
❆ ◆❡✇ ❆♣♣r♦❛❝❤ t♦ ❘✐♣♣❧❡t ❚r❛♥s❢♦r♠✲❇❛s❡❞ ❚❡①t✉r❡ ❉❡s❝r✐♣t♦r ❢♦r ❇r❡❛st ▲❡s✐♦♥s ❈❧❛s✲
s✐✜❝❛t✐♦♥ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✵✵
❆ ❙t✉❞② ♦❢ ❙✇✐♠♠❡rs ❉❡t❡❝t✐♦♥ ✐♥ ❇❡❛❝❤ ■♠❛❣❡s ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✵✻
❆ ▼❡t❤♦❞ ❢♦r ❆✉t♦♠❛t✐❝ ❈♦rr❡❝t✐♦♥ ♦❢ ▼✉❧t✐♣❧❡✲❈❤♦✐❝❡ ❚❡sts ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✶✷
❆ ❝♦♠♣❛r✐s♦♥ ❜❡t✇❡❡♥ t✇♦ ❛♣♣r♦❛❝❤❡s t♦ s❡❣♠❡♥t ♦✈❡r❧❛♣♣❡❞ ❝❤r♦♠♦s♦♠❡s ✐♥ ♠✐❝r♦s❝♦♣②
✐♠❛❣❡s ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✶✽
■♠♣r♦✈✐♥❣ t❤❡ ❞❡✜♥✐t✐♦♥ ♦❢ ♠❛r❦❡rs ❢♦r t❤❡ tr❛♥s❢♦r♠❡❞ ✇❛t❡rs❤❡❞ ❝♦♠❜✐♥✐♥❣ ❤✲♠❛①✐♠❛
tr❛♥s❢♦r♠ ❛♥❞ ❝♦♥✈❡①✲❤✉❧❧ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✷✹
❆ ❈♦♠♣❛r✐s♦♥ ♦❢ ❚❡①t✉r❡ ❛♥❞ ❙❤❛♣❡ ❉❡s❝r✐♣t♦rs ❢♦r ■r✐s ▲♦❝❛t✐♦♥ ❜❛s❡❞ ♦♥ ❛ ❙❧✐❞✐♥❣ ❲✐♥❞♦✇
❆♣♣r♦❛❝❤ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✸✵
❋✉❧❧② ❈♦♥✈♦❧✉t✐♦♥❛❧ ◆❡✉r❛❧ ◆❡t✇♦r❦ ❢♦r ❖❝❝✉❧❛r ■r✐s ❙❡♠❛♥t✐❝ ❙❡❣♠❡♥t❛t✐♦♥ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✸✻
■♠♣r♦✈❡❞ ◆♦♥ ▲♦❝❛❧ ▼❡❛♥s ❛❧❣♦r✐t❤♠ ✉s✐♥❣ ❉❈❚✲❜❛s❡❞ ❑✲♠❡❛♥s ❝❧✉st❡r✐♥❣ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✹✷
✐✐✐
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✐✈
❈◆◆❋✉s✐♦♥✲●❡♥❞❡r✿ ❢✉s✐♦♥ ❢❛❝✐❛❧ ♣❛rts ♠❡t❤♦❞♦❧♦❣② ❢♦r ❣❡♥❞❡r ❝❧❛ss✐✜❝❛t✐♦♥ ✐♥ t❤❡ ✇✐❧❞ ✳ ✶✹✼
▲❡✉❦♦❝②t❡ ❙❡❣♠❡♥t❛t✐♦♥ ❛♥❞ ❈❧❛ss✐✜❝❛t✐♦♥ ✉s✐♥❣ ❈♦♠♣✉t❛t✐♦♥❛❧ ❱✐s✐♦♥ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✳ ✶✺✸
✶ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Abstract— This paper presents a new color texture descriptor Local Mapped Pattern (LMP) [5]. Este novo descritor mapeia os
combining the Local Mapped Pattern (LMP) and Opponent padrões locais de uma textura para os bins de um histograma
Colors methodologies. Considering the RGB space, the new utilizando uma função de mapeamento que pode ser modificada
descriptor named Opponent Color Local Mapped Pattern de acordo com a aplicação. Os autores ainda mostram que o
(OCLMP) considers the differences between the central pixel - LMP é uma generalização do LBP, e que este último pode ser
taken from a color channel - and its neighbors - taken from the obtido modificando-se alguns parâmetros do primeiro.
opponent channel. The OCLMP descriptor is evaluated over two
color texture databases, Outex and USPTex, and compared with Motivado pelo alto desempenho do LMP em diversas
Opponent Color Local Binary Pattern descriptor (OCLBP), which aplicações [4-8] propomos, neste trabalho, a investigação da sua
also considers opponent colors in its approach. The experimental utilização na classificação de texturas coloridas, juntamente
results have shown that OCLMP performs better than OCLBP com a teoria de cores oponentes proposta por Jain e Healey [2],
reporting better accuracy and lower processing time. introduzindo o descritor Opponent Color Local Mapped Pattern
(OCLMP).
Keywords—Opponent Color, Local Mapped Pattern, Local
Binary Pattern, Color Texture Classification Este artigo está estruturado em seis seções. Nesta seção I
foram apresentadas as justificativas e a motivação para
classificação de texturas coloridas. A seção II resume o método
I. INTRODUÇÃO base para o descritor OCLMP, o qual é proposto neste trabalho
na seção III. O método e o material utilizado são descritos na
A classificação de texturas é uma importante tarefa na área seção IV, sendo os resultados obtidos discutidos na seção V.
de visão computacional. O uso da cor na tentativa de melhorar a Finalmente, a seção VI conclui o trabalho.
acurácia dos métodos de classificação tem sido comprovado em
muitos trabalhos, como o estudo feito por Bianconi et al. [1].
Dentre os desafios de se usar a “cor da textura” ou textura II. LOCAL MAPPED PATTERN
colorida, estão a forma como ela é extraída e o espaço de cores O descriptor Local Mapped Pattern (LMP) utiliza uma
considerado. Jain e Healey [2] introduziram a representação de função de mapeamento para construir um histograma que
texturas coloridas utilizando cores oponentes, processo que é representa as frequências dos padrões locais contidos em uma
baseado no sistema visual humano. Eles propõem a extração de determinada imagem (Fig. 1). Estes padrões são baseados nas
características de uma textura colorida utilizando pares de cores diferenças dos valores entre o pixel central e seus vizinhos.
oponentes dentro de um espaço de cores, juntamente com
características unicromáticas, ou seja, de um único canal de cor.
Essas características são computadas a partir das saídas de um
filtro de Gabor, combinando informações de diferentes bandas
espectrais em diferentes escalas.
Maenpaa e Pietikainen [3] propuseram o descritor Opponent
Color Local Binary Pattern (OCLBP). O OCLBP utiliza a
representação de cores oponentes proposta em [2] aplicada ao
descritor de texturas Local Binary Pattern (LBP) e, segundo os
resultados reportados, apresenta melhor desempenho que o Figura 1: Padrão Local 3x3.
descritor baseado nos filtros de Gabor.
Em 2012, Vieira et al. [4], introduziram um novo descritor
baseado em números fuzzy, que posteriormente evoluiu para o
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✷
Considerando-se uma vizinhança = � × � de uma histograma utilizando a Eq. (4) e a função de mapeamento
textura como sendo um padrão local, este pode ser mapeado para aprensentada na Eq. (5).
um bin ℎ de um histograma a partir da Equação (1)
∑�
�= ��
∑�− �� � � ℎ =� �( �
− ) (4)
�=
ℎ =� � �−
∑�= � �
− (1)
uma luz CIE A incandescente 2856 K. Cada textura é 128 x 128 pixels para uma das 191 classes, totalizando 2292
subdividida em 20 amostras de 128 x 128 pixels, gerando 1360 amostras. Metade das amostras foram utilizadas como conjunto
amostras. Metade das amostras é utilizada como conjunto de de teste e metade como conjunto de treinamento. As amostras
teste e a outra metade como conjunto de treinamento (conjunto foram separadas da mesma forma que na base Outex, seguindo
de busca). Essa divisão é realizada seguindo um padrão de um padrão de tabuleiro de xadrez.
tabuleiro de xadrez, em que a primeira amostra do canto superior
esquerdo pertence ao conjunto de treinamento.
A base de texturas USPTex contém 191 texturas adquiridas Figura 6: Exemplos de texturas da base de dados UPSTex
utilizando uma câmera digital com 512×384 pixels de resolução.
As texturas incluem feijões, arroz, tecido, vegetação, nuvens, O descritor é aplicado a cada amostra dos conjuntos de teste
etc. (Fig. 6). Neste experimento foram utilizadas 12 amostras de e de treinamento, gerando um vetor de características que
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✹
representa cada imagem. Cada vetor de características do (acurácia) são apresentados nas Tabelas III e IV, as quais
conjunto de teste é comparado a todos os vetores do conjunto de apresentam ainda uma comparação entre o desempenho dos
treinamento utilizando-se uma medida de distância. descritores OCLBP [3] e OCLMP.
A fim de avaliar como o descritor se comporta quando
diferentes medidas de distâncias são utilizadas, seu desempenho TABELA I: Valores dos parâmetros � otimizados para o banco de dados
foi analisado mediante duas métricas: distância L1 (Eq. (6)) e Outex para cada configuração de vizinhança e raio (P,R) em cada métrica
distância chi-quadrado (Eq.(7)), nas quais, S refere-se à amostra utilizada.
de busca do conjunto de testes e M refere-se à amostra do
(P,R) = (8,1) (P,R) = (16,2)
conjunto de treinamento, sendo B o número de bins. Distância Canais
� �
R -G 2,4918 2,0196
� , � = ∑�= | −� | (6) R-B 2,3554 0,5644
B 0,3347 0,2095
Para a classificação utilizou-se o classificador k-NN (k
R -G 1,4755 1,8357
vizinhos mais próximos) com k=1, ou seja, a classe da amostra
do conjunto de treinamento que possui a menor distância da R-B 1,4567 2,1820
amostra de teste é considerada a predição do classificador.
G-B 1,6712 0,0177
O desempenho da classificação é reportado através da Chi-quadrado
R 0,3440 1,1866
acurácia, ou taxa de acerto (Eq. (9)).
G 1,0874 1,4281
B 0,4051 0,3688
ú � �
= ú
(9)
TABELA III: Acurácia (%) obtida pelos descritores OCLMP e OCLBP no TABELA V: Tempo de processamento (em segundos) para geração de um
banco de dados Outex. vetor de caraterísticas, utilizando os descritores OCLMP e OCLBP.
OCLMP (16,2) 93,68 Por meio dos resultados apresentados na Tabela V podemos
Chi-quadrado verificar que para a vizinhança (8,1) os dois descritores
OCLBP (8,1) 91,62 apresentaram tempo de execução muito próximo, perto de 0,11
OCLBP (16,2) 92,35 segundos. No entanto, para a configuração (16,2), a qual
apresenta os melhores resultados de acurácia, o descritor
OCLMP se mostrou em média 3 vezes mais rápido que o
OCLBP, gerando um vetor de características em
aproximadamente 0,15 segundos, enquanto o OCLBP precisa de
TABELA IV: Acurácia obtida pelos descritores OCLMP e OCLBP no
banco de dados USPTex. 0,48 segundos para realizar a mesma tarefa.
Universidade Federal de Mato Grosso do Sul, UFMS, Ponta Porã, MS, Brasil
2
3
Universidade Católica Dom Bosco, UCDB, Campo Grande, MS, Brasil
evertontetila@ufgd.edu.br, bruno.brandoli@ufms.br, gercina.goncalves@gmail.com, pistori@ucdb.br
Abstract—Soybean has been the main Brazilian agricultural pulacional de insetos benéficos [4]. O controle das principais
commodity, contributing substantially to the country’s trade doenças da soja deve ser feito com base nos princı́pios do
balance. However, foliar diseases have hindered the high yield of manejo de doenças da soja [5]. Consiste de tomadas de decisão
soybean production, leading to depreciation of the final product.
This paper proposes a computer vision system to track soybean de controle baseadas no nı́vel de infestação e no estágio
foliar diseases in the field using images captured by the low de desenvolvimento da soja – informações essas obtidas em
cost UAV model DJI Phantom 3. The proposed system is based inspeções regulares por amostragem em diferentes regiões da
on the segmentation method SLIC to detect plant leaves in the lavoura.
images and on visual attributes to describe the features of foliar Normalmente a detecção da doença é realizada visualmente
physical properties, such as color, gradient, texture and shape.
Our methodology evaluated the performance of six classifiers, por um profissional do meio agronômico, o que pode levar a
using images captured at 2 meters high above the plantation. um diagnóstico impreciso ou incorreto. Bock et al. [6] listam
Experimental results showed that color and texture attributes uma série dessas desvantagens. Algumas doenças não têm
lead to higher classification rates, achieving the precision of quaisquer sintomas visı́veis associados, ou somente aparecem
97,80%. Results indicate that our approach can support experts quando é muito tarde para agir. Nesses casos, algum tipo
and farmers to monitor diseases in soybean fields.
Index Terms—soybean foliar diseases, UAVs, aerial images. de análise sofisticada, por meio de microscópios modernos, é
geralmente necessária. Em outros casos, os sinais só podem ser
detectados em algumas faixas do espectro eletromagnético que
I. I NTRODUÇ ÃO
não são visı́veis aos seres humanos. Uma abordagem comum é
A soja (Glycine max) tem sido a principal commodity agrı́cola o uso de sensores remotos que exploram a captura de imagens
brasileira, possuindo importante participação econômica na multiespectrais e hiperespectrais. A maioria das doenças, no
balança comercial do paı́s. O Brasil é o segundo maior entanto, geram algum tipo de manifestação no espectro visı́vel.
produtor mundial de soja, atrás apenas dos EUA. Na safra Devido aos altos custos de controle quı́mico e o seu impacto
2016/2017, o estado de Mato Grosso foi considerado o maior ecológico, um dos objetivos da agricultura de precisão é
produtor brasileiro do grão (29.952,9 milhões de toneladas), reduzir e otimizar as aplicações de pesticidas. A detecção e a
seguido pelo estado do Paraná (18.249,8 milhões de toneladas) classificação de várias doenças em estágios iniciais de epide-
e Rio Grande do Sul (16.374,6 milhões de toneladas) [1]. mias permitem uma aplicação mais eficiente de agroquı́micos
Apesar dos resultados satisfatórios, algumas doenças provo- [3]. Contudo, o monitoramento visual de doenças em estágios
cadas por fungos, bactérias, vı́rus e nematóides tem prejudi- iniciais no campo é um processo que requer elevado conheci-
cado consideravelmente a produção de soja em alguns estados. mento técnico, sendo suscetı́vel a falha humana.
Na safra 2016/17, o Consórcio Antiferrugem registrou 415 Para superar essas questões, há uma crescente motivação
ocorrências de focos da doença ferrugem asiática em diversos ao uso de Veı́culos Aéreos não Tripulados (VANTs) na agri-
estados produtores do Brasil, como Rio Grande do Sul (115 cultura. Segundo a Força Aérea Brasileira (FAB), um VANT
focos), Paraná (87 focos), Mato Grosso do Sul (64 focos), é toda aeronave projetada para operar sem piloto a bordo,
Tocantins (41 focos), Mato Grosso (34 focos), Bahia (32 fo- com carga útil embarcada e não utilizada para fins recreativos.
cos), entre outros [2]. Além disso, doenças como mancha-alvo, Neste contexto, eles são capazes de sobrevoar uma plantação
mı́ldio e oı́dio também podem afetar severamente o rendimento a poucos metros de distância com câmeras de alta resolução
da soja. O diagnóstico precoce de doenças é fundamental espacial, a fim de capturar imagens ricas em detalhes, o que
para a gestão de pesticidas na cultura e, consequentemente, torna possı́vel a criação de um sistema de visão computacional
pode reduzir os prejuı́zos econômicos e o impacto ambiental para identificar diferentes espécies de doenças da cultura de
decorrente do uso excessivo de agroquı́micos [3]. soja. Isso é essencial para a viabilidade deste tipo de aplicação,
Embora os danos causados na cultura da soja sejam, em uma vez que uma grande quantidade de imagens é capturada,
alguns casos, alarmantes, não se indica a aplicação preventiva sendo necessário analisá-las automaticamente. Além disso, o
de produtos quı́micos, pois a aplicação desnecessária eleva alto custo de produtos quı́micos associados a ações de baixo
os custos de produção e contribui para o desequilı́brio po- impacto ecológico levam a melhores práticas da agricultura de
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✽
precisão. Assim, o uso de VANTs em campos de cultivo tem de dados públicos de 54.306 imagens de folhas de plantas
sido considerado um importante instrumento para identificar doentes e saudáveis coletadas sob condições controladas, eles
manchas de doenças, permitindo que peritos e agricultores treinaram uma rede neural convolucional para identificar 14
tomem melhores decisões gerenciais. espécies de culturas diferentes e 26 doenças.
Diante do contexto exposto e da lacuna de pesquisa obser- Pujari et al. [11] analisaram a aparência da doença fúngica
vada, este artigo propõe um sistema de visão computacional oı́dio em diferentes culturas: uva, manga, pimentão, trigo,
para identificar automaticamente doenças foliares da soja, a feijão e girassol. Eles extraı́ram caracterı́sticas de cor e tex-
partir de imagens aéreas capturadas por um modelo de VANT tura das amostras de oı́dio e, depois, utilizaram essas carac-
de baixo custo bastante conhecido no mercado, denominado terı́sticas como entrada para dois classificadores: baseado-em-
DJI Phantom 3. Inicialmente, consideramos um passo de conhecimento e redes neurais artificiais (RNA).
segmentação de imagem para detectar as folhas das plantas nas Rumpf et al. [12] propõem um sistema para detectar doenças
imagens obtidas durante a inspeção de voo. Descrevemos as de plantas utilizando máquina de vetores de suporte baseado
folhas usando caracterı́sticas visuais, incluindo cor, gradiente, em reflectância hiperespectral. A principal contribuição deste
textura e forma. Nossa metodologia avalia seis classificadores trabalho é um procedimento que detecta e classifica, de modo
conhecidos da literatura, utilizando imagens capturadas a 2 pré-sintomático, as doenças cercospora, ferrugem e oı́dio
metros de altura da plantação. A abordagem proposta utiliza da beterraba-sacarina, baseando-se em ı́ndices espectrais da
um conjunto de 3.000 imagens, divididas em 6 classes: ferru- vegetação.
gem asiática, mancha-alvo, mı́ldio, oı́dio, solo (solo exposto e Estudos recentes sobre agricultura de precisão, utilizando
palha) e folhas saudáveis - para avaliar a taxa de classificação imagens de sensoriamento remoto obtidas por VANTs e al-
correta (TCC) do sistema. Os experimentos também compara- goritmos de aprendizado de máquina, foram propostos para
ram as TCC de cada caracterı́stica visual separadamente para identificar doenças em cı́tricos [13], detectar ervas daninhas
descobrir quais atributos são mais significativos em termos de em trigo [14] e também em milho [15]. Em [16], os autores
discriminação na tarefa de reconhecimento de doenças foliares utilizaram sensoriamento remoto com imagens no espectro do
da soja. visı́vel e do infravermelho próximo (NIR) para detectar duas
Este artigo está organizado da seguinte forma. A Seção II doenças de soja, incluindo o nemátodo de cisto e a sı́ndrome
oferece a revisão da literatura. A abordagem proposta para da morte súbita. Yuan et al. [17] recentemente usaram VANTs
identificar as doenças foliares da soja está descrita na Seção para medir o ı́ndice da área foliar da soja.
III. A Seção IV relata os materiais e métodos adotados nesta
pesquisa. A Seção V mostra os resultados experimentais,
seguidos por uma discussão. Finalmente, conclusões e traba- III. A BORDAGEM P ROPOSTA
lhos futuros são apresentados na Seção VI.
Nesta seção, apresentamos uma abordagem de visão computa-
II. R EVIS ÃO DA L ITERATURA cional para identificar doenças foliares da soja através de ima-
Nas últimas décadas muitos sistemas têm sido propostos para gens coletadas pelo VANT Phantom 3. A abordagem proposta
a detecção automática de doenças em plantas. No entanto, adota o algoritmo Simple Linear Iterative Clustering (SLIC)
poucos deles abordam o uso de imagens coletadas por VANTs para detectar as folhas das plantas nas imagens. O método
para a identificação de doenças da soja. Neste contexto, Pires SLIC emprega o algoritmo k-means [18] para a geração de
et al. [7] propuseram um método baseado em descritores locais regiões semelhantes, chamadas superpixels. O parâmetro k do
e histogramas de palavras visuais para identificar doenças de algoritmo refere-se ao número de superpixels na imagem e
soja usando imagens de folhas capturadas por um scanner de permite controlar o tamanho dos superpixels. Aqui, ajustamos
mesa. o parâmetro k para melhor segmentar as folhas das plantas de
soja.
Gui et al. [8] sugerem um novo método adaptado do método
Itti para detectar doenças da soja com base em regiões salien- De acordo com Achanta et al. [19], o algoritmo SLIC agrupa
tes. Este método utiliza recursos de baixo nı́veis de iluminação regiões de pixels no espaço 5-D definido por L, a, b (valores da
e cor, combinados com análise multi-escala para determinar escala CIELAB de cor) e as coordenadas x e y dos pixels. Uma
mapas de saliência em imagens, utilizando o algoritmo k- imagem de entrada é segmentada em regiões retangulares,
means e limiar de experiência combinada. definindo o número k de superpixels com aproximadamente
N
Shrivastava & Hooda [9] apresentam uma aplicação na k pixels, onde N é o número de pixels da imagem. Cada
agricultura para detecção e classificação de duas doenças região compõe
q um superpixel inicial de dimensões S × S,
da soja: mancha marrom e olho de rã. O dispositivo móvel onde S = Nk . Os centros dos agrupamentos de superpixel
captura a imagem no campo e depois um vetor de atributos Ck = [lk , ak , bk , xk , yk ] com k = [1, k] são escolhidos,
de forma é extraı́do no processamento da imagem que ajuda espaçados em uma matriz regular para formar os agrupamentos
um classificador k-NN na classificação da doença. de tamanho aproximado S 2 . Os centros são movidos para o
Mohanty et al. [10] descrevem uma arquitetura de rede valor de menor gradiente sobre uma vizinhança de 3×3 pixels,
neural convolucional para problemas de classificação de ima- evitando a alocação de centroides nas regiões de borda que
gens com um grande número de classes. Usando um conjunto tenham pixels ruidosos. Em vez de usar uma norma euclidiana
✾ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Figura 1. Proposta do sistema de visão computacional para identificar doenças foliares da soja com imagens de VANT.
simples no espaço 5D, uma medida de distância Ds é definida A etapa final mostra uma imagem de teste avaliada pelo nosso
da seguinte forma: sistema de visão computacional (ver passo (e) da Figura 1). O
p resultado da taxa de classificação calculada para cada uma das
dlab = (lk − li )2 + (ak − ai )2 + (bk − bi )2 (1) doenças é mostrado na captura de tela da nossa ferramenta.
p
2
dxy = (xk − xi ) + (yk − yi ) 2 (2)
m IV. M ATERIAIS E M ÉTODOS
Ds = dlab + ∗ dxy (3) As próximas seções cobrem os materiais e métodos adotados
s
onde Ds é a soma da distância dlab (Equação 1) e a distância neste artigo.
dxy (Equação 2), normalizada pelo intervalo S. O parâmetro A. Delineamento Experimental
m corresponde ao controle de compactação do superpixel;
As imagens das plantas de soja foram capturadas a 2 metros de
quanto maior o seu valor, mais compacto é o agrupamento
altura com o VANT Phantom 3. Neste caso, nós escolhemos
em termos de proximidade espacial. Cada pixel da imagem é
dois metros porque valores menores causam o deslocamento
associado ao centroide mais próximo de um grupo e, depois de
das folhas devido ao vento gerado pelas pás dos rotores. Em
todos os pixels estarem associados a um centroide, um novo
contrapartida, para valores mais altos o tamanho das folhas
centro é calculado com o vetor Labxy de todos os superpixels
nas imagens é gradativamente reduzido e, consequentemente,
pertencentes ao grupo. No final do processo, alguns pixels
a resolução da imagem diminui. A Figura 2 mostra diferentes
podem estar conectados a um grupo incorretamente, então o
alturas testadas, no caso, 1, 2, 4, 8 e 16 metros.
algoritmo reforça a conectividade na última etapa, atribuindo
os pixels sozinhos aos maiores grupos vizinhos [19].
Um diagrama esquemático do sistema proposto é mos-
trado na Figura 1. Ela ilustra a metodologia que consiste
de cinco etapas: (a) aquisição de imagens, (b) segmentação
SLIC, (c) conjunto de imagens, (d) extração de atributos e,
finalmente, (e) classificação de doenças foliares. Inicialmente,
Figura 2. Planta da soja com a presença da doença do oı́dio capturada pelo
uma inspeção de voo foi conduzida com o VANT nos campos VANT em diferentes alturas.
de soja para capturar imagens da plantação (ver passo (a)
na Figura 1). Essas imagens foram segmentadas usando o Para tanto, as imagens foram capturadas a partir de um
método SLIC superpixels. Cada segmento de superpixel foi campo experimental de soja, mostrado na Figura 3. A área
classificado visualmente em uma classe especı́fica: ferrugem agrı́cola é situada na fazenda Bom Princı́pio, localizada no
asiática, mancha-alvo, mı́ldio, oı́dio, solo ou amostras de municı́pio de Dourados-MS, com coordenadas geográficas
folhas saudáveis. O valor de k = 2.000 foi ajustado para 22o 6’ 22.77” latitude Sul e 54o 15’ 20.05” longitude
dividir a imagem em 2.000 segmentos de superpixels (Figura Oeste. Foram coletadas 100 imagens aéreas durante a safra
1 (b)). Este valor corresponde ao tamanho aproximado da Set/2016–Fev/2017. A fim de identificar as folhas das plantas
segmentação de uma folha de soja. nas imagens, cada imagem foi segmentada por meio do
Após a segmentação da imagem com o método SLIC, os método baseado em superpixel, de acordo com o parâmetro
segmentos foliares pertencentes à classe foram visualmente k que melhor ajusta a detecção das folhas na planta. Para
analisados por um especialista para compor um conjunto de os nossos experimentos, os melhores parâmetros k foram
imagens de superpixels para treinamento e teste do sistema, encontrados empiricamente com o valor de 2.000 superpixels
ver etapa (c) da Figura 1. Neste caso, um perito ou um para segmentar as folhas das plantas de soja. Como resultado,
agrônomo foi responsável pela avaliação da representatividade 3.000 imagens de superpixels, sendo 500 imagens para cada
da amostra para a análise estatı́stica. Subsequentemente, as classe, foram distribuı́das entre as seis classes de identificação
imagens foram descritas como caracterı́sticas baseadas na cor, de doenças da soja. As classes, neste caso, correspondem às
gradiente, textura e forma (ver passo (d) da Figura 1) através doenças: ferrugem asiática, mancha-alvo, mı́ldio, oı́dio, solo e
de vetores de atributos extraı́dos das imagens de superpixels. folhas sem doença.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✵
Tabela I
M ÉTRICAS DE DESEMPENHO UTILIZADAS PARA AVALIAR O SISTEMA DE
VIS ÃO COMPUTACIONAL PROPOSTO .
Classificador TCC (%) Medida-F (%) Área ROC (%) Tempo (s) Figura 6. Diagrama boxplot comparando o desempenho entre os classifica-
SMO 97,80 97,80 99,50 0,62 dores para a métrica TCC.
RandomForest 97,76 97,80 99,90 4,47
J48 94,93 94,90 97,30 1,78
NaiveBayes 51,16 48,50 90,50 0,20
k-NN 88,03 88,00 92,80 0,00
AdaBoost 32,96 18,30 72,10 0,19
Figura 7. Matriz de confusão obtida pelo classificador SMO com a TCC para
cada classe investigada.
B. Avaliação de Extratores de Atributos O atributo cor é mais significativo que os demais atribu-
Outro objetivo do experimento foi avaliar o desempenho de tos porque as manchas de doenças geralmente apresentam
cada caracterı́stica visual que descreve as propriedades fı́sicas diferentes colorações na folha. Os primeiros sintomas da
da folha. Para este propósito, os atributos baseados em cor, gra- ferrugem asiática são caracterizados por pequenos pontos de
diente, textura e forma foram comparados individualmente em coloração esverdeada a cinza-esverdeada, mais escuros do
termos de TCC calculados pelo classificador SMO, como mos- que o tecido sadio da folha. As lesões da mancha-alvo se
tra a Figura 8. Os resultados deste experimento demonstram iniciam por pontuações pardas, com halo amarelado, evoluindo
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✷
para grandes manchas circulares de coloração castanho-clara a [11] J. D. Pujari, Recognition and classification of Produce affected
castanho-escura. Os sintomas iniciais do mı́ldio são manchas by identically looking Powdery Mildew disease, Y. Rajesh, Ed.
De Gruyter Open, 2014. [Online]. Available: https://doaj.org/article/
verde-claras que evoluem para a cor amarela na parte superior ef63bd9fffc34d42af2146c82c9127da
da folha. Já a doença oı́dio apresenta uma fina cobertura [12] T. Rumpf, A.-K. Mahlein, U. Steiner, E.-C. Oerke, H.-W. Dehne,
esbranquiçada nas folhas em decorrência da coloração branca and L. Plümer, “Early detection and classification of plant diseases
with support vector machines based on hyperspectral reflectance,”
do fungo [31]. Computers and Electronics in Agriculture, vol. 74, no. 1, pp. 91 – 99,
2010. [Online]. Available: http://www.sciencedirect.com/science/article/
VI. C ONCLUS ÃO pii/S0168169910001262
[13] F. Garcia-Ruiz, S. Sankaran, J. M. Maja, W. S. Lee, J. Rasmussen,
Neste artigo foi proposta uma nova abordagem baseada no and R. Ehsani, “Comparison of two aerial imaging platforms for
método de segmentação SLIC para identificar doenças foli- identification of huanglongbing-infected citrus trees,” Comput. Electron.
ares da soja utilizando VANTs. Consideramos um passo de Agric., vol. 91, pp. 106–115, 2013.
[14] J. Torres-Sánchez, J. Peña, A. de Castro, and F. López-Granados, “Multi-
segmentação de imagem para detectar as folhas das plantas nas temporal mapping of the vegetation fraction in early-season wheat fields
imagens tomadas com voos de um VANT modelo Phantom. using images UAV,” Computers and Electronics in Agriculture, vol. 103,
Em seguida, foi realizada a etapa de extração de caracterı́sticas pp. 104–113, 2014.
[15] J. M. Peña, J. Torres-Sánchez, A. Serrano-Pérez, A. I. de Castro, and
usando descritores visuais, incluindo cor, gradiente, textura e F. López-Granados, “Quantifying efficacy and limits of unmanned aerial
forma. Na etapa de classificação da nossa abordagem, com- vehicle (uav) technology for weed seedling detection as affected by
paramos seis classificadores bem conhecidos na literatura. A sensor resolution,” Sensors, vol. 15, no. 3, pp. 5609–5626, 2015.
[16] S. G. Bajwa, J. C. Rupe, and J. Mason, “Soybean disease monitoring
taxa de classificação correta confirmou que a nossa abordagem with leaf reflectance,” Remote Sensing, vol. 9, no. 2, pp. 127–133, 2017.
obteve a precisão de 97,80% na identificação da doença foliar, [17] H. Yuan, G. Yang, C. Li, Y. Wang, J. Liu, H. Yu, H. Feng, B. Xu,
utilizando o classificador SMO em imagens capturadas a 2 me- X. Zhao, and X. Yang, “Retrieving soybean leaf area index from
unmanned aerial vehicle hyperspectral remote sensing: Analysis of rf,
tros de altura. Os resultados experimentais também indicaram ann, and svm regression models,” Remote Sensing, vol. 9, no. 4, pp.
que os atributos de cor e textura levam a maiores taxas de 309–315, 2017.
classificação. Como parte de trabalhos futuros, pretendemos [18] J. A. Hartigan and M. A. Wong, “A k-means clustering algorithm,”
JSTOR: Applied Statistics, vol. 28, no. 1, pp. 100–108, 1979.
realizar novos experimentos com câmeras multiespectrais e [19] R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, and S. Susstrunk,
de maior resolução. Também consideramos comparar a nossa “Slic superpixels compared to state-of-the-art superpixel methods,”
abordagem com outras abordagens de aprendizagem. IEEE Trans. Pattern Anal. Mach. Intell., vol. 34, no. 11, pp. 2274–2282,
2012. [Online]. Available: http://dx.doi.org/10.1109/TPAMI.2012.120
[20] M. J. Swain and D. H. Ballard, “Color indexing,” International Journal
R EFER ÊNCIAS of Computer Vision, vol. 7, no. 1, pp. 11–32, 1991. [Online]. Available:
[1] C. N. de Abastecimento (CONAB), “Acompanhamento da safra http://dx.doi.org/10.1007/BF00130487
brasileira grãos, v.4 - safra 2016/17 - n.6 - sexto levantamento [21] N. Dalal and B. Triggs, “Histograms of oriented gradients for human
(in portuguese),” Brası́lia, DF, Brasil, pp. 1–176, 2017. [Online]. detection,” in Computer Vision and Pattern Recognition, 2005. CVPR
Available: http://www.conab.gov.br/OlalaCMS/uploads/arquivos/17 03 2005. IEEE Computer Society Conference on, vol. 1. IEEE, 2005, pp.
14 15 28 33 boletim graos marco 2017bx.pdf 886–893.
[2] E. B. de Pesquisa Agropecuária (EMBRAPA), “Consórcio antiferrugem [22] R. M. Haralick, “Statistical and structural approaches to texture,” Pro-
(safra 2016/2017) (in portuguese),” Brası́lia, DF, Brasil, 2016. [Online]. ceedings of the IEEE, vol. 67, no. 5, pp. 786–804, 1979.
Available: https://www.embrapa.br/soja/ferrugem/consorcioantiferrugem [23] T. Ojala, M. Pietikäinen, and T. Mäenpää, “Multiresolution gray-scale
[3] C. Hillnhuetter and A.-K. Mahlein, “Early detection and localisation of and rotation invariant texture classification with local binary patterns,”
sugar beet diseases: new approaches,” Gesunde Pflanzen, vol. 60, no. 4, IEEE Trans. Pattern Anal. Mach. Intell., vol. 24, no. 7, pp. 971–
pp. 143–149, 2008. 987, 2002. [Online]. Available: http://dx.doi.org/10.1109/TPAMI.2002.
[4] E. B. de Pesquisa Agropecuária (EMBRAPA), “Nı́veis de desfolha 1017623
tolerados na cultura da soja sem a ocorrência de prejuı́zos à [24] M. K. Hu, “Visual Pattern Recognition by Moment Invariants,” IRE
produtividade (in portuguese),” Londrina, PR, Brasil, 2010. [Online]. Transactions on Information Theory, vol. 8, pp. 179–187, 1962.
Available: http://www.cnpso.embrapa.br/download/CT79VE.pdf [25] J. C. Platt, “Advances in kernel methods,” B. Schölkopf, C. J. C.
[5] A. A. Henning, “Manejo de doenças da soja (glycine max l. merrill) (in Burges, and A. J. Smola, Eds. Cambridge, MA, USA: MIT
portuguese),” Informativo ABRATES, vol. 19, no. 3, p. 4, 2009. [Online]. Press, 1999, ch. Fast Training of Support Vector Machines Using
Available: http://ainfo.cnptia.embrapa.br/digital/bitstream/item/96109/1/ Sequential Minimal Optimization, pp. 185–208. [Online]. Available:
Manejo-de-doencas-da-soja-Glycine-max-L.-Merrill.pdf http://dl.acm.org/citation.cfm?id=299094.299105
[6] C. Bock, G. Poole, P. Parker, and T. Gottwald, “Plant disease severity [26] B. Kégl, “The return of adaboost.mh: multi-class hamming trees,”
estimated visually, by digital photography and image analysis, and by CoRR, vol. abs/1312.6086, 2013. [Online]. Available: http://arxiv.org/
hyperspectral imaging,” Critical Reviews in Plant Sciences, vol. 29, abs/1312.6086
no. 2, pp. 59–107, 2010. [27] J. R. Quinlan, “Induction of decision trees,” Mach. Learn., vol. 1, no. 1,
[7] R. D. L. Pires, D. N. Gonçalves, J. P. M. Oruê, W. E. S. Kanashiro, J. F. pp. 81–106, Mar. 1986. [Online]. Available: http://dx.doi.org/10.1023/A:
Rodrigues, B. B. Machado, and W. N. Gonçalves, “Local descriptors for 1022643204877
soybean disease recognition,” Computers and Electronics in Agriculture, [28] T. K. Ho, “Random decision forests,” in Proceedings of the Third
vol. 125, pp. 48–55, 2016. International Conference on Document Analysis and Recognition,
[8] Q. Z. Jiangsheng Gui, Li Hao and X. Bao, “A new method for soybean ser. ICDAR ’95. Washington, DC, USA: IEEE Computer Society,
leaf disease detection based on modified salient regions,” International 1995, pp. 278–285. [Online]. Available: http://dl.acm.org/citation.cfm?
Journal of Multimedia and Ubiquitous Engineering, vol. 10, pp. 45–52, id=844379.844681
2015. [29] N. S. Altman, “An introduction to kernel and nearest-neighbor non-
[9] D. S. H. Sourabh Shrivastava, “Automatic brown spot and frog eye parametric regression,” The American Statistician, vol. 46, no. 3, pp.
detection from the image captured in the field,” American Journal of 175–185, 1992.
Intelligent Systems, vol. 4, no. 4, pp. 131–134, 2014. [30] S. J. Russell and P. Norvig, Artificial Intelligence: A Modern Approach,
[10] S. P. Mohanty, D. P. Hughes, and M. Salathé, “Using deep learning 2nd ed. Pearson Education, 2003.
for image-based plant disease detection,” CoRR, vol. abs/1604.03169, [31] E. B. de Pesquisa Agropecuária (EMBRAPA), “Manual de identificação
2016. [Online]. Available: http://arxiv.org/abs/1604.03169 de doenças de soja - 5a edição (in portuguese),” 2014.
✶✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Valberto Enoc Rodrigues da Silva Filho1 Tarique da Silveira Cavalcante1 Edson Calvalcanti Neto2
1 Instituto Federal de Educação, Ciência e Tecnologia do Ceará, IFCE
2 Centro Universitário Estácio do Ceará
Resumo—The advance of computing has enabled the creation Neste contexto, pode-se definir um sistema de Reconhe-
of new technologies, which cover various commercial and non- cimento Facial e suas características como sendo um sistema
commercial sectors, such as, analysis of medical images, tracking de Visão Computacional que tem por objetivo identificar ou
systems, security, among others. In particular, companies have verificar indivíduos através de imagens faciais. Um sistema
sought to innovate in their security systems to protect their desse tipo consiste das seguintes etapas: Detecção Facial,
heritage and provide protection to their employees. Among the
Normalização, Representação e Classificação [2]. As etapas
prominent innovations, biometric identification systems, especi-
ally making use of facial biometrics, rises as good alternative de representação e classificação são enfatizadas nesse traba-
to replace most archaic and unsafe méthods. Facial recognition lho. Sobretudo a etapa de extração de atributos usadas para
systems are advantageous because they are reliable and not representar os objetos a serem classificados.
invasive. These systems are recurrent in the literature, and so have
Alguns exemplos de técnicas para extração de atributos são
provided the advancement of artificial intelligence techniques
to carry out this task. Among them, the LBP to extract facial encontrados na literatura. Destacam-se dois métodos em que
attributes have been noted for its computational simplicity and podem ser divididos os algoritmos de extração de atributos:
highly representativeness. This work is carried out an evaluation Holísticos e Baseados em Caracteríticias Locais [2]. No pri-
study of LBP together with an emerging neural network in meiro método, toda a imagem facial é utilizada como entrada
complex classification problems, ELM. In addition, this study do sistema de classificação. Um exemplo deste é o algoritmo
will be applied to two datasets of public domain images, namely, conhecido como Eigenfaces, que aplica a Análise de Compo-
Yale face database and Yale face database B, as well as a third nentes Principais (PCA) na imagem facial de entrada e a fim
proprietary dataset, created for this work. The results obtained de diminuir a dimensionalidade dos atributos, aumentando sua
with an average hit rate of 97.52% for the Yale B dataset, 81.32% representatividade [3]. No segundo método, atributos locais são
for the Yale dataset, and 99.57% for the proprietary dataset
extraídos. Atributos locais podem ser as medidas geométricas
suggests a combination of promising and robust techniques in
the facial recognition task in frontal images, which can be used da face, medidas de textura ou até descritores locais baseados
in access control systems. em transformada Wavelet.
Keywords—Facial Recognition, LBP, ELM O LBP tem sido recorrente em trabalhos que envolvem a
classificação de indivíduos por biometria facial. No entanto,
I. I NTRODUÇÃO para verificar a robustez do mesmo, classificadores mais sim-
O crescente avanço da ciência da computação tem influ- ples são utilizados. Neste trabalho, a classificação é realizada
enciado cada vez mais a vida do homem. Com o aumento da por um algoritmo de reconhecimento de padrões robusto e que
quantidade de dispositivos eletrônicos, tendo como exemplo tem sido utilizado para resolver problemas de grande comple-
tablets e smartphones, o uso de recursos computacionais no xidade: a rede neural Extreme Learning Machine (ELM).
cotidiano tem proporcionado mais oportunidade para o surgi- Alom [4] utilizam este classificador, além de algumas
mento de novas tecnologias. Novas idéias surgem a cada dia variações propostas, na tarefa de reconhecimento facial. Foi
para facilitar tarefas mais simples, por exemplo o agendamento verificado que o mesmo obtém resultados satisfatórios utili-
de compromissos eletronicamente, ou tarefas mais complexas, zando LBP como extrator de características.
como a aplicação em sistemas de segurança para controle de
acesso, ou identificação de indivíduos em ambientes públicos. Nexte contexto, este trabalho propõe analisar o desempe-
nho de duas variações do LBP: LBP8,1 e LBP8,2 , bem como
O uso de sistemas computacionais aplicados no contexto o desempenho da rede neural ELM e o efeito da variação de
de segurança tem mostrado ter relevância comercial. Diversos neurônios na camada oculta da rede no resultado final. Além
segmentos empresariais têm utilizado deste método para prote- disso, os algoritmos são aplicados em dois bancos de imagens
ger seu patrimônio e/ou prover segurança a terceiros, sobretudo de domínio público: Yale face database e Yale face database
com a implementação de sistemas de identificação biométrico B, além de um banco de imagens criado para este trabalho.
[1].
II. M ATERIAIS E MÉTODOS
Alguns exemplos de sistemas de identificação biométrico
são: reconhecimento de impressões digitais, reconhecimento Na Figura 1 é ilustrado o fluxograma do sistema desen-
de voz, reconhecimento de íris, reconhecimento facial, dentre volvido. A primeira etapa consiste na aquisição da imagem,
outras. O desenvolvimento desses métodos é possível por causa após a aquisição da imagem, o algoritmo de detecção de faces
da análise e processamento das imagens digitais fornecidas ao é aplicado à imagem original. A finalidade desse algoritmo
sistema, utilizando técnicas de visão computacional (VC). é encontrar as coordenadas da face na imagem, seguido por
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✹
um enquadramento adequado, resultando em uma imagem que Figura 3. Exemplo de imagens do Yale Face Database B Fonte: Autor
contém apenas a face, com o mínimo de informações externas.
Uma vez obtida a face recortada, esta é pré-processada e 2) Banco Próprio: Para a criação do banco próprio, foi
preparada para a etapa de extração de atributos. utilizada uma câmera USB da marca Logitech de referência
Na etapa de extração de características, são computados os C210. A resolução desta câmera é de 640 × 480 pixels e taxa
atributos da face de acordo com o algoritmo escolhido. Neste de captura de 15 frames por segundo foram determinantes na
trabalho, é dado o foco ao LBP e algumas de suas variações. escolha desta câmera, pois assim pode-se verificar o nível
Estes atributos são os dados de entrada para o algoritmo de de detalhes necessários da imagem para que os algoritmos
reconhecimento classificar o indivíduo encontrado na imagem envolvidos no processo de extração de atributos e reconheci-
original. Cada etapa deste processo é explicada com mais mento funcionem satisfatoriamente. Outra vantagem da câmera
detalhes a seguir. utilizada é o fato de possuir ajuste de foco automático.
A câmera foi utilizada em ambientes e iluminações varia-
A. Banco de Imagens das. Isto foi feito com o objetivo de simular ambientes cotidi-
A primeira etapa do sistema consiste em adquirir as ima- anos onde o sistema pode ser usado para controle de acesso.
gens que são avaliadas nos testes de detecção facial, extração Essas variações são importantes para garantir a robustez do
de atributos e finalmente, reconhecimento facial. algoritmo de detecção facial.
da imagem de modo a ter sempre a mesma dimensão fixa. A 3) Equalização de Histograma: Para finalizar o pré-
dimensão escolhida para redimensionar a imagem foi de 190× processamento da imagem facial, é realizada a equalização
250. Este valor foi determinado empiricamente, porém levando de histograma da mesma. O objetivo da equalização nesta
em consideração as dimensões do retângulo que circunscreve a etapa é normalizar as intensidades da imagem para que seja
face, de modo a reduzir a perda de informações com a operação possível uma leitura robusta das medidas globais de contraste
de redimensionamento. Esta imagem é a imagem da face final, e variações de intensidade [7].
que é processada e classificada.
A Figura 5 contém exemplos de diferentes faces extraídas
da imagem original após detecção.
e R = 1 e cerca de 70% com P = 8 e R = 2. Deste modo, testes empíricos a fim de determinar o valor mais adequado
os padrão não-uniformes são agrupados em um único número para cada situação estudada.
decimal, a partir destes valores, um histograma é construído
representando a distribuição de frequência de cada padrão Para cada banco, foram calculadas métricas estatísticas re-
binário presente na imagem. presentativas do desempenho da rede neural ELM. As medidas
são taxa de acerto média (µ), taxa de acerto máximo (txmax ),
Pietikainen et al. [10] relatam que diversos trabalhos na taxa de acerto mínimo (txmin ), desvio padrão (σ).
literatura obtiveram melhores resultados quando utilizados
apenas os padrões uniformes ao invés de todos os padrões A taxa de acerto mede a quantidade de previsões corretas
possíveis. Fazer esta consideração torna os padrões mais repre- pela rede neural dividido pela quantidade de dados a serem
sentativos para o conjunto de dados em questão. Além disso, reconhecidos. A média desta medida pode ser expressa pela
os padrões uniformes são mais estáveis e menos propensos a equação seguinte:
ruídos [10].
txmax + txmin
A notação (P, R) nos permite analisar a quantidade de µ= . (3)
2
atributos calculados. Isto é possível pois sabe-se, pela quanti-
dade de pontos P , quantos padrões binários uniformes e não O desvio padrão é uma medida de dispersão estatística, e
uniformes são possíveis. Para P = 8, existem 58 padrões mede a variação existente de uma amostra em relação a média.
uniformes. Todavia, os padrões não uniformes são desconsi- O desvio padrão é definido pela seguinte fórmula:
derados. Assim, um vetor de 58 atributos é calculado para
cada região da imagem. Como as imagens foram divididas v
u
em 25 regiões, tem-se que a quantidade total de atributos por u 1 X
n
Percebe-se que as taxas de acerto são boas em ambas as motivo para o baixo desempenho do algoritmo de classificação
variações do LBP. Contudo, é possível observar que o LBP82 neste grupo de imagens.
obtém desempenho mais estável, pois mostrou resultados com
O LBP, por ser um descritor de texturas local, é sensível
menor desvio padrão, além de taxas médias semelhantes ao
à informações de forma geométrica. Neste caso, as expressões
longo da variação do número de neurônios. No entanto, houve
faciais presentes nesse banco influenciam fortemente as infor-
um declínio abrupto nas taxas de acerto com o aumento
mações locais da face do indivíduo.
suficiente da quantidade de neurônios. Isso ocorre devido a
multiplicação de matrizes presente na etapa de cálculo dos É apresentado na Figura 9 uma sobreposição das curvas,
pesos da rede neural, que envolve a geração de matrizes in- o que sugere que ambas as variações do LBP são sensíveis
versas, em que a grande diferença na quantidade de neurônios a mudanças de expressões faciais dos indivíduos. Todavia, o
em relação a quantidade de amostras do banco produz divisão mesmo aspecto côncavo da curva pode ser observado, o que
por número próximos de zero. indica que a quantidade de neurônios da camada oculta tem
um ponto ótimo em um valor intermediário na faixa de valores
escolhidos.
Figura 8. gráfico das taxas de acerto médio do LBP81 , LBP82 para o Yale
B.
Quanto a variação da quantidade de neurônios na camada Figura 9. gráfico das taxas de acerto médio do LBP81 , LBP82 para o Yale
oculta, foi observado que existe um valor ótimo para obtenção B.
das maiores taxas de acerto da rede neural. Como é ilustrado
na Figura 8, nota-se uma concavidade na curva que sugere que Foi concluído que, para o conjunto Yale B, o LBP obtém
existe uma quantidade de neurônios específica para o melhor excelente desempenho em condições de iluminação variadas.
desempenho da rede. Porém, este algoritmo não teve o mesmo sucesso com imagens
onde a geometria e medidas computacionais de texturas são
Analogamente aos resultados apresentados para o primeiro alteradas devido a diferentes expressões faciais das amostras
banco de imagens, a Tabela II contém as taxas de acerto obtidas
do banco Yale. É possível atribuir as baixas taxas a pequena
pela rede neural ELM aplicadas ao conjunto de dados Yale
quantidade de amostras com faces expressões constantes, isto
Face Database, utilizando as duas variações do LBP.
é, mais de uma imagem com a mesma expressão facial.
B. Banco Próprio
O banco de imagens faciais criadas pelo autor é composto
por imagens que simulam um ambiente cotidiano de um sis-
tema de controle de acesso. Todavia, imagens foram capturadas
em ambientes diferentes, porém com o cuidado de se obter
iluminação constante, não havendo nenhum esforço ativo em
capturar imagens com iluminação inadequada. As pessoas
envolvidas na construção do banco foram instruídas a agirem
de forma natural em frente a câmera, tal qual um funcionário
agiria ao tentar ter acesso por meio dessa biometria.
Como pode ser observado na Tabela III, as taxas de acerto
Tabela II. TABELA COM TAXAS DE ACERTO OBTIDAS DO LBP81 , obtidas nos testes realizados neste banco são elevadas, e de alto
LBP82 PARA O Yale B. valor prático, mostrando que esta combinação seria eficaz na
tarefa de um sistema de controle de acesso por reconhecimento
facial.
A taxas de acerto para este conjunto de dados não são
adequadas para um sistema prático. O banco de imagens faciais Nota-se, que tal qual o banco Yale, a diferença entre as
Yale é composto por imagens com diferentes expressões faciais variações do LBP é desprezível. Como pode ser visto na Figura
em cada amostra. Essas variações, juntamente com a baixa 10. Além disso, o gráfico aponta para um crescimento na
quantidade de amostras podem ser vistas como o principal taxa de acerto médio proporcional a quantidade de neurônios
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✽
IV. C ONCLUSÃO
Esta trabalho realizou uma avaliação dos método de pa-
drões binários locais (LBP), para extração de características
faciais, em conjunto com a rede neural ELM como algoritmo
de classificação aplicadas ao problema de biometria facial.
Essa avalicação foi realizada através do teste da influência das
variações de raio e quantidade de pontos do operador LBP e da
quantidade de neurônios na camada oculta da rede neural. Para
isto, é utilizado um conjunto de dados proprietário, construído
para este trabalho, bem como banco de imagens faciais sempre
presente na literatura.
Observou-se que a combinação LBP + ELM, bem
como a aplicação de uma combinação de técnicas de pré-
processamento, alcança a taxa média de 97,52% de acerto no
caso de um banco de imagens mais exigente por sua grande
quantidade de amostras e variedade de iluminação, Yale Face
Database B. Além disso, obtém 80,32% no banco Yale Face
Tabela III. TABELA COM TAXAS DE ACERTO OBTIDAS DO LBP81 , Database, no qual as imagens possuem alterações irrevelantes
LBP82 PARA O Yale B. na iluminação, porém bastante variação em expressões faciais,
justificando a redução no desempenho do algoritmo proposto.
E finalmente, atinge alto desempenho de 99,60% de taxa de
acerto médio em situação semelhante a de um sistema de
controle de acesso.
R EFERÊNCIAS
[1] R. Hans, “Using a biometric system to control access and exit of
vehicles at shopping malls in south africa,” in Engineering Technology
and Technopreneuship (ICE2T), 2014 4th International Conference on,
Aug 2014, pp. 148–151.
[2] R. Rouhi, M. Amiri, and B. Irannejad, “A review on feature extraction
techniques in face recognition,” Signal & Image Processing, vol. 3,
no. 6, p. 1, 2012.
[3] M. Slavković and D. Jevtić, “Face recognition using eigenface appro-
ach,” Serbian Journal of electrical engineering, vol. 9, no. 1, pp. 121–
130, 2012.
[4] M. Zahangir Alom, P. Sidike, V. Asari, and T. Taha, “State preserving
Figura 10. gráfico das taxas de acerto médio do LBP81 , LBP82 para o extreme learning machine for face recognition,” in Neural Networks
Yale B. (IJCNN), 2015 International Joint Conference on, July 2015, pp. 1–7.
[5] A. Georghiades, P. Belhumeur, and D. Kriegman, “Yale face data-
base,” Center for computational Vision and Control at Yale University,
na camada oculta. Alcançando seu valor máximo com 120 http://cvc. yale. edu/projects/yalefaces/yalefa, vol. 2, 1997.
neurônios na camada oculta, obtendo a taxa de acerto média [6] P. Viola and M. J. Jones, “Robust real-time face detection,” International
de 99,60%. journal of computer vision, vol. 57, no. 2, pp. 137–154, 2004.
[7] X. Tan and B. Triggs, “Preprocessing and feature sets for robust
Os testes realizados mostram que o LBP é versátil na face recognition,” in IEEE conference on computer vision and pattern
tarefa de classificação das faces. Apresentando desempenho recognition, CVPR, vol. 7, 2007, pp. 1–8.
satisfatório em reconhecer indivíduos, através de biometria [8] R. C. Gonzalez and R. E. Woods, Digital Image Processing, 2nd ed.
Prentice Hall, January 2008.
facial, em condições de iluminação desfavoráveis. Todavia,
[9] T. Ojala, M. Pietikainen, and T. Maenpaa, “Multiresolution gray-scale
houve uma queda nas taxas de acerto média quando tratavam- and rotation invariant texture classification with local binary patterns,”
se de imagens diferentes expressões faciais. Isso se deve ao fato IEEE Transactions on Pattern Analysis and Machine Intelligence,
do LBP ser um descritor local, o que torna as informações de vol. 24, no. 7, pp. 971–987, 2002.
regiões da imagem essenciais para os atributos da face como [10] M. Pietikainen, A. Hadid, G. Zhao, and T. Ahonen, Computer Vision
um todo. Além disso, foi possível observar a influência da Using Local Binary Patterns. Springer, 2011, vol. 40.
quantidade de neurônios da camada oculta na rede neural. [11] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning
machine: Theory and applications ",” Neurocomputing, vol. 70, no.
É possível observar que existe uma faixa de valores ótimos 1–3, pp. 489 – 501, 2006, neural NetworksSelected Papers from
para cada conjunto de dados a ser classificado. the 7th Brazilian Symposium on Neural Networks (SBRN ’04)7th
Brazilian Symposium on Neural Networks. [Online]. Available:
Dessa forma, podem-se atribuir os bons resultados à boa http://www.sciencedirect.com/science/article/pii/S0925231206000385
representatividade do LBP em extrair atributos de faces em [12] A. A. Mohammed, R. Minhas, Q. M. J. Wu, and M. Sid-Ahmed,
“Human face recognition based on multidimensional pca and extreme
situações normais, simuladas no banco próprio, assim como learning machine,” Pattern Recognition, vol. 44, pp. 2588–2597, 2011.
a eficácia da rede ELM em classificar objetos suficientemente
bem representativos.
✶✾ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Edson Calvalcanti Neto2 Paulo César Cortez2 Valberto Enoc Rodrigues da Silva Filho1 Tarique da Silveira Cavalcante1
1 Instituto Federal de Educação, Ciência e Tecnologia do Ceará, IFCE
2 Universidade Federal do Ceará
os lobos dos pulmões e são importantes na localização de partir de vários tomógrafos, pois as imagens utilizadas foram
áreas que podem originar doenças que se espalham entre os obtidas de LObe Lung Analysis 11. A etapa seguinte consiste
lobos. Fissuras incompletas podem provocar um fluxo colateral na segmentação do pulmão, ou seja, nesta etapa será destacado
entre lobos e tornar determinada intervenção broncoscópica o pulmão na imagem, pois o método proposto atua de forma
de doenças pulmonares crônicas ineficazes. Já as fissuras a identificar fissuras dentro do pulmão. Após a segmentação
acessório são uma fenda de profundidade variável coberta do pulmão é realizada a filtragem Gaussiana 3D na imagem
por pleura visceral que ocorrem mais frequentemente entre original de forma a filtrar os ruídos. De posse do resultado
os segmentos pulmonares, mas também podem entrar planos da segmentação do pulmão e da filtragem, a próxima etapa
subsegmentares ou interbronquiais. Na literatura a maioria dos consiste na detecção da fissura pulmonar através de uma rede
métodos de detecção automática de fissura visam apenas a supervisionada. Por fim é realizado um pós-processamento
detecção de fissuras lobares [8]. para retirada de ruídos e preenchimento de algumas pequenas
lacunas. O fluxograma das etapas do método desenvolvido
A segmentação das fissuras pulmonares de tomografias
neste trabalho é ilustrado na Figura 2.
de tórax se tornou viável com o advento dos tomógrafos de
múltiplos detectores, permitindo a obtenção de imagens finas
a partir de TC de todo o pulmão. Uma vez que as fissuras
são superfícies finas nos pulmões, sobre uma secção grossa de
tomografia computadorizada, as fissuras são visíveis apenas
como bandas vagas de aumento da densidade devido ao efeito
de volume parcial [9].
Em imagens de TC, a fissura pode muitas vezes ser obser-
vada como uma curva fina com altos valores de atenuação, em
comparação com os tecidos circundantes [6]. Quando vista a
imagem do TC no plano axial da parte superior para inferior
do tórax, a fissura que mede a partir do meio para o lado
lateral do pulmão, parece mover-se a partir da posição posterior
para a anterior em ambos os pulmões. Na Figura 1 é possível
observar uma imagem de TC em que a fissura é destacada
a partir de um retângulo vermelho tanto no pulmão direito
quanto no esquerdo.
(a) (b)
D. Pós-Processamento
No pós-processamento é realizada uma análise de com-
ponentes conectadas baseada no algoritmo de crescimento
de regiões 3D, tendo como dados de entrada as imagens
resultantes da limiarização através da rede MLP na etapa
anterior.
A partir da imagem limiarizada, é armazenado em um vetor
V = [v1 v2 ... vn ] que são os voxels rotulados como
sementes, ou seja, os voxels que são rotulados como fissura
(a) (b)
pela rede. Deste modo, calcula-se a media µs dos componentes
desse vetor. Figura 7. imagens após aplicação do método proposto nesta dissertação, a e
b) resultados com afinamento.
A classificação do voxel v(x, y, z) em fissura ou não fissura
é concluída após a realização da etapa de análise de vizinhança.
Para ilustrar o resultado do método, é possível demarcar a
A partir da semente, o volume cresce de acordo com a fissura na imagem 2D, Figura 8(a), como também é possível
sua vizinhança até que em sua N iteração nenhum voxel seja gerar a imagem 3D do pulmão juntamente com a fissura,
adicionado. O método para identificação de similaridade entre Figura 8(b). A partir da Figura 8(b) é possível identificar o
os voxels ocorre através do nível de cinza, o qual, se for branco, formato resultante da fissura que se aproxima do modelo da
pertence à classe fissura e preto se for da classe não-fissura. fissura real em um pulmão.
Por fim, os volumes acima de 0,1 ml são mantidos e se forem
menores são descartados. O limiar de 0,1 ml foi obtido através
da literatura.
A imagem Ir é resultante do CR3D consiste que se
Ir (x, y, z) = 1 conclui-se que o voxel v(x, y, z) pertence à
classe fissura pulmonar. Em caso contrário, se Ir (x, y, z) = 0,
o voxel não foi classificado como fissura.
Após o CR3D, um fechamento através de operação mor-
fológica é aplicado nas imagens. A operação morfológica de
fechamento, baseada na metodologia descrita, é aplicado com
um kernel 3x3x3 cúbico de voxels, com o objetivo de fechar (a) (b)
lacunas menores. O elemento estruturante utilizado foi uma Figura 8. imagens da segmentação das fissuras pulmonares, a) resultado da
esfera de raio igual a 3 voxels. segmentação 2D em verde, e b) resultado da segmentação 3D.
✷✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Tabela III. RESULTADO DO CLASSIFICADOR POR DIFERENTES TAMANHOS DE JANELA BASEADO NA DISTÂNCIA MÉDIA E DESVIO PADRÃO
R EFERÊNCIAS
[1] T. da Silveira Cavalcante, “Análise comparativa de técnicas para
segmentação automática de vias aéreas em imagens de tomografia
✷✺ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Abstract — the task of eye localization is a very important one, necessitam de imagens com grande contraste para atingirem
being too much relevant for several applications in computer grandes resultados [6]. Os métodos appearance-based utilizam
vision, such as face recognition, face and eye tracking, face técnicas estatísticas como PCA, SVM, etc. Apresentam o
expression evaluation, face alignment, eye blink detection, etc. inconveniente de terem dificuldades em encontrar os
This is a challenging and open task when considered in verdadeiros positivos em regiões pequenas e com um baixo
uncontrolled scenarios, which presents great variation of lighting, nível de falsos positivos. Por fim, o método feature-based faz
poses, facial expressions, partial occlusions, makeup, etc. This uso de algumas características dos olhos para discriminá-lo de
paper proposes a new method for precise eye localization under outros objetos, sofrendo também com imagens de baixo
uncontrolled conditions: the main goal of this method is the
contraste e com oclusões parciais dos olhos [7].
proposed MHBWLF (Multiscale High-boost Weber Local Filter).
This filter enhances the details of the periocular region (region Uma outra classe muito importante corresponde aos
around the eyes) by emphasizing the high frequency components, métodos que utilizam filtros baseados no domínio da
without eliminating the low ones. The proposed method was frequência, tais como ASEF [8] e MOSSE [9]. O filtro ASEF
evaluated using LFW and BioID databases and the results (average of synthetic exact filters) calcula um filtro exato de
showed that its performance is better than several state-of-the-art correlação para cada imagem de treinamento e produz um filtro
methods. final pela média dos filtros exatos. Vasquez-Fernandez et al.
[2] propuseram um filtro ASEF modificado, com normalização
Keywords — MHBWLF, Multiscale High-boost Weber Local da iluminação, obtendo resultados melhores que o ASEF [8].
Filter, Eye Localization, Unconstrained Scenarios, MOSSE Filter
Bolme et al. [9] propuseram o filtro MOSSE (minimum output
I. INTRODUÇÃO sum of squared error), que produz filtros similares ao ASEF,
porém necessitam de menos imagens de treinamento para
O problema de localizar os centros dos olhos, com grande atingirem um melhor desempenho.
precisão, em ambientes não controlados, é uma tarefa muito
desafiadora e que ainda se encontra em aberto [1, 2]. Esta Ge et al. [10] apresentam um banco de filtros de correlação:
tarefa é largamente utilizada em algoritmos de reconhecimento a ideia central é que, enquanto os filtros ASEF e MOSSE
facial, rastreamento de faces e olhos, avaliação de expressões apresentam um único filtro como solução, a proposta em [10]
faciais, etc., sendo muito instigante em condições do mundo apresenta um banco de filtros que melhor mapeiam as grandes
real (ambientes não controlados), que apresentam variações de variações entre as imagens. Ge et al. [11] propuseram ainda um
iluminação, poses e expressões faciais, oclusões parciais novo método, uma evolução de [10]: um banco de filtros de
devido ao uso de óculos ou cabelos longos, uso de maquiagem correlação com múltiplos canais, onde os filtros são mais
e acessórios, etc. Um outro fator de grande impacto é a discriminativos para as diversas condições faciais.
qualidade das fotos nas condições do mundo real como, por Este artigo apresenta um novo método para localização de
exemplo, em câmeras de segurança instaladas em aeroportos e olhos em ambientes não controlados: o método proposto é do
rodoviárias que, muitas vezes, tiram imagens fora de foco e tipo passivo; utiliza características locais de uma face, chamada
com a pessoa em movimento [3]. de região periocular (região que compreende os dois olhos de
Os métodos de localização dos olhos podem ser divididos uma face); realça os detalhes da região facial pelo uso do filtro
em duas categorias: ativos e passivos [4]. Os métodos ativos proposto (MHBWLF); usa um filtro MOSSE para o
fazem uso de um hardware especial, baseados em iluminação aprendizado das características realçadas pelo MHBWLF. O
no infravermelho, enquanto os métodos passivos utilizam método foi avaliado em duas bases de dados: LFW [12] e
apenas as imagens capturadas por câmeras, sem nenhum BioID [13] e os resultados demonstram que o método proposto
aparato especial. Os métodos passivos podem utilizar apresenta melhor desempenho que muitos outros métodos
características globais ou locais de uma imagem para a estado-da-arte.
localização dos olhos [1]. O restante do artigo está assim organizado: a secção II
Tan et al [5] classificaram os métodos de localização dos descreve o novo filtro MHBWLF proposto neste artigo; a
olhos em três categorias: template-based, appearance-base e secção III descreve o método proposto para localização de
feature-based. Os métodos template-based fazem uso de olhos, usando o filtro MHBWLF; a secção IV apresenta os
templates deformados e sua principal desvantagem é que resultados experimentais; e a secção V as conclusões finais.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✷✻
ΔI � �,� = ∑ � −
�=
III. APLICAÇÃO DO MHBWLF: LOCALIZAÇÃO DOS OLHOS treinamento e fase de teste. A fase de treinamento recebe um
A Figura 3 apresenta um diagrama geral do método conjunto de imagens de treinamento e um filtro MOSSE [9] é
proposto para a localização de olhos em ambientes não utilizado para o aprendizado das características realçadas pelo
controlados utilizando o novo filtro MHBWLF. O método filtro MHBWLF. A fase de teste recebe uma imagem de
proposto pode ser dividido em duas fases distintas: fase de entrada e tem como saída as posições (x,y) de cada olho.
Figura 3 – Diagrama do método proposto para localização de olhos usando o novo MHBWLF.
As duas fases, de treinamento e teste, possuem um bloco filtro MHBWLF, já descrito na secção II deste artigo. A
responsável pelo pré-processamento das imagens: este bloco imagem filtrada será utilizada como entrada para o filtro
recebe uma imagem de entrada e a converte para níveis de MOSSE, tanto na fase de treinamento, quanto na de teste. O
cinza, caso a mesma seja uma imagem RGB. Em seguida, tem- filtro MOSSE necessita de um conjunto de imagens de
se a detecção facial por meio do algoritmo de Viola-Jones [15], treinamento de entrada, com seu respectivo conjunto de
o qual é um detector facial clássico: caso o detector facial imagens de saída.
encontre mais do que uma face, o bloco de pré-processamento
irá considerar apenas a face central e ignorar as demais faces. As imagens de entrada � são obtidas pela saída do filtro
Por fim, a face detectada tem o seu tamanho ajustado para MHBWLF, nas duas fases de execução. Na fase de
120x120 pixels e então uma região de interesse é recortada: treinamento, as posições dos olhos de cada imagem são
esta região de interesse foi obtida empiricamente de modo que utilizadas para gerar as imagens � : estas imagens são
para todas as faces dos experimentos realizados e consideradas como as saídas desejadas e são calculadas pelo
demonstrados na secção IV esta região de interesse contenha os bloco Saídas Sintetizadas, apresentado anteriormente na Figura
dois olhos da face. Cabe ressaltar que esta região de interesse 3, e correspondem ao cálculo de uma gaussiana bidimensional,
foi determinada com certa folga, ou margem de segurança, conforme a Equação (6).
tolerando as inclinações nas faces usadas nos experimentos − � + − �
−
realizados. A Figura 4 ilustra o fluxograma do bloco de pré- �
x, y = �
processamento.
Onde i denota a i-ésima imagem do conjunto de imagens de
treinamento e σ define o raio do pico. O problema de
aprendizado do filtro MOSSE pode ser resumido no
aprendizado do filtro h, definido na Equação (7).
�
= h⋆ �
Figura 4 – Bloco de pré-processamento do método No entanto, esta tarefa é muito difícil de ser realizada no
proposto. domínio do espaço e, portanto, é realizada no domínio da
frequência. Usando letras maiúsculas para indicar as imagens
Após a imagem de entrada ser tratada pelo bloco de pré- no domínio da frequência, a Equação (7) pode ser escrita
processamento descrito anteriormente, tem-se a execução do conforme a Equação (8).
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✷✽
∗
� = � ⊙ onde as imagens foram randomicamente selecionadas da base
LFW e tiveram as coordenadas dos olhos manualmente
Onde ⊙ representa uma multiplicação de elemento por marcadas. Este conjunto foi dividido em dois grupos de 1.000
elemento e * corresponde ao complexo conjugado. A fim de imagens cada, onde um grupo é utilizado para treinamento e o
encontrar um filtro que melhor mapeia o conjunto de imagens outro para teste, ressaltando que os grupos não possuem
de treinamento e suas respectivas saídas, Bolme et al. [9] nenhuma imagem em comum.
apresentaram um filtro ∗ que minimize a soma do erro
quadrático entre a saída atual ( � ⊙ ∗ ) e a saída desejada A fim de testar o método proposto em condições diferentes
( � ), problema que pode ser resumido conforme: da base LFW [12] foi utilizada também a base BioID [13]: esta
base, composta de 1.521 imagens de 23 pessoas, foi criada para
� ∗ a avaliação de métodos de detecção facial e possui as
∗ ∑| � ⊙ − �|
�
coordenadas dos olhos de todas as suas imagens. As imagens
foram adquiridas com foco no mundo real e apresenta imagens
E, resolvendo o problema apresentado, Bolme et al. [9] com grande variação de iluminação, fundo de cena e tamanhos
descreveram o filtro MOSSE, conforme a Equação (10). de faces diferentes.
∗
∑� �⊙ ∗� B. Protocolo de avaliação
=
∑� � ⊙ ∗� + � Este trabalho utilizou a medida normalizada proposta por
Onde � é uma constante real, positiva, usada como um Jesorsky et al. [16] e apresentada na Equação (12), onde
parâmetro de regularização. O filtro treinado ∗ é então � ̃ , ��
� e � ̃ , ��
� correspondem às distâncias
utilizado durante a fase de teste para gerar uma imagem de Euclidianas dos centros dos olhos calculados ( �̃ e �̃ ) aos
saída , a partir de uma imagem de teste: respectivos centros reais fornecidos pelas bases (�� e �� ).
= � ⊙ ∗ max( � ̃� , �� , � ̃ � , �� )
D=
‖�� − �� ‖
Onde � representa a imagem de saída do filtro MHBWLF
para a imagem de teste, no domínio da frequência. A imagem O cálculo do erro relativo D é feito normalizando-se ainda a
está no domínio da frequência e é convertida para o máxima distância encontrada pela distância Euclidiana dos
domínio do espaço por meio da transformada inversa de centros dos olhos reais, tornando o método independente
Fourier, gerando a imagem . Cabe ressaltar aqui que o filtro quanto ao tamanho da face. Os resultados serão reportados
MOSSE é aplicado individualmente para cada olho e, portanto, calculando-se a acurácia para três pontos de erro relativo (D <
a solução apresentada na Figura 1 possui dois filtros ∗ , sendo 0,05, D < 0,10 e D < 0,25), método largamente utilizado por
um para o olho direito e outro para o olho esquerdo. diversos trabalhos na área [2, 3, 5, 17, 18].
Por fim, o último bloco é aquele que faz a avaliação do pico C. Resultados e Discussões
de correlação, conforme apresentado na Figura 1, gerando as O primeiro passo realizado foi o ajuste dos parâmetros do
posições (x,y) dos olhos. Este bloco recebe duas imagens , método proposto e, para isto, foi utilizado o conjunto de 2.000
sendo uma para o olho direito e outra para o olho esquerdo, e imagens da base LFW. Após os experimentos realizados
faz uma busca pelos picos de correlação, os quais representam obteve-se a seguinte configuração:
as posições (x,y) dos olhos. Idealmente, cada imagem
corresponde a uma imagem com fundo preto e uma gaussiana Filtro média da vizinhança de 7x7 – Equação (1);
bidimensional cujo pico, de valor unitário, está centrado na Constante = , – Equação (4);
posição do respectivo olho. Inclinação = , – Equação (5);
Raio � = , – Equação (6);
Constante ∊= , – Equação (10)
IV. RESULTADOS EXPERIMENTAIS Esta configuração foi congelada e utilizada em todos os
O método proposto na secção III utilizando o novo filtro experimentos restantes apresentados nesta secção. A Figura 5
MHBWLF, foi avaliado nas bases LFW e BioID, conforme apresenta uma comparação de uma imagem facial filtrada pelo
descrito a seguir. WLD [14] e pelo MHBWLF: nota-se claramente que o filtro
MHBWLF realça muito mais os detalhes da região periocular
A. Base de dados: LFW e BioID que o WLD.
A base LFW [12] é uma das bases mais desafiadoras para o O método proposto utilizando o MHBWLF foi comparado
estudo do problema de reconhecimento facial, sendo composta com o SIFT [19], CS-LBP [20], CLAHE [21] e WLD [14]:
por 13.233 imagens de 5.749 pessoas, onde todas as imagens nesta comparação o mesmo método apresentado na Figura 3 foi
foram coletadas da Web a partir de condições reais do dia a dia, utilizado, porém substituindo o filtro MHBWLF pelos filtros
apresentando imagens faciais com grandes variações de poses, anteriormente indicados. A Tabela 1 apresenta os resultados
expressões faciais e iluminação, possui imagens de baixa utilizando-se o conjunto de 2.000 imagens da base LFW,
qualidade (fora de foco, baixa resolução, ruidosas, etc.), enquanto a Tabela 2 apresenta os resultados usando-se a base
imagens com oclusões parciais, etc. BioID. Os resultados, nas duas bases de dados, demonstram
A base LFW não apresenta as posições dos olhos e por isto que o método proposto apresenta um desempenho superior,
foi utilizado um conjunto de 2.000 imagens proposto em [5], para todos três pontos (D < 0,05, D < 0,10 e D < 0,25).
✷✾ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
filter), o qual foi desenvolvido para realçar os detalhes da IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND
região periocular de uma face, realçando as componentes de EXPO (ICME), PAGES 1-5, DOI 10.1109/ICME.2014.6890249.
alta frequência sem, no entanto, eliminar as de baixa. E ainda, [11] GE, S., YANG, R., HE, Y., XIE, K., ZHU, H., CHEN, S. 2016.
LEARNING MULTI-CHANNEL CORRELATION FILTER BANK
cabe destacar que o filtro MHBWLD proposto possui diversos FOR EYE LOCALIZATION. NEUROCOMPUTING, VOLUME 173,
parâmetros ajustáveis, tornando-o interessante também para PART 2, PAGES 418-424,
diversas outras aplicações. HTTPS://DOI.ORG/10.1016/J.NEUCOM.2015.03.125
[12] HUANG, G.B., RAMESH, M., BERG, T., LEARNED-MILLER, E.,
O método proposto foi avaliado usando-se as bases LFW e 2007. LABELED FACES IN THE WILD: A DATABASE FOR
BioID, sobre o mesmo protocolo, e demonstrou-se superior ao STUDYING FACE RECOGNITION IN UNCONSTRAINED
WLD, SIFT, CS-LBP e CLAHE. Foi feita também uma ENVIRONMENTS. TECHNICAL REPORT 07-49, UNIVERSITY OF
comparação dos resultados obtidos com outros disponíveis na MASSACHUSETTS, AMHERST.
literatura, usando as bases LFW e BioID, e verificou-se que o [13] BIOID, 2001. THE BIOID FACE DATABASE. AVAILABLE FROM
método proposto apresentou um desempenho superior a vários HTTPS://WWW.BIOID.COM/ABOUT/BIOID-FACE-DATABASE
outros métodos estado-da-arte. Desta forma, verifica-se que o [14] CHEN, J., SHAN, S., HE, C., ZHAO, G., PIETIKAINEN, M., CHEN,
X., GAO, W. 2010. WLD: A ROBUST LOCAL IMAGE
método proposto é adequado para solucionar o problema DESCRIPTOR. IEEE TRANSACTIONS ON PATTERN ANALYSIS
apresentado, devendo também ser considerado em trabalhos AND MACHINE INTELLIGENCE, VOLUME 32, ISSUE 9, PAGES
futuros para a localização dos cantos dos olhos e da ponta do 1705-1720, DOI 10.1109/TPAMI.2009.155.
nariz. [15] VIOLA, P., JONES, M. 2001. RAPID OBJECT DETECTION USING
A BOOSTED CASCADE OF SIMPLE FEATURES. PROCEEDINGS
VI. REFERÊNCIAS OF THE 2001 IEEE COMPUTER SOCIETY CONFERENCE ON
COMPUTER VISION AND PATTERN RECOGNITION, VOLUME 1,
[1] WANG, J., XIONG, R., CHU, J., 2015. FACIAL FEATURE POINTS
PAGES 511-518, DOI 10.1109/CVPR.2001.990517.
DETECTING BASED ON GAUSSIAN MIXTURE MODELS.
PATTERN RECOGNITION LETTERS, VOLUME 53, PAGES 62-68, [16] JESORSKY O., KIRCHBERG K.J., FRISCHHOLZ R.W. 2001.
DOI HTTPS://DOI.ORG/10.1016/J.PATREC.2014.11.004. ROBUST FACE DETECTION USING THE HAUSDORFF
DISTANCE. IN: BIGUN J., SMERALDI F. (EDS) AUDIO- AND
[2] VAZQUEZ-FERNANDEZ, E., GONZALEZ-JIMENEZ, D., YU, L. L.,
VIDEO-BASED BIOMETRIC PERSON AUTHENTICATION.
2013. IMPROVED AVERAGE OF SYNTHETIC EXACT FILTERS
AVBPA 2001. LECTURE NOTES IN COMPUTER SCIENCE, VOL
FOR PRECISE EYE LOCALIZATION UNDER REALISTIC
2091. SPRINGER, BERLIN, HEIDELBERG, DOI 10.1007/3-540-
CONDITIONS. IET BIOMETRICS, VOLUME 2, ISSUE 1, PAGES
45344-X_14
10-20, DOI: 10.1049/IET-BMT.2011.0006.
[17] ZHANG, C., SUN, X., HU, J., DENG, W. 2014. PRECISE EYE
[3] YI, D., LEI, Z., LI, S. Z., 2011. A ROBUST EYE LOCALIZATION
LOCALIZATION BY FAST LOCAL LINEAR SVM. IEEE
METHOD FOR LOW QUALITY FACE IMAGES. INTERNATIONAL
INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO
JOINT CONFERENCE ON BIOMETRICS (IJCB). PAGES 1-6, DOI
(ICME), DOI 10.1109/ICME.2014.6890174.
10.1109/IJCB.2011.6117499.
[18] FLOREA, L. FLOREA, C., VERTAN, C. 2015. ROBUST EYE
[4] QIAN, Z., XU, D. 2010. AUTOMATIC EYE DETECTION USING
CENTERS LOCALIZATION WITH ZERO-CROSSING ENCODED
INTENSITY FILTERING AND K-MEANS CLUSTERING.
IMAGE PROJECTIONS. PATTERN ANALYSIS AND
PATTERN RECOGNITION LETTERS, VOLUME 31, ISSUE 12,
APPLICATIONS, VOLUME 20, PAGES 127-143, DOI
PAGES 1633–1640, DOI
10.1007/S10044-015-0479-X.
HTTP://DX.DOI.ORG/10.1016/J.PATREC.2010.05.012
[19] LOWE, D. G. 2004. DISTINCTIVE IMAGE FEATURES FROM
[5] TAN., X., SONG, F., ZHOU, Z., CHEN, S., 2009. ENHANCED
SCALE-INVARIANT KEYPOINTS. INTERNATIONAL JOURNAL
PICTORIAL STRUCTURES FOR PRECISE EYE LOCALIZATION
OF COMPUTER VISION, VOLUME 60, N. 2, PAGES 91-110, DOI:
UNDER UNCONTROLLED CONDITIONS. IEEE CONFERENCE
10.1023/B:VISI.0000029664.99615.94.
ON COMPUTER VISION AND PATTERN RECOGNITION, PAGES
1621-1628, DOI 10.1109/CVPR.2009.5206818. [20] HEIKKILÄ, M., PIETIKÄINEN, M., SCHMID, C. 2009.
DESCRIPTION OF INTEREST REGIONS WITH LOCAL BINARY
[6] YUILLE, A. L., COHEN, D. S. A., HALLINAN, P. W. 1989.
PATTERNS. PATTERN RECOGNITION, VOLUME 42, ISSUE 3,
FEATURE EXTRACTION FROM FACES USING DEFORMABLE
PAGES 425-436, DOI
TEMPLATES. PROCEEDINGS CVPR ‘89, IEEE COMPUTER
HTTPS://DOI.ORG/10.1016/J.PATCOG.2008.08.014.
SOCIETY CONFERENCE ON, PAGES 104-109, DOI
10.1109/CVPR.1989.37836. [21] ZUIDERVELD, K. 1994. CONTRAST LIMITED ADAPTIVE
HISTOGRAM EQUALIZATION. GRAPHIC GEMS IV. SAN DIEGO:
[7] ZHOU, Z.H., GENG, X. 2004. PROJECTION FUNCTIONS FOR EYE
ACADEMIC PRESS PROFESSIONAL, PAGES 474–485.
DETECTION. PATTERN RECOGNITION, VOLUME 37, ISSUE 5,
PAGES 1049-1056. DOI [22] JIN, X., TAN, X. 2016. FACE ALIGNMENT BY ROBUST
HTTP://DX.DOI.ORG/10.1016/J.PATCOG.2003.09.006. DISCRIMINATIVE HOUGH VOTING. PATTERN RECOGNITION,
VOLUME 60, PAGES 318-333, DOI
[8] BOLME, D. S., DRAPER, B. A., BEVERIDGE, J. R. 2009. AVERAGE
HTTPS://DOI.ORG/10.1016/J.PATCOG.2016.05.017.
OF SYNTHETIC EXACT FILTERS. IEEE CONFERENCE ON
COMPUTER VISION AND PATTERN RECOGNITION, PAGES [23] VALENTI, R., GVERS,T. 2012. ACCURATE EYE CENTER
2105-2112, DOI 10.1109/CVPR.2009.5206701. LOCALIZATION THROUGH INVARIANT ISOCENTRIC
PATTERNS. IEEE TRANSACTIONS ON PATTERN ANALYSIS
[9] BOLME, D. S., BEVERIDGE, J. R., DRAPER, B. A., LUI, Y. M. 2010.
AND MACHINE INTELLIGENCE, VOLUME 34, ISSUE 9, PAGES
VISUAL OBJECT TRACKING USING ADAPTIVE CORRELATION
1785-1798, DOI 10.1109/TPAMI.2011.251.
FILTERS. IEEE COMPUTER SOCIETY CONFERENCE ON
COMPUTER VISION AND PATTERN RECOGNITION, PAGES [24] YANG, F., HUANG, J., YANG, P., METAXAS, D. 2011. EYE
2544-2550, DOI 10.1109/CVPR.2010.5539960. LOCALIZATION THROUGH MULTISCALE SPARSE
DICTIONARIES. IEEE INTERNATIONAL CONFERENCE ON
[10] GE, S., YANG, R., WEN, H., CHEN, S., SUN, L. 2014. EYE
AUTOMATIC FACE & GESTURE RECOGNITION AND
LOCALIZATION BASED ON CORRELATION FILTER BANK.
WORKSHOPS (FG 2011), PAGES 514-518, DOI
10.1109/FG.2011.5771450.
✸✶ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Resumo—Is the human iris texture a reliable biometric trait de uma amostra de íris com boa qualidade, com menos percen-
under varying illumination? It is a well-known biological beha- tual de ruído e variação na textura da íris. Em um ambiente não
vior that the eye’s pupil contracts under varying levels of light cooperativo, como por exemplo no reconhecimento de íris a
intensity, and dilates in the absence of light. But, what happens
with this biometric trait regarding its classification performance, distância [2] e em movimento [3], a variação de iluminação irá
taking into account each specific classification method? Based on produzir estímulos na pupila, de forma que a pupila se dilate
this question, we propose in this paper to evaluate some texture quando houver baixa incidência de luz, e se contraia devido
descriptors for iris recognition, considering pupil contraction ao excesso de luz incidente nos olhos. Dessa maneira, se os
and dilation. We also propose a new descriptor called Median- músculos da pupila estiverem contraídos a área da textura da
LMP and compare its performance to Daugman’s method, the
CLBP, the MBP and the WLD. Our results show that Daugman’s íris será maior e por consequência produzirá maior informação
algorithm is the best one for iris recognition when pupils are de atributos, favorecendo o processo de identificação. Mas, se
contracted. However, if the pupil dilates, our descriptor performs a pupila estiver dilatada os padrões da íris serão comprimidos,
better and faster than all the compared methods, primarily if one obtendo-se uma área menor na textura da íris com pouca
iris with a contracted pupil is used for searching another iris with informação de atributos.
a dilated pupil.
keywords - local descriptors; iris recognition; biometric systems Para extrair as características da íris, além dos descritores
de textura tradicionais como o filtro de Gabor 2D [1], a
transformada de wavelet [4], a pirâmide laplaciana [5], a de-
I. I NTRODUÇÃO composição rápida de wavelet de Haar [6], alguns descritores
Os sistemas biométricos são métodos para identificação de textura local também foram explorados. O Local Binary
pessoal com base em peculiaridades comportamentais e bioló- Pattern (LBP) [7] associado a textons discrimináveis [8]
gicas. Dentre as peculiares biométricas, a íris tem apresentado ou combinado com Learning Vector Quantization (LVQ) [9]
grande potencial em aplicações comerciais. A textura da íris foram aplicados para classificar amostras de íris. A principal
apresenta um padrão altamente complexo, composta de fibras vantagem dos descritores de textura local é sua invariância
musculares dispostas em diferentes sentidos. Esta estruturação relativa à variação de iluminação [7].
faz com que o padrão da íris seja exclusivo para cada pessoa Em um recente trabalho, Ferraz et al. [10] apresentaram um
e também para o seu próprio par. novo descritor de textura local chamado Local Mapped Pattern
O primeiro algoritmo desenvolvido para classificação dos (LMP). A abordagem LMP foi avaliada para diversos tipos de
padrões da íris foi proposto por John Daugman [1]. No textura, e apresentou melhor desempenho para amostras sob
algoritmo de Daugman a região de interesse é localizada variação de iluminação do que a abordagem LBP.
utilizando-se um operador integro-diferencial, que realiza a Neste trabalho é proposto avaliar alguns descritores de
delimitação entre a região da íris com a esclera e, da pupila textura local para o reconhecimento de íris, levando-se em
com a íris. Para compensar a variação de rotação da imagem consideração a contração e a dilatação da pupila. Além disso,
é proposto transformar o anel da íris, de coordenadas car- é proposto um novo descritor de textura de íris baseado na
tesianas para coordenadas polares, obtendo-se uma imagem abordagem LMP, denominado Median Local Mapped Pattern
dos padrões de íris com dimensão retangular. Para extrair as (Median-LMP). O método proposto foi comparado com diver-
características é utilizado o filtro de Gabor 2D, baseando-se a sos outros descritores de textura local como: o Local Mapped
informação de fase para representar os padrões em 2 bits. O Mattern (LMP ) [10], o Completed Modeling of Local Binary
grau de similaridade entre duas amostras é dado pelo cálculo Pattern (CLBP) [11], o Median Binary Pattern (MBP) [12], o
da distância de Hamming. Weber Local Descriptor (WLD) [13], além do método clássico
No entanto, o algoritmo de Daugman tem sido aplicado em na literatura para o reconhecimento de íris proposto por John
amostras de íris adquiridas em ambientes cooperativos, ou seja, Daugman [1]. O objetivo desta avaliação é o de fornecer
imagens estáticas capturadas sob curta distância focal e sob subsídios que possam ser utilizados no reconhecimento da
iluminação controlada. Essas condições favorecem a captura íris à distância e em ambientes não cooperativos, onde as
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✸✷
condições de iluminação causam movimento da pupila e, feito modificando-se o gc na Equação 2 pelo valor mediano da
portanto, variações de textura, degradando o desempenho de vizinhança analisada. Como a mediana da vizinhança já produz
sistemas biométricos de íris. um filtro de suavização, foi proposto alterar a matriz de ponde-
ração M (i) original do LMP Equação 3 para pesos de potência
II. M EDIAN L OCAL M APPED PATTERN
de dois, ou seja, M (i) = [20 , 21 , 22 , 23 , 24 , 25 , 26 , 27 ], assim
A abordagem original LMP considera a soma das diferenças como proposto no trabalho de Hafiane et al [12]. A Figura 1
de cada nível de cinza de uma determinada vizinhança do pixel ilustra a comparação entre o LMP e Median-LMP para geração
central como um padrão local, que pode ser mapeado para um do código a partir de uma mesma vizinhança.
histograma utilizando uma função de mapeamento [10]. Dada
a vizinhança de um pixel v = W xW , seu padrão pode ser III. BASES NÃO COOPERATIVAS
mapeado para um bin no histograma (hb ) usando a Equação 1, Para avaliar o descritor proposto em comparação com os
! descritores citados na literatura, em diferentes tamanhos de
pupila, foram utilizadas as bases de dados não cooperativas
Pv−1
i=1 fgi M (i)
hb = round P v−1 (B − 1) i = 1 to (v − 1) UBIRIS V2 [3] e CASIA-Iris-Distance [2]. Para ambas bases
i=1 M (i) de dados, foram utilizadas somente amostras do olho direito
(1)
na qual, fg é a função de mapeamento, M (i) é uma matriz para geração do vetor de característica, porque as imagens do
de ponderação com valores pré-definidos para cada posição olho direito foram utilizadas para sintonizar os parâmetros β
de pixel dentro da vizinhança local e B é o número de bins e B = bins.
do histograma. Esta equação representa uma soma ponderada A. Base de dados UBIRIS V2
de cada diferença de nível de cinza, a partir do pixel central
Proença [3] propôs um sistema não cooperativo baseado
da vizinhança, mapeada no intervalo [0,1] por uma função
na imagem da íris adquirida sob a banda visível. A proposta
de mapeamento, arredondando-se os valores para os bins B
do autor foi capturar amostras da íris humana a 8 metros de
possíveis no histograma. A função de mapeamento utilizada é
distância, usando um modelo de câmera profissional Canon
a sigmoidal apresentada na Equação 2, onde β é a inclinação
EOS 5D. Uma base de dados foi desenvolvida pelo autor
da curva e [gi − gc ] são as diferenças de nível de cinza
simulando o movimento da cabeça em diferentes ângulos. O
dentro da vizinhança centrada em gc , e a matriz de ponderação
autor nomeou esta base de dados como UBIRIS V2, contendo
apresentada na Equação 3 [10].
11.102 amostras de íris. Para realização dos experimentos,
1 neste trabalho, selecionou-se apenas um subconjunto contendo
fg = i = 1 to (v − 1) (2)
−[gi −gc ]
amostras/classe com variação no tamanho na pupila, conforme
1+e β
ilustrado na Figura 2. Dessa maneira, foram selecionadas 882
1 1 1 amostras a partir da “Sessão 1” da base UBIRIS V2, divididas
M (i) = 1 1 1 i = 1 to (v − 1) (3) em 147 classes, sendo 6 amostras por classe.
1 1 1
Uma das principais vantagens mencionados em trabalhos
anteriores sobre LMP é o baixo custo computacional associado
a um alto desempenho. No entanto, pequenas diferenças ao
comparar padrões, devido ao ruído ou à mudança de ilu-
minação podem introduzir erros, principalmente se o valor
central do pixel mudar de um padrão para outro. Hafiane et al
[12] observaram o mesmo fenômeno e propuseram o Median
Binary Pattern (MBP) resultando em um descritor de textura
mais robusto para erros causados pela comparação com o pixel (a) Amostra com a pupila contraída (b) Amostra com a pupila dilatada
central.
Figura 2: Exemplo de duas amostras da base de dados UBIRIS
Com base no MBP e levando-se em consideração o alto
V2 com diâmetros de pupila diferentes.
desempenho da abordagem LMP para diversos tipos de textu-
ras, foi proposto neste trabalho um novo descritor de textura
chamado Median Local Mapped Pattern (Median-LMP) para B. Base de dados CASIA-Iris-Distance
a discriminação da textura da íris com a variação do tamanho Dong et al [2] propuseram um dispositivo para capturar
da pupila. O filtro mediano efetivamente reduz o ruído conhe- amostras de íris a 3 metros de distância. O dispositivo utiliza
cido como “sal e pimenta” no processamento de imagens. É uma câmera Pan-Tilt-Zoom (PTZ) responsável pelo rastrea-
importante ressaltar que a imagem da íris adquirida à distância mento e a focalização da região facial. Uma imagem de alta
em um ambiente não cooperativo tem maior probabilidade definição da face do usuário é adquirida, permitindo a extração
de ser afetada pelo ruído, devido à mudança de iluminação. de características da íris do lado esquerdo e direito. As
Sendo assim, é proposto utilizar o valor mediano de uma imagens de íris foram digitalizadas sob a banda infravermelho
vizinhança W xW como o elemento de comparação. Isto é próximo (NIR), com resolução espacial de 2352x1728 pixels.
✸✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
(a) Imagem original com uma região local 3 × 3 (b) Vizinhança 3 × 3 afe-
destacada em vermelho tada pelo ruído no pixel
central
(c) Código LMP generado pelo valor do pixel central gc = 255 (d) Código Median-LMP gerado pelo valor mediano da vizinhança gc = 30
B. Extração e comparação das características da íris Tabela I: Taxas de acerto (H) obtidas com a base de dados
UBIRIS V2
Para extração das características da íris foram implemen-
Resolução das amostras
tados os extratores de cada método comparado: o filtro de Métodos
20 × 240 30 × 360 40 × 480 50 × 600 60 × 720
Gabor 2D proposto por Daugman [1] e também os descritores Daugman 54.08 54.13 54.44 54.78 55.32
MBP 48.27 49.04 49.16 57.36 58.27
de textura local, CLBP [11], WLD [13], MBP [12], LMP Median-LMP 60.18 66.22 68.63 72.33 75.88
[10] e o Median -LMP (proposto neste artigo). No método de LMP 47,71 52,16 53,28 54,75 59,27
WLD 37.48 40.21 58.77 65.14 79.88
Daugman é utilizada a distância de Hamming para se obter a CLBP_M8,1u2 42.49 43.85 44.53 44.30 43.74
similaridade entre duas amostras. Já para os métodos baseados CLBP_S8,1
u2 47.93 47.14 47.59 46.80 46.04
CLBP_S/M/C8,1 u2 50.65 48.61 48.61 48.95 47.14
em descritores de textura local, foram gerados os histogramas CLBP_S_M/C8,1 u2 48.73 47.25 47.02 47.02 46.91
de códigos correspondentes e calculada à similaridade entre CLBP_S/M8,1 u2 47.59 46.46 47.25 47.93 45.66
duas amostras utilizando a distância Qui-Quadrado dada na CLBP_M/C8,1 45.21 44.98 47.36 45.78 46.04
u2
Equação 4,
B. Desempenho obtido com a Base de dados CASIA-Iris-
B
1 X (Sb − Yb )2 Distance
X 2 (S, Y ) = , (4) Esta base de dados foi desenvolvida utilizando um sistema
2 (Sb + Yb )
b=1
biométrico multimodal para aquisição de imagens da face e
na qual, S é a amostra de busca, Y é a amostra de consulta, da íris a longa distância. As amostras foram adquiridas a
B é o número de bins dos histogramas comparados, Sb é a uma distância de 3 metros da câmera, e cada uma delas
frequência do nível de cinza de S, e Yb é a frequência do nível contém a região frontal da face. Os olhos do lado direito foram
de cinza de Y . utilizados para a realização dos experimentos deste trabalho.
Foi utilizado o método de validação cruzada leave-one-out Os resultados apresentados na Tabela II, mostram o mesmo
para se obter o número de Verdadeiros Positivos (TP) e o comportamento da base anterior. Ou seja, o Median-LMP é
número de Falsos Negativos (FN), para todas as amostras de o melhor descritor em todas as resoluções, Daugman é o
consulta. A taxa de acerto do sistema foi obtida pelo cálculo segundo melhor nas baixas e WLD responde melhor nas altas
da Sensibilidade ou Hit-rate (H), dada pela Equação 5. resoluções. O aumento na taxa de acerto, comparativamente à
Tabela I, deve-se ao fato que, diferentemente da UBIRIS V2,
TP esta base foi adquirida sob iluminação NIR, o que reduziu
H= , (5) os reflexos naturais causados pela luz visível, aumentando o
TP + FN
desempenho.
V. R ESULTADOS E DISCUSSÃO
Tabela II: Taxas de acerto (H) obtidas com a base de dados
Em todas as tabelas, as células destacadas em cor “cinza CASIA-Iris-Distance
escuro”, representam os melhores resultados obtidos para cada
Resolução das amostras
teste, e as células em cor “cinza claro” representam o segundo Métodos
20 × 240 30 × 360 40 × 480 50 × 600 60 × 720
melhor resultado entre os métodos comparados, levando-se em Daugman 69.23 69.88 71.13 72.44 72.44
MBP 58.19 52.21 54.40 54.77 58.90
consideração a resolução espacial da amostra. Median-LMP 74.08 77.50 81.20 84.55 88.77
LMP 58,73 61,25 64,99 66,04 70,25
WLD 52.77 66.14 71.33 78.44 89.88
CLBP_M8,1u2 44.13 32.14 44.12 42.33 46.71
A. Desempenho obtido com a Base de dados UBIRIS V2 CLBP_S8,1
u2 58.40 44.88 50.88 52.48 48.66
CLBP_S/M/C8,1 u2 60.22 58.29 54.87 62.22 58.30
A base de dados UBIRIS V2 é a que mais se aproxima CLBP_S_M/C8,1 u2 58.77 54.33 58.91 52.23 56.80
do ambiente real não cooperativo, pois foi adquirida sob CLBP_S/M8,1 u2 50.66 58.90 50.27 54.19 56.14
CLBP_M/C8,1 u2 54.41 50.44 50.44 46.31 52.66
condições não restritas, ou seja, a distância, em diversos
ângulos e com variação de iluminação. Devido a este cenário é
encontrado nesta base de dados um grande volume de amostras C. Tempo de execução
com diferentes tamanhos de pupila. Um dado importante no reconhecimento biométrico de
Observando-se os resultados da Tabela I é possível notar íris em ambientes não controlados é o tempo computacional
que, apesar das baixas taxas de acerto de todos os métodos envolvido na busca por uma amostra em um banco de da-
comparados, o descritor proposto Median-LMP atingiu as dos. Utilizando-se busca sequencial, foi avaliado o tempo de
maiores taxas de acerto, e que estas taxas aumentam conforme execução de cada método comparativamente. Todos os testes
aumenta-se o tamanho da amostra. Ou seja, este resultado foram realizados em um computador Intel Core I7 920, 2,67
demonstra que o aumento da quantidade de informação de GHz, com 6 GB de RAM, executando o Windows 8.0 e com
textura contida em amostras maiores facilita o processo de o software Matlab versão R2001a. Os tempos comparativos
classificação. O método de Daugman teve o segundo me- de execução foram plotados em gráficos levando-se em con-
lhor desempenho em menores resoluções e o WLD responde sideração a pesquisa de uma amostra com todas as outras da
melhor nas maiores, chegando a superar nosso descritor na base de dados, ou seja, o tempo “um-para-muitos” e, também
resolução de 60x720 pixels. o tempo necessário para comparar apenas uma amostra com
✸✺ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
de Daugman consome maior tempo de execução, porque na [14] R. M. da Costa and A. Gonzaga, “Dynamic features for iris recogni-
etapa de comparação o algoritmo usa um procedimento de tion,” IEEE Transactions on Systems, Man, and Cybernetics, Part B
(Cybernetics), vol. 42, no. 4, pp. 1072–1082, Aug 2012.
“shift’ para se obter a melhor distância de Hamming entre os [15] K. Hollingsworth, K. W. Bowyer, and P. J. Flynn, “Pupil dilation
vetores de características. Sendo assim, o descritor Median- degrades iris biometric performance,” Computer Vision and Image
LMP se torna um método mais viável para aplicações em Understanding, vol. 113, no. 1, pp. 150 – 157, 2009. [Online]. Available:
http://www.sciencedirect.com/science/article/pii/S1077314208001173
tempo preditivo.
Como neste trabalho foram utilizados somente olhos lado
direito para realização dos experimentos, sugere-se para tra-
balhos futuros avaliar os descritores abordados a partir de
ambos lados dos olhos, obtendo-se um vetor de característica
mais robusto para a classificação. Sugere-se ainda modelar e
avaliar o problema considerando que a aquisição é afetada
por Random-Valued Impulse Noise e, comparar os resultados
aplicando-se a técnica de Deep Learning.
AGRADECIMENTOS
Os autores agradecem o apoio financeiro da FAPESP, pro-
cesso #2015/20812- 5 e, do Instituto Federal de São Paulo
(IFSP), para a realização deste trabalho.
R EFERÊNCIAS
[1] J. Daugman, “High confidence visual recognition of persons by a test
of statistical independence,” IEEE Trans. Pattern Anal. Mach. Intell.,
vol. 15, no. 11, pp. 1148–1161, 1993.
[2] W. Dong, Z. Sun, and T. Tan, “A design of iris recognition system
at a distance,” in Chinese Conference on Pattern Recognition, vol. 2.
Nanjing, China: IEEE, nov 2009, pp. 1 –5.
[3] H. Proença, “On the feasibility of the visible wavelength, at-a-distance
and on-the-move iris recognition,” in Workshop on Computational Intel-
ligence in Biometrics: Theory, Algorithms, and Applications. Hangzhou,
China: IEEE, Apr. 2009, pp. 9 –15.
[4] W. W. Boles and B. Boashash, “A human identification technique using
images of the iris and wavelet transform,” IEEE Transactions on Signal
Processing, vol. 46, no. 4, pp. 1185–1188, 1998.
[5] R. Wildes, J. Asmuth, G. Green, S. Hsu, R. Kolczynski, J. Matey, and
S. McBride, “A system for automated iris recognition,” in Applications
of Computer Vision, 1994., Proceedings of the Second IEEE Workshop
on, Dec 1994, pp. 121–128.
[6] T. W. Ng, T. L. Tay, and S. W. Khor, “Iris recognition using rapid haar
wavelet decomposition,” in 2010 2nd International Conference on Signal
Processing Systems, vol. 1, July 2010, pp. V1–820–V1–823.
[7] T. Ojala, M. Pietikäinen, and D. Harwood, “A comparative study of
texture measures with classification based on featured distributions,”
Pattern Recognition, vol. 29, no. 1, pp. 51–59, Jan. 1996. [Online].
Available: http://dx.doi.org/10.1016/0031-3203(95)00067-4
[8] M. De Marsico, M. Nappi, and D. Riccio, “Noisy iris recognition
integrated scheme,” Pattern Recognition Letters, vol. 33, no. 8, pp. 1006–
1011, Jun. 2012.
[9] M. Y. Shams, M. Z. Rashad, O. Nomir, and R. M. El-Awady, “Iris
recognition based on lbp combined LVQ classifier,” CoRR, 2011.
[10] C. T. FERRAZ, O. PEREIRA, M. V. ROSA, and A. GONZAGA,
“Object recognition based on bag of features and a new local pattern
descriptor,” International Journal of Pattern Recognition and Artificial
Intelligence, vol. 28, no. 08, p. 1455010, 2014. [Online]. Available:
http://www.worldscientific.com/doi/abs/10.1142/S0218001414550106
[11] Z. Guo, L. Zhang, and D. Zhang, “A completed modeling of local binary
pattern operator for texture classification,” IEEE Transactions on Image
Processing, vol. 19, no. 6, pp. 1657–1663, June 2010.
[12] A. Hafiane, G. Seetharaman, and B. Zavidovique, “Median binary
pattern for textures classification,” in Proceedings of the 4th
International Conference on Image Analysis and Recognition, ser.
ICIAR’07. Berlin, Heidelberg: Springer-Verlag, 2007, pp. 387–398.
[Online]. Available: http://dl.acm.org/citation.cfm?id=2394970.2395010
[13] J. Chen, S. Shan, C. He, G. Zhao, M. Pietikainen, X. Chen, and W. Gao,
“Wld: A robust local image descriptor,” IEEE Transactions on Pattern
Analysis and Machine Intelligence, vol. 32, no. 9, pp. 1705–1720, Sept
2010.
✸✼ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Isaac Newton Melo Machado Francisco Evangelista Nobre Filho Jarbas Joaci de Mesquita Sá Junior
Universidade Federal do Ceará Universidade Federal do Ceará Universidade Federal do Ceará
Campus de Sobral Campus de Sobral Campus de Sobral
Email: engisaacnewton@gmail.com Email: evan.filho06@gmail.com Email: jarbas joaci@yahoo.com.br
Abstract—Shape analysis is an important field in computer “similaridade de caminho” [9], [10] é um exemplo dessa
vision and, throughout the years, many methods have been categoria. As assinaturas desses métodos são adequadas para
proposed for shape characterization. In order to contribute imagens que possuem oclusão ou articulação [1], [2].
to this line of research, this paper presents a novel shape Considerando as explicações acima, o presente trabalho
descriptor based on statistics of Euclidean distances. For this propõe um descritor que utiliza caracterı́sticas estatı́sticas
purpose, the technique computes Euclidean distances between (média, desvio padrão e distância mı́nima) das distâncias
points of a shape contour and stores them into a matrix, which relativas dos pontos de contorno entre si. Dessa forma, as
in turn is subdivided into submatrices. For each submatrix, the propriedades invariantes a escala, rotação e translação são
algorithm computes values such as mean, standard deviation mantidas. Além disso, haja vista a complexidade de alguns
and minimum distance for each column. Finally, attributes algoritmos, propomos um método de simples entendimento.
are computed from these data in order to construct a shape Este artigo é apresentado da seguinte forma: a Seção
signature. The proposed method presented high performance 2 apresenta o método desenvolvido, além de defini-lo ma-
in two benchmark datasets, surpassing other methods found tematicamente. A Seção 3 descreve as bases de imagens
in the literature. usadas e os experimentos realizados. A Seção 4 apresenta
os resultados obtidos e uma discussão sobre os mesmos.
Finalmente, a Seção 5 apresenta algumas considerações
1. Introdução sobre este trabalho.
~ i = [µ(~τi )
φ σ(~τi ) ~ i)
µ(Ψ ~ i)
σ(Ψ
σ(Υ ~ i )].~ i)
µ(Υ
(7)
~ Figura 3. Exemplo das classes do banco de imagens fish [13].
Por fim, chegamos ao vetor de caracterı́sticas Ω
(Equação 8) composto pelos vetores de caracterı́sticas de O experimento foi realizado em 3 etapas: (i)
todas as sub-matrizes S i . segmentação, (ii) utilização do descritor proposto e (iii)
validação. As imagens utilizadas como objeto de estudo
Ω ~1
~ = [φ ~2
φ ··· ~k ]
φ (8) deste trabalho foram adquiridas pré-processadas (bina-
rizadas). Em seguida, com auxı́lio do software MATLAB,
3. Experimento uma segmentação morfológica foi realizada em cada uma
das imagens a fim de obter o contorno.
Na seção que segue será apresentado o experimento A partir das imagens segmentadas, o método descrito na
realizado, com o objetivo de analisar a eficiência do método Seção 2 é aplicado. As imagens passam pelo descritor pro-
descrito na Seção 2. Para isso, serão classificados dois posto, no qual a matriz C é gerada e, consequentemente, o
bancos de imagens: (i) generic shapes e (ii) fish. O primeiro ~ também. Quando as caracterı́sticas
vetor de caracterı́sticas Ω
✸✾ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
são extraı́das, a etapa (iii) inicia. A validação consiste em metade da matriz D possuir informações mais relevantes, o
classificar e validar as informações contidas em Ω ~ . Para que permite uma classificação mais precisa das imagens.
o presente trabalho foram utilizadas duas técnicas: Linear Após realizar a análise dos resultados expostos na Tabela
Discriminant Analysis (LDA) e validação cruzada leave - 1, um vetor T de tamanho médio foi escolhido (T =
one - out. Uma breve introdução sobre esses métodos será {0.05, 0.1, 0.2, ..., 0.8}). Sua função é servir como métrica
dada a seguir. de comparação dos resultados. Para essa configuração, é
Para a classificação foi utilizado o LDA. Esse é um possı́vel distinguir as classes com uma acurácia de 99.22%
classificador amplamente utilizado e consiste em estimar um na base de imagens fish e também manter eficiência de 100%
sub-espaço linear, de forma que a variância entre as classes de acertos quando aplicada na base de imagens generic
seja significativamente maior quando comparada à variância shapes.
dentro das classes [14]. O classificador realiza esse processo
definindo uma função densidade fi (x), i = 1, 2, ..., z , em ~.
TABELA 1. TAXAS DE ACERTO PARA ALGUNS VALORES DE Ω
que z é o número de classes que um banco de imagens
possui e x é a amostra. Com esses dados, o classificador Parâmetro T No Desc. Acurácia(%)
LDA obtém o valor da função densidade para cada classe i Generic shapes Fish
e classifica a amostra x para k , em que k é uma classe que {0.5, 1} 12 97.97 98.00
representa o maior valor de fi (x) . É importante ressaltar {0.33, 0.66, 1} 18 100 98.49
que essa função é definida através dos valores de média da {0.25, 0.5, 0.75, 1} 24 100 98.77
classe i e da matriz de covariância de todas as classes, como {0.2, 0.4, 0.6, 0.8, 1} 30 100 98.87
mostra a Equação 9. {0.1, 0.2, 0.4, 0.6, 0.8, 1} 36 98.98 99.11
{0.1, 0.2, 0.3, 0.4, 0.6, 0.8, 1} 42 97.97 99.15
1 1 {0.1, 0.2, ..., 0.5, 0.6, 0.8, 1} 48 97.97 99.17
fi (x) = − ln(|Σ|) − (x − µi )′ Σ−1 (x − µi )), (9) {0.05, 0.1, 0.2, ..., 0.8} 54 100 99.22
2 2
Por fim, a validação cruzada leave-one-out. Ela é uma {0.05, 0.1, 0.15, ..., 0.5} 54 93.93 98.85
técnica que busca avaliar a confiabilidade da generalização {0.1, 0.2, ..., 0.8, 1} 60 96.96 99.24
de um modelo. De forma simples, ela estima o erro do {0.05, 0, 1, ..., 0.4, 0.5, 0.75, 1} 66 98.98 99.30
nosso classificador. Esse processo é realizado utilizando uma {0.05, 0.1, ..., 0.5, 0.75, 1} 72 97.97 99.31
amostra x como teste, enquanto as demais são utilizadas {0.05, 0.1, 0.15, ..., 0.7} 84 71.71 99.11
para um conjunto de treinamento. Esse processo continua até
que todas as amostras x passem pelo processo de validação.
Ao final, a taxa de acerto média é a medida de desempenho 4.2. Comparação dos resultados
do classificador.
A fim de obter resultados aprimorados, a Subseção 4.2 Após definidos os parâmetros que permitem que o de-
mostra uma tabela comparando o método proposto com scritor proposto tenha um melhor desempenho, foi realizada
alguns tradicionais, como: descritores de Fourier [3], [4], a comparação com alguns descritores tradicionais, citados
momentos de Zernike [7], [8], descritores de Curvatura [15], ao final da Seção 2. Os resultados desses outros descritores
Multiscale Fractal Dimension [16] e Curvature Scale Space foram obtidos nos trabalhos [2], [17].
(CSS) [5]. A Tabela 2 mostra que o descritor proposto atinge uma
taxa de acerto elevada, que é significativamente maior que
4. Resultados e discussões os resultados do descritores tradicionais encontrados na
literatura.
4.1. Avaliação de parâmetros A acurácia encontrada para o banco generic shapes
se mostra superior às alcançadas em outros métodos. Isso
~ a partir da matriz
Para obter o vetor de caracterı́sticas Ω indica que o método proposto é eficiente para identificar
D é necessário um conjunto de parâmetros T . A fim de contornos com deformações ou oclusões. Apesar de o re-
encontrar um resultado que pode ser usado em comparações sultado escolhido ter um grande número de descritores
futuras, é necessário definir a mesma configuração de em comparação aos outros métodos, a quantidade de
parâmetros para as duas bases de imagens e assim configurar classificações corretas se mantém relativamente alta para
T de modo a encontrar a melhor descrição de caracterı́sticas. escolhas de parâmetros que geram menos descritores (12,
As taxas de acerto do experimento definido na Seção 3 18 e 24), mantendo as taxas de acertos próximas à máxima
foram obtidas variando-se T , valores expostos na Tabela 1. possı́vel.
De acordo com a tabela foi constatado que há dificuldade Quanto ao resultado do segundo banco, fish, o descritor
em diferenciar valores de caracterı́sticas similares e em anteriormente proposto é eficiente para extrair caracterı́sticas
grande quantidade. Por esse motivo, os conjuntos T que mantendo as propriedades de invariância a rotação e escala.
contêm cardinalidade elevada ou intervalos pequenos (0.01 Com exceção dos descritores de Fourier e do Curvature, nos
- 0.04) têm suas taxas de acerto muitos baixas, portanto quais os ganhos são de 0.15% e 1.67%, respectivamente,
foram retirados. Outro fato verificado diz respeito à primeira o descritor proposto nesse trabalho mostra um resultado,
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✹✵
no mı́nimo, 50% superior quando comparado aos demais. [6] M.K. Hu, Visual pattern recognition by moment invariants, IEEE
Esse resultado mostra que o método também é eficaz para Trans. Inform. Theory 8(2): 179–187, 1962.
distinguir formas similares. Outra caracterı́stica relevante é [7] N. D. Mustaffa Kamal and N. Jalil, Fastener recognition using com-
a acurácia, que se mantém superior a 98%, independente da bination of colour features with shape-based features and Zernike
moments, In IEEE Student Conference on Research and Develop-
variação do número de caracterı́sticas. ment (SCOReD), Kuala Lumpur, pages 1–5, 2016. Disponı́vel em:
Quanto à complexidade do algoritmo, necessitamos cal- http://ieeexplore.ieee.org/document/7810064/
cular as distâncias de todos os pontos do contorno entre
[8] M. Zhenjiang, Zernike moment-based image shape analysis and its
si, gerando N 2 distâncias. Assim, caracteriza-se um algo- application, Pattern Recogn. Lett 21 (2): 169–177, 2000.
rtimo O(N 2 ). Essa complexidade é uma desvantagem em
[9] X. Bai, X. Yang, D. Yu, and L. J. Latecki, Skeleton-based shape
comparação aos outros métodos, como Zernike e Fourier classication using path similarity, International Journal of Pattern
que possuem complexidade O(N log N ). Recognition and Articial Intelligence, 22(4): 733–746, 2008.
[10] X. Bai and L. J. Latecki, Path similarity skeleton graph matching,
TABELA 2. AVALIAÇ ÃO DOS DESCRITORES . O S RESULTADOS DOS IEEE Transactions on Pattern Analysis and Machine Intelligence
M ÉTODOS DE COMPARAÇ ÃO FORAM OBTIDOS NOS TRABALHOS [2], 30(7): 1282–1292, 2008.
[17].
[11] D. Sharvit, J. Chan, H. Tek, and B. B. Kimia, Symmetry-based
indexing of image databases, Journal of Visual Communication and
Descritores Acurácia(%) Image Representation, 9(4): 366–380, 1998.
Generic shapes Fish
[12] T. B. Sebastian, P. N. Klein, and B. B. Kimia, Recognition of
Descritor proposto 100 99.22 shapes by editing their shock graphs, IEEE Trans. Pattern Analysis
Fourier 83.84 99.07 and Machine Intelligence, 26(5): 550–571, 2004.
Zernike 91.92 12.23 [13] S. Abbasi, F. Mokhtarian, and J. Kittler, Search
Curvature 76.77 97.55 for similar shapes in the SQUID system: shape
M. S. Fractal Dimension 87.88 37.32 queries using image databases, 2005. Disponı́vel em:
http://www.ee.surrey.ac.uk/CVSSP/demos/css/demo.html.
Curvature Scale Space (CSS) 71.72 43.52
[14] K. Fukunaga, Introduction to Statistical Pattern Recognition, second
ed., Academic Press, 1990.
[15] W. Y. Wu and M. J. J. Wang, Detecting the dominant points by
5. Conclusão the curvature-based polygonal approximation, Graph. Models Image
Process. 55(2): 79–88, 1993.
No presente trabalho foi apresentado um descritor de
[16] R. da S. Torres, A. X. Falcão and L. da F. Costa, A graph-based
formas que utiliza o contorno de simples entendimento e approach for multiscale shape analysis, Pattern Recognition 37(6):
implementação. O descritor foi testado em dois bancos de 1163–1174, 2003.
imagens diferentes e obteve resultados superiores aos tradi- [17] A. R. Backes, D. Casanova, and O. M. Bruno, A complex network-
cionais. Podemos concluir pelo experimento que o método based approach for boundary shape analysis, Pattern Recognition,
proposto é eficiente em classificar imagens com oclusão, 42(1): 54–67, 2009.
articulação, partes faltantes, e é invariante a rotação, escala
e translação.
Por fim, como produções futuras, métodos semelhantes
que reduzam a complexidade da assinatura proposta, bem
como trabalhos com otimização ou seleção de carac-
terı́stiscas, devido ao alto número parâmetros e de de-
scritores, são exemplos de trabalhos que podem vir a mel-
horar os resultados expostos neste artigo.
Referências Bibliográficas
[1] A. R. Backes and O. M. Bruno, Shape classification using complex
network and Multi-scale Fractal Dimension, Pattern Recognition Let-
ters 31(1): 44-51, 2010.
[2] J. J. M. Sá Junior and A. R. Backes. Shape classification using line
segment statistics. Information Sciences, 305: 349–356, 2015.
[3] R. Gonzalez and R. E. Woods. Processamento de Imagens Digitais.
Editora Edgard Blucher, São Paulo, 2000.
[4] W. P. Lee, M. A. Osman, A. Z. Talib, K. Yahya, J. C. Burie,
J. M. Ogier, and J. Mennesson, Recognition of fish based on
generalized color Fourier descriptor, In Science and Information
Conference (SAI), London, pages 680–686, 2015. Disponı́vel em:
http://ieeexplore.ieee.org/document/7237215/
[5] F. Mokhtarian and M. Bober, Curvature Scale Space Representation:
Theory, Applications, and MPEG-7 Standardization, Kluwer Academic
Publishers, 2003.
✹✶ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
para a segmentação das imagens. Na terceira etapa ocorreu 3) Deconvolução de cor: Tem como objetivo principal a
o pós-processamento, no qual as imagens sofreram algumas separação dos canais de corantes como a hematoxilina e eosina
alterações para maximizar a acurácia. As seções seguintes ou até mesmo diaminobenzidine (DAB;brown). Segundo [10]
detalham cada uma dessas etapas. os métodos de deconvolução de cor anteriores a eles perdiam
informações, pois muitas das vezes a deconvolução era di-
recionada para áreas pigmentadas com apenas um corante.
Porém, é muito difı́cil que uma imagem histológica seja tão
bem definida. Portanto, eles desenvolveram um método que
pode ser usado para praticamente todas as combinações de
duas ou três colorações. O método é baseado na transformação
ortonormal da imagem original RGB (Red, Green, Blue).
Para dar continuidade a explanação sobre a deconvolução
de cor é necessário abordar a representação de cor. Mais
Figura 3: Diagrama do método proposto para segmentação especificamente sobre a relação entre a transmissão de luz
automática do canal vascular ósseo e osteócito em imagens e a espessura da camada do meio absorvente, conhecida
histológicas como a lei de Lambert-Beer’s [10]. Quando um feixe de luz
monocromática atravessa um meio transparente homogêneo,
cada camada desse meio absorve igual fracção de luz que atra-
A. Pré-processamento vessava. A lei pode ser expressa pela equação I = I0 ∗ 10−x1 ,
Nesta etapa ocorreu o ajuste de contraste, mudança de onde I é a intensidade da luz transmitida; I0 intensidade da
espaço de cor de RGB (red, green, blue) para XYZ na imagem luz incidente; x coeficiente de absorção; 1 a espessura do meio
original, e a deconvolução de cor descritas nas Seções II-A2, absorvente.
II-A1 e II-A3, respectivamente. No modelo RGB as intensidades IR , IG , IB são obtidas
1) Conversão de espaço de cor: A CIE (Commission pela câmera para cada pixel. A intensidade relativa a cada
Internationale de l’Eclairage — Comissão Internacional de canal depende da concentração de corante de uma maneira
Iluminação) padronizou as cores seguindo a representação não linear, por isso os valores de intensidade não podem ser
de tri-estı́mulo, que são os nı́veis de estı́mulo detectados diretamente usados para a separação e mensuração de cada
pelos três tipos de cone existentes no olho humano, criando corante [10]. No entanto, a densidade óptica (OD) de cada
assim o modelo de cor conhecido hoje como RGB. Pelo canal pode ser definida como ODx = −log10 (I/I0 ). Segundo
problema associado a mistura de cor negativa (ocasionada essa, a OD para cada canal é linear com a concentração de
pelo canal vermelho - R) a CIE desenvolveu em 1931 um absorção do material e por isso pode ser usada para a separação
novo espaço de cor denominado XYZ, o qual contém todas de múltiplos corantes na amostra [10].
as cores espectrais puras dentro do seu octante positivo e Cada um dos corantes presentes na amostra pode ser carac-
onde o seu canal Y representa a luminância, ou seja, o brilho terizado por uma densidade óptica especı́fica em cada um dos
percebido. A transformação de RGB para XYZ se dá por meio três canais RGB, o qual pode ser representado por um vetor de
da Equação 1 [9]. três posições. Por exemplo, uma amostra tingida apenas com
corante hematoxilina resulta em um OD com valores 0.18,
0.20 e 0.08 para os canais R, G e B, respectivamente[10].
X 0.490 0.310 0.200 R
Y = 0.177 0.812 0.011 G (1) Para cada corante que tingiu a amostra haverá então um
Z 0.000 0.010 0.990 B vetor de três posições. Assim, caso tenha-se uma amostra
com três corantes o vetor passa a ser uma matriz 3x3 da
Este trabalho enfrenta o desafio de segmentar regiões bran- densidade óptica de cada corante em relação aos canais RGB
cas e consequentemente com mais brilho na imagem. Com um [10], com cada linha representando um corante e cada coluna
modelo de cor que possui um canal destinado a luminosidade, representando um canal. Para cada corante pode-se determinar
as chances de resultados satisfatórios aumentam, por isso a uma densidade óptica em cada um dos três canais medindo a
necessidade da mudança de modelo de cor. absorção relativa ao vermelho, verde e azul [10]
2) Ajuste de contraste: Ajuste de contraste, ou realce, Para conseguir a separação dos corantes em [10] os autores
é uma técnica que se baseia na função de transformação fizeram uma transformação ortonormal das informações RGB
radiométrica. Essa função consiste em mapear as variações para extrair as informações independentes de cada corante.
de intensidade do intervalo original para um novo intervalo Depois normalizaram a transformação para obter o balance-
de cinza. Essa técnica é aplicada ponto a ponto, ou seja, a amento correto do fator de absorção de cada corante. Para
intensidade de cada pixel é calculada separadamente, indepen- a normalização é preciso dividir cada vetor OD pelo seu
dentemente de seus vizinhos. Quanto maior o novo intervalo tamanho total, resultando assim em uma matriz normalizada
de intensidade de cinza, maior será o contraste. Normalmente M [10]. Os valores da matriz normalizada sobre a combinação
o ajuste é empı́rico, porém o mesmo pode ser feito por meio dos corantes de hematoxilina, eosina e DAB utilizados neste
de análise de histograma [5]. trabalho são expostos na Equação 2.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✹✹
selecionados calculando a distância euclidiana entre o pixel e dos canais ósseos durante a segmentação. As intensidades
a média da região. Se este pixel estiver a uma distância menor dos pixels nas imagens 14, 16 e 17 se diferem bastante das
que a estipulada (esta distância é baseada na quantidade de demais. A estrutura dos canais ósseos das imagens 14 e 15
pixels agrupados, caso passa-se de 15% da total da imagem foi danificada pela luminosidade, impossibilitando a extração
ela era diminuı́da) ele é adicionado a região de interesse. de caracterı́sticas pelos especialistas, o que ocasionou o seu
descarte.
C. Pós-processamento Das 21 imagens do conjunto S35, 20 foram segmentadas.
A etapa de pós-processamento consiste na remoção de arte- Em algumas imagens há problemas de luminosidade, fazendo
fatos que possam atrapalhar a identificação dos canais ósseos e com que as intensidades das regiões de interesse se asseme-
osteócitos. Primeiramente, realizou-se a remoção de pequenos lhasse ao restante da imagem. A imagem 19 apresenta um
objetos para evitar ruı́dos no resultado final. Na sequência desbalanceamento de luminosidade entre o lado esquerdo e
foram removidos os objetos que não possuı́am um mı́nimo direito da imagem (o lado esquerdo é mais claro do que o
de circularidade, pois os canais ósseos e osteócitos possuem direito). Além disso, o lado esquerdo possui borramento e a
uma certa circularidade. Por fim, foi feito o preenchimento de imagem contém uma faixa de coloração rosada mais intensa
buracos nas áreas selecionadas. Isso foi feito para completar as que as demais, impossibilitado a sua segmentação.
regiões de interesse e não perder a sua forma original. A Figura No conjunto S36A, foi possı́vel segmentar as 9 imagens.
4 apresenta um exemplo de cada passo do processamento Todas as imagens deste conjunto possuem interferência da cor
aplicado em uma imagem. branca no seu fundo. Existem tecidos dentro do canal ósseo
que se ligam ao resto do tecido da imagem, fazendo com que
III. R ESULTADOS se perdesse um pouco da estrutura do canal ósseo.
Para cada imagem foram geradas 2 imagens segmentadas, No conjunto S37 o centro de todas as imagens é muito
uma contendo os osteócitos e outra com os canais ósseos. Esse claro (branco interferindo nas cores), causando confusão entre
separação foi necessária para os trabalhos futuros (mais deta- região de interesse e restante da imagem. No entanto, todas as
lhes na Seção VI). Em cada um dos 10 conjuntos de imagens 13 imagens foram segmentadas.
houveram dificuldades particulares e em graus diferentes. O conjunto S39A possui 8 imagens. Todas as imagens
O conjunto P3A possui 13 imagens sequenciais (de 1 a tinham graves problemas de luminosidade, mas que não im-
13), das quais 12 foram segmentadas. A imagem 12 estava pediram a sua segmentação. O total de imagens dos conjuntos
tão danificada pela luminosidade que optou-se por descartá- é de 142 das quais 137 foram segmentadas.
la. A maioria das imagens estava com baixı́ssimo contraste
entre os elementos de interesse e o restante da imagem. As IV. AVALIAÇ ÃO DOS RESULTADOS
bordas de todas as imagens tinham resquı́cio de hematoxilina. Foram utilizadas 3 métricas para avaliar as segmentações:
O conjunto P3D possui 20 imagens e todas foram seg- acurácia, sensibilidade e especificidade. Por meio da
mentadas. Em todas as imagens havia baixo contraste. As comparação entre a segmentação automática e a segmentação
intensidades variam muito entre as imagens do conjunto. As manual é possı́vel obter quatro classificações para as regiões
duas últimas imagens do conjunto possuem uma estrutura segmentadas: o verdadeiro positivo (VP), corresponde ao pixel
diferente das demais, dificultando ainda mais a etapa de classificado como sendo de canal ósseo ou osteócito e que
segmentação. realmente é de canal ósseo ou osteócito; o verdadeiro negativo
O conjunto S17 possui 12 imagens e todas foram segmen- (VN), que é o pixel classificado como não sendo de canal
tadas. O maior problema do conjunto foi o borramento de ósseo ou osteócito e que realmente não é de canal ósseo ou
osteócitos em todas as imagens. osteócito; o falso positivo (FP) é o pixel classificado como
No conjunto S19F, de um total de 10 imagens, 9 foram seg- sendo de canal ósseo ou osteócito, mas que não é de canal
mentadas. A imagem 2 possui objetos de mesma intensidade ósseo ou osteócito; e o falso negativo (FN) representa pixel
das regiões de interesse, o que dificulta a segmentação. Todas classificado como não sendo de canal ósseo ou osteócito, mas
as imagens possuem graves problemas de luminosidade. A que é de canal ósseo ou osteócito.
imagem 3 estava tão danificada, com tantos objetos semelhan- A partir dessas quatro classificações é possı́vel calcular as
tes as regiões de interesse que seria impossı́vel o especialista métricas de sensibilidade (Se), especificidade (Es) e acurácia
extrair alguma informação, sendo portanto descartada. (Ac). A sensibilidade (Se = V PV+F P
N ) calcula a quantidade
Existem 19 imagens no conjunto S27, e todas foram seg- de pixels segmentados pelo método manual e que foram
mentadas. A hematoxilina realçou algumas regiões que não segmentados corretamente pela técnica proposta. A especifi-
eram de interesse, porém não afetou de forma significativa a cidade (Es = V NV+F N
P ) mostra a quantidade de pixels que
segmentação, já que estes objetos foram eliminados no pós- não foram detectados pelo método manual e também não
processamento. foram segmentados pela técnica proposta. A acurácia (Ac =
V P +V N
O conjunto S29A possui 17 imagens e 15 foram seg- V P +V N +F P +F N ) reflete os pixels corretamente segmentados
mentadas. Os canais ósseos de todas as imagens possuem em toda a região de interesse [12].
tecido dentro deles que se conectam ao tecido do resto da A Tabela I mostra os resultados médios obtidos para cada
imagem, ocasionado perda de muita informação da estrutura conjunto para as métricas de sensibilidade (Se), especificidade
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✹✻
(Es) e acurácia (Ac). Os resultados mostram que a técnica são a região de interesse de cada imagem, calcular uma média
proposta apresenta bons resultados nas 3 medidas A principal e fazer com que o crescimento de regiões seja executado até
exceção é o conjunto S29A, o qual apresentou baixo resultado que a quantidade de pixels seja menor ou igual a esta média.
de sensibilidade devido a presença de tecido dentro dos canais Caso esta etapa não fosse feita o resultado da segmentação
ósseos, comprometendo a segmentação. incluiria muitos pixels falso positivos e as formas dos canais
ósseos e osteócitos seriam perdidas.
Tabela I: Sensibilidade, especificidade e acurácia
VI. T RABALHOS FUTUROS
Conjunto SE ES AC
P3A 91,17 99,91 98,44 A segmentação das imagens histológicas do tecido ósseo
P3D 67,40 99,40 98,37 humano é uma parte importante da reconstrução 3D, a qual se
S17 83,59 99,78 98,97 dá em 3 etapas. A primeira etapa constiste no alinhamento das
S19F 62,16 99,98 97,20
S27 94,51 98,74 98,18 imagens de cada conjunto. A segunda etapa é a segmentação,
S29A 63,18 94,15 91,10 sendo a reconstrução 3D a terceira etapa. Atualmente as
S35 85,68 99,95 99,41 imagens já foram alinhadas e segmentadas e como trabalho
S36A 97,86 91,99 94,20
futuro pretende-se realizar a reconstrução 3D dos conjuntos.
S37 81,42 99,93 96,95
S39A 90,33 99,21 97,69 VII. AGRADECIMENTOS
Média 85,99 98,30 97,05
Este trabalho é apoiado pelo CNPq (proc. 456855/2014-9
Foi utilizado também o coeficiente de Dice para compa- e 302416/2015-3), CAPES, FAPEMIG (proc. APQ-01345-13,
rar os resultados obtidos pelo método proposto (MP) com REONCO-52-11, APQ-03437-15) e PROPP-UFU.
Otsu [13], Valley Emphasis (VE) [14] e Modified Valley R EFER ÊNCIAS
Emphasis (MVE) [15]. O coeficiente de Dice é uma medida
[1] F. Liu, A. Mackey, R. Srikuea, K. Esser, and L. Yang, “Automated image
de sobreposição entre duas regiões e é comumente usado segmentation of haematoxylin and eosin stained skeletal muscle cross-
para avaliação de segmentação [16]. A Equação 4 descreve sections,” J Microsc, vol. 252, no. 3, pp. 275–285, 2013.
o coeficiente de Dice e a Tabela II mostra a comparação [2] L. C. Junqueira, J. Casaroli-Marano, J. C. Ricardo Pedro tr LC Junqueira
et al., Histologia básica, 2000.
entre os resultados. Note que em todas as bases a abordagem [3] L. Azevedo, A. M. Faustino, and J. M. R. Tavares, “Segmentation and 3d
proposta mostrou-se superior as demais técnicas, corroborando reconstruction of animal tissues in histological images.” Computational
sua eficácia no problema proposto. and Experimental Biomedical Sciences: Methods and Applications, pp.
193–207, 2015.
[4] F. Xing and L. Yang, “Robust nucleus/cell detection and segmentation
|A ∩ B| in digital pathology and microscopy images: a comprehensive review,”
Dice = 2 (4)
|A| + |B| IEEE Rev Biomed Eng, vol. 9, pp. 234–263, 2016.
[5] R. C. Gonzalez and R. Woods, Processamento Digital de Imagens.
Tradução de Cristina Yamagami e Leonardo Piamonte. São Paulo:
Tabela II: Coeficiente de Dice para Modified Valley Emphasis Pearson Prentice Hall, 2010.
(MVE); Otsu; Valley Emphasis (VE) e o Método Proposto (MP) [6] L. Nguyen, A. B. Tosun, J. L. Fine, A. V. Lee, D. L. Taylor, and S. C.
Chennubhotla, “Spatial statistics for segmenting histological structures
Conjunto MVE Otsu VE MP in h&e stained tissue images,” IEEE Trans Med Imag, 2017.
P3A 90,67% 89,84% 63,93% 95,08% [7] A. F. de Abreu, B. V. de Paiva, F. S. Rocha, P. Dechichi, and B. A. N.
P3D 42,25% 43,45% 49,25% 73,58% Travençolo, “Análise do impacto da radioterapia na rede vascular óssea
S17 72,33% 63,48% 64,87% 88,93% auxiliada por um algoritmo de esqueletonização,” in CBIS - Congresso
S19 30,79% 19,58% 18,54% 76,21% Brasileiro da Informática em Saúde, 2014.
[8] G. D. Rabelo, B. A. N. Travençolo, M. A. Oliveira, M. E. Beletti,
S27 89,50% 87,61% 88,13% 93,60%
M. Gallottini, and F. R. X. d. Silveira, “Changes in cortical bone
S29A 51,74% 48,17% 48,23% 60,81%
channels network and osteocyte organization after the use of zoledronic
S35 63,52% 55,31% 56,55% 91,40% acid,” Archives of Endocrinology and Metabolism, vol. 59, no. 6, pp.
S36A 78,68% 78,75% 78,75% 92,74% 507–514, 2015.
S37 69,16% 64,82% 64,09% 89,11% [9] M. Tkalcic and J. F. Tasic, Colour spaces: perceptual, historical and
S39A 76,50% 64,60% 64,42% 93,02% applicational background. IEEE, 2003, vol. 1.
Média 61,51% 53,69% 59,76% 85,44% [10] A. C. Ruifrok, D. A. Johnston et al., “Quantification of histochemical
staining by color deconvolution,” Anal Quant Cytol Histol, vol. 23, no. 4,
pp. 291–299, 2001.
V. C ONCLUS ÃO [11] K. Krishna and M. N. Murty, “Genetic k-means algorithm,” IEEE Trans
Existem grandes desafios na segmentação de imagens his- Syst , Man, Cybern, vol. 29, no. 3, pp. 433–439, 1999.
[12] M. Oger, P. Belhomme, and M. N. Gurcan, “A general framework for
tológicas. Os principais desafios são os aspectos visuais irregu- the segmentation of follicular lymphoma virtual slides,” Comput Med
lares, como os descritos na Seção III. As técnicas de maneira Imaging Graph, vol. 36, no. 6, pp. 442–451, 2012.
isolada não foram capazes de obter um resultado satisfatório, [13] N. Otsu, “A threshold selection method from gray-level histograms,”
IEEE Trans Syst , Man, Cybern Part B, vol. 9, no. 1, pp. 62–66, 1979.
porém quando combinadas o resultado gerado pode ser capaz [14] H.-F. Ng, “Automatic thresholding for defect detection,” Pattern Recog-
de auxiliar biólogos, patologistas entre outros especialistas na nit Lett, vol. 27, no. 14, pp. 1644–1649, 2006.
analise dos canais ósseos e osteócitos. A parte mais complexa [15] J.-L. Fan and B. Lei, “A modified valley-emphasis method for automatic
thresholding,” pp. 703–708, 2012.
do desenvolvimento foi chegar ao limiar de cada iteração [16] M. Veta, P. J. van Diest, R. Kornegoor, A. Huisman, M. A. Viergever,
do crescimento de regiões. Como se trata de um sistema and J. P. Pluim, “Automatic nuclei segmentation in h&e stained breast
automático, foi necessário calcular a quantidade de pixels que cancer histopathology images,” PLoS One, vol. 8, no. 7, p. e70221, 2013.
✹✼ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Resumo—Fuzzy numbers present the ability to represent Um grande número de técnicas tem sido proposto para a
uncertainties, instead of conventional methods based on extração de caracterı́sticas de textura. Com base no domı́nio
traditional logic (crisp). Digital images may suffer damage do qual o recurso da textura é extraı́do, estas podem ser ampla-
such as noise or distortion during the capture process, and the
theory of fuzzy logic and sets becomes an interesting approach mente classificadas por métodos de extração de caracterı́sticas
to address such problems. Aiming to explore this approach in de textura espaciais (métodos estatı́sticos e estruturais) e
the image texture analysis, in this work we study the method espectrais [2].
Location Fuzzy Pattern (LFP), proposed by Vieira (2013), which Métodos estatı́sticos tendem a definir textura como suave,
was originally developed using sigmoid (LFP-s), symmetric grossa, fina, granulada etc. Como descritores estatı́sticos sim-
triangular (LFP-t) and gaussian (LFP-g) functions to calculate
the membership degrees of the central pixel in relation to its ples podem ser citados a média, momentos, uniformidade,
neighborhood. Here, we extended the method to the symmetric correlação, contraste, homogeneidade e entropia. Métodos es-
trapezoidal function, which we called LFP-tr. We compared truturais lidam com a captura do arranjo espacial de primitivas
the performance of the four membership functions, using two de textura presentes na imagem. Já os métodos espectrais são
image data sets: Brodatz, and one with lung pathologies. The baseados em propriedades do espectro de Fourier e são usadas
best results were using the sigmoid function and we get high
accuracy to characterize lung pathologies. para detectar a periodicidade global em uma imagem pela
identificação de picos de alta energia no espectro [3] [1].
Index Terms — Feature Extraction, texture analysis, Fuzzy Caracterı́sticas espaciais podem ser extraı́das de qualquer
Numbers, Image Processing. tipo de formato sem perda de informação e geralmente
possuem significado semântico compreensı́veis por humanos.
I. I NTRODUÇ ÃO Contudo, é difı́cil adquirir um número suficiente de carac-
terı́sticas espaciais para a representação de uma imagem ou
Com o desenvolvimento de equipamentos de aquisição de região, e métodos espaciais são usualmente sensı́veis a ruı́dos.
imagens na área médica, o avanço do uso da internet e a Por outro lado, os métodos espectrais são robustos e utilizam
popularização de smartphones, um grande volume de dados menos recursos computacionais, visto que a convolução no
de imagens são gerados atualmente. Assim, diversas técnicas domı́nio espacial é obtida como o produto no domı́nio da
computacionais têm sido desenvolvidas para realizar o pro- frequência, na qual é implementada usando as Transformadas
cessamento automático dessas imagens visando dar suporte a Rápidas de Fourier (FFT), mas não possuem significado
sistemas de auxı́lio ao diagnóstico e sistemas de recuperação compreensı́vel por humanos.
de imagens por conteúdo. As abordagens por micropadrões locais surgem então como
Uma imagem digital pode ser tratada como uma coleção uma alternativa promissora para tratar regiões e extração
de pixels representados como grandes matrizes de números de caracterı́sticas de imagens digitais. Nesta abordagem, os
inteiros correspondentes às intensidades ou cores destes pixels descritores de textura local têm como objetivo modelar algo-
em diferentes posições na imagem. O objetivo geral de uma ritmos que tenham a capacidade de analisar as propriedades
extração de caracterı́stica é extrair padrões significativos a par- da superfı́cie de um objeto. O processo é realizado a partir
tir destes números. Estes padrões podem ser encontrados nas da análise e da codificação de uma vizinhança, computando
cores, texturas ou formas presentes em uma imagem digital. as relações de intensidades relativas entre os pixels desta
As medições geradas a partir destes padrões são denotadas vizinhança.
como caracterı́sticas de baixo nı́vel (low-level features) [1]. Com relação ao processo de captura/aquisição de imagens
Uma abordagem importante para a descrição de regiões de digitais, estas podem sofrer distorções, sejam borrões ou
uma imagem é quantificar seu conteúdo de textura. A textura ruı́dos. Uma alternativa que tem se mostrado eficaz para
é uma das mais importantes caracterı́sticas presentes em uma representar ou manipular tais incertezas são os números fuzzy.
imagem. Enquanto a cor é usualmente a propriedade de um Inicialmente, os sistemas fuzzy surgiram como uma forma de
pixel, as texturas só podem ser medidas a partir de um conjunto modelar e tratar incertezas inerentes a lı́ngua ou ao cotidiano
de pixels. Devido ao seu grande poder discriminatório, as humano.
caracterı́sticas presentes nas texturas são amplamente usadas Um método que utiliza o poder descritivo dos sistemas e
em recuperação de imagens e técnicas semânticas de aprendi- números fuzzy para modelar a distribuição de nı́veis de cinza
zagem [2]. de um micropadrão como um conjunto fuzzy e que a partir
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✹✽
de funções de pertinência gera códigos fuzzy para representar de pertinência sigmoide (LFP-s), triangular simétrica (LFP-t)
o grau de pertinência dos pixels vizinhos em relação ao pixel e gaussiana (LFP-g).
central é o proposto por [4], chamado Local Fuzzy Pattern Na Fig. 1 está representado o pipeline da metologia reali-
(LFP), para caracterização de textura. Originalmente, este zada neste trabalho, e cada uma das etapas estão descritas a
método foi apresentado usando as funções sigmoide (LFP-s), seguir.
triangular simétrica (LFP-t) e gaussiana (LFP-g) para calcular
os graus de pertinência do pixel central.
Assim, o objetivo deste trabalho foi explorar o método
desenvolvido por [4], estendendo-o para a função trapezoidal
simétrica, o qual chamamos de LFP-tr, para caracterização
de textura de imagens médicas. Para analisar o desempenho
da LFP-tr e das outras funções, foram calculadas as taxas
de acerto usando a distância Chi-quadrado, sobre duas bases
de imagens: Brodatz e uma com patologias de pulmão. O
restante do artigo está estruturado da seguinte maneira: na Figura 1: Metodologia
Seção II são apresentados os trabalhos correlatos ao LFP,
na Seção III é apresentado o descritor proposto, chamado
A. Organização da base de imagens
LFP-tr, e a metodologia de desenvolvimento da pesquisa, a
Seção IV apresenta os resultados e discussões, comparando Nesta seção estão descritas as bases de imagens utilizadas.
os desempenho do LFP-tr aos propostos na literatura (LFP-s, 1) Álbum de Brodatz: A primeira base de imagens de
LFP-g e LFP-t), e por fim a Seção V apresenta as conclusões. texturas utilizada para avaliar o desempenho do extrator de
caracterı́sticas aqui proposto com relação aos originalmente
II. T RABALHOS CORRELATOS propostos por [4], foi o álbum de Brodatz [11]. Este conjunto
O Texture Unit (TU) [5] foi um dos primeiros métodos pro- de imagens digitalizadas possui uma enorme variedade de
postos para caracterização e classificação de textura, onde se texturas e é amplamente utilizado para testes e pesquisas na
relaciona a intensidade dos nı́veis de cinza de uma vizinhança. área de processamento de imagens digitais visando a extração
A principal desvantagem deste descritor é a quantidade elevada de caracterı́sticas.
de códigos gerados, há 6561 unidades de textura possı́veis. Foram selecionadas do álbum de Brodatz 111 imagens de
Já o Local Binary Pattern (LBP) [6], outro método utilizado texturas naturais e sintéticas. Cada imagem é considerada
na descrição e classificação de texturas, reduz a quantidade como uma classe de dimensão 640×640 pixels. De cada classe
de códigos gerados pelo TU para 256. No entanto, com esta são extraı́das 10 amostras aleatórias, como exemplificado na
simplificação, há uma redução do poder discriminatório e Fig. 2, totalizando assim em 1110 amostras de texturas. Fo-
o aumento da sensibilidade a ruı́dos, visto que é realizada ram geradas amostras de diversos tamanhos: 45×45, 50×50,
uma comparação crisp entre os pixels, perdendo assim, a 55×55, 60×60, 65×65, 70×70, 75×75, 80×80, 85×85 e
informação relacionada com a quantidade real da diferença 90×90.
entre os valores dos pixels.
Algumas metodologias que utilizam o poder descritivo
dos conjuntos e números fuzzy já foram propostas, como:
segmentação de imagens de textura [7] [8]; análise, reconhe-
cimento e classificação [9], [10]. Os problemas citados acima
obtiveram a ajuda da lógica fuzzy para gerenciar adequada-
mente informações vagas ou ambı́guas, tornando o processo
de caracterização e classificação mais flexı́vel. Todas, de uma
certa forma, são versões fuzzificadas da metologia Local
Binary Pattern (LBP) [6].
Em [4] é proposta uma generalização do LBP para usar
números fuzzy, chamado Local Fuzzy Pattern (LFP), o qual
foi estudado e explorado neste trabalho para caracterização de
texturas da base amplamente conhecida de Brodatz e uma base
de imagens de pulmão para diferenciação de patologias.
III. M ETODOLOGIA Figura 2: Geração de amostras a partir das imagens de textura do álbum de Brodatz.
Nesta seção, a metodologia proposta usando Local Fuzzy
Pattern - trapezoidal pertinence function (LFP-tr) é descrita. O 2) Álbum de Pulmão: Para verificar a aplicação do vetor
método LFP-tr aqui proposto é uma extensão do método LFP de caracterı́stica proposto no domı́nio de imagens médicas,
desenvolvida por [4], que originalmente utilizou as funções a segunda base de imagens utilizada pertence a um conjunto
✹✾ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
de imagens de tomografia computadorizada de alta resolução O grau de pertinência µ̂g(i,j) do pixel central definido pela
de exames torácicos focados em pulmão [12]. A base de vizinhança W × W é dado pela média ponderada dos valores
imagens está dividida em um total de seis classes distintas, de pertinências de cada pixel. Tal grau de pertinência define o
de acordo com a patologia detectada: enfisema, consolidação, cógigo LFP que reflete a estrutura do micropadrão dentro da
vidro fosco, favo de mel (ou faveolamento), espessamento vizinhança considerada.
e normal. Na Fig. 3 uma amostra de cada classe citada Neste trabalho propomos a extensão da metodologia de [4]
anteriormente é exemplificada. para a função de pertinência trapezoidal simétrica, ao que
chamamos de Local Fuzzy Pattern - Trapezoidal (LFP-tr), que
possui um aspecto semelhante a função de pertinência triagular
simétrica. Para analisar matematicamente a função trapezoidal,
a representação matemática e gráfica do número fuzzy trape-
zoidal é apresentada na Eq. 2 e na Fig. 4, respectivamente:
Figura 3: Exemplos de texturas presentes no álbum de Pulmão (a) enfisema (b) x−a
consolidação (c) espessamento (d) faveolamento (e) normal (f) vidro fosco [12].
m−a , se a ≤ x < m
se m ≤ x ≤ n
1,
Cada classe de imagens possui 451 amostras distintas, ϕA (x) = b−x (2)
totalizando assim em 2706 imagens utilizadas no processo de , se n < x ≤ b
b−n
classificação e extração de caracterı́sticas. Diferentemente da 0, caso contrário
base de imagens de Brodatz, as amostras possuem um tamanho
fixo de 64×64 pixels.
B. Método Local Fuzzy Pattern usando função trapezoidal -
LFP-tr para extração de caracterı́sticas de textura
A abordagem utilizada neste trabalho chama-se Local Fuzzy
Pattern (LFP), proposta inicialmente por [4], que apesar de
receber a mesma nomenclatura do método proposto por Ca-
ponetti et al. (2006), se diferencia pelo fato de uma função de
pertinência estar diretamente responsável pelo código LFP.
Tal metodologia é baseada na teoria fuzzy, porém sem o
uso de regras fuzzy. Os pixels são interpretados como números Figura 4: Representação gráfica da função de pertinência trapezoidal [4].
fuzzy e a vizinhança como um conjunto fuzzy.
Tratando os nı́veis de cinza de um pixel como números fuzzy Partindo do fato de que se trata de um trapézio simétrico,
é possı́vel incorporar a sua variabilidade inerente aos conceitos ou seja, m − a = n − m = b − n = δ, e colocando todos os
fuzzy, fornecendo assim uma metodologia mais apropriada valores em função de m, temos:
para tratar imagens digitais. O fato de a abordagem utilizada se
basear em números fuzzy ao invés de conjuntos fuzzy implica a = m − δ; n = m + δ; b = m + 2δ (3)
diretamente no custo computacional da metodologia.
A representação por números fuzzy é paramétrica e a sendo δ o espalhamento do número fuzzy.
definição de uma função de pertinência apropriada é heurı́stica Realizando as substituições em (2), obtemos:
e aberta a diversas possibilidades. A definição das funções
x−a x − (m − δ) x−m
de pertinência baseia-se nas propriedades da vizinhança do v1 = = =1+ (4)
micropadrão W × W e do pixel central g(i, j) em uma m−a m − (m − δ) δ
imagem digital. Cada distribuição de nı́veis de cinza dentro da
vizinhança é considerada um conjunto fuzzy devido ao grau b−x (m + 2δ) − x x−m
de incerteza gerado pelos processos de aquisição ou ruı́dos v2 = = =2− (5)
b−n (m + 2δ) − (m + δ) δ
imprevisı́veis que podem afetar uma imagem [4].
O grau de pertinência do pixel central g(i, j) para o micro- Considerando que os valores da função de pertinência po-
padrão definido pela vizinhança W × W é apresentado na Eq. dem assumir os valores [0,1], uma função trapezoidal simétrica
1: pode então ser definida como:
PW PW
l=1 [fg(i,j) P (k, l)]
fg(i,j) = max(min(min(v1, v2), 1), 0). (6)
µ̂g(i,j) = k=1PW PW (1)
k=1 l=1 P (k, l) Substituindo os valores de v1 e v2, temos:
onde fg(i,j) é a função de pertinência que irá gerar os valores
das pertinências em relação ao pixel central, e P (k, l) é a x−m x−m
matriz de pesos para a vizinhança A(k, l) com a mesma fg(i,j) = max min min 1 + ,2 − ,1 ,0
δ δ
dimensão W × W . (7)
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✺✵
onde x e m representam a vizinhança analisada A(k, l) e o Uma classificação é considerada correta se esta pertencer
pixel central g(i, j), respectivamente. à mesma classe da amostra para qual a menor distância foi
A função de pertinência trapezoidal gera valores no inter- encontrada. Os resultados são armazenados em uma matriz
valo [0, 1], sendo necessária a conversão para um esquema de confusão (o número de acertos, para cada classe, se loca-
de nı́vel de cinza de 8 bits, os graus de pertinência são liza na diagonal principal M (Ci , Cj ), os demais elementos,
multiplicados por 255 e arredondados ao fim. O histograma M (Ci , Cj ), para i 6= j, representam erros de classificação) e
do LFP-tr, assim como as demais funções analisadas, possuem a sensibilidade (resultados de classificação verdadeiros positi-
256 bins (quantidade de valores representados no histograma vos) é então calculada de acordo com a Eq. 11.
e que variam entre 0 e 255).
TP
As matrizes de peso de tamanho 3×3 e 5×5 possuem a S= (11)
seguinte forma: TP + FN
onde T P são os verdadeiros positivos e F N os falsos negati-
1 1 1 vos.
(8)
P (k, l) = 1 0 1
IV. R ESULTADOS E D ISCUSS ÕES
1 1 1
Nesta seção são apresentados os resultados experimentais
1 1 1 1 1 obtidos com o descritor LFP-tr comparado aos propostos por
[4] (LFP-s, LFP-t e LFP-g). As bases de imagens utilizadas
1 1 1 1 1
foram o álbum de Brodatz e o conjunto de amostras de
P (k, l) = 1 1 0 1 1
(9) exames computadorizados com foco em pulmão, apresentados
1 1 1 1 1 anteriormente.
1 1 1 1 1 Pelo fato de o método utilizado ser paramétrico e a escolha
das funções ideais ser heurı́stica, é necessário definir os
C. Obtenção dos vetores de caracterı́sticas
parâmetros utilizados em cada descritor. Na função sigmoide
O conjunto de amostras extraı́das da base de imagens de há a inclinação da curva representada por β, as funções
texturas de Brodatz foi submetida ao extrator de caracterı́sticas triangular e trapezoidal têm em comum o parâmetro δ que
Local Fuzzy Pattern (LFP) [4] , utilizando as funções de define o espalhamento dos números fuzzy, e σ definindo o
pertinência sigmoidal (LFP-s), triangular (LFP-t), gaussiana desvio padrão na função gaussiana. A seguir são apresentados
(LFP-g), todas estas já utilizadas no trabalho referenciado, os resultados e os parâmetros que propiciaram os melhores
acrescentando-se a função de pertinência trapezoidal (LFP-tr), resultados para todos os descritores.
para posterior comparação de resultados.
Para as bases de imagens de textura, com diferentes ta- A. Resultados para o álbum de Brodatz
manhos de amostras, foram aplicados os métodos LFP-s, As Tabelas I e II apresentam as sensibilidades obtidas
LFP-t, LFP-g e LFP-tr, gerando seus histogramas a partir para a vizinhança de tamanho 3×3, enquanto as Tabelas III e
das distribuições de probabilidade dos códigos provenientes IV monstram os valores dos parâmetros utilizados. Os valores
dos descritores utilizados. Cada imagem passa então a ser em negrito representam o melhor valor de sensibilidade obtido
representada por um vetor de caracterı́sticas com 256 atributos. de acordo com o tamanho de amostra e seu correspondente
descritor.
D. Classificação das amostras
Tabela I: Melhores valores de sensibilidade obtidos pelas funções analisadas utilizando
Após a extração das caracterı́sticas das imagens e da uma vizinhança 3x3.
obtenção dos vetores de caracterı́sticas, estes últimos são 3x3 45x45 50x50 55x55 60x60 65x65
classificados usando a distância Chi-quadrado [4], conforme LFP-s 81,622 86,306 90 91,802 92,973
Eq. 10: LFP-t 71,802 78,018 79,459 82,883 86,667
LFP-g 77,297 82,432 83,964 86,847 88,829
255
1 X (P i − Qi)2 LFP-tr 72,252 74,685 80,541 84,144 85,766
χ2 (P i, Qi) = (10)
2 i=0 (P i + Qi)
Tabela II: Demais tamanhos de amostras analisadas utilizando a vizinhança 3x3 e os
onde Qi é a frequência do nı́vel de cinza da amostra avaliada valores de sensibilidade obtidas.
e Pi a frequência do nı́vel de cinza da amostra do conjunto 3x3 70x70 75x75 80x80 85x85 90x90
que está sendo comparada com a amostra avaliada. Para cada LFP-s 94,414 96,667 96,216 96,667 97,207
histograma de uma amostra gerado, a validação cruzada leave- LFP-t 88,198 89,189 91,532 92,162 93,333
one-out (forma particular de validação cruzada onde o número LFP-g 91,892 92,342 93,604 94,865 95,586
de classificação é o número de exemplos, o classificador é LFP-tr 89,099 90,541 90,541 91,532 93,243
construı́do n vezes, utilizando os dados completamente no
treino e sendo custoso computacionalmente) é utilizada para Comparando os resultados fica evidente que o aumento no
comparação com os histogramas das demais amostras (1109 tamanho das amostras proporciona uma melhor classificação
outras amostras para o álbum de Brodatz), por exemplo. das imagens. A função de pertinência sigmoidal (LFP-s)
✺✶ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Tabela III: Parâmetros utilizados para obter os melhores valores de sensibilidade Tabela VII: Parâmetros utilizados para obter os melhores valores de sensibilidade
utilizando uma vizinhança 3x3. utilizando uma vizinhança 5x5.
3x3 45x45 50x50 55x55 60x60 65x65 5x5 45x45 50x50 55x55 60x60 65x65
β (LFP-s) 1,002 0,75 0,95 1,05 0,9 β (LFP-s) 0,9 0,9 0,9 0,9 0,9
δ (LFP-t) 5,6 5,6 5,8 5,65 5,65 δ (LFP-t) 5,8 5,8 5,8 5,7 5,8
σ (LFP-g) 1,8 1,8 1,8 1,55 1,65 σ (LFP-g) 1,1 1,1 1,1 1,1 1,1
δ (LFP-tr) 5,6 5,8 5,4 5,4 5,6 δ (LFP-tr) 5,8 5,8 5,8 5,4 5,8
Tabela IV: Valores de parâmetros e seus respectivos tamanhos de amostra. Tabela VIII: Demais valores de parâmetros e seus respectivos tamanhos de amostra.
3x3 70x70 75x75 80x80 85x85 90x90 5x5 70x70 75x75 80x80 85x85 90x90
β (LFP-s) 0,71 0,75 0,75 0,725 1,005 β (LFP-s) 0,9 0,9 0,9 0,9 0,95
δ (LFP-t) 5,65 5,6 5,8 5,72 5,72 δ (LFP-t) 5,72 5,8 5,8 5,8 5,8
σ (LFP-g) 1,8 1,8 1,8 1,8 1,8 σ LFP-g 1,15 1,1 1,1 1,1 1,1
δ (LFP-tr) 5,4 5,8 5,3 5,3 5,8 δ (LFP-tr) 5,35 5,3 5,35 5,65 5,8
obteve os melhores valores de sensibilidade dentre todos os B. Resultados para o álbum de pulmão
tamanhos de amostras comparados, chegando a superar em
A base de imagens de pulmão se divide em seis clas-
mais de 6% o segundo melhor valor de sensibilidade, no caso
ses distintas, cada classe representando um tipo diferente
da amostra de tamanho 75×75 do álbum de Brodatz. Observa-
de laudo médico, os possı́veis laudos são: 1 - enfisema;
se que a função trapezoidal mostrou-se mais eficiente que a
2 - consolidação; 3 - espessamento; 4 - faveolamento; 5 -
função triangular em alguns tamanhos de amostras.
normal; 6 - vidro fosco. Para cada classe de imagens foram
As Tabelas V e VI apresentam os valores de sensibilidade
selecionadas 451 amostras de tamanho único de 64×64 pixels,
obtidos para a vizinhança de tamanho 5×5:
num total de 2706 amostras. Aplicando os descritores LFP-
Tabela V: Melhores valores de sensibilidade obtidos pelas funções analisadas utilizando
s, LFP-t, LFP-g e LFP-tr, os valores de sensibilidade foram
uma vizinhança 5x5. obtidos e apresentados nas Tabelas IX e X seguidos dos valores
5x5 45x45 50x50 55x55 60x60 65x65 de parâmetros utilizados.
LFP-s 66,036 72,432 76,757 81,892 85,225
LFP-t 60,541 67,207 71,892 75,225 79,369 Tabela IX: Valores de sensibilidade obtidos para vizinhança 3×3.
LFP-g 68,649 73,874 77,568 79,73 85,315 3x3 64x64
LFP-tr 60,27 66,396 72,883 77,207 80,541 LFP-s 80,377
LFP-t 65,965
LFP-g 66,408
LFP-tr 64,339
Tabela VI: Demais tamanhos de amostras analisadas utilizando a vizinhança 5x5 e os
valores de sensibilidade obtidas.
5x5 70x70 75x75 80x80 85x85 90x90 Na Tabela IX é possı́vel notar que o melhor valor de
LFP-s 88,018 89,73 92,523 93,694 95,045 sensibilidade foi obtido pelo descritor LFP-s (sigmoide), em
LFP-t 81,441 85,856 86,937 88,468 89,82 negrito. O descritor LFP-tr (trapezoidal) obteve o valor de
LFP-g 86,216 88,378 91,351 92,072 92,523 sensibilidade mais baixo, considerando uma vizinhança 3×3.
LFP-tr 84,234 85,946 87,387 89,189 90,721
Tabela X: Parâmetros utilizados para obter os melhores valores de sensibilidade para
Os valores de sensibilidade obtidos mostram que um au- cada descritor, com uma vizinhança 3×3.
3x3 64x64
mento da vizinhança (de 3×3 para 5×5) não necessaria-
β (LFP-s) 1,2
mente proporcionou um melhor processo classificatório. Tanto δ (LFP-t) 70
usando uma vizinhaça 3×3 quanto uma de 5×5, para todos os σ (LFP-g) 20
descritores a sensibilidade aumentou de acordo com o aumento δ (LFP-tr) 49
do tamanho da amostra. Isso ocorreu porque é possı́vel coletar
um maior número de informações da textura. Já as Tabelas XI e XII definem os valores para uma
Ainda é possı́vel notar que, a partir de amostras de tamanho vizinhança 5×5 obtidos com o álbum de pulmão. É possı́vel
60×60, o descritor LFP-s (sigmoide) foi o que apresentou me- observar que o melhor valor de sensibilidade obtido foi pelo
lhores valores de sensibilidade. Apesar de na maior parte dos descritor LFP-s, sendo o LFP-tr o segundo melhor resultado.
resultados do descritor proposto LFP-tr (trapezoidal) ter obtido O descritor que apresentou o desempenho mais baixo foi o
um desempenho um pouco melhor que o LFP-t (triangular), LFP-g, ao contrário do álbum de Brodatz, que este descritor
e em alguns momentos um desempenho um pouco inferior, apresentou o segundo melhor desempenho na maioria dos
pode-se observar que ambos apresentaram um desempenho experimentos realizados. Na tabela dos parâmetros, diferen-
muito semelhante, inclusive, quando observados os parâmetros temente dos parâmetros encontrados para o álbum Brodatz, é
encontrados para os melhores valores de sensibilidade, que na possı́vel ver que os valores de δ encontrados para a função
maioria das vezes possuı́ram o mesmo valor de δ. triangular foi bem diferente da trapezoidal.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✺✷
R EFER ÊNCIAS
V. C ONCLUS ÃO [1] J. Ahmad, M. Sajjad, I. Mehmood, S. Rho, and S. W. Baik, “Describing
colors, textures and shapes for content based image retrieval-a survey,”
Este artigo apresentou um novo descritor, chamado LFP-tr, arXiv preprint arXiv:1502.07041, p. 15, 2015.
que é uma extensão da função LFP proposta por [4], para a [2] D. Zhang, M. M. Islam, and G. Lu, “A review on automatic image
annotation techniques,” Pattern Recognition, vol. 45, no. 1, pp. 346–
função de pertinência trapezoidal. Para validar o desempenho 362, 2012.
deste descritor, foram realizados experimentos em duas bases [3] R. C. Gonzalez and R. E. Woods, Processamento de imagens digitais,
de imagens, e os valores de sensibilidade de todas as funções terceira ed. Edgard Blucher, 2008.
[4] R. T. Vieira, “Análise de micropadrões em imagens digitais baseada em
de pertinência, quando aplicados sobre a base de imagem de números fuzzy,” Msc. Dissertation, 2013.
Brodatz, foram muito satisfatórios, sendo superiores a 90% em [5] D.-C. He and L. Wang, “Texture unit, texture spectrum, and tex-
tamanhos de amostras maiores. Observa-se pelos resultados ture analysis,” IEEE transactions on Geoscience and Remote Sensing,
vol. 28, no. 4, pp. 509–512, 1990.
que o descritor proposto obteve desempenho muito semelhante [6] T. Ojala, M. Pietikäinen, and D. Harwood, “A comparative study of
ao LFP-t. Também foi possı́vel verificar que o descritor LFP- texture measures with classification based on featured distributions,”
s mostrou-se mais adequado para a maioria das amostras, e Pattern recognition, vol. 29, no. 1, pp. 51–59, 1996.
[7] L. Caponetti, C. Castiello, A. M. Fanelli, and P. Górecki, “Texture
que tanto o LFP-tr quanto o LFP-t e o LFP-g variaram no segmentation with local fuzzy patterns and neuro-fuzzy decision sup-
ranking de desempenho. Analisando o desempenho do LFP port,” in International Conference on Knowledge-Based and Intelligent
para todas a funções de pertinência, é possı́vel observar que Information and Engineering Systems. Springer, pp. 340–347.
[8] L. Tlig, M. Sayadi, and F. Fnaiech, “A new descriptor for textured image
o método não se comporta bem para amostras pequenas, com segmentation based on fuzzy type–2 clustering approach,” International
tamanho inferior a 60×60, e que o uso de uma vizinha menor Journal of Signal and Imaging Systems Engineering, vol. 7, no. 3, pp.
(no caso a de 3×3) permitiu que caracterı́sticas de textura mais 159–166, 2014.
[9] D. K. Iakovidis, E. G. Keramidas, and D. Maroulis, “Fusion of fuzzy
significativas fossem extraı́das. Assim, ressalta-se a premissa statistical distributions for classification of thyroid ultrasound patterns,”
de que a escolha do tipo de extrator, do tipo de função e dos Artificial Intelligence in Medicine, vol. 50, no. 1, pp. 33–41, 2010.
parâmetros utilizados muda de acordo com a base de imagens [10] S. Katsigiannis, E. Keramidas, and D. Maroulis, FLBP: Fuzzy Local
Binary Patterns. Berlin, Heidelberg: Springer Berlin Heidelberg, 2014,
analisadas. pp. 149–175.
Os valores obtidos de sensibilidade com a base de pulmão [11] P. Brodatz, Textures: a photographic album for artists and designers.
para o LFP-tr foram consideravelmente inferiores aos obtidos Dover Pubns, 1966.
[12] M. P. da Silva, “Processamento de consultas por similaridade em
com o álbum de Brodatz para um tamanho de amostra seme- imagens médicas visando à recuperação perceptual guiada pelo usuário,”
lhante, mas o descritor LFP-s apresentou uma sensibilidade Ph.D. dissertation, 2009.
✺✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Resumo—Chromosome analysis is an important procedure 4 dias para a preparação das amostras e produção de lâminas
to detect genetic diseases. However, the process of identifying [5]. Esses aspectos motivam o uso de sistemas computacionais
chromosomes can be very time consuming since they are selected para automatizar e dinamizar a análise cromossômica.
manually. In an automated chromosome analysis system, the
thresholding step is often used to identify individuals or cluster Em sistemas automatizados, é muito importante que os
of chromosomes. This paper provides a review of threshold cromossomos estejam destacados do fundo da imagem para
techniques in literature applied to chromosome segmentation. permitir que o sistema faça algumas análises, tais como,
We have implemented fifteen methods, which are divided into contar se o número de cromossomos esperado está presente
four categories: clustering, entropy, histogram and local based ou verificar as diferentes formas ou tipos de cromossomos.
methods. The techniques were evaluated with CRCN-NE and
BioImLab datasets, consisting of 112 images, using the metrics Este artigo tem como objetivo revisar técnicas de threshol-
of accuracy, precision, MCC and sensitivity. Results have showed ding, que é uma abordagem usada para destacar objetos na
that clustering algorithms achieved better results for both bases. imagem, aplicadas na segmentação de imagens de cromo-
A post processing step was also applied, increasing the quality ssomos. Este trabalho avalia 15 algoritmos de binarização,
of results. We could observe that the image acquisition process que representam quatro categorias da literatura: agrupamento,
has a significant impact on the algorithm choice.
baseada em entropia, método baseado em histograma e local.
I. I NTRODUÇÃO Para avaliar os algoritmos foram utilizadas as métricas MCC,
precisão, sensibilidade e acurácia em duas bases de imagens
Cromossomos são estruturas presentes em todas as células com diferentes características quanto a presença de ruídos, ilu-
nucleadas de todos os organismos vivos. Em sua vasta apli- minação e contraste. Além disso, este artigo contribui desen-
cação, a análise cromossômica é uma importante ferramenta volvendo um algoritmo de pós-processamento para melhorar
na estimativa da dose absorvida por um indivíduo exposto à a qualidade da segmentação, eliminando ruídos residuais dos
radiação ionizante (dosimetria). No caso de exposição exce- algoritmos de binarização.
ssiva a essas radiações, é importante uma avaliação rápida
e precisa da estimativa dessa dose para que a equipe médica A. Trabalhos relacionados
defina qual estratégia é mais eficiente no tratamento. A técnica Várias pesquisas têm sido realizadas para desenvolver um
de análise de dicêntricos tem sido utilizada na análise de dose sistema computacional que auxilie na análise cromossômica.
absorvida [1]. Esta técnica demanda muito tempo, quando Kurtz et al. [6] aplicaram técnicas de visão computacional
realizado manualmente, e os sistemas automatizados são esca- como suavização, realce de contraste, dilatação e limiari-
ssos e custosos [2]. Além disso, a experiência e habilidade do zação para segmentar os cromossomos, visando auxiliar o
profissional citogeneticista é um fator importante para a correta geneticista na análise da forma do cromossomo, não avali-
classificação das aberrações, o que torna a análise subjetiva [3]. ando/comparando métodos de binarização existentes. Poletti
A maioria dos laboratórios de citogenética executam a aná- et al. [7] fizeram uma comparação com imagens segmentadas
lise de cromossomos de forma manual [4]. No Centro Regional manualmente, entre uma variedade de métodos de limiarização
de Ciências Nucleares do Nordeste (CRCN - NE), no Brasil, o voltados para segmentação de imagens de cromossomos, con-
processo de análise cromossômica é feito manualmente; i.e., cluindo que métodos que possuem limiarização local obtêm
um especialista por meio de um microscópio óptico analisa melhor desempenho, por se adaptarem melhor a variações do
ao menos 500 células em metáfase (fase do ciclo celular em fundo da imagem. Porém essa comparação é feita em apenas
que os cromossomos são visíveis) por cada amostra irradiada, uma base de imagens e não há etapa de pós-processamento.
contabilizando a frequência de aberrações cromossômicas en- Em 2015, Kurtz et al. [2] criaram um software que permite
contradas em cada metáfase. Este processo leva um tempo ao usuário segmentar a imagem e identificar os cromossomos
aproximado de 5 dias para avaliar cada indivíduo, mais 3 a utilizando correlação de padrões de banda, porém ele não
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✺✹
aborda a avaliação de métodos de binarização presentes nesse primeiro plano e do fundo da imagem. As iterações são
artigo. interrompidas quando o módulo da diferença entre o valor
do limiar de duas iterações seguidas |Tn − Tn+1 | se torna
II. A LGORITMOS DE B INARIZAÇÃO
suficientemente pequeno, definindo dessa forma o valor do
Binarização, ou limiarização, é a conversão de uma imagem limiar [10].
originalmente em tons de cinza para uma imagem binária (com O algoritmo K-means [11] é um algoritmo simples de apren-
dois tons), geralmente preto e branco. dizagem não supervisionado. A ideia principal é definir um
A maior dificuldade na aplicação da limiarização é a defi- número k de centroides, um para cada grupo. Em seguida, cada
nição do valor do limiar. No survey de Sezgin e Sankur [8] dado (nesse caso pixel da imagem) é analisado e associado
foi desenvolvido uma taxonomia voltada para algoritmos de ao centroide mais próximo a ele até que não tenha nenhum
binarização, onde foram definidos seis grupos ou categorias de dado pendente formando os primeiros grupos. Em seguida os
acordo com as informações que eles exploram na imagem. Os k centroides são recalculados e os pixels devem ser novamente
15 algoritmos avaliados neste artigo são baseados em quatro associados com os k centroides mais próximos a eles. Esses
dessas categorias como mostra a Tabela I, são elas: i. métodos passos são repetidos até que os centroides não se movimentem
de agrupamento: a ideia principal desses métodos consiste em mais.
separar os pixels (níveis de cinza), em grupos de acordo com O método de Seleção iterativa (IS) [12] é um processo
as características similares que eles possuem; ii. baseados em iterativo para encontrar o limiar ótimo. O método assume,
entropia: nesta categoria a ideia é explorar a distribuição da arbitrariamente, um valor inicial para o limiar e refina esse
entropia dos níveis de cinza em uma imagem; iii. métodos limiar de acordo com os níveis de cada classe. Inicialmente o
baseados em formas de histograma: esses métodos encontram valor de cinza médio é atribuído ao limiar e com base nesse
o limiar com base nas propriedades de forma do histograma; limiar são coletadas estatísticas dos níveis binários (preto e
iv. métodos locais: um limiar é calculado para cada região branco) das classes. A partir disso, calcula-se a média da escala
da imagem, levando em consideração apenas os pixels da de cinza para os pontos abaixo do limiar Tb da mesma forma
vizinhança. para os pontos acima do limiar To .
Tabela I: Algoritmos divididos em categorias B. Métodos baseados em entropia
Otsu O algoritmo de Kapur [7] considera que a imagem contém
Métodos baseados em agrupamento
Riddler duas fontes de sinais diferentes e que ela é resultado de
K-means duas distribuições de probabilidade. Então, para obter o limiar
Seleção Iterativa
ótimo a entropia total de cada imagem particionada (primeiro
Kapur plano e fundo) é calculada e em seguida, é feita a maximização
Pun
Métodos baseados em entropia da entropia entre o primeiro plano (HB ) e o fundo (HW ).
Johannsen
Sahoo O algoritmo de Pun [13] considera o nível de cinza do his-
Two Peaks tograma como estatisticamente independente. O limiar ótimo
Métodos baseados em formas de histograma Mean gray level é calculado maximizando o limite superior das somas das
Percentage of black
entropias a posteriori dos pixels do primeiro plano da imagem
Bernsen mais a dos pixels do plano de fundo da imagem.
Niblack
Métodos locais
Sauvola No algoritmo de Johannsen [14], o objetivo é dividir a ima-
White gem minimizando a interdependência entre os níveis de cinza.
Para isso, igualmente aos algoritmos de Kapur e Pun, são
Os algoritmos Seleção iterativa, Mean gray level e Percen- calculadas a entropia dos pixels pretos (HB ) e separadamente,
tage of black não foram categorizados no survey mas foram a entropia dos pixels brancos (HW ).
classificados nesse trabalho como algoritmo de agrupamento e O algoritmo Sahoo [15] utiliza a entropia de Reny para
algoritmos baseados na forma do histograma, respectivamente. encontrar o limiar ótimo. Esse método usa duas distribuições
Abaixo, são descritos os algoritmos em cada categoria. de probabilidade (objeto e fundo) derivados da imagem ori-
ginal em níveis de cinza, incluindo o método da soma das
A. Métodos baseados em agrupamento máximas probabilidades (Kapur) e o método entrópico de
Otsu é caracterizado por ser não parametrizado e não correlação. Considere p0 , p1 , p2 , ...p255 como a distribuição de
supervisionado [9]. O limiar ótimo é escolhido minimizando probabilidade para cada nível de cinza. Desta distribuição de
a soma ponderada das variações dentro das classes, primeiro probabilidade, duas distribuições são derivadas, uma delas é a
plano e fundo da imagem. Nesse método, a minimização das distribuição da classe do objeto e a outra distribuição da classe
variações é equivalente à maximização da dispersão/variância do fundo.
entre as classes [8].
O Algoritmo de Riddler é baseado num esquema iterativo C. Métodos baseados em formas de histograma
que mistura modelos de duas classes gaussianas. Um novo A utilização do histograma para determinar o limiar é uma
limiar Tn é escolhido a cada iteração baseado na média do técnica bem comum. Foi observado que quando há um vale
✺✺ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
entre dois picos no histograma, o limiar é facilmente encon- Avaliação dos resultados. As etapas são descritas nas próximas
trado. O método que utiliza essa característica do histograma Subseções. O fluxograma abaixo mostra a relação entre as
é denominado Two peaks (TP) [12]. Esse método pode ser etapas, como ilustrado na Figura 1.
dividido basicamente em dois passos: encontrar os dois picos
e encontrar o menor ponto entre eles.
A técnica Mean gray level (MGL) [16], ou nível de cinza
médio, soma todos os valores de todos os pixels da imagem,
calculando a média deles obtendo assim o limiar. Em outras
palavras, o limiar é definido pelo valor médio do histograma
em tons de cinza. A aplicação do Mean gray level faz com que, Figura 1: Fluxograma do processo de segmentação
aproximadamente, metade dos pixels da imagem se tornem
pretos e metade se tornem brancos.
O algoritmo Percentage of black (ou, porcentagem de preto) A. Base de imagens
[12] calcula o limiar, com auxílio de um histograma que,
nesse contexto, é um vetor com mesmo número de dimensões Foram utilizadas duas bases de imagens com diferentes
de uma imagem em níveis de cinza. Multiplicando-se um características quanto iluminação, contraste e presença de
histograma pela quantidade de pixels total da imagem pode-se ruídos. A primeira base de imagem utilizada foi produzida e
obter o número total de pixels pretos. Para encontrar o limiar disponibilizada pelo Laboratório de Dosimetria Biológica do
conta-se o número de pixels consecutivamente a começar do CRCN-NE, no Brasil. Ela é composta de 35 imagens (vide
pixel 0 do histograma até atingir o número desejado de pixels Figura 2 (a)) de células em metáfase, que foram capturadas
pretos. O limiar é o nível de cinza associado ao último pixel através de um microscópio óptico, rotuladas por especialistas
contado. e estão apresentadas no formato TIFF, com resolução de
2048 × 1536 pixels. Toda a base foi utilizada no trabalho.
D. Métodos locais
O método de Bernsen [17] utiliza o valor do contraste local
para definir os limiares. Esse algoritmo calcula a média entre o
valor mínimo (Imin) e o máximo (Imax) de níveis de cinza
que pertencem à vizinhança do pixel. Porém, a atribuição do
limiar ótimo é baseada no valor de contraste local.
A ideia do algoritmo de Niblack [18] é encontrar o limiar
com relação ao contraste da vizinhança. Para isso é feita uma
varredura na imagem com uma janela de tamanho N xN e
para cada pixel da imagem é calculada a média µ(x, y) e o (a) (b)
desvio padrão σ(x, y) da vizinhança contida dentro da janela. Figura 2: Exemplo de imagem das bases: (a) CRCN-NE; (b)
O algoritmo de Sauvola é um melhoramento do método BioImLab
de Niblack. O algoritmo de Sauvola difere na contribuição
do desvio padrão ao resultado sendo ideal quando há uma A segunda base de imagem possui 162 imagens disponibili-
má distribuição da iluminação na imagem. Quando há muito zadas pelo Laboratório de Imagiologia Biomédica (BioImLab)
ruído na imagem, o limiar é reduzido [8]. Ele adiciona um do Departamento de Engenharia da Informação da Univer-
novo parâmetro ao cálculo do limiar chamado faixa dinâmica sidade de Padova, localizado na Itália [20]. (vide Figura 2
do desvio padrão. A inclusão desse parâmetro diminui a (b)). Neste trabalho foram utilizadas 77 imagens, pois algumas
sensibilidade relacionada ao peso do método Niblack, porém células possuem mais de uma imagem capturadas de diferentes
torna o algoritmo sensível ao novo parâmetro [18]. ângulos. Todas com suas respectivas imagens com segmenta-
O algoritmo de White [19] é um pouco mais simples que ção ideal, feitas manualmente. As imagens foram capturadas
os citados acima, pois realiza uma simples comparação do por meio de um microscópio óptico após terem sido corados
valor do tom de cinza do pixel com a média dos tons de com quinacrina (Bandeamento Q). As imagens apresentam
cinza dos seus vizinhos. Na aplicação deste trabalho, se o formato JPG, com tamanho de 768x576 e resolução de 8
pixel é significativamente mais claro que a média, ele pertence bits/pixels.
à classe dos cromossomos, senão pertence ao fundo.
III. M ETODOLOGIA B. Segmentação
A metodologia utilizada neste trabalho é usada para seg- Na etapa de segmentação foram utilizados os 15 algoritmos
mentar e comparar vários algoritmos de limiarização aplicados de binarização (descritos no Seção II). Esses algoritmos são
na segmentação de imagens de cromossomos. Este processo é bem conhecidos, mas com exceção do algoritmo de Otsu e
dividido em quatro etapas: i. Seleção da imagem de cromosso- K-means, no nosso conhecimento, eles não foram aplicados
mos de entrada; ii. Segmentação; iii. Pós-processamento; iv. no contexto de segmentação de cromossomos.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✺✻
Figura 3: Exemplo de segmentação de uma imagem para cada técnica de limiarização (a) Imagem original (Base CRCN-NE);
(b) Segmentação ideal; (c) Otsu; (d) Mean Gray Level; (e) Kapur; (f) Pun; (g) Ridler; (h ) Two Peaks; (i) Seleção iterativa; (j)
K-means.
imagem analisada. As demais técnicas não foram mostradas na Tabela III: Resultados da segmentação base BioImLab
Figura 3 porque eles tiveram resultados ruins para a imagem Algoritmos MCC Precisão Sensibilidade Acurácia
do exemplo, retornando uma imagem completamente preta.
K-means 78,8%(0,15) 69%(0,25) 96,6% (0,07) 96,7%(0,03)
A Tabela II mostra os algoritmos analisados e seus respecti- Riddler 65,9%(0,16) 71,8%(0,09) 66,9% (0,09) 96,2%(0,03)
vos valores de MCC, precisão, sensibilidade e acurácia obtidos Sauvola 68,4%(0,12) 57,4%(0,17) 88,1% (0,04) 96,6% (0,03)
na base do CRCN sem pré-processamento. O algoritmo de Johannsen 67,5%(0,16) 50,5%(0,21) 99,9% (0,004) 93,6% (0,05)
Kapur 65,7%(0,27) 53,4%(0,26) 93,4%(0,22) 87,9%(0,25)
Otsu alcançou o melhor resultado para esta base. Note que os TP 62,8%(0,30) 64,9%(0,34) 72%(0,38) 96%(0,20)
valores de MCC e precisão não foram muito altos, isso ocorreu Sahoo 50,3%(0,20) 67,8%(0,32) 42%(0,12) 95,6%(0,02)
provavelmente pela presença de ruídos na base do CRCN. SI 41,2%(0,19) 65,4%(0,35) 30,6%(0,13) 95,2%(0,02)
Otsu 38,9%(0,28) 26%(0,22) 100%(0,36) 60,6%(0,36)
Tabela II: Resultados da segmentação base CRCN MGL 36,1%(0,18) 65%(0,35) 24,8%(0,12) 95%(0,02)
White 19,1%(0,23) 13,1%(0,22) 99,3%(0,01) 35%(0,25)
Pun 18%(0,25) 14,4%(0,27) 99,3%(0,02) 28,9%(0,25)
Algoritmos MCC Precisão Sensibilidade Acurácia
PB 16,1%(0,22) 11,6%(0,19) 100%(0,23) 27%(0,23)
Otsu 61.7%(0.13) 45.8%(0.15) 88.3% (0.15) 97.3% (0.01) Niblack 10,5%(0,03) 6,2%(0,02) 96,8%(0,02) 27,4% (0,06)
K-means 58.4%(0.20) 44.5%(0.23) 86.6%(0.17) 95.6%(0.05) Bernsen 3,5%(0,05) 5,5%(0,02) 74,6%(0,05) 35,1% (0,08)
Kapur 50.4% (0.29) 38.1% (0.23) 73.9% (0.40) 97.1%(0.01)
IS 44.2%(0.27) 48.3%(0.31) 47.4% (0.32) 97.7% (0.01)
Bernsen 43.7%(0.14) 31.9%(0.17) 71.5%(0.08) 93.9%(0.07)
PB 39.9%(0.05) 18.3%(0.05) 98.3% (0.02) 91.2%(0.00) inviabilizar o uso desse algoritmo já que o tempo é fator
TP 39%(0.26) 30.5%(0.30) 75.1%(0.35) 88.2%(0.13) importante na estimativa da dose.
MGL 28.6%(0.24) 38.7%(0.33) 25.3%(0.28) 97.6%(0.01)
Sahoo 22.4%(0.26) 28.7%(0.21) 13.9%(0.29) 97.6%(0.01)
Por fim, notou-se que alguns algoritmos como Johannsen,
Niblack 16.6%(0.01) 5.2%(0.01) 90.7%(0.05) 67.4%(0.02) Sauvola e Otsu são mais sensíveis as diferentes características
Pun 14.1%(0.02) 3.9%(0.01) 99.9%(0.00) 51.8%(0.03) das bases do que os demais avaliados. Isso quer dizer, que o
Sauvola 10.7%(0.01) 3.3%(0.00) 91.8%(0.04) 48.2%(0.01)
Riddler 9.5%(0.17) 21.2%(0.29) 7.7%(0.19) 97.6%(0.01)
mesmo algoritmo apresentou resultados bem diferentes para
White 2.1%(0.04) 18.2%(0.31) 0.4%(0.01) 97.8%(0.01) cada base de imagem.
Johannsen 1.2%(0.07) 11.9%(0.31) 2.5%(0.15) 97.8%(0.01)
C. Pós-processamento
Na base de imagens do BioImLab, os resultados ligeira- Para melhorar a qualidade da segmentação, e remover os
mente diferentes, provavelmente por causa das diferentes ca- ruídos que permaneceram, ou surgiram durante segmentação,
racterísticas existente entre as bases de imagens como con- a etapa de pós-processamento foi criada utilizando o filtro
traste, iluminação e excesso de ruídos. Os melhores resultados gaussiano com janela de tamanho 3x3 e a técnica morfológica
foram obtidos pelo algoritmo de K-means e Riddler. de abertura com elemento estruturante de tamanho 5 e forma
Pode-se observar que os algoritmos de agrupamento obtive- elíptica, obtendo um melhoramento de 4,31% na precisão,
ram os melhores resultados em ambas as bases, com destaque 1,11% no MCC e acurácia de 0,28%.
para o algoritmo de K-means considerado o melhor para a Na base do BioImLab a imagem resultante da segmentação
base do BioImlab e o segundo melhor na base do CRCN. não possui pequenos ruídos então o não foi necessário a uti-
Contudo, embora o K-means tenha obtido boa performance lização de técnicas de pós-processamento. A Figura 5 mostra
em relação aos demais seu tempo de execução foi bem alto um exemplo do resultado/eficácia na aplicação dos filtros na
em comparação ao tempo dos outros algoritmos. Isso pode etapa de pós-processamento.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✺✽
Abstract—The Misturograma-RNA is a recent technique for Esta nova proposta, também aplicada em imagens de pele
color image segmentation, based on Color Mixture and Artificial humana, mostrou-se mais eficiente na segmentação e
Neural Network, which has been applied only for binary classificação do que o uso individual do Misturograma e da
classification. This paper proposes to investigate if this technique Rede Neural Artificial (RNA).
can be used for multiclass problems, as well as for any color
images. In this paper, we applied this approach for satellite image Neste trabalho, o objetivo é investigar se o Misturograma-
segmentation, due to be a hard task for segmentation methods RNA pode ser utilizado para a segmentação de imagens
and also to the great applicability in rural and urban areas. coloridas de mais de uma classe, ou seja, se pode ser utilizado
The goal of this paper was to segment four classes from satellite como classificador multiclasse. Por se tratar de um
images: tree, soil, street and water. We also have generated a classificador neural, tem-se a premissa da possibilidade de se
satellite image database, extracted from Google Earth prototipar a RNA com mais de uma classe.
from 10 cities of different countries, in 4 different scales (500m,
1000m, 1500m and 2000m). Our results show that the Para investigar esta premissa, foram realizados testes em
Misturograma-RNA is a multiclass classifier technique and imagens de satélites, devido a sua aplicabilidade no auxílio à
surpassed two other classical literature classifiers, the SVM and resolução de problemas em diversas áreas, sendo um dos seus
ANN, reaching over 93% of sensitivity. principais focos o mapeamento geográfico, que busca a
localização de objetos específicos em áreas urbanas e rurais.
Keywords—color image segmentation; multiclass image.
Nas áreas urbanas, o foco é a identificação de objetos como
I. INTRODUÇÃO casas e prédios [7-9], ruas e estradas [10-12] etc. Segundo [13],
utilizando-se imagens de satélites, é possível realizar diversas
A segmentação de imagens coloridas é um desafio na Visão
tarefas, como o estudo e planejamento do crescimento urbano,
Computacional, pois existem menos técnicas na literatura do
gestão de desastres, vigilância e segurança, sensoriamento
que as relativas ao processamento em nível de cinza.
remoto, aplicações militares etc.
Entretanto, imagens coloridas possuem mais informações do
que imagens em nível de cinza, permitindo investigar novas Em áreas rurais, as aplicações são direcionadas para o
relações entre os canais de cores. monitoramento na agricultura [14], no crescimento de
plantações [15], na detecção de pragas, no desmatamento
O Misturograma [1] é uma técnica que se mostrou eficiente
ilegal, no monitoramento de rios, entre outros.
para a segmentação de imagens coloridas. Utilizou, para isto,
duas combinações: a primeira foi a mistura de cores, Segundo [16], novos estudos têm sido realizados para a
semelhante à decomposição das camadas de tintas em telas previsão de catástrofes ecológicas, atividades agrícolas,
artísticas; a segunda foi uma ponderação na sua equação, poluição marítima, mudança climática, vigilância em geral,
fazendo uma analogia com a retina humana, que possui uma mapeamento das zonas de desastre, planejamento de logística e
variação na quantidade dos seus cones. O resultado dessa definição de vias de acesso para as operações de socorro, etc.
combinação foi um método de quantização de cores em 256
planos ao longo do cubo RGB, adicionado de um classificador Este trabalho concentra-se em imagens coloridas de alta
gaussiano para a segmentação em nível dos pixels. resolução no espectro visível, extraídas do Google Earth, pois
são facilmente adquiridas e não possuem custo devido à
Porém, uma limitação do Misturograma é ser apropriado disponibilidade da nova geração de sensores, tais como:
para distinguir amostras de apenas duas classes, ou, mais IKONOS, EROS, OrbView, QuickBird, SPOT5, WorldView,
precisamente, dizer se um pixel é ou não pertencente à classe GeoEye, Pleiades, tornando-se essenciais para a detecção
treinada. Foi estatisticamente superior na segmentação de pele automática de objetos geoespaciais [7].
humana frente a outras metodologias [2-5].
Como objetivo de segmentação, foram escolhidas 4 classes:
Baseado no Misturograma, tanto no seu potencial quanto na árvores, solos (gramados e terra), ruas e água (rios e lagos). A
sua limitação, foi proposta uma alteração do seu classificador maior dificuldade é a complicada diferenciação entre regiões
gaussiano por um classificador neural do tipo Perceptron Multi de árvores e solo, principalmente em gramados, dificultando,
Camadas (PMC), originando, assim, o Misturograma-RNA [6].
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✻✵
assim, o processo de análise das imagens tanto manualmente, a Para cada cidade, foram escolhidos 3 pontos para realizar a
olho nu, como automaticamente, de forma computacional. captura da imagem. Para cada ponto, foram extraídas 4
imagens com altitude variável (500m, 1000m, 1500m e
Para a realização dos testes, por não ter sido encontrado
2000m), permitindo, assim, realizar futuros testes com escalas
disponível um banco de imagens de satélite com as classes diferentes.
desejadas, foi construído um banco de dados de imagens reais
extraídas do Google Earth, de diferentes localidades do planeta Cada imagem possui, obrigatoriamente, no mínimo as 4
e diversas escalas em relação à altura da aquisição da imagem. classes utilizadas neste trabalho (árvore, solo, rua e água), com
dimensão de 1280x580 pixels e salvas no formato TIFF, para
O foco do trabalho não é desenvolver uma técnica para não sofrerem nenhum tipo de compressão. Um exemplo de
aplicações exclusivamente de satélites, pois, nestes casos,
imagem é exibido na Fig. 2.
depende muito de cada problema a ser resolvido, tipo de
imagem (quantidade de bandas, ruídos), diferentes técnicas etc.
As técnicas variam conforme a especialidade e afinidade de
cada autor, incluindo, mas não se limitando, a abordagens de
cor, forma, texturas, sistemas inteligentes, entropia etc.
Sendo assim, como o objetivo é investigar o desempenho
do Misturograma-RNA em aplicações multiclasses, os
resultados foram comparados com outros dois classificadores
consagrados da literatura, uma Rede Neural Artificial (RNA)
do tipo Perceptron Multi-Camadas (PMC) e uma Máquina de
Vetor Suporte (SVM). Fig. 2. Imagem extraída de Berlim (Alemanha) com zoom de 500m.
II. METODOLOGIA Para cada imagem, será gerada manualmente uma imagem
Todas as implementações, simulações, testes e análises de referência (ground truth), com auxílio de um editor de
estatísticas utilizaram a plataforma MATLAB. A Fig. 1 exibe imagens, atribuindo-se cores diferentes para cada classe e preto
um diagrama das etapas realizadas para o desenvolvimento para o restante. A Fig. 3 exibe um exemplo deste ground truth.
deste trabalho.
Fig. 3. Imagem ground truth: árvore (verde), solo (amarelo), rua (vermelho)
e água (azul); em preto são objetos que não são de interesse.
Fig. 1. Sequência das etapas deste trabalho.
Para todas as imagens adquiridas, foram extraídas regiões
A. Construção e disponibilização do banco de dados de de cada classe, com tamanhos variados por meio de recortes
imagens de satélite manuais, organizadas também pela escala. A Fig. 4 mostra
Este banco de dados foi criado para auxiliar futuras alguns exemplos dessas amostras.
pesquisas com imagens de satélite em visão computacional ou
áreas afins. É composto por 120 imagens coloridas de alta
resolução no espectro visível, extraídas pela ferramenta do a)
Para a criação do banco, seguiu-se um protocolo, Para os experimentos deste trabalho, cada conjunto de
padronizando-se, assim, desde a aquisição das imagens até a 100% foi dividido em 3 novos conjuntos, também apresentados
nomenclatura dos arquivos e pastas. Para cada imagem, foi na Tabela II. Um conjunto chamado Treino, com 70% das
criado um registro com diversas informações, sendo elas: nome amostras disponíveis, com a finalidade dessas amostras serem
da cidade e do país, latitude e longitude (em graus), escala apresentadas no processo de treinamento dos métodos. O
(resolução: pixels/metro), nome do satélite e data de aquisição. conjunto chamado Teste possui 15% das amostras que restaram
após serem selecionadas as 70% de Treino, ou seja, essas
Todos os marcadores utilizados na ferramenta do Google
amostras de teste não fizeram parte do treinamento. Isto
Earth foram salvos e estão disponíveis para acesso junto ao permitiu uma análise mais confiável estatisticamente, pois
banco. A estrutura final do banco pode ser observada na Fig. 5.
avaliou se realmente os métodos treinados generalizaram o seu
conhecimento, sendo capazes de resolver problemas
Banco de Dados semelhantes.
Imagens de Satélite
TABELA II. QUANTIDADE TOTAL DE AMOSTRAS (PIXELS) POR ZOOM. Uma das vantagens do Misturograma-RNA frente aos
demais classificadores é que, antes de classificar, as amostras
são quantizadas em planos, e isto objetiva separar as amostras
de classes diferentes que estavam muito próximas no espaço.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✻✷
Para quantizar em planos, considera-se os valores RGB do Os detalhes da implementação das rotinas de validação
pixel em análise, e isso é realizado pela equação 1. cruzada, referentes à escolha da melhor topologia (quantidade
de neurônios) de cada rede neural, podem ser encontrados no
#$%&'%( trabalho original do Misturograma-RNA [6].
�= (1)
)
D. SVM (Support Vector Machine)
que retorna um valor de “m” entre 0 e 255, indicando,
assim, a qual dos 256 planos aquele pixel em análise deve ser O kernel do classificador SVM foi configurado com uma
projetado. Um exemplo pode ser visto na Fig. 7. função de base radial gaussiana, com sigma igual a 1,0. Esta
escolha foi embasada em dois fatos: a disposição espacial das
amostras não é linearmente separável, como mostra a Fig. 6, e
também para investigar o comportamento de um algoritmo de
(x,y) = [R,G,B] agrupamento das amostras.
(3,3) = [75,92,62]
E. RNA-PMC (Rede Neural Artificial do tipo PMC)
Para justificar a aplicação de uma rede para cada plano
(Misturograma-RNA), foi implementada uma RNA do tipo
m=
(4 × R) + (2 × G) + B
m=
(4 × 75) + (2 × 92) + 62
= 78
PMC (RNA-PMC), com as mesmas especificações detalhadas
7 7 na sessão II-C, mas, com todas as amostras independentes dos
Fig. 7. Exemplo de uma amostra de Árvore sendo projetada em um plano.
planos, ou seja, apenas um classificador neural para todo o
cubo RGB.
Após todas as amostras disponíveis serem quantizadas, é
III. RESULTADOS
aplicado uma rede neural em cada um dos planos. Esta é a
diferença da proposta do Misturograma-RNA frente ao Para todas as simulações, independente da metodologia ou
Misturograma, pois neste é utilizado um único classificador zoom, foi calculada e armazenada a matriz de confusão, assim,
gaussiano ao longo de todo o cubo RGB que contém todas as é possível realizar diversas análises estatísticas.
amostras (Fig. 6). Baseado nas matrizes de confusão, foi calculada a
Na proposta do Misturograma-RNA, aplica-se um Sensibilidade de cada classificador, de acordo com cada zoom
classificador neural para cada um dos planos. Isto torna a tarefa e cada metodologia. Os resultados são exibidos na Tabela III.
de classificação mais eficiente, pois não existe mais o universo
todo de amostras para serem classificadas, e sim uma menor TABELA III. SENSIBILIDADE DE CADA METODOLOGIA PARA CADA ZOOM.
região, concentrada em cada plano, conforme pode ser visto na
Fig. 8.
Para visualizar melhor o comportamento de todos os satélites, acabam ficando de certa forma “esverdeadas”, e não
métodos ao se variar a altura de aquisição das imagens, foi azuis e/ou transparentes como se esperava, exemplo visto na
gerado o gráfico exibido na Fig. 9. Fig. 4d.
100 Outra confusão bastante constante foi entre ruas e solos,
90 que pode ser justificada pelo fato de que nas imagens do banco,
Sensibilidade %
80
70 quase sempre ao lado de uma rua existia um gramado ou
60 canteiro, correspondente ao solo.
50
40
30 Estas confusões elevaram o número de Falsa Rejeição
20 (razão de uma classe não classificada como ela mesma) a
10
0 valores de 20% para árvore, 13% para solo e 11% para ruas.
500m 1000m 1500m 2000m
Para finalizar os resultados, foram contabilizados os tempos
Misturograma-RNA SVM RNA-PMC dos treinamentos de todas as simulações, sendo utilizado, para
isto, um mesmo computador, com processador Core i7 de 2.5
Fig. 9. Representação gráfica das sensibilidades em cada zoom e método. GHz, 24 GB memória RAM e sistema operacional Ubuntu de
64-bits. A Tabela VI mostra os tempos computados.
Observa-se, na Fig. 9, que, para qualquer zoom, o
Misturograma-RNA é mais eficiente, seguido do SVM, e, por TABELA VI. TEMPO APROXIMADO DE CADA METODOLOGIA POR ZOOM.
fim, da RNA-PMC. A Tabela IV exibe os resultados do cálculo
da média de Sensibilidade de todos os zoons para cada método.
Neste trabalho, foi criado e disponibilizado um banco de 2000. Proceedings. 15th International Conference on, vol. 1, 2000, pp.
dados de imagens de satélites, imagens estas extraídas do 1056–1059.
Google Earth, de 10 cidades de diferentes países, sendo [5] N. Bourbakis, P. Kakumanu, S. Makrogiannis, R. Bryll, and S.
Panchanathan, “Neural network approach for image chromatic
armazenadas 3 imagens para cada uma das cidades, e cada adaptation for skin color detection,” International Journal of Neural
imagem foram adquiridas em 4 escalas diferentes (500m, Systems, vol. 17, no. 01, pp. 1–12, 2007.
1000m, 1500m e 2000m), totalizando, assim, 120 imagens. [6] D. R. Moraes, J. P. B. Casati and A. Gonzaga, “Human skin
segmentation based on Color Mixture and Artificial Neural Networks,”
O resultado da classificação dos pixels com o in XII Workshop de Visão Computacional, 2016.
Misturograma-RNA foi comparado com os resultados de [7] J. Wang et al., “An efficient approach for automatic rectangular building
outros dois métodos, um classificador SVM e uma RNA do extraction from very high resolution optical satellite imagery,” IEEE
tipo PMC, pois são utilizados em diversas aplicações, com Geoscience and Remote Sensing Letters, v. 12, n. 3, p. 487-491, March
excelentes resultados. 2015.
[8] M. Wang, S. Yuan and J. Pan, “Building detection in high resolution
Analisando os resultados estatisticamente, para os quatro satellite urban image using segmentation, corner detection combined
experimentos realizados, um para cada zoom, o Misturograma- with adaptive windowed Hough Transform,” in IEEE International
RNA foi mais eficiente na Sensibilidade que os outros dois Geoscience and Remote Sensing Symposium (IGARSS), 2013,
métodos. Superou, em média, o SVM em mais de 3% e a Melbourne. Proceedings... Melbourne: IEEE, p. 508-511, 2013.
RNA-PMC em mais de 6%, alcançando valor máximo de [9] S. Freire et al., “Introducing mapping standards in the quality assessment
of buildings extracted from very high resolution satellite imagery,”
93,69% para o zoom de 500m e valor mínimo de 90,77% para ISPRS Journal of Photogrammetry and Remote Sensing, v. 90, p. 1-9,
1000m. April 2014.
Baseado nos resultados obtidos, conclui-se que o método [10] L. Abraham and M. Sasikumar, “A fuzzy based road network extraction
from degraded satellite images,” in International Conference on
do Misturograma-RNA pode ser utilizado para segmentação de Advances in Computing, Communications and Informatics (ICACCI),
imagens coloridas multiclasse, assim como para quaisquer 2013, Mysore. Proceedings… Mysore: IEEE, 2013, p. 2032-2036,
outras aplicações multiclasses com imagens coloridas. 2013.
[11] O. Besbes and A. Benazza-Benyahia, “Joint road network extraction
Como trabalho futuro, o objetivo é investigar se o from a set of high resolution satellite images,” in 22ND European Signal
Misturograma-RNA é invariante a escala. Esta hipótese é Processing Conference (EUSIPCO), 2014, Lisbon. Proceedings…
sustentada se considerarmos que não houve alterações Lisbon: IEEE, p. 2190-2194, 2014.
significativas no comportamento da Sensibilidade ao se variar [12] R. Gaetano et al., “Morphological road segmentation in urban areas from
o zoom. high resolution satellite images,” in 17TH International Conference On
Digital Signal Processing (DSP), 2011, Corfu. Proceedings… Corfu:
AGRADECIMENTOS IEEE, p. 1-8, 2011.
[13] H. Iftikhar and K. Khurshid, “Fusion of Gabor filter and morphological
Os autores agradecem o apoio financeiro da FAPESP, operators for the detection of settlement zones in Google Earth satellite
processo #2015/20812-5, para a realização deste trabalho. images,” in IEEE International Conference On Signal And Image
Processing Applications (ICSIPA), 2011, Kuala Lumpur. Proceedings...
REFERENCES Kuala Lumpur: IEEE, p. 232-237, 2011.
[1] O. Severino and A. Gonzaga, “A new approach for color image [14] S. Jamali et al., “Detecting changes in vegetation trends using time
segmentation based on color mixture,” Machine Vision and series segmentation”, Remote Sensing of Environment, v. 156, p. 182-
Applications, vol. 24, no. 3, pp. 607–618, 2013. 195, January 2015.
[2] P. Peer and F. Solina, “An automatic human face detection method,” in [15] S. Aksoy, I. Z. Yalniz and K. Tasdemir, “Automatic detection and
4th Computer Vision Winter Workshop, 1999, pp. 122–130.
segmentation of orchards using very high resolution imagery”, IEEE
Transactions on Geoscience and Remote Sensing, v. 50, n. 8, p. 3117-
[3] D. Forsyth and M. Fleck, “Automatic detection of human nudes,” 3131, August 2012.
International Journal of Computer Vision, vol. 32, no. 1, pp. 63–77,
1999.
[16] A. L. Barbieri et al., “An entropy-based approach to automatic image
segmentation of satellite images,” Physica A: Statistical Mechanics and
[4] J. Brand and J. S. Mason, “A comparative assessment of three ap- its Applications, v. 390, n. 3, p. 512-518, 2011.
proaches to pixel-level human skin-detection,” in Pattern Recognition,
✻✺ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Resumo—Although facial recognition is a traditional type of evolução dos algoritmos de reconhecimento facial pode ser
biometrics, it is still an open field for improvement. Factors encontrado na literatura [6].
such as proper face positioning, inadequate ilumination, cor- Um desafio comum para algoritmos tradicionais, como
rectness of face/backgroung segmentation and partial occlusion
make facial recognition a challenging task when used in real por exemplo o Eigenfaces [7], é tratar imagens faciais com
scenarious. The present article proposes the use of algorithms irregularidades (e.g., oclusão, emoção, rotação e outros). Além
based on scale invariant texture descriptors to perform facial disso, é comum que métodos tradicionais façam uso de alguma
biometric recognition and compares these algorithms with the espécie de treinamento e, para tanto, faz-se necessária uma
Eigenfaces. The Viola-Jones method was used to detect faces in base de dados que contenha muitas amostras da mesma
the photographs and three different approaches were considered
to perform their recognition, namely: (a) SIFT (Scale Invariant face. Em função dos argumentos supramencionados, a busca
Feature Transform); (B) SURF (Speeded Up Robust Features); por diferentes métodos de se realizar reconhecimento facial
and (c) Eigenfaces. A database with 10 photos of 65 subjects was ainda é um desafio. Em especial, é possível considerar o
created. The 650 images were acquired through a conventional SIFT e o SURF como potenciais alternativas ou, ao menos,
webcam. The results show that SIFT and SURF may outcome ferramentas de suporte ao reconhecimento facial [8]. Esses
Eigenfaces’ performance.
algoritmos, além de dispensarem treinamento e de necessita-
rem de configuração prévia mínima, são invariantes a escala e
I. I NTRODUÇÃO
modestamente invariantes à rotação [9]. Naturalmente, como
A necessidade de se reconhecer indivíduos a partir de não foram concebidos com a finalidade de realizar reco-
suas características fisiológicas ou comportamentais vem ga- nhecimento facial, ainda carecem de validação experimental.
nhando importância. Atualmente o uso de senhas numéricas Neste sentido, avaliar seus desempenhos quando aplicados a
ou alfanuméricas vem se tornando inconveniente. É comum bases de dados independentes, com imagens de diferentes
uma pessoa em um único dia fazer uso de diversas senhas qualidades e resoluções, obtidas por diferentes câmeras é
para, por exemplo, acessar bancos, e-mails, faturas eletrônicas, fundamental para validação de resultados e verificação da
computadores, áreas restritas, entre outros serviços. Diante hipótese de que o SIFT e o SURF podem ser considerados para
disso, encontrar maneiras de reconhecer indivíduos a partir realizar reconhecimento facial. Diante do exposto, o presente
de suas características intrínsecas (e.g., assinatura, voz, im- trabalho pretende comparar o desempenho destes algoritmos
pressões digitais, face etc.) ganha importância e destaque. A com o algoritmo Eigenfaces (classicamente utilizado com essa
área do conhecimento humano que estuda o reconhecimento finalidade), quando aplicados a uma base de dados de imagens
de indivíduos por meio de suas características fisiológicas ou de baixa resolução obtida por webcams convencionais.
comportamentais chama-se biometria [1]. O trabalho está organizado da seguinte maneira: a Seção
Dentre as diversas formas de se realizar o reconhecimento II apresenta conceitos básicos sobre biometria e algoritmos já
de indivíduos, a biometria facial é uma das que vêm sendo existentes para biometria facial; a Seção III apresenta a base
cada vez mais utilizadas. No entanto, o desempenho alcançado de dados, bem como a configuração do algoritmo Eigenfaces
com a biometria facial, quando comparado a outras biome- utilizada para os testes realizados; o resultados experimentais
trias [2], ainda é considerado baixo. Isso indica a necessidade são apresentados na Seção IV e as conclusões, bem como
de melhorias nos algoritmos atuais e a proposta de outros que trabalhos futuros, são apresentados na Seção V.
possam superar as dificuldades existentes. Nesse sentido, o
presente trabalho pretende avaliar o desempenho dos algo- II. R EVISÃO DA L ITERATURA
ritmos baseados em casamento de padrões Scale Invariant A seguir serão apresentados alguns conceitos necessários à
Feature Transform (SIFT) e Speeded Up Robust Features plena compreensão do trabalho proposto.
(SURF) quando aplicados ao reconhecimento biométrico fa-
cial. Muito embora os algoritmos SIFT e SURF não tenham A. Biometria
sido originalmente concebidos com o intuito de realizar tarefas Define-se biometria como sendo a identificação automati-
de reconhecimento biométrico, trabalhos recentes mostram zada de um indivíduo à partir de suas características compor-
que quando utilizados com esse propósito geram resultados tamentais e/ou fisiológicas que sejam únicas e cuja imitação
promissores [3], [4], [5]. Uma visão detalhada a respeito da por um terceiro não seja trivial [10], [11], [12]. Tal definição
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✻✻
Início
Abrir câmera
por meio da eliminação de subconjuntos de componentes Armazena o quadro atual Espera 5 segundos
rizado em uma única. Aqui foi apresentado um exemplo com Figura 5. Fluxograma do algoritmo de aquisição e registro de um indivíduo
apenas duas variáveis. Os benefícios dessa técnica tornam-se no banco de dados.
mais evidentes quando o conjunto original de atributos é maior.
Para se aplicar a PCA como ferramenta de reconhecimento construída a partir da combinação linear de suas componentes
facial, inicialmente deve-se reorganizar os pixels da imagem principais. Apenas para efeito de ilustração, a Figura 4 mostra
em um vetor, conforme ilustrado na Figura 3. No exemplo uma face média e um conjunto de 3 Eigenfaces calculadas a
em questão, os três pixels da primeira linha tornam-se os três partir de 25 indivíduos (3 faces cada) presentes no conjunto
primeiros elementos do vetor, os três pixels da segunda linha de treinamento. Apenas essas três componentes principais são
tornam-se os próximos três elementos e, por fim, a última linha responsáveis por 42.37% da informação presente no conjunto
contribui com os três últimos elementos do vetor. de treinamento.
Na operação, quando uma face desconhecida é apresentada
ao classificador, ela também recebe uma representação em
termos de uma combinação linear das componentes principais
(Eigenfaces) e os pesos atribuídos a cada uma de suas com-
ponentes são comparados aos pesos atribuídos à representação
de cada face do conjunto de treinamento. Calcula-se, então, a
distância entre os vetores de pesos. Se em uma determinada
comparação a distância é inferior a um limiar especificado
pelo usuário, a face desconhecida é reconhecida como sendo
do indivíduo em questão.
Figura 4. Imagem média (mais à esquerda) e 3 Eigenfaces (mais à direita)
calculadas a partir de 25 indivíduos (3 faces cada) presentes no conjunto A matemática e os algoritmos por trás das técnicas aqui
de treinamento. Uma face qualquer pode ser aproximada por meio de uma apresentadas já foram exaustivamente abordados pela litera-
combinação linear de Eigenfaces, conforme exemplificado. Os valores p0 a tura. Por isso, apresentamos a PCA [26] e o Eigenfaces [7] de
p3 indicam o peso de cada elemento da base.
forma a oferecer apenas uma intuição a respeito do assunto.
A seguir será apresentada a metodologia utilizada no presente
O próximo passo é realizar o procedimento descrito an- trabalho.
teriormente para um conjunto de imagens de treinamento e
arranjar os vetores resultantes em uma matriz M . Considere III. M ETODOLOGIA
que o conjunto proposto é formado por N imagens de di-
mensões k × k pixels. A matriz resultante terá k 2 linhas e A. Formação da Base de Faces
N colunas, ou seja, cada coluna representa uma face. Em A base de teste foi construída com 10 fotografias de 65
seguida aplica-se a PCA em Mk2 ×N e realiza-se a redução de usuários, totalizando 650 imagens. Para adquirir as faces, foi
dimensionalidade, preservando as colunas da matriz resultante aplicado um algoritmo que continuamente analisa o vídeo de
que estão associadas às mais altas variâncias. A PCA permite a um indivíduo posicionado em frente a uma webcam conven-
conversão de um conjunto de N imagens em L < N variáveis cional e armazena um snapshot (fotografia) apenas se uma
descorrelacionadas denominadas Eigenfaces. Essas variáveis face tiver sido detectada por meio do algoritmo Viola-Jones
são, na verdade, as componentes principais do conjunto de trei- (o Fluxograma 5 ilustra a execução do algoritmo que registra
namento, sendo que cada imagem desse conjunto pode ser re- um usuário no banco de dados). Entre o armazenamento de
✻✾ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
melhora ao mesmo tempo em que o custo computacional é [2] A. K. Jain, A. Ross, and S. Prabhakar, “An introduction to
significativamente reduzido. Note que o uso de apenas 5 com- biometric recognition,” IEEE Trans. Cir. and Sys. for Video
Technol., vol. 14, no. 1, pp. 4–20, Jan. 2004. [Online]. Available:
ponentes principais pelo SIFT/SURF possibilita a obtenção de http://dx.doi.org/10.1109/TCSVT.2003.818349
100% na taxa de acerto, ao passo que o uso de 65 componentes [3] S. Liao, A. K. Jain, and S. Z. Li, “A fast and accurate unconstrained
principais pelo Eigenfaces resulta na obtenção de 98, 02% de face detector,” IEEE transactions on pattern analysis and machine
intelligence, vol. 38, no. 2, pp. 211–223, 2016.
acerto. Para construir a base de dados, utilizou-se uma webcam [4] P. Dreuw, P. Steingrube, H. Hanselmann, H. Ney, and G. Aachen,
VGA (Tipo fixo) com resolução de 640 × 480 pixels. “Surf-face: Face recognition under viewpoint consistency constraints.”
Uma amostra da base de dados com 3 (três) in BMVC, 2009, pp. 1–11.
[5] S. Liao, A. K. Jain, and S. Z. Li, “Unconstrained face detection,”
indivíduos está disponível para download (endereço: Technická zpráva, Department of Computer Science Michigan State
http://github.com/BaseFacesComp/Amostra-da-Base-de-Faces). University, prosinec, 2012.
[6] N. Wang, X. Gao, D. Tao, H. Yang, and X. Li, “Facial feature point
V. C ONCLUSÕES detection: A comprehensive survey,” Neurocomputing, 2017.
[7] M. Turk and A. Pentland, “Eigenfaces for recognition,” J. Cognitive
A utilização de novos métodos e algoritmos para reali- Neuroscience, vol. 3, no. 1, pp. 71–86, 1991.
zar reconhecimento facial é uma necessidade, visto que os [8] S. Tiwari, A. Singh, and S. K. Singh, “Integrating faces and soft-
resultados desta modalidade de biometria quando aplicada biometrics for newborn recognition,” Int. J. Adv. Comput. Eng. Archit,
vol. 2, no. 2, pp. 201–209, 2012.
a situações reais ainda deixa espaço para melhoramentos. [9] E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, “Orb: An efficient
Métodos tradicionais, já validados, são comuns na bibliografia, alternative to sift or surf,” in Computer Vision (ICCV), 2011 IEEE
mas demandam condições de operação bem comportadas international conference on. IEEE, 2011, pp. 2564–2571.
[10] R. Clarke, “Human identification in information systems: Management
e estabelecidas. A busca por soluções mais heterodoxas e challenges and public policy issues,” Information Technology and Peo-
flexíveis é uma necessidade, mas para que sejam validadas ple, 1994.
faz-se necessária a comparação com os métodos tradicionais. [11] A. Jain, B. Klare, and A. Ross, “Guidelines for best practices in
biometrics research,” 8th IAPR International Conference on Biometrics,
O presente trabalho propôs a utilização do SIFT e do SURF 2015.
como algoritmos de identificação biométrica, comparando-os [12] N. K. Ratha and V. Govindaraju, Advances in Biometrics: Sensors,
ao tradicional Eigenfaces. Observou-se que o SIFT e o SURF Algorithms and Systems, 1st ed. Springer-Verlag London, 2008.
[13] J. Wayman, “A definition of biometrics,” in National Biometric Test
apresentaram desempenho superior ao melhor desempenho do Center Colected Works 1997-2000. San Jose State University, 2000.
Eigenfaces (por volta de 2%). Tal diferença justifica-se pelo [14] A. Ross and A. K. Jain, “Human recognition using biometrics: an over-
fato do Eigenfaces ser uma técnica extremamente sensível a view,” in Annales Des Télécommunications, vol. 62, no. 1-2. Springer,
2007, pp. 11–35.
condições externas, além de ter seu desempenho afetado por [15] S. Haykin, Redes Neurais - Principios e Praticas, 2nd ed. Bookman,
transformações geométricas, o que não ocorre com os demais 2001.
métodos. Os testes mostraram que, apesar do SIFT e do SURF [16] P. Viola and M. J. Jones, “Robust real-time face detection,” International
journal of computer vision, vol. 57, no. 2, pp. 137–154, 2004.
não terem sido originalmente propostos como algoritmos de [17] M. Turk and A. Pentland, “Eigenfaces for recognition,” J. Cognitive
reconhecimento biométrico, ambos apresentam potencial para Neuroscience, vol. 3, no. 1, pp. 71–86, Jan. 1991. [Online]. Available:
superar o Eigenfaces, um algoritmo consagrado, em cenários http://dx.doi.org/10.1162/jocn.1991.3.1.71
[18] F. Chelali, A. Djeradi, and R. Djeradi, “Linear discriminant analysis for
mais adversos. Os resultados foram gerados utilizando uma face recognition,” in Multimedia Computing and Systems, 2009. ICMCS
base de dados (criada) de 650 imagens de faces, sendo ’09. International Conference on, April 2009, pp. 1–10.
elas compostas por 10 amostras faces de cada um dos 65 [19] L. Wiskott, J.-M. Fellous, N. Kruger, and C. von der Malsburg, “Face
recognition by elastic bunch graph matching,” in Image Processing,
indivíduos. É sabido que existem bases de dados tradicionais 1997. Proceedings., International Conference on, vol. 1, Oct 1997, pp.
para realizar comparação entre algoritmos de reconhecimento 129–132 vol.1.
facial. Embora outros trabalhos já tenham utilizado essas [20] A. K. Jain and S. Pankanti, “Automated fingerprint identification and
imaging systems,” in Advances in Fingerprint Technology, 2nd ed., H. C.
bases tradicionais para testar o SIFT e o SURF, para garantir Lee and R. E. Gaensslen, Eds. Boca Raton: CRC Press, 2001, ch. 8.
a validação consistente de uma nova proposta é possível [21] S.-K. Pavani, D. Delgado, and A. F. Frangi, “Haar-like features with
considerar que avaliar o desempenho desta, quando aplicada optimally weighted rectangles for rapid object detection.” Pattern Re-
cognition, vol. 43, no. 1, pp. 160–172, 2010.
à bases de dados independentes, faz parte do processo de [22] W. Fan, S. J. Stolfo, and J. Zhang, “The application of
convencimento científico. Finalmente, destaca-se que a base adaboost for distributed, scalable and on-line learning,” in
de dados construída (disponível para a comunidade científica) Proceedings of the Fifth ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining, ser. KDD ’99. New
é composta por imagens de baixa qualidade/resolução, adqui- York, NY, USA: ACM, 1999, pp. 362–366. [Online]. Available:
ridas com baixo grau de controle do ambiente e sem nenhuma http://doi.acm.org/10.1145/312129.312283
instrução especial para os indivíduos colaboradores (cobaias). [23] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,”
Int. J. Comput. Vision, vol. 60, no. 2, pp. 91–110, Nov. 2004. [Online].
Trabalhos futuros podem incluir a formação de uma base de Available: http://dx.doi.org/10.1023/B:VISI.0000029664.99615.94
faces mais numerosa e diversa, a análise da capacidade de [24] H. Bay, A. Ess, T. Tuytelaars, and L. Van Gool, “Speeded-
reconhecimento em diferentes ângulos faciais e a avaliação da up robust features (surf),” Comput. Vis. Image Underst., vol.
110, no. 3, pp. 346–359, Jun. 2008. [Online]. Available:
capacidade de distinção entre gêmeos idênticos. http://dx.doi.org/10.1016/j.cviu.2007.09.014
[25] G. Du, F. Su, and A. Cai, “Face recognition using surf features,” in
R EFERÊNCIAS Proceedings of the SPIE, vol. 7496, Oct 2009, pp. 749 628–1.
[1] J. Wayman, A. Jain, D. Maltoni, and D. Maio, “An introduction to [26] I. Jolliffe, Principal Component Analysis. Springer-Verlag, 2002.
biometric authentication systems,” in Biometric Systems: Technology, [27] R. A. Fisher, “The use of multiple measurements in taxonomic pro-
Design and Performance Evaluation. London: Springer, 2005, ch. 1. blems,” Annals of Eugenics, vol. 7, no. 7, pp. 179–188, 1936.
✼✶ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Abstract—Traffic engineering can benefit from the use of à sua área para determinar se dois veículos foram agrupados
quantitative parameters extracted directly from the streets to erroneamente e devem ser separados. Em [7], manchas de
plan traffic flow, especially if these extracted parameters are movimento são separadas quando ultrapassam a linha entre
reliable in different illumination and climatic conditions. This
paper discusses the feasibility of obtaining such descriptive duas faixas de veículos.
parameters to help plan the traffic flow in a city using computer No presente trabalho é apresentada uma forma de segmen-
vision techniques, namely segmentation and counting of vehicles, tação baseada na premissa de que um veículo possui seu com-
using real data from a camera installed in a street crossing. The primento maior que sua largura. Combinando as técnicas de
algorithm was built using frame differences, mathematical mor- análise da direção do eixo principal da mancha do movimento
phology and contour correspondence, and with few configuration
parameters (the definition of a counting line and the expected [8] com a direção esperada da velocidade do veículo, pode-
length of vehicles) it was able to count vehicles accurately in se determinar se o suposto veículo detectado está alinhado
different climatic and illumination conditions. com a direção do movimento. Se não estiver, provavelmente
detectou-se erroneamente dois veículos como sendo apenas
I. I NTRODUÇÃO um – quando este tipo de situação é detectada, os veículos
A engenharia de tráfego utiliza múltiplos parâmetros para são separados pelo algoritmo proposto neste trabalho.
descrever o trânsito em uma cidade. Obter esses parâmetros de O restante deste artigo está organizado da seguinte forma:
forma rápida e em grande quantidade facilita o planejamento a Seção II descreve os materiais e métodos empregados; a
do trânsito, sendo que três fatores principais são destacados Seção III descreve os experimentos realizados para a obtenção
em [1] para analisar o tráfego: o fluxo de veículos, a sua dos resultados discutidos na Seção IV; e finalmente a Seção V
velocidade média e a distância média entre eles. A medida apresenta as principais conclusões sobre os resultados obtidos
de fluxo é feita pela contagem dos veículos, que consiste no e algumas sugestões de investigações futuras.
objetivo deste trabalho.
Diversas técnicas para realizar a segmentação e contagem II. M ATERIAIS E M ÉTODOS
de veículos existem. Almeja-se um método de rápido proces- Os materiais utilizados nos experimentos relatados neste
samento e que seja capaz de trabalhar com câmeras que não trabalho são vídeos adquiridos por uma câmera instalada em
tenham que ser posicionadas especialmente para este fim. Um um cruzamento na cidade de Curitiba. Foram selecionados
processo comum para segmentar objetos em movimento utiliza cinco vídeos de uma mesma câmera em diferentes horários
modelagem de fundo da cena. do dia e em diferentes condições climáticas. Cada vídeo tem
No contexto de aplicações de contagem de veículos, em a duração de dez minutos, com trinta quadros por segundo,
[2] é proposta uma forma de atualizar o modelo do fundo da totalizando dezoito mil quadros por vídeo, o que torna a base
cena levando em consideração veículos parados ou movimento de dados utilizada bastante rica em informações.
lento de veículos por meio de um processo de espera por um A câmera utilizada para a aquisição dos vídeos é capaz
determinado período. Quando a segmentação está sendo feita de rotacionar, adquirindo cenas do trânsito a partir de di-
com exatidão ou há poucos veículos ou não há muita oclusão, ferentes pontos de vista e com diferentes níveis de zoom.
é possível acompanhar a trajetória dos veículos. Em [3] é Caso um processamento corriqueiro fosse utilizado, refazer
apresentada uma técnica simples para seguir e contar veículos as calibragens necessárias cada vez que o ponto de vista de
com altas taxas de acurácia e em [4], os pontos de interesse aquisição da câmera fosse alterado se tornaria uma tarefa
de objetos em movimento são agrupados e analisados quanto bastante inconveniente. Portanto, busca-se uma solução sufi-
a possuírem velocidades próximas e distribuição que corres- cientemente genérica para realizar o processamento de vídeo
ponda ao tamanho estimado de um veículo. Uma abordagem independentemente do ponto de vista de aquisição das imagens
híbrida com modelagem de fundo e agrupamento de pontos de e com baixo custo computacional, devido ao grande volume
interesse é apresentada em [5]. Outro exemplo de modelagem de dados a serem processados.
de fundo e segmentação de veículos com base na forma das O processo geral aplicado sobre os vídeos está ilustrado
manchas de movimento foi apresentado em [6], em que o na Figura 1. A entrada se dá na forma da especificação de
fecho convexo de uma mancha de movimento é comparada uma linha no local onde deseja-se contar quantos veículos
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✼✷
passaram e do tamanho estimado para esses veículos. O pela técnica da diferença absoluta entre quadros, como ilustra a
processo retorna os instantes de tempo em que veículos com Figura 2. Neste processamento, os quadros em cores do vídeo
o tamanho especificado cruzaram a linha de contagem. foram previamente convertidos para tons de cinza.
Vídeo
(a) Diferença
Absoluta
(b) Binarização
(a)
(c) Dilatação
(d) Separação
(b)
(e) Contagem
Dados
Figura 1: (a) diferença absoluta de quadros; (b) binarização
dos pixels em dois grupos (em movimento ou estáticos);
(c) operação morfológica de dilatação para unir os pixels
(c)
em movimento; (d) separação de veículos, caso manchas
de movimento tenham seu eixo principal em uma direção Figura 2: (a) e (b) apresentam dois quadros subsequentes; (c)
diferente da direção do elemento morfológico; (e) contagem apresenta o módulo da diferença entre esses quadros (invertida
através da ligação do centro de cada mancha com o centro e normalizada para melhor visualização).
correspondente em dois quadros anteriores.
Uma vez calculada a diferença de valores dos pixels na etapa
O objetivo inicial do algoritmo proposto é o de separar os representada na etapa (a) da Figura 1, é necessário determinar
veículos do fundo para depois contá-los, pois a contagem é o limiar de separação entre o que se consideram pixels em
uma das poucas métricas objetivas para validar os resultados movimento ou pixels estáticos. Para este fim, utiliza-se o al-
do experimento. O movimento dos veículos pode ser detectado goritmo de Otsu [9] no histograma da diferença absoluta entre
✼✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
quadros. A ideia por trás deste algoritmo é a de determinar de contagem. A Figura 4 ilustra mais detalhadamente uma
um ponto de separação no histograma de forma a minimizar situação de contagem.
o desvio padrão dos valores do histograma à esquerda (pixels
estáticos) e à direita (pixels em movimento), conforme etapa
(b) da Figura 1.
Os pixels classificados como estando em movimento na
diferença absoluta entre quadros correspondem às bordas
ortogonais à direção do movimento, conforme ilustrado na
Figura 3 – bordas do asfalto com a frente do veículo, do capô
com o para-brisa, do para-brisa com o teto e da traseira do
veículo com o asfalto. Diversas regiões homogêneas do veículo
acabam sendo classificadas como sendo pixels estáticos e para
agrupá-las foi usado o filtro morfológico da dilatação com
elemento estruturante em forma de linha orientada na direção
do movimento. Essa forma de elemento estruturante tende
a não agrupar os veículos que estão nas faixas de trânsito
adjacentes, auxiliando também a reduzir os efeitos causados
por postes, fios de distribuição de eletricidade e outros objetos Figura 4: O centro de cada mancha de movimento é represen-
existentes na cena que possam obstruir os objetos de interesse. tado por um círculo azul, sendo a posição anterior que esse
centro ocupou também representada por um círculo ligado ao
centro atual. Quando é detectada a passagem do centro pela
linha de contagem, a cor dos círculos é alterada para preto.
III. E XPERIMENTOS
O algoritmo foi aplicado em cinco vídeos com a linha de
contagem entre as coordenadas (228, 292) e (447, 317), e
com o mesmo tamanho da linha do elemento estruturante da
Figura 3: À esquerda um dos veículos classificados como dilatação (18 pixels). A validação dos resultados foi efetuada
estando em movimento pela limiarização; no centro o ele- através da comparação com os dados corretos de contagem de
mento estruturante em forma de linha orientada na direção do veículos pela linha de contagem (padrão-ouro), realizada ma-
movimento; à direita o resultado da dilatação. nualmente por um operador humano. As situações analisadas
foram: 1) contagem de um veículo; 2) contagem de um veículo
A partir da etapa (c) da Figura 1 existem manchas (regiões) em duplicidade; e 3) falha na contagem de um veículo, sendo
de movimento e não mais pixels de interesse. Deseja-se a as duas últimas situações indesejadas.
correspondência de apenas um veículo a cada mancha de A avaliação dos resultados levou em conta quando um
movimento, mas pode ocorrer o agrupamento de mais de veículo deixou de ser contado e quando um veículo foi contado
um veículo. Então, é preciso extrair mais informações da erroneamente. A razão entre o número de veículos contados
mancha de movimento para determinar se uma separação se corretamente pelo total de veículos deveriam ter sido contados
faz necessária. O algoritmo proposto se utiliza da técnica dos é definido como acurácia e consiste na principal métrica de
momentos para calcular o centro de massa e os eixos principais qualidade do processo. Uma segunda métrica possível de ser
das manchas [8]. A direção do eixo principal da mancha utilizada consiste em desconsiderar os veículos que não foram
de movimento deve ser próxima à direção do movimento e contados e calcular a preditividade positiva para mensurar se
aproximadamente perpendicular à linha de contagem – se não o algoritmo está contando elementos inexistentes.
o for, conclui-se que a mancha deve ser separada em duas. O Para realizar a contagem, o usuário define a linha de conta-
ponto de separação usado é o centro de massa, com uma linha gem e o tamanho do elemento estruturante da dilatação. Estes
na direção do movimento esperado do veículo. Na etapa (d) são os únicos dados que o usuário deve informar ao sistema,
da Figura 1 é exibido o resultado de uma separação em duas sendo a direção do elemento estruturante da dilatação sempre
manchas. ortogonal à linha de contagem. Quando um veículo cruza a
Ao final do processamento é necessário definir a correspon- linha de contagem são registrados os seguintes metadados:
dência das manchas de movimento entre quadros. Para isto, o número do quadro, o tamanho em pixels do veículo, a
verifica-se em dois quadros anteriores se existe uma mancha de localização do centro da mancha de movimento e a localização
movimento com tamanho, orientação do eixo principal e centro desse mesmo centro no quadro anterior. Diversas informações
próximos a cada mancha encontrada no quadro atual. Com podem ser retiradas destes metadados, além da contagem do
esta informação é possível traçar a movimentação da mancha fluxo de veículos, como por exemplo a temporização dos
entre os quadros e detectar se algum centro passou pela linha semáforos e a quantidade de veículos trafegando em cada pista.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✼✹
Abstract—Facial recognition systems in real world environ- lidar com essas variações do ambiente. Sabe-se que problemas
ments often have to deal with uncontrolled and unpredictable de iluminação, pose e expressão já foram tratados de forma
conditions, such as major changes in illumination, pose, ex- satisfatória por vários estudos [11], porém o problema de
pression, and occlusion, which introduce intraclass variations
and degrade recognition performance. Compared with problems oclusões parciais em imagens de face ainda não possui trata-
of illumination, pose and expression, the problem related to mento satisfatório [29], merecendo um pouco mais de atenção
occlusion is relatively little studied in the area. Although little da comunidade cientı́fica, identificando as técnicas presentes
attention has been given to the problem of occlusion in the facial no estado de arte, tipos de oclusões tratadas por cada uma
recognition literature, the importance of this problem should be delas, e consequentemente suas vantagens e desvantagens.
emphasized, since the presence of occlusion is very common in
uncontrolled scenarios and may be associated with several safety Mediante essa justificativa, esta revisão sistemática (RS)
issues. For this justification, this systematic review (RS) identifies, identifica, avalia e interpreta estudos primários relevantes
evaluates and interprets relevant primary studies that present que apresentam técnicas para detecção e reconstrução de
techniques for detecting and reconstructing partial occlusions in oclusões parciais em imagens de face visando o reconheci-
face images for biometric recognition. mento biométrico. A motivação para esta RS surge a partir
Keywords—Biometric systems; uncontrolled environment; fa-
cial recognition; occlusion detection; occlusion reconstruction. da ausência de estudos secundários abordando esse tema. Este
artigo é organizado da seguinte forma: a seção II apresenta
os principais conceitos teóricos relacionados ao tema da RS;
I. I NTRODUÇ ÃO
a seção III descreve o método utilizado nessa RS; a seção
Biometria é uma área que abrange uma diversidade de IV evidencia os resultados e discussões objetivando responder
tecnologias utilizadas para fins de identificação pessoal por as questões de pesquisa; a seção V explicita uma análise de
meio da coleta e mensuração de caracterı́sticas fı́sicas ou possı́veis ameaças a validade desta RS; e por último, a seção
comportamentais extraı́das de cada indivı́duo. As modalidades VI apresenta as conclusões.
fı́sicas incluem impressão digital, geometria da mão, padrão
da orelha e caracterı́sticas faciais. Já as modalidades com- II. F UNDAMENTAÇ ÃO T E ÓRICA
portamentais incluem voz, assinatura, padrão de digitação e A análise das caracterı́sticas faciais de cada indivı́duo
outros. O fato das modalidades biométricas estarem ligadas possibilita aplicações nas mais diversas áreas, tais como,
diretamente a alguma caracterı́stica dos usuários consiste numa reconhecimento facial, reconhecimento por meio da ı́ris e
possibilidade extraordinária para superar os problemas de análise de emoções. Neste trabalho é dado ênfase ao reco-
segurança causados pelas estratégias tradicionais de reconhe- nhecimento facial, mais precisamente as técnicas de detecção
cimento, sendo mais difı́ceis de serem roubadas ou falsificadas e reconstrução de oclusões parciais em imagens de face.
quando comparadas a técnicas convencionais [20]. Oclusão é o posicionamento de algo na frente do que
A face é a modalidade biométrica mais explorada [27] desejamos visualizar, impedindo uma visão holı́stica do que
por contar com métodos de coleta não intrusivos e não está por trás. No contexto de reconhecimento facial, [7] afirma
exigir total colaboração do usuário para a coleta de dados. que a oclusão é o elemento básico que limita a informação a
O reconhecimento facial pode ser aplicado por exemplo, em ser extraı́da da imagem de face. De acordo com [27], quando
sistemas de vigilância para identificação de indivı́duos que lidamos com sistemas de natureza não controlada existe um
representam possı́veis ameaças em ambientes como saguões, fator que impede uma fácil e rápida identificação da pessoa.
aeroportos, praças, escolas, etc. Entretanto, em ambientes Esse fator é a oclusão, e lidar com ela não é uma tarefa fácil, já
como esses, as imagens de faces capturadas podem estar que a mesma significa a obstrução de uma parte da imagem de
sujeitas a variações de iluminação, pose, expressão e oclusão, face por objetos, como óculos, lenços, mãos, cabelos e assim
sendo que o sistema de reconhecimento deve ser capaz de por diante.
✼✼ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Há dois problemas distintos relacionados com o reconhe- • Q4 - Quais bases de dados estão sendo utilizadas ? Quais
cimento facial com oclusões: detecção da face ocluı́da e os tipos de variações presentes nas bases?
recuperação da face ocluı́da. A primeira tarefa consiste em As questões de pesquisa Q1 e Q2 motivam encontrar as
determinar se uma imagem de face está ou não ocluı́da, e técnicas presentes no estado da arte. Já as questões de pesquisa
pode ser utilizada para rejeitar automaticamente as imagens Q3 e Q4 têm motivação na análise das bases de dados
ocluı́das em algumas aplicações, tais como, imagens de face existentes, formas de comparação das técnicas, quantidade
para passaporte. Este mecanismo de rejeição nem sempre de indivı́duos participantes e tipos de variações (iluminação,
é adequado para reconhecimento facial em alguns cenários, expressão, pose e oclusão) presentes nas imagens das bases.
como por exemplo, em sistema de vigilância, em que nenhuma
outra imagem pode ser obtida devido a falta de cooperação do C. Protocolo da Revisão Sistemática
indivı́duo. A segunda tarefa consiste em restaurar as regiões Segundo [15], um protocolo de RS estabelece os métodos
ocluı́das das imagens faciais. Esta tarefa pode recuperar as necessários para a condução da RS. Um protocolo bem defi-
áreas obstruı́das, mas esta pode não contribuir diretamente para nido é essencial para redução de resultados tendenciosos em
o reconhecimento, visto que as informações da identidade do uma pesquisa. A construção do protocolo de pesquisa dessa
indivı́duo podem estar contaminadas por algum ruı́do durante RS seguiu as diretrizes propostas por [15]: (i) motores de
a recuperação. busca; (ii) estratégia de pesquisa; (iii) estratégia de seleção;
(iv) estratégia de avaliação da qualidade dos estudos; e (v)
III. M ÉTODO
métodos de extração e sı́ntese dos dados.
A RS caracteriza-se como um estudo secundário que visa Os motores de busca utilizados para obtenção dos artigos
identificar, avaliar, comparar e interpretar todos os trabalhos foram Scopus1 , IEEE2 e Web of Science (WoS)3 . A String de
disponı́veis para uma determinada questão de pesquisa ou um busca canônica aplicada nos motores de busca é apresentada
problema, oferecendo um meio de propor direcionamentos na tabela I.
e tendências na área objeto de estudo. Segundo [15], a
diferença entre uma revisão sistemática e os demais tipos de Tabela I
estudos secundários é o seu processo sistemático de condução S TRING DE BUSCA
da pesquisa, essa sistematização garante que a revisão seja
replicável e livre de viés, melhorando seu caráter cientı́fico. ( TITLE-ABS-KEY ( occlusion* ) AND TITLE-ABS-KEY ( detect* OR
Esta RS segue as diretrizes propostas por [15], que relata recogni* OR analys* OR reconstruct* ) AND TITLE-ABS-KEY ( face
OR faces OR facial ) AND ( biometr* ) )
três passos fundamentais: (i) planejamento (seção III); (ii)
condução (seção III-D) e (iii) relatório (seção IV).
A. Justificativa para a Revisão Sistemática A seleção dos estudos aconteceu a partir da aplicação de
um conjunto de critérios de inclusão (CI) e exclusão (CE),
A partir da pesquisa por trabalhos cientı́ficos nos principais esses critérios foram elaborados de modo a selecionar estudos
motores de busca, não foi possı́vel encontrar nenhuma RS primários com um nı́vel mı́nimo de qualidade, acessı́vel e
abordando o tema aqui estudado. Os artigos avaliados na pre- pertencentes ao escopo da RS. Os critérios aplicados foram:
sente RS foram desenvolvidos por pesquisadores de diferentes
• CI-1 Trabalhos que apresentem técnicas para detecção de
grupos de pesquisa interessados nas técnicas para detecção
oclusão em imagens da face.
e reconstrução de oclusões parciais em imagens de face vi-
• CI-2 Trabalhos que apresentem técnicas para
sando o reconhecimento biométrico. Portanto faz-se necessário
reconstrução da face.
avaliar as técnicas para detecção e reconstrução de oclusões
• CI-3 Trabalhos que apresentem modelagens hı́bridas para
parciais presentes no estado da arte, e com isso compartilhar
detecção de oclusões parciais e/ou reconstrução facial.
junto a comunidade cientı́fica, um artefato contendo um re-
• CI-4 No caso de artigos com conteúdo duplicado,
sumo das técnicas existentes, permitindo que pesquisadores
escolher somente a versão mais completa e mais nova
e interessados na área possam iniciar seus trabalhos a partir
deste artefato, economizando tempo e minimizando a chance
• CE-1 Trabalhos que estejam na forma de livros, capı́tulos
de não acessar um estudo primário relevante.
de livros (por não ser possı́vel mensurar seu nı́vel de
B. Questões de pesquisa contribuição cientı́fica), prefácio de eventos, pôster, arti-
As questões de pesquisa foram elaboradas com base em gos de revisão e artigos resumidos.
• CE-2 Trabalhos que não estejam na lı́ngua inglesa.
[15], são elas:
• CE-3 Trabalhos que não sejam revisados por pares.
• Q1 - Quais as técnicas utilizadas para detecção de
oclusões parciais e como são aplicadas? Em relação a avaliação da qualidade dos estudos primários,
• Q2 - Quais técnicas estão sendo utilizadas para
foi estabelecida uma série de critérios de qualidade (CQ)
reconstrução de faces humanas parcialmente ocluı́das e 1 https://www.scopus.com
como são aplicadas? 2 http://ieeexplore.ieee.org/Xplore
que permitiram analisar e comparar a qualidade e relevância trabalho. Esses questionamentos são apresentados na tabela
dos estudos selecionados. Por meio desses critérios os es- IV.
tudos foram ordenados de forma a apresentar uma visão
clara da relevância que eles apresentaram. Para elaborar os Tabela IV
critérios de qualidade foram consideradas questões relaciona- D IRECIONAMENTO PARA EXTRAÇ ÃO E S ÍNTESE DOS DADOS
das a contribuição, detalhamento do trabalho, possibilidade de QP Atributos
replicação da técnica e disponibilização de pseudocódigos. Os Q1 Estratégia, forma de aplicação, tipo de abordagem (baseada em
critérios de qualidade estão listados na tabela II. textura, transformadas, subespaços ou modelos) aplicada a detecção
de oclusão.
Q2 Estratégia, forma de aplicação, tipo de abordagem (baseada em
Tabela II subespaços ou modelos) aplicada a reconstrução de oclusão, técnica
C RIT ÉRIOS DE QUALIDADE de validação da reconstrução.
Q3 Forma de comparação, descrição da avaliação da técnica.
No Critério Q4 Base de dados utilizada, quantidade de indivı́duos e variações
CQ01 Os objetivos da pesquisa são claramente definidos? presentes nas imagens da base de dados.
CQ02 O contexto é adequadamente descrito?
CQ03 As técnicas de detecção de oclusões foram apresentadas claramente? QP = Questões de pesquisa
CQ04 As técnicas de reconstrução facial foram apresentadas claramente?
CQ05 O código de detecção de oclusões foi disponibilizado?
CQ06 O código de de reconstrução facial foi disponibilizado? D. Condução da Revisão Sistemática
CQ07 O ambiente do estudo primário foi apresentado claramente?
CQ08 A proposta do estudo foi validada? O processo de busca de estudos primários envolveu o
CQ09 A proposta do artigo é comparada com outras propostas?
CQ10 A base de dados foi apresentada? perı́odo compreendido entre janeiro de 2005 e março de 2017.
CQ11 O experimento é aplicado em conjuntos de dados suficientes? Conforme ilustrado na figura 1, esta revisão foi aplicada
CQ12 Os resultados foram apresentados claramente? sobre três motores de busca e resultou na recuperação de
um total de 440 estudos. O detalhamento da quantidade de
Para cada critério foi atribuı́da uma pontuação da seguinte artigos retornados a partir de cada fonte de dados e também a
forma: se o critério foi atendido (1 ponto); se o critério não quantidade de artigos resultantes da fase de aplicação dos CI
foi atendido (0 ponto); se o critério foi atendido parcialmente e CE são apresentados também na figura 1.
(0.5 ponto). Essas pontuações foram atribuı́das com o intuito Os critérios de inclusão e exclusão foram aplicados ma-
de possibilitar a ordenação dos artigos. Com essa ordenação nualmente por meio da análise do tı́tulo e resumo de cada
foi possı́vel analisar em mais detalhes as técnicas de detecção estudo. Na existência de dúvida, o estudo foi analisado por
e reconstrução de oclusões parciais em faces humanas, visando completo. Após esse processo, 38 estudos primários foram
o reconhecimento biométrico mediante ambientes não contro- lidos na ı́ntegra, e deste, sete foram removidos por meio da
lados, como pretendido para responder as questões de pesquisa aplicação dos critérios de qualidade, visto que estes apresen-
desta RS. taram pontuação menor do que seis, sendo classificados como
Após a atribuição da pontuação para todos os artigos foi de baixa qualidade.
possı́vel verificar o nı́vel de contribuição de cada um perante os
objetivos desta RS. Além disso com o intuito de facilitar uma
classificação dos artigos de acordo com sua qualidade, foram
estabelecidos cinco nı́veis para o ordenamento dos artigos:
muito alto, alto, regular, baixo e muito baixo. A distribuição
da pontuação nesses nı́veis está ilustrada na tabela III.
Tabela III
P ONTUAÇ ÃO PARA OS CRIT ÉRIOS DE QUALIDADE
Tabela VIII
AVALIAÇ ÃO DA QUALIDADE DOS ESTUDOS PRIM ÁRIOS POR MEIO DOS
CRIT ÉRIOS DE QUALIDADE
ID CQ1 CQ2 CQ3 CQ4 CQ5 CQ6 CQ7 CQ8 CQ9 CQ10 CQ11 CQ12 Pontuação
A1 1 1 1 1 0,5 0,5 1 1 1 1 1 1 11
A2 1 1 0,5 0 0 0 1 0,5 1 1 0,5 0,5 7
A3 1 1 0 1 0 1 1 1 1 1 0,5 1 9,5
A4 1 1 1 0,5 1 0,5 1 1 1 1 1 1 11
A5 1 1 1 0 1 0 1 1 0,5 1 1 1 9,5
A6 1 1 1 0 0,5 0 1 1 0,5 1 1 1 9
Figura 4. Técnicas para reconstrução de imagens de face A7 1 1 1 0 0,5 0 1 1 0,5 1 0,5 1 8,5
A8 1 1 0 0,5 0 0,5 1 0,5 1 0,5 0,5 0,5 7
A9 1 1 1 1 0,5 1 1 1 1 1 1 1 11,5
A10 1 1 1 1 1 1 1 1 1 1 1 1 12
A11 1 1 1 0 0 0 1 1 1 1 1 1 9
A12 1 1 1 1 1 1 1 1 1 1 1 1 12
dados e testam as técnicas nesse escopo, sem disponibilizá- A13
A14
1
1
1
0,5
1
0,5
0
0
1
0
0
0
1
1
1
1
1
1
1
1
1
0,5
1
1
10
7,5
lo para possı́veis consultas ou iniciativas de reprodutibili- A15
A16
1
1
1
1
1
1
1
1
0
0
0
0
1
1
1
1
0,5
1
1
1
0,5
1
1
1
9
10
A17 1 1 0 1 0 1 1 1 1 1 1 1 10
dade. Além disso os autores não costumam disponibilizar A18
A19
1
1
1
1
1
1
1
1
1
0
0,5
0
1
1
1
1
1
1
1
1
1
1
1
1
11,5
10
informações básicas como quantidade de indivı́duos, variações A20
A21
1
1
1
1
0,5
0,5
0
0
0
0,5
0
0
0,5
1
1
1
1
1
1
1
0,5
1
1
1
7,5
9
de iluminação, pose, expressão e oclusão. A22
A23
1
1
1
1
0,5
0,5
1
0,5
1
0
1
0
1
1
1
1
1
0
1
0,5
1
1
1
0,5
11,5
7
A24 1 1 1 0,5 0,5 0,5 1 1 1 1 1 1 10,5
A partir da leitura dos artigos visualizou-se três bases de A25 1 1 0,5 0 0,5 0 1 1 1 1 1 1 9
A26 1 1 0,5 0,5 0 0 1 1 0,5 1 1 0,5 8
dados que são comumente utilizadas, pois possuem um grande A27
A28
1
1
1
1
0,5
1
0,5
1
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
9
10
número de imagens ocluı́das. Tais bases são: AR, Yale e A29
A30
1
1
1
1
1
0
0
1
0,5
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
9,5
10
possı́vel notar que a abordagem baseada em modelos precisa [12] S. Eum, J. K. Suhr, and J. Kim. Face recognizability evaluation for atm
ser mais estudada por meio de iniciativas a aumentar sua applications with exceptional occlusion handling. In Computer Vision
and Pattern Recognition Workshops (CVPRW), 2011 IEEE Computer
eficiência, visto que essas técnicas apresentam maior robustez Society Conference on, pages 82–89. IEEE, 2011.
quando aplicadas aos cenários não controlados por não ser [13] T. Hosoi, S. Nagashima, K. Kobayashi, K. Ito, and T. Aoki. Restoring
sensı́vel a iluminação. occluded regions using fw-pca for face recognition. In Computer Vision
and Pattern Recognition Workshops (CVPRW), 2012 IEEE Computer
Constatou-se nessa RS que a produção cientı́fica, tratando Society Conference on, pages 23–30. IEEE, 2012.
o problema de detecção e reconstrução de oclusões parciais [14] S.-M. Huang and J.-F. Yang. Subface hidden markov models coupled
em imagens de face, está estabilizada em 2,58 estudos por with a universal occlusion model for partially occluded face recognition.
IET biometrics, 1(3):149–159, 2012.
ano, sendo possı́vel enxergar tendências de pesquisas na área. [15] B. Kitchenham. Procedures for performing systematic reviews. Keele,
Entretanto, é possı́vel perceber que essa taxa é baixa e que a UK, Keele University, 33(2004):1–26, 2004.
área ainda é pouco estudada por apresentar inúmeras variações [16] J. Lai and X. Jiang. Robust face recognition using trimmed linear
regression. In ICASSP, pages 2979–2983, 2013.
de iluminação, pose, expressão e oclusão. Dessa forma, esta [17] X.-X. Li, D.-Q. Dai, X.-F. Zhang, and C.-X. Ren. Structured sparse
RS contribui com o desenvolvimento da área ao apontar, error coding for face recognition with occlusion. IEEE transactions on
a partir de um processo sistemático de análise da área, as image processing, 22(5):1889–1900, 2013.
[18] R. Min and J.-L. Dugelay. Inpainting of sparse occlusion in face
lacunas que precisam ser investigadas e quais são as técnicas, recognition. In Image Processing (ICIP), 2012 19th IEEE International
as formas de avaliação e comparação e as bases de dados Conference on, pages 1425–1428. IEEE, 2012.
existentes. [19] G. Passalis, P. Perakis, T. Theoharis, and I. A. Kakadiaris. Using
facial symmetry to handle pose variations in real-world 3d face recogni-
Este trabalho serve como um ponto de referência para ana- tion. IEEE Transactions on Pattern Analysis and Machine Intelligence,
lisar os objetivos, progressos e consequentemente as dificul- 33(10):1938–1951, 2011.
dades apresentadas pela comunidade pesquisadora da área de [20] M. Sharif, S. Mohsin, and M. Y. Javed. A survey: Face recognition
techniques. Research Journal of Applied Sciences, Engineering and
reconhecimento facial em ambientes de coleta não intrusivos. Technology, 4(23):4979–4990, 2012.
Com essa RS foi possı́vel notar que apenas 11 (35,48%) [21] M. Sharma, S. Prakash, and P. Gupta. An efficient partial occluded face
trabalhos apresentaram o algoritmo da técnica proposta, sendo recognition system. Neurocomputing, 116:231–241, 2013.
[22] J. Shermina and V. Vasudevan. Recognition of the face images with
possı́vel inferir que a indisponibilidade do código e do pseu- occlusion and expression. International Journal of Pattern Recognition
docódigo podem atuar como variáveis que inviabilizem o pro- and Artificial Intelligence, 26(03):1256006, 2012.
cesso de replicação da técnica. Podemos ver esses resultados [23] M. Song, D. Tao, X. Huang, C. Chen, and J. Bu. Three-dimensional
face reconstruction from a single image by a coupled rbf network. IEEE
analisando os critérios de qualidade CQ05 e CQ06 presentes Transactions on Image Processing, 21(5):2887–2897, 2012.
na tabela VIII. [24] M. Storer, M. Urschler, and H. Bischof. Occlusion detection for
icao compliant facial photographs. In Computer Vision and Pattern
R EFER ÊNCIAS Recognition Workshops (CVPRW), pages 122–129. IEEE, 2010.
[25] Y. Su, H. Ai, and S. Lao. Multi-view face alignment using 3d shape
[1] A. Aisha, S. Muhammad, S. J. Hussain, and R. Mudassar. Face model for view estimation. In International Conference on Biometrics,
recognition invariant to partial occlusions. KSII Transactions on Internet pages 179–188. Springer, 2009.
and Information Systems (TIIS), 8(7):2496–2511, 2014. [26] X. Tan, S. Chen, Z.-H. Zhou, and F. Zhang. Recognizing partially
[2] N. Alyuz, B. Gokberk, and L. Akarun. 3-d face recognition under occluded, expression variant faces from single training image per person
occlusion using masked projection. IEEE Transactions on Information with som and soft k-nn ensemble. IEEE Transactions on Neural
Forensics and Security, 8(5):789–802, 2013. Networks, 16(4):875–886, 2005.
[3] N. Alyuz, B. Gokberk, and L. Akarun. Detection of realistic facial [27] D. Venkatakrishnan, C. Hariram, N. Anantharaj, and A. Muthulakshmi.
occlusions for robust 3d face recognition. In Pattern Recognition (ICPR), 3d face recognition with occlusions using fisher faces projection. Applied
2014 22nd International Conference on, pages 375–380. IEEE, 2014. Mechanics & Materials, (573), 2014.
[4] N. Alyüz, B. Gökberk, L. Spreeuwers, R. Veldhuis, and L. Akarun. [28] X. Wei, C.-T. Li, and Y. Hu. Robust face recognition with occlusions in
Robust 3d face recognition in the presence of realistic occlusions. In both reference and query images. In Biometrics and Forensics (IWBF),
Biometrics (ICB), 2012 5th IAPR International Conference on, pages 2013 International Workshop on, pages 1–4. IEEE, 2013.
111–118. IEEE, 2012. [29] X. Wei, C.-T. Li, Z. Lei, D. Yi, and S. Z. Li. Dynamic image-to-
[5] W. Bellil, H. Brahim, and C. B. Amar. Gappy wavelet neural network class warping for occluded face recognition. IEEE Transactions on
for 3d occluded faces: detection and recognition. Multimedia Tools and Information Forensics and Security, 9(12):2035–2050, 2014.
Applications, 75(1):365–380, 2016. [30] J. Wright, A. Y. Yang, A. Ganesh, S. S. Sastry, and Y. Ma. Robust
[6] A. Bindu and C. R. Kumar. Inpainting for big data. In Signal and Image face recognition via sparse representation. IEEE transactions on pattern
Processing (ICSIP), 2014 Fifth International Conference on, pages 62– analysis and machine intelligence, 31(2):210–227, 2009.
67. IEEE, 2014. [31] S. Yan, H. Wang, J. Liu, X. Tang, and T. S. Huang. Misalignment-robust
[7] H. Chandel and S. Vatta. Occlusion detection and handling: a review. face recognition. IEEE transactions on image processing, 19(4):1087–
International Journal of Computer Applications, 120(10), 2015. 1096, 2010.
[8] C.-C. Chiang and Z.-W. Chen. Recognizing partially-occluded faces [32] M. Yang, Z. Feng, S. C. Shiu, and L. Zhang. Fast and robust face
by recovering normalized facial appearance. International Journal of recognition via coding residual map learning based adaptive masking.
Innovative Comp., Information and Control, 7(11):6219–6234, 2011. Pattern Recognition, 47(2):535–543, 2014.
[9] M. De Marsico, M. Nappi, and D. Riccio. Faro: Face recognition against [33] B. Zhang, P. Cerone, and Y. Gao. Robust face recognition by hierarchical
occlusions and expression variations. IEEE Transactions on Systems and kernel associative memory models based on spatial domain gabor
Cybernetics-Part A: Systems and Humans, 40(1):121–132, 2010. transforms. Journal of Multimedia, 1(4):1–10, 2006.
[10] Y. Deng, Q. Dai, and Z. Zhang. Graph laplace for occluded face [34] Y. Zhang, Y. Lu, H. Wu, C. Wen, and C. Ge. Face occlusion detection
completion and recognition. IEEE Transactions on Image Processing, using cascaded convolutional neural network. In Chinese Conference on
20(8):2329–2338, 2011. Biometric Recognition, pages 720–727. Springer, 2016.
[11] P. Dou, L. Zhang, Y. Wu, S. K. Shah, and I. A. Kakadiaris. Pose- [35] J. Zhu, D. Cao, S. Liu, Z. Lei, and S. Z. Li. Discriminant analysis with
robust face signature for multi-view face recognition. In Biometrics gabor phase for robust face recognition. In Biometrics (ICB), 2012 5th
Theory, Applications and Systems (BTAS), 2015 IEEE 7th International IAPR International Conference on, pages 13–18. IEEE, 2012.
Conference on, pages 1–8. IEEE, 2015.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✽✷
Resumo—In this paper we apply the LMP (Local Mapped maneira eficiente. Para a extração destes tipos de caracte-
Pattern) in multi-scale version, herein referred to as MSLMP rísticas, existem na literatura duas abordagens distintas para
(Mult-Scale Mean Local Mapped Pattern) for the problem of descrever a face e, em alguns casos, a combinação dessas duas
face recognotion. The proposal of this approach is to extract
micro patterns and to attenuate noisy actions often occurring in abordagens, que são os métodos baseados em características
digital images. The Results of the method applied on face imagem globais [16].
of some well known face Database, such as ESSEX, JAFFE and Os métodos globais utilizam a superfície facial inteira para
ORL, are represented. The experiments have been carried out compor o vetor de características e extraem características
so far suggest that the presented technique provides detections
with high performances than the results presented in the state- estatíticas da imagem. Os métodos PCA (Principal Component
of-art research in the specialized scientific literature. For some Analysis), LDA (Linear Discriminante Analysis), ZM (Zernike
mentioned databases the results have reached 100% of accuracy Moments), 2DPCA e momentos invariantes são de extração
de características globais para sistemas de reconhecimento de
I. I NTRODUÇÃO faces [18].
Dentre os algoritmos baseados em características locais, o
O Reconhecimento facial é uma das tecnologias biométricas
LBP (Local Binary Patterns) introduzido por Ojala et. al [19]
mais utilizadas em sistemas automatizados que necessitam
é um dos descritores de textura de melhor desempenho e tem
garantir a identidade de uma pessoa para acesso autorizado
sido largamente usado em várias aplicações que envolvem
e monitoramento. A grande aceitação do uso da face tem
reconhecimento facial [18], [11], [22]. As principais vantagens
várias vantagens sobre outras tecnologias biométricas: ela é
do LBP são invariância à mudanças de tons de cinza e a
natural, não exige equipamentos sofisticados, a aquisição de
facilidade de implementação. Atualmente, existem na literatura
dados é baseada em abordagens não invasivas, e pode ser feito
diversas propostas de extensão do LBP aplicado à sistemas de
a distância, de maneira cooperativa ou não [13].
reconhecimento facial [23], [15],[8].
Um sistema de reconhecimento de faces pode ser usado
de duas maneiras distintas: com o objetivo de verificação ou Uma extensão do LBP, chamada Mean Local Mapped Pat-
com o objetivo de identificação de uma pessoa. No caso de tern (LMP) [10], e Multi-Scale Local Binary Pattern (MSLBP)
verificação, o sistema deve determinar se a pessoa é quem diz [14], foram desenvolvidas com o propósito de analisar texturas
ser e, para a tarefa de identificação, o sistema deve determinar, em imagens. Tais métodos comparam histogramas gerados por
dentre um conjunto de pessoas, cujas características faciais micro padrões extraídos de texturas. No MSLBP, um histo-
estão armazenadas em uma base de dados, qual é a face grama é construído em cada escala com os valores gerados
que mais se parece com a imagem sob análise. Tais sistemas por padrões da imagem suavizados pela filtragem Guassiana.
são amplamente aplicados em segurança, forças armadas, A Técnica LMP consiste de suavizar os níveis de cinza da
aplicação da lei, robótica e outras. imagem do mapeamento feito por uma função pré-definida.
Para cada pixel da imagem, o mapeamento da região é feito
Embora muitos estudos em reconhecimento facial tenham
com base em uma região específica de sua vizinhança.
sido feitos, problemas com variação de iluminação, poses
com oclusão facial, expressão facial e envelhecimento ainda A ideia deste trabalho é utilizar para reconhecimento facial
são desafios, pois influenciam a performance dos sistemas de o método MSLMP, introduzido em [4], que é uma versão multi
reconhecimento facial e motivam o desenvolvimento de novos escala do método LMP.
sistemas de reconhecimento que lidam com esses problemas Nos testes para avaliação da performance desse método
e sejam mais confiáveis. foram utilizadas as seguintes bases de dados: MUCT, ORL,
O projeto de sistemas de reconhecimento facial robustos JAFFE, ESSEX 94 e GRIMACE.
e precisos depende da escolha do método de extração de Este artigo está organizado da seguinte forma: na Seção
característica utilizado. Há diferentes tipos de características II são descritos os aspectos teóricos e práticos utilizados no
que podem ser empregadas tais como: detalhes de estruturas, desenvolvimento do trabalho, na Seção III mostra-se os resul-
texturas, detalhes de bordas, informasão estrutural da face e tados experimentais e, por fim, na Seção VI são apresentadas
outras informações importantes que precisam ser extraídas de as conclusões e propostas para trabalhos futuros.
✽✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
II. M ETODOLOGIA
rn − rn−1
A ideia deste trabalho foi utilizar o MSLMP como extrator Gn = 2.round + 1, (3)
2
de características de imagens de faces para averiguar a sua
capacidade de reconhecimento facial. Assim, encontram-se na qual a função round : R → N+ associa a um valor o
descritos nesta seção os métodos MSLBP e LMP que deram menor inteiro não negativo maior que ele. Em cada nível, o
origem ao MSLMP. valor δn necessário para aplicar o filtro Gaussiano é dado por:
A. Multi-scale Local Binary Pattern (MSLBP) Gn
δn = p , (4)
O método MSLBP proposto por [14], consiste na extração −2 ln(1 − p)
do padrão LBP de cada pixel da imagem em diferentes escalas onde p foi estabelecido como 0.95.
para um valor fixo de amostragem, após suavização Gaussiana.
B. Local Mapped Pattern (LMP)
De acordo com [17], o objetivo do uso de filtros Gaussianos
de passa-baixa é para que em cada amostra na vizinhança se O LMP, que é uma extensão do LBP, assume que a
possa coletar uma quantidade de informação maior que aquela distribuição dos níveis de cinza na vizinhança de um pixel
com um único pixel. A figura 1 exemplifica esse processo, nela é um padrão local e pode ser representada pela diferença dos
são apresentadas vizinhanças de um pixel quantizadas por oito níveis de cinza da vizinhança do pixel central [10]. Dessa
amostras, como propõe [14], onde formam-se oito setores que forma, cada pixel g(i, j) é mapeado em função de uma região
distam um raio Rn do pixel central. Os círculos representam W × W em torno deste (Figura 2a), através da Equação (5)
a área para extração do padrão LBP ao redor de cada amostra W X
X W
após filtragem. O raio externo da “área útil"na figura 1, que é fg(i,j) (g(k, l).P (k, l)))
usado para calcular o raio Rn para a extração do LBP, é dado h(g(i, j)) = k=1 l=1
, (5)
por W X
X W
P (k, l)
2
rn = rn−1 . − 1 , n ∈ {2, ..., N } , (1) k=1 l=1
1 − sin(π/Pn )
na qual fg(i,j) é a função de mapeamento (Figura 2b), respon-
na qual N é o número de escalas e Pn a amostragem de sável pela suavização dos níveis de cinza da vizinhança que
cada escala, que no caso do MSLBP foi considerado Pn = 8 mapeará os W 2 − 1 vizinhos do pixel central g(i, j) (Figura
∀n ∈ N. 2c), e P é uma matriz de pesos W × W pré-definida (Figura
2d). Este mapeamento define então o micro padrão LMP da
região W × W (Figura 2e).
Nas condições anteriores, ao levar em conta o LBP para multi escala. Assim, nesse método a evolução de cada escala
uma vizinhança 3 × 3 da imagem, a matriz de pesos é dada se faz de acordo com o aumento do tamanho da dimensão
por: das vizinhanças do pixel g(i, j). Portanto, as dimensões Wn
(Equação (12)) da matriz de pesos Pn , expressa por (13),
1 2 4 aumentam de acordo com a escala.
P = 8 0 16
32 64 128
Wn = 2.round(Rn ) + 1, (12)
para que os valores do padrão estejam em [0,255] é necessário
normalizar o resultado obtido. Tal normalização é feita através
0 1 0 0 0 0 1 0 0 0 0
da Equação (7): 0 0 1 0 0 0 1 0 0 0 1
0 0 0 1 0 0 1 0 0 1 0
0 0 0 0 1 0 1 0 1 0 0
3 X3
1 1 1 1 1 1 1 1 0 0 0
X P11 = 0 0 0 0 1 0 1 0 0 0 0 . (13)
NLBP = round h(g(i,
| {z } j)) . P (k, l) .
(7)
0 0 0 1 1 1 1 1 1 1 1
0 0 1 0 1 0 1 0 0 0 0
k=1 l=1
∈[0,1] | {z }
0 1 0 0 1 0 0 1 0 0 0
255 1 0 0 0 1 0 0 0 1 0 0
O método LMP utiliza a função Sigmoide, dada pela 0 0 0 0 1 0 0 0 0 1 0
Equação (8), como aplicação de mapeamento, pois a suavidade
Em [3] foram realizados testes com matrizes de pesos para
da função Sigmoide transmite uma abordagem mais realística
classificação de texturas utilizando o MSLMP. A matriz que
para o padrão LMP, o que vai atenuar a perda de informação
obteve o melhor resultado de acurácia dessa pesquisa está
sofrida pela presença de ruído na imagem.
representada em (13). Assim, nesse trabalho foi adotada essa
matriz, nela estão contidas as distribuições dos valores não
1 nulos das matrizes de peso até a quinta escala do método.
fg(i,j) (A(k, l)) = , λ ∈ (0, 1].
A(k,l)−g(i,j)
(8)
1+ e− λ Considerando o valor P11 (6, 6) como centro, que representaria
Assim, a matriz de pesos P , descrita pela Equação (5), é o pixel da imagem a ser extraída o micro padrão, tem-se que
uma matriz 3 × 3 dada por: a região 3 × 3 denota a P1 (matriz de pesos para a escala
um). A região 5 × 5, tomando a região 3 × 3 como sendo a
1 1 1 matriz nula, representa a P2 . A vizinhança 7 × 7, escolhida da
P = 1 0 1 . (9) mesma forma que a 5 × 5, denota a P3 e a vizinhança 11 × 11
1 1 1 denota a P5 . Nota-se que as matrizes Pn foram construídas
Como fg(i,j) (g(i, j)) = 0.5 seja qual for o valor de g(i, j) de forma a considerar apenas oito amostras de cada região do
o valor central de P foi considerado igual a 0, evitando esse pixel para o cálculo do MSLMP. Portanto, o padrão MSLMP
cálculo e melhorando a performance do método. Então, o de um pixel g(i, j) na n-ésima escala é obtido pela Equação
padrão LMP de pixel g(i, j) é dado pela Equação (10): (14):
X
(fg(i,j) (g(k, l))) X
(k,l)∈I−{(i,j)} (fg(i,j) (g(k, l)))
LM P (g(i, j)) = , (10) (k,l)∈In −{(i,j)}
8 M SLM P (g(i, j)) = , (14)
na qual I = {(k, l) : k = i − 1, i, i + 1 e l = j − 1, j, j + 1}. 8
Como os valores gerados pela função Sigmoide estão entre 0 na qual, In = {(k, l) : k = i − C, i − 1, i + C − 1, i + C e
e 1, o padrão LM P está contido no intervalo (0, 1). Portanto, l = j −(C −1), j +1, j −1, j +C −1}, onde C = round(Rn ).
para obter valores em [0, 255] é usada a versão normalizada Da mesma forma que o LMP, o padrão MSLMP também está
dos valores obtidos pela Equação (10), assim, o padrão final no intervalo (0, 1) e por isso é utilizada a versão normalizada,
extraído de cada pixel g(i, j) é dado pela Equação (11): dada pela (15):
NLM P = round(255.LM P (g(i, j))). (11) NM SLM P = round(255.M SLM P (g(i, j))). (15)
C. Multi-scale Local Mapped Pattern (MSLMP)
D. Extração de Características
A presença de ruídos na imagem prejudica a extração do
padrão LBP das regiões, devido a isso, em [4] é proposto uma Pela Equação (15) nota-se que os padrões normalizados
extensão multi escala do método LMP descrito na subseção MSLMP são valores no intervalo [0,255]. Em [20] são apre-
anterior, cujo propósito é atenuar a ação ruidosa presente nas sentados alguns valores dentro desse intervalo denominados
imagens através do uso de aplicações que suavizam as altas uniform patterns. Esses valores representam uma classe que
frequências presentes nas vizinhanças de um mesmo pixel. é responsável, na maioria das vezes, por mais de 90% pelas
Tais vizinhanças seriam representadas por raios que aumentam características mais representativas da imagem. De maneira
conforme o nível do processo, caracterizando o método como geral, o uniform pattern é um valor U ∈ [0, 255] ∪ Z, que em
✽✺ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
sua representação binária (b1 b2 b3 b4 b5 b6 b7 b8 ), com bi ∈ {0, 1} confusão (Mi ) onde cada linha da matriz denota uma face.
respeita a desigualdade (16): A taxa de acerto (Ai ) do método para essa validação é dada
8
X pela Equação (19):
|b1 − b8 | + |bi − bi−1 | ≤ 2. (16) tr(M )
Ai = , (19)
i=2 R
De acordo com [14], dadas K amostras da região de um na qual tr é uma função que associa uma matriz quadrada
pixel, existem (K − 1).K + 2 uniform patterns. Para K = 8, ao seu traço, R é a quantidade de amostras para teste e i é
no método em questão, tem-se 58 valores entre 0 e 255 que o grupo de validação em que as imagens se encontram, i =
satisfazem a relação (16). Para a extração de características {1, 2, 3, 4, 5} . A taxa de acerto final é calculada pela mádia
de uma imagem, em cada escala do método, gera-se um aritmética entre todos os grupos considerados neste caso.
histograma dos valores obtidos pela equação (15) e em seguida
toma-se a taxa de ocorrência dos 58 uniform patterns nos B. Bases de Dados Utilizadas
respectivos histogramas, então somam-se as taxas restantes
Para a avaliação dos resultados foram consideradas as
para formar o vetor Xn = (x1 , x2 , ..., xN ) ∈ [0, 1]59 . O
seguintes bases de dados: MUCT, ORL, JAFFE, GRIMACE e
vetor de características é dado pelo vetor v = norm(x), cujo
ESSEX 94. Cada conjunto de imagens de uma mesma pessoa
número de coordenadas é N.59, N é o número de escalas
será denotado por “classe” do banco de dados.
utilizadas e norm(.) é a função de normalização dada pela
A base de Dados MUCT (Milborrow/University of Cape
Equação (17):
Town) [24], contém 3755 imagens, de dimensões 480 × 640,
1 de 276 pessoas. Dez tipos de iluminações foram considerados.
norm(y) = .(y − min(y)). (17)
max(y) − min(y) Comparada a outras bases de dados públicas, a MUCT apre-
III. R ESULTADOS E XPERIMENTAIS senta maior diversidade de iluminação, idade e etnia. É uma
Para cada imagem de dados é extraído o padrão MSLMP, base de dados disponível gratuitamente para fins acadêmicos.
criando então o vetor de características. Para cada base de Nesta base de dados, cada indivíduo foi fotografado utilizando
dados utilizada foram separadas 20% das imagens para teste cinco câmeras (webcans) e da forma mais natural possível.
e 80% para o treinamento, em forma de rodízio, e então, o O objetivo desta base de dados são aplicações que requerem
processo de validação cruzada é executado. ambientes não controlados, o que dificulta muito o reconhe-
cimento/identificação das pessoas. É muito difícil encontrar
A. Processo de Avaliação e Classificação trabalhos que utilizam essa base de dados para avaliação de
O processo de classificação é feito calculando-se a distân- performance de métodos destinados ao reconhecimento de
cia Chi-quadrado [21] entre dois vetores de características faces. A Figura 4 contém exemplos das imagens da MUCT.
vi , wj ∈ Rn , através da Equação (18): Cada classe dessa base contém de 10 à 15 imagens sendo 5
n delas de uma específica iluminação.
1 X (vi,k − wj,k )2
χ2 (vi , wj ) = , (18)
2 (vi,k + wj,k )
k=1
na qual, vi representa o vetor de características da i−ésima
amostra de teste a ser avaliada e wj o vetor de característica
da j−ésima amostra de treino. A figura (3) ilustra o processo
de classificação.
Tabela I
TAXA DE ACERTOS DA MUCT
Grupo Acertos
Grupo_a 90,28%
Grupo_b 90,81%
Grupo_c 83,22%
Grupo_d 63,15%
Grupo_e 89,08%
Figura 5. Algumas Imagens da ORL. Média 83,30%
classificação foi baseado em técnicas não-supervisionadas central. Cada um dos vizinhos contribui com esse valor
por meio de métricas aplicadas aos histogramas formados binário obtido de GD para compôr um código LBP por
pelas características obtidas por meio das variantes LBP. meio da Equação 2.
Além disso, com o propósito de visualizar as relações de (
similaridade dos espaços de características gerados a partir 1 se (fp − fc ) ≥ 0
S(fp − fc ) = (1)
do conjunto de faces, foi empregada uma técnica de redu- 0 se (fp − fc ) < 0
ção de dimensionalidade conhecida por Multidimensional
P −1
Scaling (MDS), que possibilitou a construção de represen- X
LBPP,R = S(fp − fc )2p (2)
tações gráficas baseadas no posicionamento de pontos no
p=0
plano, permitindo a identificação da similaridade das faces
por meio de Gráficos de Dispersão. Finalmente na Seção B. LBP Circular
IV são apresentadas as considerações finais do trabalho O LBP, como é possível observar na Equação 2, é
desenvolvido. representado por LBPP,R onde P é a quantidade de
vizinhos e R é o raio de abrangência da vizinhança. Apesar
II. Referencial Teórico de originalmente a vizinhança proposta ser quadrada, o
Uma questão fundamental no processo de reconheci- método possui variações que possibilitam melhorias nos
mento facial é a construção de um espaço de características resultados, sendo utilizada atualmente, em sua maioria,
robusto e que seja altamente discriminante, de modo a uma vizinhança circular, com alguns exemplos representa-
reduzir fatores não controlados. As diferentes técnicas pro- dos na Figura 1. Com o uso de uma vizinhança circular,
postas na literatura ao longo das décadas para resolver esse o ponto da vizinhança não coincide, necessariamente, com
problema podem ser enquadradas em duas abordagens o centro de um pixel, assim, é feita uma interpolação para
gerais – os métodos baseados na geometria (globais) e encontrar as coordenadas do pixel central da vizinhança
os métodos holísticos baseados na aparência (locais), que gp = I(xp , yp ) (onde p = 0, ..., P − 1 e I é a imagem em
tem sido os mais efetivos com relação a performance. Uma uso), a ser utilizado, conforme ilustra as relações dadas
terceira abordagem pode ser mencionada e busca combinar pela Equação 3 [1].
elementos de ambas as anteriores.
Deve-se realçar que a quase totalidade dos métodos
baseados em aparência possuem alguns passos básicos
bem definidos: captura da imagem; seleção/extração das
características para a criação de um modelo da face e
as regras que permitem discriminar uma face da outra
(classificação).
Entre as técnicas propostas para a extração de ca- (a) (P,R)=(8,1) (b) (P,R)=(16,2) (c) (P,R)=(8,2)
racterísticas locais, e, portanto, associada ao paradigma
baseado em aparência, um deles tem se destacado das Figura 1. Exemplo de vizinhança circular.
demais - o Local Binary Pattern (LBP), que foi proposto
originalmente como um descritor de texturas por meio
do mapeamento binário das diferenças de nível de cinza 2πp 2πp
xp = x + Rcos( ); yp = y + Rsin( ) (3)
entre uma vizinhança e seu pixel central [4] e que depois P P
mostrou-se um poderoso método de descrição local de
características na representação de faces [5]. Desde então, Assim que o código LBP de cada um dos pixels de uma
inúmeras variantes do LBP original surgiram. subjanela é encontrado, pode-se determinar o histograma
É possível observar ainda que a representação de ca- relativo à quantidade de cada valor de código presente.
racterísticas faciais é pouco susceptível a variação de O histograma final é obtido a partir da concatenação dos
iluminação (na escala de cinza) [6], além do código LBP ser histogramas menores e apresenta dimensionalidade 256 em
computado de forma simples e rápida. Nesse sentido, essa um LBP com vizinhança contendo 8 pixels, considerando
seção irá se limitar a discussão teórica de três importantes a imagem como uma janela única. No entanto, o uso
variantes do método LBP que tem sido efetivas no reco- da imagem como janela única ocasiona perda de algu-
nhecimento facial, que foram devidamente implementadas mas características locais e, consequentemente, diminui
e sobre as quais os experimentos foram realizados. o desempenho no processo de reconhecimento, ao passo
que, a subdivisão da imagem em subjanelas e posterior
A. LBP Quadrado concatenação dos histogramas obtidos aumenta significa-
Uma diferença de nível de cinza ou Grey-level Difference tivamente a dimensionalidade das características a serem
(GD) no LBP padrão é codificada em 0’s e 1’s, especifi- comparadas. Uma alternativa à esse aumento crítico de
cando se esta é maior ou menor que 0, de acordo com a dimensionalidade é a variante LBP com Multi-Direção e
Equação 1, onde fp é um pixel da vizinhança e fc é o pixel Rotação Invariante.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✾✵
C. Multi-Direção e Rotação Invariante conta com 400 imagens de dimensões 92x112 em escala
O método LBP Uniforme Invariante a Rotação, ou de cinza, sendo 10 imagens de 40 individuos [7]; JAFFE,
Rotation Invariant Uniform LBP (Riu-LBP), apresenta a que é uma base contendo 213 imagens com 7 expressões
vantagem de possuir baixa dimensionalidade, mas a per- faciais de 10 mulheres de dimensões 256x256, sendo 6
formance (taxa de sucesso) é comprometida por não conter expressões básicas e 1 neutra [8], [9]; IMM, contando com
informações de direcionamento. Assim, em [3], é proposta 240 imagens de 40 pessoas (33 homens e 7 mulheres)
a técnica Fusão de Nível de Característica Multi-Direcional sem óculos, com diferentes posicionamentos de face (fron-
Riu-LBP, ou Feature-Level Fusion of Multi-Directional tal, perfis esquerdo e direito) e com dimensões 640x480
Riu-LBP, que preserva a redução de dimensionalidade e [10], [11]; e, CALTECH, uma base de dados de imagens
incorpora informações de direção, melhorando as taxas de frontais contendo 450 imagens de dimensões 896x592 de
sucesso na etapa final de classificação. aproximadamente 27 pessoas sob diferentes condições de
Um subconjunto de tamanho Pi e menor ângulo positivo iluminação, expressão e planos de fundo [12].
θi (1 ≤ i ≤ k) representado por S(θi , Pi ) pode ser dividido A detecção de face foi feita para todas as imagens,
em subconjuntos ainda menores, conforme o exemplo da incluindo aquelas sem muitas informações de fundo ob-
Figura 2. Em seguida, aplica-se o Riu-LBP convencional jetivando viabilizar a automatização, tarefa que foi con-
em cada subdivisão, dado pela Equação 4, onde s(x) duzida por meio da técnica de Viola-Jones disponível no
é a função de atribuição de 0 ou 1 do LBP original. toolkit gráfico do Matlab. Após a detecção, as imagens
O LBP final é obtido por meio da união de cada Riu- faciais foram normalizadas para as dimensões 500x500
LBP, ∪ki=1 LBP(Pi ,θi ,R) (M, N ), onde a dimensão é dada e na sequência foram extraídas características de cada
Pk
por D = (M.N ). i=1 (Pi + 2). uma das bases de dados apresentadas utilizando o LBP
Quadrado, LBP Circular e LBP Multi-Direção e Rotação
Invariante aplicados globalmente (500x500) ou em subre-
giões de tamanho 100x100 e 50x50 pixels. As caracterís-
ticas obtidas foram armazenadas em arquivos individuais
para cada face e, posteriormente, comparadas utilizando-
se distância entre histogramas. Para tanto foram utilizadas
as métricas Euclidiana, Chi-Quadrado, Medida de Blocos
e Divergência de Jensen-Shannon, dadas, respectivamente,
pelas Equações 5, 6, 7 e 8, onde, Simj (I, I ′ ) representa a
similaridade na região j das imagens que originaram os
histogramas, e, tj é dado pela Equação 9. A similaridade
total é dada pela soma das regiões [2], [1], [13], [14].
sX
Simj (I, I ) =
′
(fj (i) − fj′ (i))2 (5)
j
(b) JAFFE.
(a) ORL.
(c) IMM.
(b) JAFFE.
(d) CALTECH.
Abstract—Image segmentation is a fundamental process for im- sua população ao long da busca, o que pode tornar difı́cil
age analysis and computer vision. One of the most effective image ao método a fuga de pontos ótimos locais.
segmentation methods is Otsu algorithm, originally proposed to Neste trabalho, uma versão melhorada do GSO, denom-
segment a gray image in two classes, but extended to multi-level
thresholding afterwards. The computational cost for multi-level inada IGSOOtsu , é aplicada ao problema de segmentação
Otsu limits its application in real world problems, and many de imagens coloridas. O IGSOOtsu faz uso de um operador
evolutionary algorithms (EAs) have been applied to optimize Otsu de reinicialização aleatória como forma de eliminação dos
algorithm. In this paper, a hybrid Otsu and improved Group membros mais fracos da população do GSO, de modo a
Search Optimization (GSO) algorithm is presented to deal with garantir sua diversidade populacional e facilitar a exploração
multi-level color image thresholding problem, named IGSOOtsu .
The proposed IGSOOtsu is compared to other EAs from lit- de novas regiões do espaço de busca do problema, o que pode
erature through twelve real color image problems, showing its auxiliar na fuga de regiões ótimas locais.
potential and robustness even when compared to original GSO O trabalho é dividido como segue. Inicialmente, o algoritmo
algorithm. Otsu multi-nı́vel e o GSO serão brevemente descritos nas
Seções II e III, respectivamente. Em seguida, o IGSOOtsu será
I. I NTRODUÇ ÃO
apresentado (Seção IV). Os resultados experimentais serão
A sementação de imagens visa dividir uma imagem em discutidos na Seção V, seguidos pelas conclusões do trabalho
regiões ou segmentos, de modo geral, de acordo com discon- (Seção VI).
tinuidades ou similaridades presentes na própria imagem. Uma
categoria de abordagens tradicionais para a segmentação de II. O M ÉTODO OTSU M ULTI -N ÍVEL
imagens com base na similaridade é a categoria de técnicas de Considere que D denota o número total de limiares a
Limiarização [1], sendo o método Otsu [2] um dos algoritmos serem aplicados a uma imagem que contém L nı́veis de
mais populares nessa categoria. cinza. A imagem resultante será dividida em (D + 1) classes
O método Otsu original previa a divisão de uma imagem C0 , C1 , ..., CD . A proporção rk de nı́veis de cinza em cada
em nı́vel de cinza em duas classes (binarização da imagem), classe é calculada de acordo com a eq. (1):
porém tal algoritmo pode ser facilmente extendido para lidar PT
Pi=0 pi , se k = 0
i
com problemas de limiarização multi-nı́vel. Uma limitação
Tk+1
da abordagem multi-nı́vel do algoritmo Otsu é o fato de que rk = i=Tk pi , se 1 ≤ k ≤ D − 1 (1)
PL−1
seu custo computacional cresce significativamente conforme o i=TD pi , se k = D
número de limiares aumenta, o que pode tornar seu emprego
onde Ti é o i-ésimo limiar, os limiares são tais que T1 < T2 <
proibitivo em aplicações reais.
... < TD−1 < TD , e pi é a proporção do nı́vel de cinza i na
Na literatura, vários Algoritmos Evolucionários (EAs) têm
imagem, dada abaixo (eq. (2)).
sido empregados no intuito de melhorar o algoritmo Otsu,
como o Algoritmo Genético (GA) [3], [4], a Evolução Difer- L−1
X
encial (DE) [5], [6], a Otimização por Enxame de Partı́culas pi = ni /N, pi ≥ 0, pi = 1 (2)
(PSO) [7], [8] e, mais recentemente, a Otimização por Busca i=0
em Grupo (GSO) [9], [10]. onde ni é o número de pixels com nı́vel de cinza i na imagem,
O GSO é uma meta-heurı́stica de busca evolucionária e N é o número total de pixels da imagem.
nova, inspirada na interação de animais sociais, que possuem O nı́vel de cinza médio de uma classe Ck é dado pela
comportamento de busca por recursos em grupos, com seus equação abaixo (eq. (3)).
ambientes. Esse algoritmo tem obtido bons desempenhos na PT PTi
i=0 pi , se k = 0
i
otimização de vários problemas difı́ceis quando comparado (Pi=0 i · pi )/ P
a outros EAs como o GA e o PSO [11], por exemplo. µk = ( Ti=T k+1
k
Tk+1
i · pi )/ i=T k
pi , se 1 ≤ k ≤ D − 1
P
L−1 P L−1
Contudo, o GSO sofre de problemas comuns a outros EAs, ( i=TD i · pi )/ i=TD pi , se k = D
como a convergência prematura e perda de diversidade de (3)
✾✺ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Algorithm 1 IGSOOtsu
t ← 0.
Inicialização: Para cada membro X ~ (0) , escolha aleatoria-
i
mente D limiares para cada canal do RGB, de modo que
os limiares Ti sejam tais que T1 < T2 < ... < TD−1 < TD
em cada canal.
Calcule o valor inicial da função de fitness de cada um dos
membros X ~ (0) .
i
enquanto (condições de término não forem satisfeitas) faça
Escolha o melhor membro do grupo como o producer
X~ pt para a iteração atual.
Execute o operador de producing para o X ~ pt .
Escolha um percentual dos membros do grupo (exceto o
X~ t ) para executar o operador de scrounging.
p
Ranging: Os demais membros irão executar a estratégia
de ranging.
Fig. 2. Imagens coloridas adotadas: (a) Airplane, (b) Gellybeans1, (c) Calcule o novo valor da função de fitness para cada
Geallybeans2, (d) House1, (e) House2, (f) Lake, (g) Lena, (h) Mandrill, (i) ~ t.
Peppers, (j) Splash, (k) Tiffany and (l) Tree. membro X i
Ordene os membros da população de acordo com o valor
de fR (X ~ t ).
i
Como uma forma de melhoria para o GSO, no IGSOOtsu Reinicialize aleatoriamente as caracterı́sticas correspon-
um operador de reinicialização aleatória é empregado e apli- dentes aos D limiares da imagem IR para um percentual
cado aos membros mais fracos do grupo, de modo a promover dos piores membros X ~ t de acordo com fR (X ~ t ), de modo
i i
o aumento da diversidade populacional durante as gerações que os novos limiares satisfaçam TR1 < TR2 < ... <
da busca. Como cada membro X ~ i do grupo do IGSOOtus TR(D−1) < TRD .
representa o conjunto de valores de limiares para cada uma das Ordene os membros da população de acordo com o valor
imagens em nı́veis de cinza IR , IG e IB , os valores parciais de fG (X ~ t ).
i
~ i ), fG (X
da função de fitness fR (X ~ i ) e fG ( X~ i ) são usados na Reinicialize aleatoriamente as caracterı́sticas correspon-
determinação dos membros mais fracos. Para cada canal do dentes aos D limiares da imagem IG para um percentual
RGB, ordena-se o grupo de acordo com seu valor para cada dos piores membros X ~ t de acordo com fG (X ~ t ), de modo
i i
uma das funções parciais fR (X ~ i ), fG (X ~ i ) e fG ( X~ i ). Para cada que os novos limiares satisfaçam TG1 < TG2 < ... <
canal do RGB, um percentual dos membros mais fracos é TG(D−1) < TGD .
escolhido para que suas caracterı́sticas em relação ao canal ao Ordene os membros da população de acordo com o valor
qual o mesmo foi considerado mais fraco sejam reinicializadas de fB (X ~ t ).
i
aleatoriamente. Desta forma, um membro poderá ter apenas Reinicialize aleatoriamente as caracterı́sticas correspon-
um conjunto de suas caracterı́sticas reinicializado, tendo em dentes aos D limiares da imagem IB para um percentual
vista que tal membro pode ser considerado fraco em um dos dos piores membros X ~ t de acordo com fB (X ~ t ), de modo
i i
canais do RGB, porém em algum outro canal ser considerado que os novos limiares satisfaçam TB1 < TB2 < ... <
bom o suficiente, não havendo necessidade de reinicialização TB(D−1) < TBD .
em todas as suas caracterı́sticas. A reinicialização aleatória t := t + 1.
permite que regiões ainda não exploradas do espaço de busca fim enquanto
do problema passem a ser visitadas, assim como também evita retorne X ~ pt .
que o producer acabe atraindo todos os membros da população
para uma região de pontos ótimos locais do espaço de busca
do problema.
O IGSOOtsu é apresentado no Algoritmo 1. adotados para cada algoritmo são apresentados na Tabela I,
de acordo com [10].
V. R ESULTADOS E XPERIMENTAIS Todos os algoritmos foram executados no ambiente MAT-
LAB 7.6. O número de limites para cada canal do RGB variou
Nesta seção, o IGSOOtsu proposto é testado em doze de 2 até 5 [10]. Trinta testes independentes foram executados
imagens coloridas reais e comparado a métodos consagra- para cada algoritmo em cada uma das imagens e para cada
dos da literatura. As imagens selecionadas são: Airplane, um dos valores de limiares por canal do RGB. Todos os
Gellybeans01, Geallybeans02, House01, House02, Lake, Lena, algoritmos evolucionários tiveram como ponto de partida a
Mandrill, Peppers, Splash, Tiffany e Tree (Figure 2). mesma população inicial em cada um dos testes, sendo tal
Os algoritmos evolucionários de comparação adotados população obtida pela geração aleatória dos limites iniciais
foram o GA, o DE, o PSO e o GSO [10]. Os parâmetros por canal do RGB, de modo que os limites se apresentassem
✾✼ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
TABLE I
PAR ÂMETROS ADOTADOS POR CADA ALGORITMO .
TABLE III
R ESULTADOS EXPERIMENTAIS PARA QUATRO E CINCO LIMIARES POR
CANAL DO RGB.
4-D 5-D
Imagem Algoritmo
Média Std. Média Std.
GA 5389.1 16.7 5462.4 15.6
DE 5481.3 1.36 5539.4 4.71
Airplane PSO 5475.9 16.1 5535.7 13.4
GSO 5461.4 20.9 5525.5 16.8
IGSOOtsu 5483.2 2.86 5542.5 3.38
GA 4722.7 9.51 4765.7 10.7
DE 4781.9 3.07 4811.4 1.89
Gellybeans01 PSO 4769.7 16.3 4799.6 13.2 Fig. 3. Segmentação para a imagem Peppers com 3-D.
GSO 4761.7 22.2 4789.4 15.7
IGSOOtsu 4783.6 0.566 4810.2 4.45 TABLE IV
GA 5921.9 16.5 5975.6 16.3 Ranks M ÉDIOS DOS TESTES DE F RIEDMAN /N EMENYI PARA CADA
DE 5990.2 0.932 6033.3 6.74 DIMENS ÃO .
Gellybeans02 PSO 5974.9 20.9 6022.5 12.9
GSO 5966.0 23.2 6014.7 13.2 Algoritmo 2-D 3-D 4-D 5-D
IGSOOtsu 5991.7 0.744 6035.4 5.59 GA 17.5083 17.2694 16.6333 16.4694
GA 8177.8 34.2 8297.5 25.4 DE 95.4972 78.2444 81.3139 87.9278
DE 3631.9 2.16 8429.5 3.27 PSO 86.1861 100.5764 96.2361 87.4417
House01 PSO 8306.5 18.6 8423.7 17.6 GSO 82.3472 74.4528 68.13.89 67.2222
GSO 8308.5 10.9 8412.9 21.5 GSOOtsu 95.9611 106.9596 115.1778 118.4389
IGSOOtsu 8312.0 2.59 8435.0 1.80
GA 7802.5 14.9 7860.7 13.5
DE 7873.8 3.79 7937.2 6.48
House02 PSO 7869.7 11.5 7929.5 15.4 direita). Os resultados experimentais mostram que o operador
GSO 7863.3 23.2 7920.8 16.9 de reinicialização dos elementos mais fracos foi capaz de
IGSOOtsu 7877.0 3.23 7941.7 5.33 favorecer a diversidade populacional, de modo que o grupo
GA 13275.0 21.8 13392.7 20.4
DE 13403.0 2.51 13513.7 2.73 do IGSOOtsu foi capaz de evitar a convergência prematura da
Lake PSO 13401.6 15.6 13503.9 21.6 população, obtendo desempenho global médio melhor que o
GSO 13392.1 19.4 13499.4 17.1 do GSO padrão.
IGSOOtsu 13406.0 1.53 13518.8 1.82
GA 5948.9 32.3 6058.3 19.5 VI. C ONCLUSION
DE 6090.1 3.69 6157.2 6.80
Lena PSO 6067.1 38.2 6144.8 18.5 Neste trabalho, um modelo hı́brido do algoritmo Otsu com
GSO 6062.3 27.2 6125.3 26.5 uma variação melhorada da Otimização por Busca em Grupo
IGSOOtsu 6093.0 4.87 6161.5 7.54
GA 8573.6 35.0 8716.9 29.5 foi apresentado, chamado IGSOOtsu , para a segmentação
DE 8735.4 1.85 8858.3 3.93 através da limiarização multi-nı́vel de imagens coloridas. O
Mandrill PSO 8723.5 29.0 8852.7 19.5 IGSOOtsu faz uso de um operador de reinicialização aleatória
GSO 8734.5 10.9 8857.8 13.5
IGSOOtsu 8738.8 0.677 8866.0 1.47 para um percentual dos piores membros da população, como
GA 9108.4 32.1 9244.8 23.6 forma de aumentar a diversidade populacional, assim como de
DE 9260.2 2.70 9364.7 4.27 oferecer mecanismo de fuga de pontos ótimos locais.
Peppers PSO 9250.2 33.7 9350.8 24.2
GSO 9248.7 24.6 9354.4 19.8 Experimentos foram conduzidos através do uso de doze
IGSOOtsu 9263.8 1.47 9370.9 2.13 imagens coloridas reais e pela comparação do IGSOOtsu com
GA 9007.5 26.4 9104.7 19.3 quatro algoritmos evolucionários da literatura: o GA, o DE,
DE 9124.1 6.80 9184.6 3.39
Splash PSO 9119.4 20.9 9185.9 10.0 o PSO e o GSO padrão. Testes de hipótese do tipo teste de
GSO 9103.8 23.7 9180.6 12.9
IGSOOtsu 9128.4 0.805 9190.7 3.36
GA 2446.4 10.7 2507.4 9.67
DE 2495.8 1.92 2560.8 4.20
Tiffany PSO 2490.1 13.0 2555.1 17.4
GSO 2472.8 24.4 2533.4 18.5
IGSOOtsu 2495.1 2.52 2563.5 3.32
GA 12693.7 22.9 12787.1 16.9
DE 12789.4 3.84 12876.3 2.72
Tree PSO 12784.0 14.8 1287.2 16.1
GSO 12774.4 13.2 12874.1 12.8
IGSOOtsu 12794.1 3.96 12881.4 1.16
Abstract - In this study, it was explored the Ripplet-II Ripplet-II. Uma das abordagens utilizadas para adquirir
transform to identify new approaches for texture analysis of informações sobre transições de níveis de cinza entre dois
histological images of breast lesions, in comparison to wavelet, pixels é a obtida através da construção da matriz de co-
which proves not to be very efficient for the identification of ocorrência [3]. Outra técnica que vem sendo explorada para
image contours. To obtain more robust results, statistical análise de imagens médicas é através das medidas de entropia,
characteristics, widely used for medical image analysis, were que mede o grau de confusão da imagem. Trabalhos recentes
obtained, such as Co-occurrence Matrix and other measures of têm utilizado diversas formas de medida de entropia [4],[5],
entropy, in addition to Shannon. The images used were obtained tais como as entropias de Renyi [6], Harvrda-Charvat [5],
from the base of the National Cancer Institute of the United Kapur [7] e Tsallis [8], além da entropia de Shannon.
States, and the ReliefF and Random Forest (RaF) algorithms
Ainda são poucos os estudos de classificação de lesões de
were applied for selection and classification of the
characteristics. Rate of 0,875 for area under the ROC curve was
mama existentes na literatura, que exploram descritores
the most significant result obtained with the classification of baseados em Ripplet-II [25]. Por isso, a introdução da
Ripplet-II transform coefficients, combined with all the transformada de Ripplet-II, seus coeficientes e diferentes
extracted characteristics sets. This result demonstrated the características estatísticas de primeira e segunda ordem,
superiority of Ripplet-II in relation to wavelet in the description derivadas da imagem transformada em diferentes resoluções,
of textures. são as principais contribuições deste estudo.
Este trabalho visa explorar uma nova abordagem para
obtenção de descritores de textura em imagens histológicas de
I. INTRODUÇÃO câncer de mama, utilizando a capacidade da transformada
Dentre os tipos mais frequentes de câncer em mulheres, o Ripplet-II em identificar e distinguir as massas benignas ou
câncer de mama é o tipo que mais acomete em todo o mundo. malignas de maneira mais assertiva. O classificador Random
Segundo o Instituto Nacional do Câncer (INCA), é um dos Forest foi empregado na avaliação dos descritores propostos.
tipos de câncer mais comum entre as mulheres, o qual Um grupo de imagens histológica de mama foi avaliado com
responde a cerca de 25% dos casos novos a cada ano. Em os métodos propostos.
2016, são esperados 57.960 casos novos de câncer de mama
no Brasil [24]. II. METODOLOGIA
No processamento de imagens médicas, uma importante
aplicação na obtenção de diagnósticos de doenças é através da O diagrama de blocos da Figura 1 demonstra a estrutura
extração de informações descritas pela textura da imagem. A da sequência utilizada para realizar os experimentos
extração de dados texturais vem sendo utilizada na análise e propostos.
interpretação de imagens médicas para determinação de
ROI das Imagens
padrões na classificação de um determinado tipo de imagem Histológicas
[1]. Essa etapa tem contribuído para o desenvolvimento de
sistemas computacionais de apoio ao diagnóstico (Computer
Aided Diagnosis – CAD) para diversos tipos de câncer. Ripplet-II–1D Ripplet-II–2D
Uma variedade de métodos de processamento de imagens Discreta Discreta
é utilizada na obtenção de informações de textura, tais como
funções de auto correlação, métodos baseados em modelos,
dimensão fractal, filtros baseado em processamento de sinal e
Estatísticas
muitos outros. Uma representação esparsa e eficiente das Coeficientes
Estatísticas
Entropias de Primeira
da MCC
imagens é altamente necessária no reconhecimento de Ordem
padrões, numa visão computacional e no processamento de Extração de Características
imagens. Embora vários métodos, como a transformada de
Fourier, a transformada Wavelet e a transformada Ridgelet Seletor de
Características
tenham sido propostos na literatura, eles não conseguem (ReliefF)
resolver as descontinuidades bidimensionais (2D) ao longo de
qualquer curva em uma imagem [2]. Considerando a diferença
significativa nas descontinuidades presentes na região de Classificador
(RaF)
lesões de massa benigna-maligna e sua transformação
circundante, a Ripplet-II, apresentada por Xu e Wu em 2010,
pretende resolver a questão dessas descontinuidades 2D ao Figura 1: Diagrama de blocos das etapas do experimento.
longo das bordas. Juntamente com os coeficientes Ripplet-II,
várias características de textura estatística de primeira e Neste experimento foram extraídas, primeiramente, para
segunda ordem são derivadas da imagem transformada cada imagem histológica, as transformadas Discretas Ripplet-
II 1D e Ortogonal 2D. A função wavelet-mãe utilizada foi a
✶✵✶ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Symlet8, por ser ortogonal, possuir suporte compacto, recursos devido à sua eficiência na representação de bordas e
permitindo uma análise mais discriminante das imagens. texturas. As experiências na classificação de textura e na
Além disso, a Symlet8 vem demonstrando bons resultados, recuperação de imagens demonstram que o esquema baseado
como nos trabalhos de Eltoukhy, Faye e Samir [9], e Jacomini em transformada Ripplet-II supera as abordagens baseadas em
et al. [10]. transformadas wavelet e ridgelet.
. Em seguida, a partir dos coeficientes das versões 2D, A Ripplet-II se baseia na transformada generalizada de
foram calculadas as medidas estatísticas da matriz de co- Radon [13], [14]. A transformada de generalizada de Radon
ocorrência, seis medidas de entropias e as medidas estatísticas converte curvas em pontos. Ela cria picos localizados nos
de primeira ordem. Em uma terceira etapa, combinando-se os parâmetros da curva correspondentes. Intuitivamente, a
grupos de características com os coeficientes das
transformada Ripplet-II consiste em duas etapas: 1) usar a
transformadas, aplicou-se o seletor ReliefF para eliminação de
ruídos e de atributos não relevantes. Por fim, o classificador transformada generalizada de Radon para converter
Random Forest foi executado para avaliar as combinações singularidades ao longo de curvas em singularidades de
propostas. A aproximação proposta foi desenvolvida em pontos no domínio Radon; 2) utilizar a transformada wavelet
linguagem MATLAB e na plataforma WEKA (Waikato para resolver singularidades pontuais no domínio Radon [2].
Environment for Knowledge Analysis) [11]. A seguir são A transformada de Radon clássica é definida no espaço 2D
detalhadas as etapas do experimento: como a integral de uma função 2D de entrada sobre linhas
retas. Para uma função integral 2D f(x,y), onde (x,y) ∈ ℝ , a
A. Banco de Imagens transformada clássica de Radon f(x,y) é definida por:
Para este estudo foram utilizadas 52 imagens histológicas
digitalizadas, sendo 26 de lesões do tipo maligna e 26 de
lesões do tipo benigna, extraídas de regiões de interesse (ROI) (1)
do banco de imagens do Instituto Nacional do Câncer Então, pode-se converter f(x,y) para f(�, �), no sistema de
(National Cancer Institute) e Instituto Nacional do coordenadas polares, e então a transformada clássica de
Envelhecimento (National Institute on Aging), nos Estados Radon pode ser calculada por:
Unidos, as quais se encontram disponíveis para download em
[12]. As imagens microscópicas foram adquiridas por meio de
um microscópio de luz (Zeiss Axioscope), com objetiva de (2)
20x e câmera digital colorida (AXio Cam MR5) acoplada. As
imagens foram selecionadas em regiões de interesse no Para estender a transformada clássica de Radon, os
formato tif, padrão de cor RGB, resolução de 1388x1040 pesquisadores propuseram a transformada de generalizada de
pixels, com quantização de 24 bits. A figura 2 apresenta dois Radon, que é baseada em uma integral ao longo de uma
exemplos de imagens de câncer benigno e maligno, utilizadas família de curvas [13], [14]. Num sistema polar com
neste estudo. As ROI's foram recortadas com tamanho coordenadas (ρ,ϕ), uma curva pode ser determinada por:
512x512 pixels, onde o centro da imagem corresponde ao
centro da anormalidade presente. Esse tamanho foi
selecionado devido aos resultados promissores em diferentes (3)
estudos presente na literatura [21], [22]. Onde r e � são fixos, e d denota uma graduação. Para d=1
e d=2, a Eq. (3) representa uma linha reta e uma parábola
como mostrado na Figura 3(a) e 3(b), respectivamente. Para
d=-1e d=-2, a Eq. (3) representa círculos através da origem e
cardioides, como mostrado na Figura 3(d) e 3(e),
respectivamente. Quando 0<d<1 ou -1<d<0, as curvas se
cruzam pelo menos uma vez. Com isso, tem-se uma única
curva. Caso contrário, as curvas não se cruzam, o que levará a
situações complicadas. Então, considera-se somente |d|≥1.
(a) (b) Refere-se à d>0 como "curvas positivas" e d<0 como "curvas
Figura 2: Exemplo de imagens histológicas de câncer negativas".
benigno (a) e maligno (b) – Fonte: [11]
A transformada generalizada de Radon ao longo de curvas Com o objetivo de descrever as propriedades contidas na
pode ser definida nas coordenadas polares (ρ,ϕ) por: textura de uma imagem, Haralick [15] propôs 14 medidas
estatísticas a serem calculadas a partir das matrizes de co-
ocorrência. Para este estudo, serão utilizadas quatro destas
(4) medidas, descritas a seguir.
Segundo Xu e Wu [2], se a entrada da transformada Conforme Pedrini e Schwartz [3]:
Ripplet-II é uma imagem digital, deve se utilizar a
transformada Ripplet-II Discreta. A transformada Ripplet-II Contraste é a característica que mede a diferença entre os
Discreta da função f pode ser obtida calculando-se primeiro a tons de cinza, conforme a equação:
discreta GRT (DGRT) de f, e depois extraindo-se a Wavelet
Discreta WT 1D (DWT) da DGRT de f como:
(7)
(5) Correlação é a característica que mede a dependência
linear entre os tons de cinza, conforme a equação:
Se for aplicada a transformada wavelet 2D aos coeficientes
de Radon generalizados, a transformada wavelet adicional ao
longo do ângulo θ mantém o potencial de melhorar a dispersão
dos coeficientes da transformada. Os autores deram a esta (8)
nova transformada o nome de Ripplet-II Ortogonal. De Energia é a característica que expressa a uniformidade da
maneira similar a Ripplet-II, a sua versão Ortogonal pode ser textura, conforme a equação:
obtida por:
(6)
(9)
Para este estudo, três níveis de decomposição foram
Homogeneidade denota a característica de homogeneidade
escolhidos para as transformadas 1D, obtendo-se um total de
dos tons de cinza da imagem, conforme a equação:
479 coeficientes das sub-imagens, e 265.470 coeficientes das
sub-imagens de detalhe de dois níveis de decomposição para
as transformadas 2D. ∑= ∑ = p
2 ij
(10)
+ −
C. Estatísticas da Matriz de Co-ocorrência
Uma das técnicas muito utilizada na extração de D. Entropias
características de textura em imagens de mama é através do A medida de entropia é uma das métricas utilizadas na
método da matriz de co-ocorrência. O método de matriz de co- análise de textura de imagens [3], pois mede o grau de
ocorrência de níveis de cinza foi apresentado no início dos confusão da imagem. Este conceito foi introduzido por
anos 70 por Haralick [15]. É um dos métodos mais utilizados Shannon em 1948, mas ao longo dos anos outros
para a extração de características de imagens, e com o passar pesquisadores apresentaram outras maneiras de se calcular a
dos anos diversas variações têm sido propostas quanto a forma medida de entropia. A entropia de Shannon é calculada
de se calcular as matrizes de co-ocorrência [16]. conforme a equação:
Uma matriz de co-ocorrência definida por P de uma
imagem pode ser associada a uma direção (ângulo) θ e uma
distância d entre os pixels de valor, P(i, j, d, θ) armazenado (11)
em uma linha i e coluna j. Essa matriz consiste no número de
vezes em que o pixel de valor i possui vizinhos de valor j à Onde Pm1m2 é a probabilidade de um pixel em uma imagem
esquerda ou à direita e a uma distância d = 1, 2, 3, ..., entre os digital assumir um determinado valor de intensidade.
pixels vizinhos. Normalmente, são utilizadas quatro direções, Renyi [6] generaliza a entropia de Shannon, introduzindo
0º, 45º, 90º e 135º, conforme a Figura 4. um grau α, onde α ≥ 0 e α ≠ 1, conforme a equação:
(12)
A entropia Harvrda-Charvat é aplicada em estudos de
física [5] e também utiliza um parâmetro α, conforme a
equação:
(13)
Figura 4: representação dos elementos da matriz de co- A entropia de Tsallis é uma generalização da entropia de
ocorrência Boltzmann–Gibbs [8], e definida conforme a equação:
Cada elemento da matriz de co-ocorrência representa a
frequência com que um pixel com nível de cinza i e outro com
nível de cinza j ocorrem na imagem, separados por uma (14)
distância d, na direção θ, ou separados entre si de Δx colunas
e Δy linhas [16].
✶✵✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
A entropia de Kapur [7], além de um valor de ordem α, apenas uma amostra de dados de cada classe para testar e as
introduz um tipo β, conforme a equação: demais para treinar. Foram avaliados os grupos de imagens
histológicas de lesões maligna e benigna.
Avaliações quantitativas foram realizadas por meio de
métricas como sensibilidade, especificidade, acurácia e área
sob a curva ROC (Receiver Operating Characteristic). A curva
(15) ROC exibe as relações entre taxas de acertos e erros para cada
A entropia de Vajda [5] é um tipo especial da entropia de grupo analisado, demonstrando assim o desempenho obtido
Kapur, com valor de β=1: em cada algoritmo proposto. O objetivo deste trabalho foi
analisar a eficiência da transformada Ripplet-II para
classificação das imagens.
Tabela 1: Resultado das métricas de sensibilidade e especificidade para os grupos de características combinados com
os coeficientes da Transformada Ripplet-II 1D.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✵✹
Tabela 2: Resultado da Classificação, área sob a curva ROC das características combinadas com os coeficientes da
Ripplet-II 1D e Wavelet 1D.
[5] V. Pandey, V. Gupta, “MRI Image Segmentation Using [16] E. Azevedo, A. Conci, “Computação Gráfica: Teoria e
Shannon and Non Shannon Entropy Measures”, International Prática”, volume 1. [S.1.]: Elsevier, Rio de Janeiro, Brasil, 11
Journal of Application or Innovation in Engineering & edition, 2008.
Management (IJAIEM), Volume 3, Issue 7, ISSN 2319 –
4847, 2014. [17] I. Kononenko, “Estimating attributes: Analysis and extension
of RELIEF”. Proceedings of the European Conference on
[6] A. Renyi, On measures of Entropy and Information, in: Machine Learning (pp. 171{182). Catania, Italy: Berlin:
Proceedings of the Fourth Berkeley Symposium on Springer-Verlag, 1994.
Mathematical Statistics and Probability, Volume 1:
Contributions to the Theory of Statistics, University of [18] X. Liu, J. Tang, “Mass Classification in Mammograms Using
California Press, Berkeley, California, pp. 547–561, 1961 Selected Geometry and Texture Features, and a New SVM-
Based Feature Selection Method”, IEEE SYSTEMS
[7] J.N. Kapur, P.K. Sahoo, A.K.C. Wong, A new method for JOURNAL vol: 8 (3), 2014.
gray-level picture thresholding using the entropy of the
histogram, Comput. Vis., Graph. Image Process. 29 273–285, [19] G. B. Junior, A. C. de Paiva, A. C. Silva, and A. C. M. de
1985. Oliveira, “Classification of breast tissues using moran’s index
and geary’s coefficient as texture signatures and svm,”
[8] C. Tsallis, “Possible Generalization of Boltzmann-Gibbs Computers in Biology and Medicine, vol. 39, no. 12, pp. 1063
Statistics”, Journal of Statistical Physics, DOI – 1072, 2009.
10.1007/BF01016429, ISSN 00224715, PMID 2174, ISBN
0022-4715, 1988. [20] J. Liu, X. Liu, J. Chen, and J. Tang, “Improved local binary
patterns for classification of masses using mammography,” in
[9] M. M. Eltoukhy, I. Faye, and B. B. Samir, “A Comparison of Systems, Man, and Cybernetics (SMC), IEEE International
wavelet and curvelet for breast cancer diagnosis in digital Conference, pp. 2692 –2695, 2011.
mammogram,” Computer in Biology and Medicine, vol. 40,
no. 4, pp. 384–391, 2010. [21] R. D. Dantas, M. Z. Nascimento, R. S. Jacomini, D. C. Pereira,
and R. P. RAMOS, “Fusion of two-view information: S v d
[10] R. de Souza Jacomini, M. do Nascimento, R. Dantas, and R. based modeling for computerized classification of breast
Ramos, “Comparison of PCA and ANOVA for information lesions on mammograms,” in Mammography - Recent
selection of CC and MLO views in classification of Advances, N. Uchiyama and M. Z. do Nascimento, Eds.
mammograms”, Intelligent Data Engineering and Automated Intech, pp. 261–278, 2011.
Learning - IDEAL 2012, ser. Lecture Notes in Computer
Science, H. Yin, J. Costa, and G. Barreto, Eds. Springer Berlin [22] R. S. Jacomini, M. Z. Nascimento, R. Dantas, e R. Ramos,
/ Heidelberg, vol. 7435, pp. 117–126, 2012. “Classificação de lesões benigna e maligna combinando
informações morfológicas e textura obtidas em duas visões
[11] L. Vibha, G. Harshavardhan, K. Pranaw, P. Shenoy, K. mamográficas”. XXIII Congresso Brasileiro de Engenharia
Venugopal, and L. Patnaik, “Classification of mammograms Biomédica. Citado nas páginas 16, 34, 36, 37, 41, e 84, 2012.
using decision trees,” in Database Engineering and
Applications Symposium, IDEAS’06. 10th International. [23] H. Rezaeilouyeh, M. H. Mahoor, S. M. Mavadati, J. J. Zhang,
IEEE, 2006, pp. 263–266, 2006. “A Microscopic Image Classification Method using Shearlet
Transform”, IEEE International Conference on Healthcare
[12] L. Shamir, N. Orlov, D. Eckley, M. Macura, T. J., Goldberg, I. Informatics, 978-0-7695-5089-3, 2013.
G., IICBU 2008: a proposed benchmark suite for biological
image analysis, Medical & biological engineering & [24] INCA (2017). Estimativa 2016: Incidência de câncer no brasil.
computing, 46 (9), 943–947, 2008. disponível em: https://goo.gl/8b3TP6, acesso em: 23 Julho de
2017.
[13] A. Cormack, The Radon transform on a family of curves in
the plane (I), Proceedings of the American Mathematical [25] R. Rabidas, J. Chakraborty e A. Midya. “Analysis of 2D
Society 83 (2), 325-330, 1981. Singularities for Mammographic Mass Classification”. The
Institution of Engineering and Technology, Volume 11(Issue
[14] A. Cormack, The Radon transform on a family of curves in the 1), 22 – 32, 2017.
plane (II), Proceedings of the American Mathematical Society
86 (2), 293-298, 1982.
Resumo—Some beach areas must be monitored continuously onde os autores sabem, nenhum outro trabalho detecta pessoas,
to avoid risks related to aquatic environments, such as drowning especificamente em imagens de praia.
and shark attacks. If necessary, a rescue team must respond Para obter o objetivo desse sistema, as imagens com pessoas
as fast as possible. This work proposes a detection algorithm
to detect swimmers as part of an automatic monitoring system. são segmentadas e, posteriormente, cada segmento gerado
The main challenges to resolve this problem are the brightness é classificado como tendo uma pessoa ou não. Para cada
variation, the position of the sun in different moments of the day, segmento, as características são geradas através de descritores
segmentation difficulty, submerged people and far position of the de imagem que servem como entrada para o classificador. Os
camera. This work performs a study of swimmers detection in descritores foram escolhidos principalmente considerando a
beach images using the following descriptors and combinations:
Hu Moments, Zernike Moments, Gabor Filter, HOG and LBP. capacidade de descrever texturas, formas, uma vez que as pes-
Moreover, the PCA technique is used to reduce the dimensionality soas tendem a ter textura e forma distintivas em comparação
of features. The accuracy of detection is evaluated using Random com outros objetos e também devem ter alguma tolerância
Forest and SVM classifiers. Experiments showed that SVM with à oclusão, pois as pessoas estarão parcialmente submersas.
the radial kernel with HOG, LBP and PCA obtained promising Os descritores avaliados neste trabalho são momentos de Hu,
results, with 90.31% of accuracy.
momentos de Zernike, filtro de Gabor, Histograma de Gradi-
I. I NTRODUÇÃO entes Orientados (HOG) e Padrões Binários Locais (LBP). Os
classificadores avaliados foram o Random Forest e Máquina
O monitoramento por câmeras é cada vez mais auxiliado por de Vetor de Suporte (SVM) com kernel linear e radial, pois
sistemas de computadores que ajudam a identificar situações estes são usados principalmente em sistemas em tempo real
de risco. Em algumas praias, como em Boa Viagem, localizada [2]–[4].
em Recife, Brasil, existe o risco de ataques de tubarões. De O restante deste artigo está organizado da seguinte forma:
acordo com o Comitê de Monitoramento de Incidentes de Os trabalhos relacionados são fornecidos na Seção II. Os
Tubarão (CEMIT) [1], desde 1992, na área metropolitana de conceitos básicos dos algoritmos, descritores e classificadores
Recife, 60 pessoas foram vítimas de ataques de tubarão e 40% estão descritos na Seção III. Diversos resultados experimentais
dos casos resultaram em morte. e comparações são demonstrados na Seção IV. Conclusões e
Em algumas dessas praias, há salva-vidas que monitoram trabalhos futuros são apresentados na Seção V.
o movimento das pessoas para prevenir acidentes. No entanto
é difícil monitorar toda a costa de forma contínua. Somente II. T RABALHOS R ELACIONADOS
na região metropolitana de Recife existem 32 quilômetros de Os trabalhos encontrados na literatura para detecção de
áreas restritas para nadar. Apesar dos avisos sobre a presença pessoas em imagens são principalmente focados em aplica-
de tubarões, muitas pessoas avançam nas áreas de risco. ções como: veículos autônomos, monitoramento de vigilância,
O objetivo deste trabalho é contribuir com uma etapa do estabelecimentos comerciais e outros. Portanto, foi possível
protótipo de um sistema automático para detectar pessoas nas encontrar uma grande variedade de técnicas para detectar pes-
praias da região metropolitana de Recife. O sistema irá emitir soas. No entanto, apesar dos inúmeros trabalhos relacionados,
um alerta se alguém deixar o perímetro da praia considerado não há projetos que se concentram na identificação de pessoas
seguro. Na maioria dessas praias, este perímetro é dado por em imagens de praia.
barreiras naturais (recifes), pois a maioria dos acidentes são Um dos trabalhos mais citados para detectar pessoas é de
causados pelo avanço de pessoas além do perímetro seguro. Viola et al. [5], que propôs uma estrutura de detecção de
O uso do sistema proposto pode ajudar a diminuir o número pedestres que usa descritores de Haar, e em seguida aplica
de incidentes de tubarões. AdaBoost para construir um subconjunto de características e
As etapas deste sistema são segmentação, classificação e compor um classificador. Outro detector de pedestres bem
rastreamento. Este trabalho centra-se na segunda etapa (clas- conhecido foi desenvolvido por Dalal et al. [2]. No seu
sificação) do rastreamento automático de pessoas na praia. trabalho, a imagem é dividida em células, e o Histograma de
Algumas novas abordagens precisam ser desenvolvidas para Gradientes Orientados de cada célula é calculado. Eles usam
este sistema de monitoramento, dado que as pessoas estarão um SVM linear para alcançar uma boa taxa de detecção.
submersas e podem desaparecer temporariamente da visão da Mais recentemente, para detectar e rastrear pessoas, o traba-
câmera. Além disso, o ambiente não controlado e dinâmico lho de Xie et al.. [6] extrai características HOG utilizando uma
de uma praia propicia um maior desafio para o sistema. Até GPU (Graphics Processing Unit). Todos os verdadeiros pontos
✶✵✼ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
positivos, pontos na imagem com pessoas, são acompanhados onde x2 + y 2 ≤ 1. As coordenadas da imagem original são
por um conjunto de descritores SURF e EMD [7]. dimensionadas para um disco unitário x2 + y 2 = 1, e ∗ denota
Na literatura, outras técnicas utilizam a semântica de cor o complexo conjugado. O polinômio de Zernike Vnm (x, y) é
como característica da segmentação e classificação apenas da definido como
parte superior do corpo. Wang et al.. [3] têm como o número
de classes um valor fixo que varia de acordo com a semântica
(pele, cabelo, roupa e fundo). E para a classificação eles usam Vnm (x, y) = Vnm (r, θ) = Rnm (r)ejmθ
um algoritmo SVM linear, comumente usado no estado da arte n−|m|
2
X (n − s)!
desse tipo de problema. Rnm (r) = (−1)s rn−2s
n+|m| n−|m|
O algoritmo Random Forest também foi usado para classifi- s=0 s! 2 −s ! 2 −s !
cação de pedestre no trabalho de Marin et al. [4]. Eles propõem (2)
um procedimento de bootstrapping, onde diferentes árvores
cobrindo diferentes configurações espaciais de pedaços no Onde j é a unidade imaginária e 0 ≤ r ≤ 1. A transformação
objeto, reconhecendo diferentes pontos de vista de pedestres e da imagem normalizada (x, y) para o domínio do círculo
poses de corpo usando HOG ou combinando descritores HOG unitário (r, θ) é dado por
e LPB [8]. p y
r = x2 + y 2 , θ = tan−1 (3)
Alguns trabalhos se concentram em identificar a parte de x
cima do corpo. Estes trabalhos são especialmente relevantes Esses momentos são utilizados para descrever textura e for-
para a nossa pesquisa, onde parte do corpo estará debaixo de mato das imagens.
água. O trabalho de Tu et al.. [9] é para classificar cabeça e 3) Características de Gabor: Essas características são ba-
ombro em imagens de vigilância com estratégia em cascata seadas no filtro de Gabor [13]. Um filtro de Gabor 2D de uma
onde é usada um classificador SVM linear. Em Hu et al. imagem tem os seguintes parâmetros:
[10], a primeira etapa do algoritmo usa dois descritores, HOG
• Tamanho da janela do filtro (w);
e LBP para eliminar a maioria dos candidatos. No segundo
• Desvio padrão gaussiano (σ);
estágio, um descritor RCM (Region Covariance Matrix) com
• Orientação da normal para as linhas paralelas da função
custo computacional maior é usado para refinar a classificação
de Gabor (θ);
usando um algoritmo de aprendizagem de kernel múltiplo.
• Comprimento de onda do fator sinusoidal(λ);
Nosso sistema difere dos sistemas atuais devido ao ambiente
• Razão de aspecto espacial (γ);
de praia. Principalmente porque neste ambiente as ondas se
• Fase (ψ).
movem constantemente e a iluminação é bastante incerta ao
longo do dia, dependendo da quantidade de nuvens no céu e Variando os parâmetros acima é possível melhorar as propri-
da posição do sol. Além disso as pessoas ficarão parcialmente edades visuais de uma imagem, como por exemplo a frequên-
submersas na água. Portanto nosso trabalho realiza um estudo cia espacial e a orientação. O vetor característica de Gabor
de diferentes descritores de imagem e os combina para avaliar é obtido através da aplicação de um filtro sobre a imagem e
esses descritores em imagens de praia com banhistas. transformando a resposta em um vetor unidimensional. Desta
forma, o vetor resultante é do mesmo tamanho da imagem
III. C ONCEITOS original.
Esta seção descreve os descritores de imagens e algoritmos 4) Histograma de Gradientes Orientados (HOG): A ideia
avaliados neste trabalho. principal por traz do descritor HOG é de que uma imagem
A. Extração de características pode ser representada pelo seu gradiente [2]. Um vetor de
características HOG é computado seguindo os passos abaixo:
1) 1) Momentos de HU: o conjunto de momentos invari-
antes de HU [11] são constantes a variação de escala, rotação 1) Calcular gradientes para uma imagem em tons de cinza.
e translação. Os sete momentos de hu utilizados neste artigo 2) Dividir a imagem em células de um tamanho especi-
são extraídos de imagens binarias. fico. Aumentando o tamanho da célula é possível obter
2) Momentos de Zernike: Os polinômios de Zernike foram informações de maior escala. Reduzindo o tamanho da
primeiramente propostos em 1934 por Frits Zernike. Estes célula, obtém-se informações mais detalhadas.
momentos são conhecidos por serem invariantes à rotação 3) Extrair o histograma de orientação do gradiente para
e podem ser modificados para serem estáveis a escala e cada célula.
translação [12]. 4) Agrupar células dos histogramas em blocos e normalizar
O momento complexo 2D de ordem n e repetição m, sobre cada bloco que são a energia total dos histogramas de
uma função de intensidade de imagem f (x, y), é grupos de células. Blocos de menor tamanho aumentam
a atenuação para variações de iluminação local.
n + 1 XX 5) O vetor de características final é obtido concatenando os
Zn,m = f (x, y)Vnm (x, y)∗ histogramas de cada célula.
π x y
A Figura 1 ilustra a orientação e magnitude dos gradientes
n − |m| even, |m| ≤ n (1) encontrados para uma amostra positiva e negativa.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✵✽
Tabela II
TAXA DE RECONHECIMENTO PARA DIFERENTES ORDENS DO MOMENTO
DE Z ERNIKE
Ordem: 5 10 15 20 25 40
Figura 3. Imagem rotulada da praia de Boa Viagem-Recife-Brasil.
Acurácia (%): 87,04 87,42 86,97 86,27 85,80 84,38
Tabela III
TAXA DE RECONHECIMENTO (%) PARA DIFERENTES TAMANHOS DE
CÉLULAS ( LINHAS ) E BLOCOS ( COLUNAS ) PARA O DESCRITOR HOG
(a) (b) (c) (d) (e) (f)
1x1 2x2 3x3 4x4
Figura 4. Um exemplo de imagens positivas (a) (b) (c) e negativas (d) (e) 4x4 78,22 79,77 79,29 81,01
(f). 8x8 79,57 81,39
16x16 69,36
B. Seleção de parâmetros
A maioria dos descritores e classificadores possuem pa- 4) LBP: Como anteriormente, devido ao pequeno tamanho
râmetros que influenciam os resultados. Estes parâmetros das imagens, raio e vizinhança foram fixados em 1 e 8
foram selecionados experimentalmente em uma base de dados respectivamente.
separada, contendo 392 imagens da classe positiva e 296
• Tamanho da célula: 4×4, 8×8 e 16×16.
imagens da classe negativa. O classificador Random Forests foi
• Normalização do histograma: nenhuma e L2.
utilizado para todos os experimentos. Cada configuração foi
• Interpolação de pixels vizinhos: linear e mais próximo.
avaliada 50 vezes através da seleção aleatória de 80% da base
de dados para treinamento e o restante para teste. Os melhores Como pode ser visto na tabela IV, o melhor descritor LBP
parâmetros foram selecionados com base na taxa média de foi formado por células 8×8 sem normalização e interpolação
detecção do classificador com o descritor correspondente. para o pixel mais próximo. Além disso, a taxa de reconheci-
Os parâmetros seguintes foram considerados: mento varia principalmente pelo tamanho da célula.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✶✵
C. Classificação
Os vetores de características previamente descritos são Tabela IX
TAXA DE RECONHECIMENTO (%) NA BASE DE TESTES USANDO
também concatenados em pares. Os resultados apresentados CLASSIFICADOR SVM COM kernel LINEAR E PCA
nesta Seção são a média entre 50 repetições com separação
Hu Zernike Gabor HOG LBP
aleatória do conjunto de dados, onde 80% é treinamento (800
Hu 55,36
imagens por classe) e 20% de teste (200 imagens por classe). Zernike 75,31 66,97
Cada combinação de características é testada com classifi- Gabor 54,88 74,50 54,74
cadores Random Forest e SVM (kernel linear e radial). Uma HOG 79,82 81,56 82,26 79,7
LBP 82,43 82,7 84,58 85,14 82,03
técnica comum de redução de características é o PCA [22], do
inglês Principal Components Analysis, foi aplicada ao vetor
de características. A fim de evitar viés, os autovetores foram
obtidos da base de dados de teste, mantendo o suficiente para Tabela X
representar 95% da variância. A taxa de reconhecimento com TAXA DE RECONHECIMENTO (%) NA BASE DE TESTES USANDO
CLASSIFICADOR SVM COM kernel RADIAL
os dois classificadores acima é apresentada com e sem o uso
do PCA nas Tabelas VI, VII, VIII, IX, X e XI. Um teste- Hu Zernike Gabor HOG LBP
Hu 50,38
T estatístico com intervalo de confiança de 95% é usado Zernike 55,92 55,28
para comparar o melhor resultado numérico em cada tabela Gabor 50,00 50,00 50,00
contra outros resultados pertencentes a mesma tabela. Os HOG 74,72 63,23 50,00 74,92
resultados destacados são estatisticamente melhores do que LBP 88,59 72,62 50,00 88,94 88,54
✶✶✶ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Tabela XI AGRADECIMENTOS
TAXA DE RECONHECIMENTO (%) NA BASE DE TESTES USANDO
CLASSIFICADOR SVM COM kernel RADIAL E PCA Os autores gostariam de agradecer à FACEPE e a SDS-PE
pelo seu apoio financeiro.
Hu Zernike Gabor HOG LBP
Hu 61,91 R EFERÊNCIAS
Zernike 77,48 74,00
Gabor 55,26 69,86 55,29 [1] CEMIT, “Statistics of shark incidents in the state
HOG 83,19 86,68 76,19 83,44 of pernambuco-brazil,” jul 2017. [Online]. Availa-
LBP 88,46 89,18 86,89 90,31 88,44 ble: http://www.portaisgoverno.pe.gov.br/c/document_library/get_file?
uuid=456ed61c-2b3a-4283-8523-aa508231d51f\&groupId=124015
[2] N. Dalal and B. Triggs, “Histograms of oriented gradients for human
O custo computacional deste descritor também é conside- detection,” in Computer Vision and Pattern Recognition, 2005. CVPR
2005. IEEE Computer Society Conference on, vol. 1. IEEE, 2005, pp.
rado na Tabela XII. A diagonal desta tabela indica o tempo 886–893.
médio de extração de um único descritor de característica. Este [3] S. Wang, J. Zhang, and Z. Miao, “A new edge feature for head-shoulder
experimento utilizou imagens em tons de cinza com 29 × 25 detection,” in Image Processing (ICIP), 2013 20th IEEE International
Conference on. IEEE, 2013, pp. 2822–2826.
pixels e foi executado em um processador i3. É importante [4] J. Marin, D. Vázquez, A. M. López, J. Amores, and B. Leibe, “Random
perceber que a melhor combinação de características baseado forests of local experts for pedestrian detection,” in Proceedings of the
na acurácia (HOG+LBP) é também um dos mais rápidos, com IEEE International Conference on Computer Vision, 2013, pp. 2592–
2599.
uma média de extração de características de 2ms por imagem. [5] P. Viola, M. J. Jones, and D. Snow, “Detecting pedestrians using patterns
of motion and appearance,” in null. IEEE, 2003, p. 734.
[6] D. Xie, L. Dang, and R. Tong, “Video based head detection and trac-
Tabela XII
king surveillance system,” in Fuzzy Systems and Knowledge Discovery
T EMPO DE EXTRAÇÃO MÉDIO DE CARACTERÍSTICAS EM MILISSEGUNDOS
(FSKD), 2012 9th International Conference on. IEEE, 2012, pp. 2832–
DE UMA IMAGEM EM TONS DE CINZA COM DIMENSÕES DE 29 × 25 pixels
2836.
[7] Y. Rubner and C. Tomasi, Perceptual metrics for image database
Hu Zernike Gabor HOG LBP navigation. Springer Science & Business Media, 2013, vol. 594.
Hu 0,5 [8] X. Wang, T. X. Han, and S. Yan, “An hog-lbp human detector with
Zernike 19,5 19,0 partial occlusion handling,” in Computer Vision, 2009 IEEE 12th Inter-
Gabor 3,6 22,1 3,1 national Conference on. IEEE, 2009, pp. 32–39.
HOG 1,6 20,1 4,3 1,2 [9] J. Tu, C. Zhang, and P. Hao, “Robust real-time attention-based head-
LBP 1,3 19,8 3,9 2,0 0,8 shoulder detection for video surveillance,” in Image Processing (ICIP),
2013 20th IEEE International Conference on. IEEE, 2013, pp. 3340–
3344.
V. C ONCLUSÃO [10] R. Hu, R. Wang, S. Shan, and X. Chen, “Robust head-shoulder detection
using a two-stage cascade framework,” in ICPR, 2014, pp. 2796–2801.
Este trabalho apresenta um estudo com o objetivo de de- [11] M.-K. Hu, “Visual pattern recognition by moment invariants,” Informa-
tectar pessoas em imagens de praia do conjunto de imagens tion Theory, IRE Transactions on, vol. 8, no. 2, pp. 179–187, 1962.
[12] C.-H. Teh and R. T. Chin, “On image analysis by the methods of mo-
tiradas da praia de boa viagem, localizado em Recife, Brasil. ments,” Pattern Analysis and Machine Intelligence, IEEE Transactions
Esta é uma tarefa desafiadora devido as variações de brilho on, vol. 10, no. 4, pp. 496–513, 1988.
em dias nublados ou chuvosos e em diferentes horários do [13] A. K. Jain and F. Farrokhnia, “Unsupervised texture segmentation using
gabor filters,” Pattern recognition, vol. 24, no. 12, pp. 1167–1186, 1991.
dia, dificuldade na segmentação de imagens, vários graus de [14] T. Ojala, M. Pietikäinen, and D. Harwood, “A comparative study of
oclusão e posicionamento de câmera. Devido a estes fatores, texture measures with classification based on featured distributions,”
o funcionamento correto dos algoritmos de segmentação e Pattern recognition, vol. 29, no. 1, pp. 51–59, 1996.
[15] M. Fernández-Delgado, E. Cernadas, S. Barro, and D. Amorim, “Do we
detecção podem ser afetados. Este trabalho avalia os classi- need hundreds of classifiers to solve real world classification problems,”
ficadores Máquina de Vetor de Suporte com kernels linear J. Mach. Learn. Res, vol. 15, no. 1, pp. 3133–3181, 2014.
e radial e o Random Forest. Apesar de serem usados am- [16] V. N. Vapnik and V. Vapnik, Statistical learning theory. Wiley New
York, 1998, vol. 1.
plamente para a detecção de pessoas em ambientes abertos, [17] F.-C. Hsu, J. Gubbi, and M. Palaniswami, “Head detection using motion
em nosso conhecimento, não foram encontrados na literatura features and multi level pyramid architecture,” Computer Vision and
trabalhos que visam detectar pessoas em imagens de praia. Image Understanding, vol. 137, pp. 38–49, 2015.
[18] J. Mercer, “Functions of positive and negative type, and their connection
Além disso, os experimentos mostraram que o classificador with the theory of integral equations,” Philosophical transactions of the
SVM com kernel radial, utilizando descritores HOG e LBP royal society of London. Series A, containing papers of a mathematical
com redução de características utilizando PCA, apresentaram or physical character, vol. 209, pp. 415–446, 1909.
[19] A. Criminisi, J. Shotton, and E. Konukoglu, “Decision forests for
resultados promissores, obtendo 90,31% de acurácia. A com- classification, regression, density estimation, manifold learning and
binação desses descritores também é uma boa escolha para semi-supervised learning,” Microsoft Research Cambridge, Tech. Rep.
detecção de tempo real, devido a não influência da variação MSRTR-2011-114, vol. 5, no. 6, p. 12, 2011.
[20] I. Ardiyanto and J. Miura, “Partial least squares-based human upper body
de luminosidade e uma média de extração de características orientation estimation with combined detection and tracking,” Image and
de 2ms por segmento. Vision Computing, vol. 32, no. 11, pp. 904–915, 2014.
Em trabalhos futuros, nós pretendemos adicionar uma abor- [21] B. C. Russell, A. Torralba, K. P. Murphy, and W. T. Freeman, “Labelme:
a database and web-based tool for image annotation,” International
dagem em cascata para classificadores e criar um sistema de journal of computer vision, vol. 77, no. 1, pp. 157–173, 2008.
tempo real integrado entre detecção e rastreamento nas praias. [22] R. Bro and A. K. Smilde, “Principal component analysis,” Analytical
E também aplicar etapas de pré-processamento de imagens Methods, vol. 6, no. 9, pp. 2812–2831, 2014.
visando uma melhoria nos resultados.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✶✷
Abstract — The use of reply cards is very common in academia pelo usuário, visto que o sistema dedicado, geralmente, tem a
for the application of examinations, conducting competitions, restrição da obrigatoriedade de se utilizar alguns modelos
market research or evaluations of candidates in hiring processes. especificados pelos fabricantes dos equipamentos.
Traditionally there are systems in the market that perform
reading of frames using optical reading. With the advancement of Boa parte dos processos que precisam realizar o
computational systems, software-based systems have also emerged processamento de gabaritos pode ser atendida pelos sistemas
that perform this task. The available options often run up against baseados em software.
the cost of acquisition and maintenance for the use of these means.
This work addresses the use of digital image processing techniques Sem a utilização de sistemas capazes de realizar a
for the development of a computational system capable of reading verificação das marcações de forma automática, resta a opção
the markings performed on the template in order to make this da verificação manual, o que torna o processo demorado e muito
process more agile. suscetível a erros.
Keywords — Visual Document processing and analysis; Image Para uma melhor apresentação da proposta, o trabalho
processing, Optical Mark Recognition, Correction questions,
Multiple-Choice Test.
desenvolvido está estruturado da seguinte forma: a Seção II
apresenta alguns trabalhos relacionados, na Seção III são
I. INTRODUÇÃO descritos os materiais e métodos utilizados para a realização
deste trabalho; na Seção IV são apresentadas as discussões
A aplicação de testes de múltipla-escolha é algo comum
referentes as técnicas de processamento digital de imagens
tanto no meio acadêmico, para a aplicação de exames
utilizadas para atingir os objetivos propostos e os resultados
multidisciplinares, por exemplo, quanto na realização de
encontrados; para finalizar, a Seção V apresenta as conclusões
concursos, pesquisas de mercado ou avaliação de candidato em
do trabalho.
processo de contratação. Ao final dessas avaliações os
candidatos encontram um espaço disponível para marcar as
opções selecionadas que comumente é conhecido como cartão II. TRABALHO RELACIONADOS
de resposta ou gabarito. Em [14] é apresentado um método para alinhamento dos
Tradicionalmente, existem no mercado sistemas que campos das questões que faz uso de uma borda retangular em
realizam a verificação de gabaritos utilizando a leitura ótica das volta de todo o caderno de questões. Essa borda auxilia a
marcações com base em uma tecnologia conhecida como identificação do posicionamento dos campos e facilita a
Optical Mark Recognition (OMR) [1]. Tal tecnologia foi identificação.
aplicada em 1938 nos Estados Unidos da América pela IBM em Em [15] o autor utiliza a transformada de Hough para
com o equipamento IBM 805 Test Scoring Machine [2], que detectar os círculos onde são realizadas as marcações das
tinha capacidade para realizar a correção de até 750 posições de questões.
respostas. Baseado nesse equipamento, atualmente encontram-
se disponíveis no mercado sistemas que utilizam scanner Em [16] a transformada de Hough é utilizada para detecção
dedicados ao reconhecimento óptico das marcações e que de linha com o objetivo de identificar a borda da folha na
podem processar até 2890 formulários por hora [3]. Além disso, imagem. Com isso, o autor propôs um método para correção da
com o avanço dos sistemas computacionais, também surgiram inclinação do caderno de questões caso o mesmo seja
sistemas baseados em software que realizam essa tarefa digitalizado inclinado. No mesmo trabalho é apresentado um
utilizando a digitalização das folhas dos gabaritos e a utilização método que faz uso de marcações nas bordas da folha para
do processamento das marcações. identificar as linhas onde as questões estão localizadas.
Comparando os sistemas dedicados ao reconhecimento Já em [17], na região onde são realizadas as marcações, o
ópticos das marcações com os baseados em software, verifica- autor utilizou marcações nas laterais em “L” para identificar as
se que um sistema baseado em software apresenta um coordenadas das linhas e colunas. A intersecção dessas
desempenho um pouco inferior quando se compara a quantidade coordenadas identifica os campos de marcação. O autor
de folhas processadas por hora. Por outro lado, sistemas considera como questão marcada aquela cujo campo esteja com
baseados em software têm algumas vantagens como: baixo 40% de cobertura dessa área. Se mais de um campo estiver
custo de manutenção, maior facilidade para ser usado em marcado, o campo com maior cobertura será considerado o
diferentes locais e a opção de utilizar gabaritos customizados campo correto.
✶✶✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Após a digitalização e a criação de um modelo de o escurecimento da imagem não tem efeito sobre o resultado,
referência, têm-se as informações necessárias para o pois o brilho médio da imagem é subtraído do valor de cada
processamento, que é realizado em cinco etapas: inicialmente, pixel.
é feita a detecção do marcador de borda da página; em seguida,
são detectados os campos onde serão marcadas as questões; na Para realizar a detecção do marcador de borda, foi utilizada
sequência, é realizado o processo para identificar qual opção foi a função matchTemplate() da biblioteca OpenCV, pois essa
marcada no campo das questões; por fim, tem-se a etapa de função traz implementado o algoritmo de correlação cruzada
identificação de questão sem marcação, caso não seja normalizada. Ao final a função retorna um mapa contendo os
encontrada marcação no campo de questões, e uma última etapa resultados das similaridades encontradas entre as imagens, no
para identificar marcações múltiplas. Na Figura 3, é qual os valores mais altos indicam um grau de similaridade
apresentado o diagrama das principais etapas para o mais próximo do pretendido.
desenvolvimento deste trabalho. A utilização do marcador de borda foi proposta para que o
posicionamento das demais áreas de processamento ocorram
utilizando como referência o posicionamento desse elemento.
Levando em consideração a definição apresentada em [7],
que representa uma imagem monocromática do tipo f(x,y),
sendo x0 e y0 o posicionamento do marcador de borda
localizado na parte inferior esquerda da imagem e sendo xn, yn
o posicionamento que uma área de questões qualquer pode ser
definida utilizando as equações a seguir, têm-se:
Figura 3 - Principais etapas do processo de correção de um cartão de
respostas.
Δsx0 = xn – x0
A. Detectar marcador de borda da página (3)
Δsy0 = yn – y0
Para realizar a detecção do marcador de borda utilizou-se
uma medida de similaridade muito utilizada em processamento A equação 3 define a distância entre o posicionamento do
digital de imagem, que é o casamento de modelo [12], [13] marcador de borda e o posicionamento de uma área de questões
baseado na correlação cruzada normalizada (CCN) [8], [11]. qualquer. Os valores utilizados para esse cálculo são os da
imagem do modelo.
A aplicação desse método é realizada utilizando-se duas
imagens, sendo a primeira a imagem principal, ou imagem de Assim, em uma imagem em processamento, para definir o
entrada, que contém a cena total, e uma sub-imagem, que posicionamento de uma área de questões qualquer pode-se
representa o objeto de referência a ser identificado dentro da utilizar a seguinte equação:
imagem principal.
xn = x0 + Δsx0
O processo envolve o deslocamento da sub imagem (4)
referente ao marcador de bordas por sobre a área da imagem yn = y0 + Δsy0
principal e, dependendo da correlação entre duas imagens
sobrepostas, mesmas são somadas (similaridade).
Com os valores de altura e largura da área de questão é
Dentre as equações de medida de similaridade, podem ser possível criar uma sub imagem para realizar o processamento
utilizadas as equações de correlação cruzada, equação 1, ou, apenas da área de interesse.
correlação cruzada normalizada, equação 2:
B. Detectar campos para marcação das questões
�(�, �) = �(� , � ). �(� + � , � + � ) (1) Os campos onde são assinaladas as questões são detectados
,
utilizando a transformada de Hough (HT), que é um método
muito utilizado em processamento digital de imagem para
detecção de formas que são facilmente parametrizadas, como
��(�, �) linhas, círculos e elipses em imagens digitais [9].
∑ , �(� , � ). �(� + � , � + � ) (2)
= Ainda em [9], é dito que a ideia da transformada de Hough
∑ , �(� , � ) . ∑ , �(� + � , � + � ) é transformar a imagem do espaço digital (x,y) para uma
representação na forma dos parâmetros descritos pela curva que
se deseja encontrar na imagem. Esta transformação é aplicada
Embora os resultados da aplicação das duas equações de modo que todos os pontos pertencentes a uma mesma curva
reflitam a similaridade entre as imagens, o método baseado na sejam mapeados em um único ponto no espaço dos parâmetros
equação 1 tem como desvantagem o fato de apresentar maior da curva procurada.
imprecisão quanto as mudanças de brilho global das imagens.
Segundo [10], para a detecção de círculos utilizando a
Por esse motivo, o método utilizando a correlação cruzada transformada de Hough pode-se usar a equação em sua fórmula
normalizada, apresentada na equação 2, introduz uma melhoria implícita, ou seja:
no método anterior, pois os resultados são invariantes às
mudanças globais de brilho, ou seja, tanto um brilho intenso ou
✶✶✺ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
�= � (9)
onde, ρ e θ são as coordenadas polares de um círculo.
A aplicação da transformada de Hough nas áreas Utilizando a transformada de Hough e o método de
selecionadas da imagem do modelo, como ilustrado na Figura contagem de pixel foi possível criar uma função capaz de
2, gerou a imagem da Figura 4: identificar a questão que foi marcada no gabarito considerando
os campos que possuem o maior valor acumulado, conforme
equação 9.
Um exemplo teste foi realizado utilizando os gabaritos das
imagens apresentadas na Figura 5.
Considerando esse tempo constante, o tempo total para tarugos de aço da Açominas. Dissertação de mestrado,
realizar a correção de cada cartão de resposta utilizado nesse Universidade Federal de Minas Gerais, Julho de 2005.
trabalho foi de 1,26 segundos.
[9] Macedo; Maysa Malfiza Garcia. Uso da transformada de
Durante os testes, foi utilizado um valor de Lm em torno de hough na vetorização de moldes e outras aplicações.
50 pontos, o que resultou na indicação de vários campos com Dissertação de mestrado, Universidade Federal
marcação duplas, pois os mesmos tinham os caracteres Fluminense, Fevereiro de 2005.
impressos em seu interior.
[10] C. Kimme, D. Ballard, J. Sklansky. Circles by an Array of
Para que o método proposto tenha sua eficiência confirmada Accumulators. Comunications of the ACM, Vol.18, pp
é necessário que os campos onde serão realizadas as marcações 120-122, Feb, 1975.
tenham uma boa cobertura da sua área de preenchimento. Para
os testes realizados, todos os campos do cartão tiveram [11] R. F. S. Araujo, I. P. M. Quinonez, D. N. Gonçalves, L. A.
cobertura superior a 40%. Silva, W. N. Gonçalves, "Multi-scale Template Matching
for Yeast Couting in Microscopic Images", XII Workshop
de Visão Computacional, 2016, pp. 250.
V. CONCLUSÕES
[12] J. P. Lewis, “Fast template matching,” in Vision interface,
Este trabalho propõe métodos que podem tornar possível o vol. 95, no. 120123, 1995, pp. 15–19.
desenvolvimento de um sistema computacional capaz de
realizar a correção automática de cartão de resposta com [13] R. Brunelli, Template Matching Techniques in Computer
questões de múltipla escolha. Vision: Theory and Practice. Wiley Publishing, 2009.
Como trabalho futuro pretende-se implementar uma [14] D.Chai, Automated Marking of Printed Multiple Choice
melhoria no algoritmo de detecção de imagem da borda para Answer Sheets. IEEE International Conference on
que o mesmo possa realizar a correção automática, caso a Teaching, Assessment, and Learning for Engineering, pp.
imagem seja digitalizada com inclinação. 145, Dec, 2016.
Outra melhoria sugerida é a possiblidade de utilizar outras [15] G. Bayar, The Use of Hough Transform to Develop an
formas de detecção para os campos das questões, como por Intelligent Grading System for the Multiple Choice Exam
exemplo, campos para marcação de questão em forma de Papers. Karaelmas Fen Müh. Derg, pp. 100-104, 2016.
quadrado para múltiplas opções. A técnica aplicada neste
[16] T. D. Nguyen, Q. H. Manh, P. B. Minh, L. N. Thanh, T. M.
trabalho apresenta apenas a possibilidade de utilizar cartões de
Hoang, Efficient and reliable camera based multiple-
respostas onde os campos para marcação são circulares.
choice test grading system, International Conference on
Advanced Technologies for Communications, pp. 268-
REFERÊNCIAS 271, 2011.
[1] Optical Mark Recognition. Disponível em: [17] H. Deng, F. Wang, B. Liang, A Low-Cost OMR Solution
www.omrsolutions.com - Acesso em 06-06-2017. for Educational Applications, International Symposium on
[2] IBM 805 Test Scoring Machine. Disponível em: www- Parallel and Distributed Processing with Applications, pp.
03.ibm.com/ibm/history/exhibits/specialprod1/specialpro 967-970, 2008.
d1_9.html - Acesso em 05-06-2017.
[3] Scanner dedicado para reconhecimento óptico. Disponível
em:www.hsinformatica.com.br/publique/PRODUTOS/Eq
uipamentos/LOHS-50MI-%28Automatica%29-364.html -
Acesso em 05-06-2017.
[4] F. A. Zampirolli, R. Teiske C., R. P. O. Neves e J. A. Q.
Gonzalez, “Automatic Correction of Multiple-Choice
Tests on Android Devices”, XI Workshop de Visão
Computacional, 2015, pp. 81.
[5] Scanner da marca Fujitsu modelo SP-1120. Disponível em:
www.fujitsu.com/br/products/computing/peripheral/scann
ers/sp-s/sp1120 - Acesso em: 07-06-2017.
[6] OpenCV (Open Source Computer Vision Library.
Disponível em: http://opencv.org - Acesso em: 07-06-
2017.
[7] Gonzalez, R.C. E Woods, R.E., Processamento Digital de
Imagens – 3ª Edição, Addison-Wesley, 2009.
[8] Ramalho; M.C. Ambiente computacional para
identificação da ordem de produção estampadas em
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✶✽
Resumo—The chromosome segmentation is the most impor- grande número de estudos tem sido realizado para desenvolver
tant step in the automatic assembly of a karyotype. This work sistemas de detecção e classificação automática de cromosso-
addresses methods for the problem of overlapping chromosome mos.
segmentation. Firstly, pixels belonging to chromosome regions are
separated from the background. For the chromosome separation, A montagem manual do cariótipo é uma tarefa repetitiva,
we implemented two methods, one based on the Morphological desgastante, consome tempo e está sujeita a erros, pode ser
Skeleton of the chromosome shapes and one based on the realizada por meio de análise visual e requer a atenção de
Restricted Delaunay Triangulation. The objective of both methods um profissional experiente e especializado. Em alguns casos a
is to find adequate cut points, points on the contour of the shape análise de muitas metáfases é necessária. A segmentação do
used to separate the chromosomes. The main contribution of cromossomo é o passo mais importante na análise automática
this work is the evaluation of these different approaches in a
pragmatic way using a public available dataset with ground-truth
de cromossomos [3]. Um sistema automático geralmente in-
provided. We applied the developed methods in 100 images of clui as seguintes quatro etapas: (1) melhoria de imagem, (2)
overlapping chromosomes. The results are evaluated considering segmentação e alinhamento do cromossomo, (3) computação
the Hausdorff distance criteria and the method based on the e seleção de caracterı́sticas e (4) classificação cromossômica.
Restricted Delaunay Triangulation presented better results but Nestas fases, a segmentação do cromossomo é o mais impor-
higher computational cost. tante pois os seus resultados podem afetar o desempenho de
todo o sistema [5].
Keywords—Computational vision, karyotype, chromosomes, di-
gital images, separation. Deste modo, o presente trabalho busca estudar e comparar
duas abordagens para a segmentação de cromossomos sobre-
I. I NTRODUÇ ÃO postos por meio da detecção de pontos de interesse na borda
dos objetos. Esses pontos de interesse são usados para definir
A cariotipagem cromossômica é uma tarefa essencial em as linhas de corte nos cromossomos para separá-los adequa-
citogenética, é útil em diversas atividades práticas e de pes- damente. As abordagens testadas e comparadas são baseadas
quisa, para auxı́lio no diagnóstico de doenças genéticas, alguns em: a) identificação de pontos de intersecção no esqueleto
tipos de câncer e pesquisas na área de citogenéticos [1]. Os morfológico do objeto; b) análise dos triângulos resultantes
cromossomos são compostos de DNA super-enrolado e asso- da Triangulação de Delaunay Restrita dos pontos no contorno
ciados. Uma anomalia cromossômica pode estar relacionada dos objetos. Os métodos foram implantados e testados em um
à um número atı́pico de cromossomos ou uma anormalidade conjunto de imagens disponı́vel publicamente com ground-
estrutural em um ou mais cromossomos. A anomalia numérica truth. Foi realizada a análise e comparação quantitativa dos
é uma variação no número de cromossomos. A anomalia métodos implementados para a segmentação de cromossomos
estrutural é a quebra e a perda de uma porção do braço sobrepostos em imagens de microscopia.
cromátide ou uma reunião do braço em local diferente no
mesmo cromossomo ou em um cromossomo diferente. Ano- Este artigo está organizado da seguinte maneira: esta seção
malias cromossômicas geralmente ocorrem quando há um erro apresenta a introdução sobre o assunto. A Seção II mostra
na operação da divisão celular após meiose ou mitose [2]. alguns trabalhos relacionados sobre segmentação de cromos-
somos sobrepostos. A Seção III descreve os métodos que foram
Métodos descritos na literatura para a separação de desenvolvidos e testados, assim como o conjunto de dados e
sobreposições incluem vários métodos de segmentação como os métodos de validação. A Seção IV apresenta os resultados
limiarização ou crescimento de regiões, pesquisas heurı́sticas e a Seção V as conclusões e trabalhos futuros.
de borda, métodos de ligação e métodos de decomposição
de formas [3]. A imagem é primeiro convertida em imagem II. T RABALHOS R ELACIONADOS
binária. A imagem binária ajuda a obter detalhes sobre a
forma de qualquer objeto [4]. Cromossomos são estruturas Munot et al. [6] desenvolveram um método para identificar
celulares que contêm genética em formação. Quando cromos- os pontos de corte em imagens de cromossomos sobrepos-
somos são imageados por microscopia podem fornecer muitas tos. O método é composto por etapas de pré-processamento,
informações sobre a saúde de um indivı́duo. Desde os anos limiarização e detecção de bordas. Após obter um conjunto
1980, os sistemas de detecção de cromossomos e classificação de pontos candidatos por meio de curvas com alto valor de
automática têm despertado grande interesse de pesquisa. Um inclinação, o algoritmo gera uma Triangulação de Delaunay
✶✶✾ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
para avaliar os pontos de corte. A Triangulação de Delaunay Os pontos de corte são encontrados calculando a distancia
Restrita é utilizada para restringir o domı́nio da triangulação. euclideana do ponto de intersecção aos pontos de curvatura.
Os vértices dos triângulos com área máxima gerados pela Os quatro pontos mais próximos são os pontos de interesse.
Triangulação de Delaunay Restrita são os pontos de corte
considerados para a separação. III. M ATERIAL E M ÉTODOS
Somasundaram e Kumar [4] abordam o problema da A. Conjunto de dados
separação de cromossomos sobrepostos e classificação de cro-
mossomos pela posição do centrômero. O passo inicial deste O conjunto de dados Overlapping Chromosomes1 foi utili-
trabalho é segmentar e separar as imagens de cromossomos zado para realizar os experimentos com os métodos descritos
sobrepostas. A imagem é primeiro convertida em imagem [10]. O conjunto de dados esta disponı́vel na plataforma
binária. Uma vez que as imagens binárias são obtidas, a Kaggle e é composto por cromossomos sobrepostos, conforme
forma exata e a região da zona sobreposta é identificada. Com mostra a Figura 1. O conjunto contém 13.434 imagens em
a imagem binária obtida obtém-se o contorno da imagem. escala de cinzas contendo um par de cromossomos sobrepostos
Depois de obter a imagem de contorno a função de curvatura em destaque, corados com DAPI e marcados com telômeros
é executada. A função de curvatura ajuda na obtenção dos mostrando as extremidades do objeto. Para cada imagem existe
pontos candidatos de corte na imagem. A partir dos pontos uma imagem de rótulos em que as partes relativas a cada um
obtidos, obtém-se uma linha de corte adequada sobre a região dos cromossomos e a intersecção entre eles foram segmentadas
sobreposta. manualmente, gerando uma imagem com três rótulos.
Madian et. al. [7] estudaram a segmentação de cromos-
somos em imagens de banda G. A segmentação foi realizada
considerando informações sobre o contorno, limiarização de
Otsu, operações morfológicas e preenchimento de buracos após
a binarização. O método utiliza a detecção de bordas dos obje-
tos e a função de curvatura para a detecção de pontos de corte.
A função de curvatura é obtida após a suavização de bordas
pelo filtro da mediana. Os Pontos detectados são côncavos e
convexos. Os pontos côncavos ao logo das bordas do objeto
são usados para detectar as zonas de sobreposições, os pontos
convexos são opcionais. Neste trabalho foi possı́vel detectar
(a) (b)
mais de uma sobreposição no cromossomos. O algoritmo é
robusto e foi testado em mais de 350 imagens com vários Figura 1: Imagens do conjunto de dados. (a) Imagem em escala
graus de sobreposição. O método neste trabalho obteve uma de cinza para processar (b) Imagem de rótulos identificando
precisão global de 96%. os dois cromossomos e a região de intersecção entre eles.
Karvelis et. al. [8] apresentam um método para a
segmentação de grupos de cromossomos que se tocam e cro-
mossomos sobrepostos em imagens M-FISH. Inicialmente, a B. Segmentação da imagem em fundo e cromossomos
Transformada Watershed é aplicada e a imagem é decomposta
em regiões. Em seguida, são calculados caminhos de gradiente Imagens cromossômicas geralmente são de baixa quali-
a partir de pontos de concavidade elevada para cada região dade, apresentam ruı́do, baixo contraste e artefatos, por isso
produzida. Esses caminhos dividem os grupos de cromossomos devem ser submetidas a uma etapa de pré-processamento [9].
de pontos de alta concavidade e seguem pixels de grande Após converter as imagens para nı́veis de cinza, aplicou-se o
magnitude de gradiente multicanal. Finalmente, as regiões filtro da mediana com máscara 9 x 9 [11]. Para segmentar a
adjacentes são fundidas produzindo as áreas cromossômicas imagem, separando os pixels dos cromossomos dos pixels de
finais. A computação do caminho de gradiente com base em fundo utilizou-se limiarização global de Otsu [12]. Algoritmos
valores de gradiente multicanal em vez da computação do ca- de morfologia matemática foram aplicados para melhorar a
minho pálido, que se baseia em valores de baixa intensidade, se qualidade da imagem binária, dentre eles o preenchimento de
mostra mais robusta. Os caminhos de gradiente puderam lidar buracos no interior dos objetos por reconstrução morfológica
com casos sobrepostos de cromossomos, enquanto os caminhos seguido da suavização das bordas por uma sequencia de
pálidos só conseguiram lidar com grupos de cromossomos operações de abertura e fechamento morfológicos utilizando
em contato. Para validar o método, foi utilizado um banco elemento estruturante em forma de disco com raio 2 [11]. A
de dados de referência de 183 imagens M-FISH. O algoritmo Figura 2 ilustra a resultado do pré-processamento em imagens
proposto resultou em uma taxa de sucesso de 90,6% para os cromossômicas.
cromossomos que se tocam e de 80,4% para os grupos de
cromossomos que estão sobrepostos . C. Separação de cromossomos sobrepostos utilizando o Es-
Saiyod e Wayalum [9] desenvolveram uma abordagem para queleto Morfológico
computar o esqueleto dos cromossomos, com o esqueleto do Baseado no método descrito em [9], foi desenvolvido
objeto é possı́vel pesquisar o ponto de intersecção. O ponto um método que considera o esqueleto morfológico [13] do
de intersecção é usado para pesquisar os pontos candidatos de cromossomo para localizar os pontos de corte utilizados para
corte. Os pontos candidatos são pontos de curvatura encontra-
dos após a detecção de bordas das imagens cromossômicas. 1 Disponı́vel em https://www.kaggle.com/jeanpat/overlapping-chromosomes
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✷✵
de Delaunay Restrita; (d) Identificação dos pontos de corte a [20]. A triangulação de Delaunay gera triângulos em todo o
partir dos dois maiores triângulos; (e) Definição das linhas de fecho-convexo do objeto, dessa forma, optou-se por utilizar
corte e segmentação dos cromossomos. a Triangulação de Delaunay Restrita para que os triângulos
fossem gerados somente no limite dos cromossomos. Os
Primeiramente, extrai-se o contorno deste objeto e, a partir
triângulos resultantes da triangulação de Delaunay Restrita são
do seu contorno computa-se uma função de curvatura cujo
usados para obter os pontos de corte. As coordenadas dos
objetivo é eliminar pontos da borda com curvatura igual a 0.
vértices dos dois maiores triângulos vizinhos ou do maior
A Triangulação de Delaunay é computada sobre o conjunto de
é considerada os pontos de corte [6]. A Figura 6 mostra
pontos (x, y) obtidos a partir do contorno. Os triângulos obtidos
a Triangulação de Delaunay e a Triangulação de Delaunay
a partir da Triangulação Restrita de Delaunay são utilizados
Restrita aplicados sobre a forma de um cromossomo.
para obter os pontos de corte, por meio da seleção dos vértices
dos dois maiores triângulos.
1) Extração do contorno e Função de Curvatura: A
extração de contorno do objeto que representa o agrupamento
de cromossomos é realizada por meio do algoritmo Marching
Squares [18]. As coordenadas dos n pontos que compõem a
borda do objeto são armazenadas em um arranjo com formato
(2, n), em que n é o número de pixels, a primeira linha
armazena as coordenadas em x e a segunda linha armazena
as coordenadas em y. As coordenadas são inseridas no arranjo
percorrendo os pixels de borda no sentido anti-horário.A
Figura 5 ilustra esse processo.
(a) (b)
dΨ(s)) 1 ÿ
γ≡ = = 3 (1)
ds p (1 + ẏ 2 ) 2
Hausdorf f (I, R) = max D(i) : Si 6= Ri , (2) Tabela I: Distância de Hausdorff computada sobre o resultado
de ambos os métodos descritos, para cada uma das 100
em que D(i) é a distancia entre o pixel i do objeto imagens. A coluna ’Esqueleto’ é o resultado para o método
segmentado até a borda do objeto de referencia. O valor 0 que utiliza o Esqueleto Morfológico e a coluna ’Triângulo’
indica uma segmentação perfeita, porém, o ı́ndice não possui para o método baseado na Triangulação de Delaunay.
limite superior [21].
Imagem Esqueleto Triângulo Imagem Esqueleto Triângulo
IV. R ESULTADOS 1 4.41 5.24 51 14.00 8.00
2 16.60 7.81 52 6.40 4.17
Foram selecionadas as 100 primeiras imagens do conjunto 3 11.40 4.36 53 7.22 6.63
de dados descrito na Seção III-A para a realização dos expe- 4 15.20 7.83 54 11.40 6.68
5 7.28 3.79 55 5.41 5.17
rimentos. Todas as imagens foram segmentadas em pixels de 6 3.60 4.43 56 6.71 4.97
cromossomo e pixels de fundo de acordo com o procedimento 7 8.60 4.40 57 7.36 7.17
descrito na Seção III-B. Em seguida, as imagens binárias foram 8 17.20 5.08 58 11.60 11.30
submetidas aos algoritmos de separação de cromossomos: 9 7.61 8.09 59 10.00 5.29
10 5.00 4.40 60 5.48 8.70
o algoritmo baseado no Esqueleto Morfológico (descrito na 11 11.50 6.70 61 5.96 5.96
Seção III-C) e o baseado na Triangulação de Delaunay Restrita 12 5.87 5.17 62 5.00 6.94
(descrito na Seção III-D). A Tabela I mostra a medida da 13 9.84 2.63 63 7.84 5.66
distância de Hausdorff entre o resultado do método comparado 14 5.83 5.22 64 7.22 6.33
com a imagem de referência (ground-truth) para os dois 15 6.85 6.14 65 16.70 7.42
16 10.80 8.59 66 6.88 6.60
métodos. Na Tabela II é possı́vel observar a média e o desvio 17 6.00 7.94 67 4.12 6.13
padrão dos valores mostrados na I, assim como o tempo médio 18 26.90 11.30 68 5.00 4.41
de processamento de cada método em segundos. A partir das 19 7.16 4.97 69 7.45 5.00
informações na Tabela II pode-se notar que o método baseado 20 11.10 5.76 70 7.67 5.23
21 10.30 7.28 71 4.47 4.56
na Triangulação de Delaunay Restrita apresenta um resultado 22 6.79 5.77 72 8.52 8.43
melhor do que o método baseado no Esqueleto Morfológico, 23 8.00 6.11 73 5.00 4.25
e se considerar também o desvio-padrão das distâncias de 24 6.91 3.70 74 19.50 7.21
Hausdorff pode se afirmar que ele também apresenta maior 25 9.00 5.29 75 5.81 5.75
regularidade. Entretanto, o método baseado na Triangulação 26 12.10 6.92 76 5.38 5.00
27 10.40 7.58 77 10.20 5.46
de Delaunay possui custo computacional bem mais elevado 28 7.24 6.51 78 11.60 6.25
do que o método baseado no Esqueleto Morfológico, 29 8.22 6.47 79 6.79 7.00
30 7.46 8.96 80 12.00 6.24
A Figura 8 mostra exemplos de resultados das 31 14.20 8.76 81 4.47 5.29
segmentações usando os dois métodos. A primeira coluna 32 18.60 10.40 82 27.20 5.58
mostra a imagem considerada como referência (ground-truth), 33 9.00 5.00 83 7.22 6.10
a segunda coluna mostra o resultado do método baseado na 34 7.10 5.86 84 7.81 5.62
35 4.00 5.19 85 5.65 6.47
Triangulação de Delaunay Restrita e a terceira coluna mostra 36 6.12 4.54 86 5.38 5.51
o resultado do método baseado no Esqueleto Morfológico. As 37 7.20 6.00 87 7.08 6.32
imagem na linha (a) foi segmentada corretamente por ambos 38 6.32 4.37 88 23.30 13.70
os métodos, já a imagem na linha (b) não foi segmentada 39 13.0 5.20 89 7.62 6.46
40 5.65 4.55 90 16.60 4.26
corretamente pelo método da Triangulação de Delaunay, 41 9.00 7.62 91 6.40 3.39
mas foi segmentada corretamente pelo método do Esqueleto 42 6.44 4.60 92 7.28 6.51
Morfológico. A imagem na linha (c) foi segmentada 43 16.10 7.41 93 11.00 7.00
corretamente pelo método baseado na Triangulação de 44 8.77 6.21 94 6.70 6.37
Delaunay porém não pelo método do Esqueleto Morfológico; 45 6.13 6.11 95 8.42 6.00
46 15.00 5.43 96 16.10 7.00
e a imagem na linha (d) não foi segmentada corretamente por 47 15.20 4.83 97 10.20 4.78
nenhum dos métodos. 48 16.20 4.82 98 6.15 6.00
49 11.40 4.98 99 6.08 3.60
V. C ONCLUS ÕES 50 4.47 4.86 100 6.06 5.42
R EFER ÊNCIAS
[1] S. Minaee, M. Fotouhi, and B. H. Khalaj, “A Geometric Approach For
Fully Automatic Chromosome Segmentation,” pp. 1–8, 2011.
[2] N. Madian and K. B. Jayanthi, “Overlapped chromosome segmentation
and separation of touching chromosome for automated chromosome
classification,” Proceedings of the Annual International Conference of
the IEEE Engineering in Medicine and Biology Society, EMBS, pp.
5392–5395, 2012.
[3] M. V. Munot and N. Sharma, “Automated Detection of Cut-Points for
Disentangling Overlapping Chromosomes,” pp. 16–18, 2013.
[4] D. Somasundaram and V. R. Vijay Kumar, “Separation of overlapped
chromosomes and pairing of similar chromosomes for karyotyping
analysis,” Measurement: Journal of the International Measurement
Confederation, vol. 48, no. 1, pp. 274–281, 2014.
[5] W. Yan, “Segmentation Algorithms of Chromosome Images,” pp. 1026–
1029, 2013.
[6] M. V. Munot, J. Mukherjee, and M. Joshi, “A novel approach for effici-
ent extrication of overlapping chromosomes in automated karyotyping,”
Medical and Biological Engineering and Computing, vol. 51, no. 12,
pp. 1325–1338, 2013.
[7] N. Madian, M. Ieee, K. B. Jayanthi, S. M. Ieee, and S. Suresh, “Contour
Figura 8: Resultados das segmentações utilizando os dois Based Segmentation of Chromosomes in G-Band Metaphase Images,”
métodos descritos neste artigo. A primeira coluna mostra a pp. 943–947, 2015.
imagem de referencia (ground-thruth), a segunda coluna mos- [8] P. Karvelis, A. Likas, and D. I. Fotiadis, “Identifying touching and
tra a imagem segmentada pelo método baseado o Esqueleto overlapping chromosomes using the watershed transform and gradient
Morfológico e a terceira a imagem segmentada pelo método paths,” Pattern Recognition Letters, vol. 31, no. 16, pp. 2474–2488,
2010.
baseado na Triangulação de Delaunay. (a) A imagem foi seg-
[9] W. Saiyod, “A Hybrid Technique for Overlapped Chromosome Segmen-
mentada corretamente por ambos os métodos; (b) A imagem tation of G-band Mataspread Images Automatic,” pp. 400–404, 2014.
segmentada corretamente pelo segundo método e não pelo
[10] J. P. Pommier. (2016) Deepfish. [Online]. Available:
primeiro; (c) Imagem segmentada corretamente pelo primeiro https://github.com/chromosome-seg/DeepFISH
método e não pelo segundo; (d) Imagem segmentada de forma [11] W. Gonzalez, Processamento Digital De Imagens, 3rd ed. 3663494,
errada por ambos os métodos. 2011, iSBN 9788576054016.
[12] Otsu, “A Threshold Selection Method from Gray-level Histograms,”
IEEE Transactions on Systems, Man, and Cybernetics, vol. 9, no. 1,
pp. 62–66, 1979.
na Triangulação de Delaunay se mostrou superior ao método [13] R. A. Lotufo, R. Audigier, A. Saúde, R. Machado, Q. Wu, F. Merchant,
baseado no Esqueleto Morfológico, 6,11 contra 9.32 conside- and K. Castleman, “Morphological image processing,” Microscope
rando as médias das distâncias de Hausdorff, respectivamente. Image Processing. Burlington: Academic, pp. 113–158, 2008.
Entretanto, o método baseado na Triangulação de Delaunay [14] T. Y. Zhang and C. Y. Suen, “A fast parallel algorithm for thinning
digital patterns,” Communications of the ACM, vol. 27, no. 3, pp. 236–
apresentou um custo computacional mais elevado, levando 239, mar 1984.
aproximadamente duas vezes mais tempo para processar as
[15] Y. S. Chen and W. H. Hsu, “A modified fast parallel algorithm for
100 imagens. thinning digital patterns,” Pattern Recognition Letters, vol. 7, no. 2, pp.
99–106, 1988.
Como trabalhos futuros pode-se citar: (a) Implementar
[16] J. Canny, “A Computational Approach to Edge Detection,” IEEE
outras estratégias para segmentação dos cromossomos sobre- Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-
postos, como a transformada Watershed, detecção de pontos 8, no. 6, pp. 679–698, 1986.
côncavos nas funções de curvatura dos contornos; (b) De- [17] C. Harris and M. Stephens, “A combined corner and edge detector.” in
senvolver métodos hı́bridos que combinam as qualidades de Alvey vision conference, vol. 15, no. 50. Manchester, UK, 1988, pp.
métodos distintos; (c) Testar os métodos com um número 10–5244.
maior de imagens e com métricas diferentes para avaliar a [18] W. E. Lorensen and H. E. Cline, “Marching cubes: A high resolution 3D
qualidade da segmentação. surface construction algorithm,” ACM SIGGRAPH Computer Graphics,
vol. 21, no. 4, pp. 163–169, aug 1987.
[19] W. Srisang, K. Jaroensutasinee, and M. Jaroensutasinee, “Segmentation
AGRADECIMENTOS of Overlapping Chromosome Images Using Computational Geometry,”
Walailak J Sci & Tech, vol. 3, no. 2, pp. 181–194, 2006.
Os autores são gratos a Jean Patrick Prommier por disponi-
bilizar o conjunto de dados utilizado nos experimentos. Agra- [20] H. Edelsbrunner and R. Seidel, “Voronoi diagrams and arrangements,”
Discrete & Computational Geometry, vol. 1, no. 1, pp. 25–44, dec 1986.
decemos ao Instituto de Ciências Exatas e Tecnológicas da
[21] L. P. Coelho, A. Shariff, and R. F. Murphy, “Nuclear segmentation
UFV - campus Rio Paranaı́ba e ao Prof. Lucas M. Guimarães in microscope cell images: A hand-segmented dataset and comparison
pelo apoio financeiro. Os autores são gratos ao Laboratório of algorithms,” Proceedings - 2009 IEEE International Symposium on
de Genética Ecológica e Evolutiva da UFV - campus Rio Biomedical Imaging: From Nano to Macro, ISBI 2009, pp. 518–521,
Paranaı́ba e ao Prof. Dr. Rubens Pazza e Profa. Dra. Karine 2009.
Frehner Kavalco. O autor Welton Felipe Gonçalves é bolsista
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✷✹
Resumo—In this paper we describe a new method to filter manualmente por profissionais especializados. O problema da
regional maxima in the context of applying Watershed Transform identificação manual é que os resultados podem ser imprecisos
with Markers to segment clustered cell in microscopy images. devido à subjetividade do processo. O processo de análise
Our approach searches for the best value of h for the H-maxima manual torna-se impeditivo quando o número de imagens e
Transform, in the sense to filter out undesired reginal maxima de células é muito grande, o que torna a tarefa desgastante,
in the Distance Transform. When submitted to the Watershed
Transform, these undesired regional maxima lead to a super-
tediosa e suscetı́vel a erros.
segmented image. The criteria considered to infer the best value Os métodos pesquisados e apresentados neste artigo estão
of h was the solidity, i.e., the ratio between the object area relacionados com a separação de agrupamentos de células, ou
and its convex area, of the segmented objects. The proposed seja, grupos de células localizados muito próximas ou em
method tests values for h in an interactive way searching to
contato umas com as outras. O problema da segmentação
maximize the objects solidity. We compare our approach with
other segmentation strategies using a public available dataset with desses agrupamentos de células ou núcleos celulares é uma
ground-truth images. The proposed method, despite being simple das principais dificuldades para segmentar imagem de células,
to be implemented, have presented improvements in relation to culturas de células, núcleos e organelas celulares.
other watershed segmentation strategies. Neste trabalho, é apresentado um novo método que permite
Keywords—cell segmentation, watershed transform, h-maxima melhorar a segmentação de agrupamentos de células utilizando
transform, convex-hull a Transformada Watershed com marcadores. O método pro-
posto consiste em identificar o melhor valor para o parâmetro
I. I NTRODUÇ ÃO h da Transformada H-Máxima. Os marcadores são gerados
a partir da Transformada da Distância e a transformada H-
A segmentação de células, núcleos e organelas celulares é máxima filtra os máximos regionais menores do que um
uma etapa fundamental em diversas aplicações relacionadas à determinado valor h. Para determinar este valor, adotou-se um
análise de imagens biomédicas, como: contagem, classificação critério de qualidade da segmentação baseado na solidez dos
e análise quantitativa [1]. O processo de segmentação de objetos, ou seja, na razão entre a sua área e a sua área convexa.
imagens consiste na subdivisão da imagem em suas partes e O método proposto, basicamente, escolhe o valor de h que
objetos constituintes para posterior análise. A segmentação é maximiza a solidez do conjunto de objetos segmentados pela
uma das tarefas mais difı́ceis em processamento de imagens Transformada Watershed.
podendo determinar o sucesso ou o fracasso da análise [2].
Existem vários métodos de segmentação de imagens incluindo: Este trabalho está organizado da seguinte maneira: o tema,
métodos baseados em limiarização global [2], limiarização objetivos, justificativa e contribuições são descritos nesta seção
adaptativa [3], algoritmos de agrupamentos [4]–[5], detecção (Seção I). Na Seção II são apresentados os trabalhos relaciona-
de bordas [2], contornos ativos [6], cortes em grafos [7], dos. Na Seção III é descrito o método proposto e o protocolo
Transformada Watershed [8], entre outras. de validação. Os resultados são apresentados e discutidos na
Seção IV e a conclusão e trabalhos futuros estão na Seção V.
As aplicações práticas da segmentação de células, núcleos e
organelas celulares são inúmeras, dentre as quais pode-se citar: II. T RABALHOS RELACIONADOS
(a) segmentação de neurônios em imagens de microscopia
para estudos eletrofisiológicos [9]–[10]; (b) segmentação de Irshad et al. [14] realizam uma revisão do estado-da-arte
leucócitos para análise morfológica e auxı́lio no diagnóstico dos trabalhos envolvendo processamento de imagens aplicado
de leucemias agudas [11]; (c) segmentação de eritrócitos para à detecção de patologias em imagens de tecidos celulares
análise e auxı́lio na detecção de anemias como, por exemplo, a obtidas por microscopia. Os autores descrevem alguns dos
falciforme [12]; (d) segmentação de cromossomos em imagens principais algoritmos utilizados na segmentação de imagens
de microscopia para análise de cariótipo [13]; entre diversas como a limiarização, algoritmos morfológicos, Transformada
outras. Watershed, Crescimento de Regiões, dentre outros. Também
são realizadas comparações entre os algoritmos para demons-
Em muitos casos a análise dessas imagens é realizado trar os casos em que cada um pode ser particularmente útil.
✶✷✺ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Cheng e Rajapakse [15] também propuseram uma versão ruı́do. Esse problema é amenizado por meio da aplicação de
adaptativa da Transformada H-máxima para filtragem de filtros espaciais na etapa de pré-processamento e, principal-
mı́nimos regionais para aplicação da Transformada Watershed. mente, por meio de operações de morfologia matemática. A
Os autores utilizam a Transformada H-mı́nima em detrimento operação de abertura por área é capaz de eliminar objetos com
da H-máxima pois ela atua sobre o mapa de distâncias in- área inferior a um limiar predefinido, que neste trabalho foi
vertido. No presente trabalho, escolheu-se trabalhar com a empiricamente definido como 300. A operação de reconstrução
Transformada H-máxima aplicada diretamente sobre o mapa morfológica é aplicada para preencher eventuais buracos pre-
de distâncias gerado para Transformada da Distância. A sentes no interior dos objetos.
Transformada H-mı́nima Adaptativa proposta por Cheng e
Rajapakse depende da escolha de um parâmetro ∆ para filtrar
adequadamente mı́nimos regionais indesejados, já o método B. Transformada Watershed
proposto neste artigo não insere mais nenhum parâmetro para A segmentação pelo método de Otsu em conjunto com
a escolha do h, sendo completamente automatizado de acordo a filtragem morfológica é capaz de separar os pixels de
com a razão entre a área dos objetos e a área do seu fecho objetos dos pixels de fundo na imagem. Entretanto, esse tipo
convexo. de abordagem não é suficiente para segmentar corretamente
Jung e Kim [16] também tentam estimar o melhor valor agrupamentos de células [19]. A Transformada Watershed é
de h para a Transformada H-mı́nima, para isso eles ajustam uma técnica eficiente e muito utilizada para separar esse tipo de
uma elipse ao contorno dos objetos segmentados e medem estrutura [21]. A Transformada Watershed [8], [22] considera a
a distorção entre a elipse e o contorno. O presente trabalho imagem de entrada como uma superfı́cie topográfica e simula
difere deste por apresentar um critério muito mais simples para a inundação dessa superfı́cie a partir de cada um dos seus
avaliar a qualidade da segmentação dado o valor de h, ao invés mı́nimos regionais. Barragens são construı́das para impedir
de quantificar a área residual entre o objeto segmentado e a que as águas provenientes de mı́nimos regionais distintos se
elipse ajustada, utilizou-se apenas o valor da solidez do objeto encontrem. As superfı́cies dos lagos formadas pelas barragens
segmentado. representam as regiões segmentadas na imagem. O processo de
inundação termina quando toda a superfı́cie topográfica estiver
Jung et al. [17] também utilizam a Transformada da submersa, e apenas as superfı́cies dos lagos e as linhas das
Distância da imagem segmentada para identificar agrupamen- barragens estiverem visı́veis.
tos de células, porém ao invés de definir marcadores para
a Transformada Watershed, os autores modelam a uma mis- Quando aplicada diretamente sobre o gradiente da ima-
tura de Gaussianas a partir do mapa de distâncias utilizando gem, a Transformada Watershed resulta, geralmente, em uma
maximização de expectativas paramétrica. Ou seja, eles mode- imagem supersegmentada devido ao número excessivo de
lam a separação de grupos de células como um problema de mı́nimos regionais presentes no gradiente da imagem [23]. As
análise de agrupamentos. abordagens para solucionar o problema da supersegmentação
são organizadas em três categorias: (a) filtragem dos mı́nimos
III. M ATERIAL E M ÉTODOS regionais no gradiente da imagem [24]; (b) definição de
marcadores para os objetos para imposição de mı́nimos re-
O método proposto para a segmentação das imagens de gionais [25], [26], [16]; (c) identificação e fusão dos objetos
células é descrito nas seções seguintes. Primeiramente, é rea- supersegmentados [23], [27].
lizada a segmentação inicial das imagens, separando os pixels
que representam os objetos dos pixels de fundo das imagens O uso de marcadores para os mı́nimos regionais é uma
(Seção III-A). Após a segmentação inicial, cada imagem foi técnica efetiva para reduzir o problema da supersegmentação
recortada de maneira que cada sub-imagem contivesse um da transformada watershed [24]. Marcadores são definidos para
único objeto segmentado. Uma vez que este objeto pode cada um dos objetos da imagem. O processo de inundação
ser composto por um grupo de células agrupadas, o método partirá apenas desses marcadores. Definir marcadores únicos
proposto (descrito na Seção III-E) é aplicado a fim de separá- para todos os objetos em uma imagem é uma tarefa difı́cil
las adequadamente. [23]. Se algum objeto não receber um marcador ele pode ser
inundado pela aguá proveniente de uma região adjacente e
gerar um erro de subsegmentação, ou ainda ser inundado pelo
A. Segmentação das imagens lago que representa o fundo da imagem e o objeto não ser
Inicialmente, as imagens são pré-processadas usando um identificado. Caso algum objeto receba mais de um marcador
filtro Gaussiano com sigma = 5,0 a fim de reduzir o ruı́do, ele será supersegmentado e se alguma marcação for definida
inerente ao processo de aquisição das imagens [18]. fora do interior de algum objeto, será criado um artefato [2].
A imagem pré-processada é então segmentada utilizando a
limiarização global de Otsu. O algoritmo de Otsu define um C. Transformada da Distância
valor de limiar que maximiza de maneira ótima a variância
entre as classes, que separa os pixels da imagem em pixels de A Transformada da Distância [28] é uma ferramenta útil
fundo e pixels de objetos, resultando em uma imagem binária para determinar bons marcadores para a Transformada Wa-
[19][20]. tershed. A Transformada da Distância de uma imagem binária
I gera uma imagem em nı́veis de cinza, DT , em que, o valor
Métodos de segmentação por limiarização, como o método de todos os pixels p P I é definido de acordo com a menor
de Otsu, não consideram a relação espacial entre os pixels e distância entre p e o fundo da imagem, F pIq conforme a
fazem com que os algoritmos sejam fortemente afetados pelo Equação 1.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✷✻
IV. R ESULTADOS
Nesta seção são apresentados os resultados dos experimen-
tos realizados utilizando um conjunto de imagens de células
disponı́vel publicamente e com ground-truth para a validação
e avaliação do método proposto e dos métodos que serão
comparados.
A. Conjunto de Dados
Para a realização dos experimentos foram utilizados dois (b)
conjuntos de imagens desenvolvidos e disponibilizados por
Coelho et al. [1]1 . O primeiro conjunto de imagens é composto Figura 1: Uma das imagens utilizadas nos experimentos. (a)
por 50 imagens de células U2OS e foi denominado como Imagem original. (b) Imagem de referência delineada.
conjunto U2OS, o segundo conjunto é composto por 50
imagens de células NIH3T3 e foi denominado NIH3T3. Duas
imagens do conjunto U2OS e uma do conjunto NIH3T3 não
foram consideradas para os experimentos pois não apresentam binária resultante da segmentação por limiarização de Otsu
nenhuma célula em foco. Todas as células localizadas nas resultou em valores melhores para a distância de Hausdorff,
imagens foram delineadas manualmente pelos próprios autores, entretanto não diminuiu o número de erros de subsegmentação.
possibilitando a utilização das mesmas como ground-truth para A Transformada Watershed com marcadores extraı́dos dire-
a validação de algoritmos de segmentação de células. A Figura tamente dos Máximos Regionais da Transformada da Distância
1 mostra uma imagem do conjunto de dados e a sua versão geraram resultados piores devido ao número excessivo de
delineada. máximos regionais, gerando, dessa forma, uma imagem su-
O método proposto foi aplicado sobre os dois conjuntos de persegmentada. A Transformada Watershed com marcadores
imagens descritos no parágrafo anterior, o U2OS e o NIH3T3. definidos após a filtragem do mapa de distâncias pela Transfor-
Outros métodos de segmentação também foram avaliados, mada H-Máxima com o valor de h fixado em 5 resulta em uma
sendo eles: a) segmentação por limiarização global de Otsu; segmentação de melhor qualidade, consegue separar grande
b) segmentação por limiarização global de Otsu seguido de parte dos agrupamentos de células existentes nas imagens
filtragem morfológica (Seção III-A); c) Transformada Wa- segmentadas pelo método de Otsu com filtragem morfológica,
tershed com os marcadores definidos nos Máximos Regionais e não gera supersegmentação excessiva. O método proposto
da Transformada da Distância; d) Transformada Wateshed após obteve resultados muito próximos ao da Transformada H-
filtrar os máximos Regionais da Transformada da Distância Máxima com h = 5, isso se deve ao fato de ambos os
com a Transformada H-máxima tradicional considerando h “ métodos acertarem na subdivisão de grande parte dos objetos
5. A Tabela I mostra os resultados das distâncias de Hausdorff subsegmentados.
para todas as imagens para o conjunto H2. A maior vantagem do método proposto em relação ao
Por meio dos resultados apresentados na Tabela I é possı́vel método com h fixo, é a qualidade das segmentações indivi-
verificar o impacto das diferentes estratégias de segmentação. duais, como pode ser observado nas Figuras 2 e 3. Nessas
A etapa de filtragem morfológica aplicada sobre a imagem figuras são mostrados os resultados da segmentação de grupos
de células pelos cinco métodos testados: (a) Otsu; (b) Otsu
1 Disponı́vel em: http://murphylab.web.cmu.edu/data/2009 ISBI Nuclei.html seguido de filtragem morfológica; (c) Transformada Watershed
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✷✽
Tabela I: Médias dos ı́ndices de validação obtidos após processar todas as imagens de cada conjunto com os métodos descritos.
O primeiro valor corresponde ao conjunto U2OS e o segundo ao conjunto HIH3T3.
Transformada Watershed
Otsu + Transformada Watershed Transformada Watershed
Método Otsu H-Máxima Variável
Filtragem Morfológica Máximos Regionais - H-máxima (h = 5)
(nosso método)
NSD 0,20 / 0,37 0,16 / 0,32 0,79 / 0,76 0,14 / 0,32 0,19 / 0,34
Hausddorf 19,02 / 23,44 17,68 / 22,14 43,27 / 33,41 14,12 / 20,68 16,53 / 20.82
Supersegmentação 2,38 / 1,80 2,06 / 1,02 25,63 / 16,55 2,54 / 1,14 3,85 / 2.08
Subsegmentação 3,06 / 2,41 3,08 / 2,43 0,77 / 0,73 1,15 / 1,80 1,06 / 1.45
Adição 3,69 / 3,63 2,33 / 2,47 7,48 / 12,94 2,63 / 3,10 2,90 / 3,63
Remoção 2,00 / 24,12 2,21 / 24,12 3,60 / 27,14 2,25 / 24,12 2,42 / 24,29
Quando comparado com outros métodos de segmentação [11] Fabio Scotti. Robust segmentation and measurements techniques of
de células, o método proposto se mostrou mais eficiente do white cells in blood microscope images. In Instrumentation and
Measurement Technology Conference, 2006. IMTC 2006. Proceedings
que os métodos de segmentação baseados apenas nas inten- of the IEEE, pages 43–48. IEEE, 2006.
sidades dos pixels das imagens como o algoritmo de Otsu.
[12] Manuel Gonzalez-Hidalgo, FA Guerrero-Pena, S Herold-Garcia, Antoni
Quando comparado com o método que utiliza a Transformada Jaume-i Capó, and PD Marrero-Fernandez. Red blood cell cluster
H-Máxima original, o método apresenta melhora sutil nos separation from digital images for use in sickle cell disease. IEEE
ı́ndices de validação, porém quando observa-se a qualidade journal of biomedical and health informatics, 19(4):1514–1525, 2015.
das segmentações visualmente, nota-se que a linha criada para [13] Petros S Karvelis, Alexandros T Tzallas, Dimitrios I Fotiadis, and Ioan-
dividir as células está mais bem posicionada, algo semelhante nis Georgiou. A multichannel watershed-based segmentation method for
com o que acontece com o método proposto por [15]. multispectral chromosome classification. IEEE transactions on medical
imaging, 27(5):697–708, 2008.
Os trabalhos futuros incluem: a) refinar o método proposto, [14] Humayun Irshad, Antoine Veillard, Ludovic Roux, and Daniel Raco-
principalmente para lidar com células e objetos com baixa ceanu. Methods for nuclei detection, segmentation, and classification
in digital histopathology: a review-current status and future potential.
circularidade; b) testar o método proposto em outros conjuntos IEEE reviews in biomedical engineering, 7(99):97–114, 2014.
de imagens; c) testar outros critérios, além do fecho-convexo,
[15] Jagath C e outros Cheng, Jierong e Rajapakse. Segmentação de
para determinar o melhor valor de h; d) Investigar outros núcleos agrupados com marcadores de formas e função de marcação.
ı́ndices de validação de segmentação. Transações IEEE em Engenharia Biomédica, 56.
[16] Chanho Jung and Changick Kim. Segmenting clustered nuclei using
AGRADECIMENTOS h-minima transform-based marker extraction and contour parameteriza-
tion. IEEE transactions on biomedical engineering, 57(10):2600–2604,
Os autores agradecem aos pesquisadores L. P. Coelho, A. 2010.
Shariff e R. F. Murphy por disponibilizarem o conjunto de [17] Chanho Jung, Changick Kim, Seoung Wan Chae, and Sukjoong Oh.
dados e os códigos para validação utilizados nos experimentos. Unsupervised Segmentation of Overlapped Nuclei Using Bayesian Clas-
Os autores são gratos ao Instituto de Ciências Exatas e sification. IEEE Transactions on Biomedical Engineering, 57(12):2825–
2832, dec 2010.
Tecnológicas da UFV - campus Rio Paranaı́ba e ao Prof. Lucas
[18] Philip B Morgan, Craig A Woods, Deborah Jones, Nathan Efron, Kah-
M. Guimarães pelo apoio financeiro. O autor Welton Felipe Ooi Tan, Martha Yanneth Gonzalez, Alice Pesinova, Hans-Juergen
Gonçalves é bolsista do programa PIBIC/CNPQ. Agradecemos Grein, Svend-Erik Runberg, Ioannis G Tranoudis, et al. International
também à Capes e à FAPEMIG. contact lens prescribing in 2006. Contact lens spectrum, 21(1):34–34,
2007.
R EFER ÊNCIAS [19] Alexandru C. Telea. Data Visualization. A K Peters, Ltd., 2007.
[20] Roberto A. Lotufo, Romaric Audigier, André V. Saúde, and Rubens C.
[1] Luı́s Pedro Coelho, Aabid Shariff, and Robert F Murphy. Nuclear Machado. Morphological Image Processing. In Qiang Wu, Fatima A.
segmentation in microscope cell images: a hand-segmented dataset and Merchant, and Kenneth R. Castleman, editors, Microscope Image Pro-
comparison of algorithms. In Biomedical Imaging: From Nano to cessing, chapter 8, pages 113–157. Academic Press, Burlington, 2008.
Macro, 2009. ISBI’09. IEEE International Symposium on, pages 518–
521. IEEE, 2009. [21] Yue Huang, Xuezhi Sun, and Guangshu Hu. An automatic integrated
approach for stained neuron detection in studying neuron migration.
[2] Rafael C Gonzalez and Richard E Woods. Digital Image Processing
Microscopy research and technique, 73(2):109–18, feb 2010.
(3rd Edition). 2007.
[22] Serge Beucher and Fernand Meyer. The morphological approach to
[3] Yousef Al-Kofahi, Wiem Lassoued, William Lee, and Badrinath Roy- segmentation: the watershed transformation. Optical Engineering-New
sam. Improved automatic detection and segmentation of cell nuclei in York-Marcel Dekker Incorporated-, 34:433–433, 1992.
histopathology images. IEEE Transactions on Biomedical Engineering,
57(4):841–852, 2010. [23] Gang Lin, Umesh Adiga, Kathy Olson, John F Guzowski, Carol A
Barnes, and Badrinath Roysam. A hybrid 3d watershed algorithm incor-
[4] Zhang Yang, Fu-Lai Chung, and Wang Shitong. Robust fuzzy
porating gradient cues and object models for automatic segmentation of
clustering-based image segmentation. Applied Soft Computing, 9(1):80– nuclei in confocal image stacks. Cytometry Part A, 56(1):23–36, 2003.
84, 2009.
[24] Qiang Wu, Fatima A. Merchant, Kenneth R. Castleman, Roberto A.
[5] Kuo-Lung Wu and Miin-Shen Yang. Alternative c-means clustering Lotufo, Romaric Audigier, André V. Saúde, and Rubens C. Machado.
algorithms. Pattern recognition, 35(10):2267–2278, 2002.
Morphological Image Processing. In Microscope image processing,
[6] Sahirzeeshan Ali and Anant Madabhushi. An integrated region- pages 113–157. 2008.
, boundary-, shape-based active contour for multiple object overlap [25] Yue Huang, Xiaobo Zhou, Benchun Miao, Marta Lipinski, Yong
resolution in histological imagery. IEEE transactions on medical Zhang, Fuhai Li, Alexei Degterev, Junying Yuan, Guangshu Hu, and
imaging, 31(7):1448–1460, 2012. Stephen TC Wong. A computational framework for studying neuron
[7] J SHI. Normalized cuts and image segmentation, ieee conference morphology from in vitro high content neuron-based screening. Journal
on computation: Vision and pattern recognition, san juan, puerto rico. of neuroscience methods, 190(2):299–309, 2010.
Vision Science, 1997. [26] Norberto Malpica, Carlos Ortiz de Solórzano, Juan José Vaquero,
[8] Luc Vincent and Pierre Soille. Watersheds in digital spaces: an efficient Andrés Santos, Isabel Vallcorba, José Miguel Garcia-Sagredo, and
algorithm based on immersion simulations. IEEE Transactions on Francisco del Pozo. Applying watershed algorithms to the segmentation
Pattern Analysis & Machine Intelligence, (6):583–598, 1991. of clustered nuclei. 1997.
[9] João Fernando Mari, José Hiroki Saito, Amanda Ferreira Neves, Ce- [27] PS Umesh Adiga and BB Chaudhuri. An efficient method based
lina Monteiro da Cruz Lotufo, João-Batista Destro-Filho, and Maria on watershed and rule-based merging for segmentation of 3-d histo-
do Carmo Nicoletti. Quantitative Analysis of Rat Dorsal Root Ganglion pathological images. Pattern Recognition, 34(7):1449–1458, 2001.
Neurons Cultured on Microelectrode Arrays Based on Fluorescence [28] Ricardo Fabbri, Luciano Da F Costa, Julio C Torelli, and Odemir M
Microscopy Image Processing. International Journal of Neural Systems,
Bruno. 2d euclidean distance transform algorithms: A comparative
25(8):1550033, sep 2015. survey. ACM Computing Surveys (CSUR), 40(1):2, 2008.
[10] José Hiroki Saito, João Fernando Mari, Emerson Carlos Pedrino,
João Batista Destro-Filho, and Maria do Carmo Nicoletti. Simulated
Activation Patterns of Biological Neurons Cultured onto a Multi-
Electrode Array Based on a Modified Izhikevich’s Model. Fundamenta
Informaticae, 124:111 – 132, 2013.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✸✵
Nos experimentos realizados para localização da ı́ris, foram reduzir o tamanho do vetor de caracterı́sticas, pois baseiam-se
testados diferentes valores de distância (d), assim como difer- no fato de que alguns padrões binários ocorrem mais comu-
entes ângulos (θ). A melhor configuração encontrada foi com mente do que outros. Um padrão binário local é considerado
d = 1 e os ângulos θ = 0, θ = 45, θ = 90 e θ = 135. uniforme se o ele possuir, no máximo, duas transições de bits
Considerando as cinco propriedades descritas acima, obtêm- (0 para 1 ou vice versa). Por exemplo, os padrões 00000000 (0
se um vetor com 20 caracterı́sticas. transições), 01110000 (2 transições) e 11001111 (2 transições)
são uniformes, enquanto os padrões 11001001 (4 transições)
B. Local Binary Patterns (LBP)
e 01010010 (6 transições) não são uniformes.
O LBP foi primeiramente proposto por Ojala et. al [23] Foram testadas diferentes configurações de operadores LBP.
e consiste em um operador de extração de caracterı́sticas de A que apresentou um dos melhores resultados foi o LBP
textura. Neste método, cada pixel da imagem recebe um rótulo, uniforme, onde apenas os padrões uniformes são utilizados e
representado por um número binário. A atribuição desse rótulo todos os padrões restantes são rotulados com um único rótulo.
é calculada por meio da vizinhança do pixel analisado (pixel Para essa abordagem, foi utilizado raio R = 1 e P = 8,
central). Sendo assim, cada vizinho que possuir um valor de gerando um vetor de caracterı́sticas com 59 elementos.
intensidade maior ou igual ao pixel central, será marcado com
o dı́gito binário 1. Caso contrário, será marcado com o dı́gito C. Histogram of Oriented Gradients (HOG)
binário 0. Por fim, os resultados são combinados e o valor
O HOG é um descritor de caracterı́sticas utilizado em
decimal do número binário gerado é considerado o valor LBP
visão computacional para a detecção de objetos. O método
para aquele pixel analisado. A Figura 2 ilustra esse processo.
quantifica as ocorrências de orientação do gradiente em regiões
de uma imagem, extraindo informações da forma dos objetos
e negligenciando a cor e tamanho [24]. A Figura 4 ilustra uma
14 19 22 0 0 1
imagem descrita por HOG.
30 21 44 Threshold 1 0 1
10111100
20 43 35 0 1 1
III. E XPERIMENTOS
Figura 3. Extensão do operador LBP.
Nesta seção, apresenta-se os experimentos realizados neste
O operador LBPP,R gera 2P padrões binários que são trabalho. Inicialmente, descreve-se a base de imagens usada
formados através dos P pixels da vizinhança. No entanto, há nos experimentos. Em seguida, é apresentada a organização
uma outra extensão do operador original que são os padrões das imagens para aprendizado. Por fim, os resultados obtidos
uniformes. Esses padrões uniformes podem ser utilizados para são descritos e discutidos.
✶✸✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
A. Base de Imagens
Para realizar os experimentos deste trabalho, foi utilizada a
base de imagens IIIT-D Contact Lens Iris [20]. Essa base é
composta por 6570 imagens, pertencentes a 101 indivı́duos.
TABELA I
R ESULTADOS OBTIDOS EM IMAGENS DO V ISTA S ENSOR
Métrica GLCM σ LBP σ HOG σ Figura 9. Curvas do Coeficiente de Jaccard com imagens obtidas pelo Vista
Sensor. .
Jaccard (%) 85,3 4,3 86,4 3,2 93,8 3,1
False Neg. Rate (%) 13,1 5,9 12,8 5,4 5,3 3,0
Acurácia (%) 94,5 4,1 95,3 3,3 98,1 1,2
TABELA II
R ESULTADOS OBTIDOS EM IMAGENS DO C OGENT S ENSOR
TABELA III
C OMPARAÇ ÃO COM OUTROS M ÉTODOS DE LOCALIZAÇ ÃO DA ÍRIS (%) EM
DIFERENTES BASES
Spoofing e Liveness, bem como em detecção de lentes de [9] J. Rodrı́guez and Y. Rubio, “A new method for iris pupil contour
contato, entre outras. Localizar a ı́ris pode ser um dos passos delimitation and its application in iris texture parameter estimation,”
Progress in Pattern Recognition, Image Analysis and Applications, pp.
iniciais para a operação de tais sistemas, podendo assim 631–641, 2005.
influenciar seus resultados. [10] Y. Alvarez-Betancourt and M. Garcia-Silvente, “A fast iris location based
Neste trabalho, foram avaliados descritores de textura e on aggregating gradient approximation using qma-owa operator,” in
Fuzzy Systems (FUZZ), 2010 IEEE International Conference on. IEEE,
forma aplicados na localização da ı́ris baseada em janelas 2010, pp. 1–8.
deslizantes. Foram avaliados os descritores de caracterı́sticas [11] J. I. Peláez and J. M. Doña, “A majority model in group decision making
using qma–owa operators,” International Journal of Intelligent Systems,
GLCM, LBP e HOG, usando apenas o classificador SVM. vol. 21, no. 2, pp. 193–208, 2006.
Os experimentos foram realizados na base de imagens IIIT- [12] W. Cui et al., “A rapid iris location algorithm based on embedded,” in
D Contact Lens, onde observou-se que o modelo HOG-SVM Computer Science and Information Processing (CSIP), 2012 Interna-
tional Conference on. IEEE, 2012, pp. 233–236.
alcançou os melhores resultados, atingindo 98,1% e 97,3% [13] L. Zhou, Y. Ma, J. Lian, and Z. Wang, “A new effective algorithm
de acurácia para os sensores Vista e Cogent Sensor, respecti- for iris location,” in Robotics and Biomimetics (ROBIO), 2013 IEEE
vamente. Tais resultados são promissores e comparáveis aos International Conference on. IEEE, 2013, pp. 1790–1795.
[14] W. Zhang and Y.-D. Ma, “A new approach for iris localization based on
resultados encontrados na literatura. Entretanto, os experimen- an improved level set method,” in Wavelet Active Media Technology
tos não foram realizados nas mesmas bases utilizadas pelos and Information Processing (ICCWAMTIP), 2014 11th International
trabalhos da literatura. Computer Conference on. IEEE, 2014, pp. 309–312.
[15] G. E. Hinton and R. R. Salakhutdinov, “Reducing the dimensionality of
Como trabalhos futuros, pretende-se melhorar a acurácia data with neural networks,” Science, vol. 313, no. 5786, pp. 504–507,
alcançada nos métodos analisados, usando descritores basea- 2016.
dos em deeplearning. Além disso, pretende-se testar o método [16] N. Pinto, Z. Stone, T. Zickler, and D. D. Cox, “Scaling-up biologically-
inspired computer vision: A case study in unconstrained face recognition
com outras bases de imagens, assim como analisar o impacto on facebook,” in IEEE Conference on Computer Vision and Pattern
que a localização da ı́ris exerce em sistemas de reconhecimento Recognition Workshops (CVPRW), 2011, pp. 35–42.
de ı́ris, Spoofing, Liveness, e detecção de lentes de contato. [17] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet Classification
with Deep Convolutional Neural Networks,” in Advances in Neural
AGRADECIMENTOS Information Processing Systems, 2012.
[18] P. Viola and M. Jones, “Rapid object detection using a boosted cascade
Os autores agradecem a Coordenação de Aperfeiçoamento of simple features,” in IEEE Conference on Computer Vision and Pattern
de Pessoal de Nivel Superior (CAPES), pelo apoio financeiro Recognition (CVPR), vol. 1, 2001, pp. I–511–I–518 vol.1.
[19] P. Viola and M. J. Jones, “Robust real-time face detection,” International
concedido para a realização deste trabalho e ao Conselho Journal of Computer Vision, vol. 57, no. 2, pp. 137–154, May 2004.
Nacional de Desenvolvimento Cientı́fico e Tecnológico (CNPq [20] N. Kohli, D. Yadav, M. Vatsa, and R. Singh, “Revisiting iris recog-
- Processos # 307010/2014-7 & 428333/2016-8). nition with color cosmetic contact lenses,” in Biometrics (ICB), 2013
International Conference on. IEEE, 2013, pp. 1–7.
R EFER ÊNCIAS [21] J. Martins, L. Oliveira, S. Nisgoski, and R. Sabourin, “A database
for automatic classification of forest species,” Machine vision and
[1] D. Menotti, G. Chiachia, A. Pinto, W. R. Schwartz, H. Pedrini, A. X. applications, vol. 24, no. 3, pp. 567–578, 2013.
Falcao, and A. Rocha, “Deep representations for iris, face, and finger- [22] R. M. Haralick, K. Shanmugam et al., “Textural features for image
print spoofing detection,” IEEE Transactions on Information Forensics classification,” IEEE Transactions on systems, man, and cybernetics,
and Security, vol. 10, no. 4, pp. 864–879, 2015. vol. 3, no. 6, pp. 610–621, 1973.
[2] Y. Zhu, T. Tan, and Y. Wang, “Biometric personal identification based [23] T. Ojala, M. Pietikäinen, and D. Harwood, “A comparative study of
on iris patterns,” in Pattern Recognition, 2000. Proceedings. 15th Inter- texture measures with classification based on featured distributions,”
national Conference on, vol. 2. IEEE, 2000, pp. 801–804. Pattern recognition, vol. 29, no. 1, pp. 51–59, 1996.
[3] A. Jain, R. Bolle, and S. Pankanti, Biometrics: personal identification [24] N. Dalal and B. Triggs, “Histograms of oriented gradients for human
in networked society. Springer Science & Business Media, 2006, vol. detection,” in Computer Vision and Pattern Recognition, 2005. CVPR
479. 2005. IEEE Computer Society Conference on, vol. 1. IEEE, 2005, pp.
[4] J. G. Daugman, “High confidence visual recognition of persons by a 886–893.
test of statistical independence,” IEEE transactions on pattern analysis [25] B. E. Boser, I. M. Guyon, and V. N. Vapnik, “A training algorithm for
and machine intelligence, vol. 15, no. 11, pp. 1148–1161, 1993. optimal margin classifiers,” in Proceedings of the fifth annual workshop
[5] R. P. Wildes, “Iris recognition: an emerging biometric technology,” on Computational learning theory. ACM, 1992, pp. 144–152.
Proceedings of the IEEE, vol. 85, no. 9, pp. 1348–1363, 1997. [26] G. Franchi, J. Angulo, and D. Sejdinović, “Hyperspectral image classifi-
[6] J. Daugman, “How iris recognition works,” IEEE Transactions on cation with support vector machines on kernel distribution embeddings,”
circuits and systems for video technology, vol. 14, no. 1, pp. 21–30, in Image Processing (ICIP), 2016 IEEE International Conference on.
2004. IEEE, 2016, pp. 1898–1902.
[7] C.-L. Tisse, L. Martin, L. Torres, and M. Robert, “Iris recognition system [27] P. Ruiz, J. Mateos, G. Camps-Valls, R. Molina, and A. K. Katsaggelos,
for person identification,” in PRIS: Pattern Recognition in Information “Bayesian active remote sensing image classification,” IEEE Transac-
Systems, 2002, pp. 71–75. tions on Geoscience and Remote Sensing, vol. 52, no. 4, pp. 2186–2196,
[8] H. Sung, J. Lim, J.-h. Park, and Y. Lee, “Iris recognition using collarette 2014.
boundary localization,” in Pattern Recognition, 2004. ICPR 2004. Pro- [28] Y. Li, W. Li, and Y. Ma, “Accurate iris location based on region of
ceedings of the 17th International Conference on, vol. 4. IEEE, 2004, interest,” in Biomedical Engineering and Biotechnology (iCBEB), 2012
pp. 857–860. International Conference on. IEEE, 2012, pp. 704–707.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✸✻
Abstract—The iris is considered, in some situations, as the sofrem oclusão pela presença das pálpebras e dos cı́lios
most important biometric trait for having the highest unique (ruı́dos). A segmentação visa localizar e separar corretamente
probability. The applications using the iris as a biometric depend a ı́ris desses ruı́dos e do restante da imagem, por isso, a
mainly on the iris segmentation which accuracy which is not
well solved for uncontrolled enviroments. In this paper, we correta segmentação é a tarefa mais desafiadora de um sistema
describe an approach that uses Convolutional Neural Networks biométrico [10], [11].
for occular iris segmentation in biometrics systems. The transfer Diversas técnicas para segmentação de ı́ris são reportadas
learning from street segmentation and fine-tunning on this na literatura. Dentre essas técnicas, o uso de uma abordagem
specific applicaiton is also used. The pre-trained model ImageNet geométrica foi inicialmente proposta por Daugman [2], onde
and the architecture FCN8s were combined, yielding a promissing
segmentation module when comparing its effectivness to the um operador integro-diferencial foi usado para aproximar os
best found in the literature. The proposed method achieved a limites internos e externos da ı́ris. Esse operador gera a saı́da
segmentation error of 0.82% and accuracy of 99, 17% in the {x, y, r}, onde x, y são as coordenadas do centro da pupila
NICE.I database (subset from UBIRIS.v2), which are the best e da ı́ris, e r é o raio correspondente a ambas. Normalmente
so far found in the literature, i.e., a new state-of-the-art for this detecta-se primeiro a pupila, e em seguida a ı́ris [12], [13].
database.
A Transformada de Hough modificada funcionava de forma
I. I NTRODUÇ ÃO similar. Em Liu et. al., [14], primeiro são detectados, com
uma ordem de detecção reversa, os limites externos da ı́ris
A identificação de indivı́duos, com base em suas carac- (ı́ris e esclera), e em seguida os limites internos (ı́ris e
terı́sticas fı́sicas, possui grau de confiabilidade superior em pupila). Dentro da região da ı́ris, os pontos de bordas rui-
comparação com outros meios de identificação, como o uso dosos são reduzidos por meio da eliminação de pixels com
senhas por exemplo. Diversas caracterı́sticas do corpo humano nı́vel de intensidade extremamente alto/baixo, de acordo com
podem ser utilizadas para este fim. Dentre essas caracterı́sticas, um threshold (limite) definido. Proença & Alexandre, [15]
estão a face, voz, anatomia das mãos, impressões digitais, propuseram a segmentação de imagens da ı́ris em ambientes
forma de andar, orelhas, ı́ris, esclera, retina, arcada dentária, não controlados. Essa segmentação consiste em classificar
nariz, dentre outras. Entretanto, as caracterı́sticas presentes na cada pixel da imagem como pertencente a um grupo, com
ı́ris humana a tornam uma das mais representativas e segura base nas coordenadas e distribuição de intensidade desses
modalidade biométrica [1]–[6]. pixels. O agrupamento é feito por um algoritmo chamado
Um sistema biométrico automatizado para reconhecimento Fuzzy K-means. Em seguida, o detector de bordas de Canny
de ı́ris, conforme descrito em [7], é composto de alguns é aplicado na imagem com os pixels agrupados, gerando um
passos fundamentais para seu correto funcionamento. Esse mapa de bordas. A Transformada Circular de Hough é usada
sistema geralmente é dividido em 5 (cinco) passos: Aquisição para detectar as bordas correspondentes aos contornos da ı́ris.
das imagens, segmentação da ı́ris, normalização, extração de Podder et. al., [16] removem os ruı́dos (cı́lios e pálpebras), que
caracterı́sticas e o matching. O foco deste artigo será voltado atrapalham o desempenho dos sistemas de reconhecimento,
apenas para a segmentação, pois é o passo mais desafiador aplicando uma técnica de supressão radial máxima. O detector
e crucial em um sistema biométrico. A segmentação consiste de bordas de Canny é aplicado na imagem para facilitar a
em localizar e isolar a ı́ris do restante da imagem. Caso a detecção dos limites da ı́ris e da pupila pela Transformada de
segmentação falhar ou ocorrerem erros, os passos posteriores Hough. Vera et, al., [17] utilizam um sistema embarcado para
são prejudicados e o desempenho do sistema biométrico é para segmentar a ı́ris, onde a imagem da ı́ris é binarizada com
afetado [7]–[9]. base em seu histograma, com o intuito de separar a pupila.
No olho humano, a ı́ris é a região texturizada capaz de As bordas da pupila e da ı́ris são detectadas com o uso do
distinguir os indivı́duos com alto grau de unicidade. Os limites operador de Canny e da Transformada Circular de Hough.
interno e externo da ı́ris, correspondem respectivamente à Contornos Ativos Geodésicos (GAC) foram utilizados por
pupila e à esclera. As partes superiores e inferiores da ı́ris Shah & Ross [18] para segmentar a ı́ris a partir de estruturas
✶✸✼ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
circundantes. Esses GAC combinam minimização de energia Na Seção II, apresenta-se uma breve descrição dos métodos
com contornos ativos baseados em evolução de curvas e são estado-da-arte, utilizados como comparação do método pro-
comumente utilizados para segmentação de imagens médicas. posto. Na Seção III, é apresentada a metodologia proposta
No caso da ı́ris, a imagem primeiramente passa por uma para a segmentação de ı́ris ocular, bem como, a arquitetura
suavização, com um filtro de média em duas dimensões (2D). da rede, os protocolos de avaliação e a base de dados uti-
A imagem suavizada é binarizada, resultando em uma imagem lizada. Os experimentos realizados e os resultados obtidos são
com a pupila. A partir do ponto central e do raio da pupila, apresentados e discutidos na Seção IV. Por fim na Seção V,
os contornos internos e externos da ı́ris são aproximados de as conclusões obtidas são descritas, juntamente com algumas
acordo com o uso dos coeficientes das séries de Fourier. A propostas de trabalhos futuros.
textura da ı́ris, contribui para determinar seus limites, sendo
II. E STADO - DA -A RTE NA UBIRIS. V 2
influenciada pelas propriedades globais e locais da imagem.
Em Chan & Vese [19] contornos ativos sem bordas segmentam O método proposto será comparado com alguns métodos do
as regiões da ı́ris em dois arcos (esquerdo e direito). As estado-da-arte em segmentação de ı́ris. Dentre esses métodos,
pálpebras são detectadas por meio da intensidade de cores estão os 3 melhores resultados da competição de segmentação
(RGB) de cada pixel, dentro dos arcos pertencentes à ı́ris, de de ı́ris Noisy Iris Challenge Evaluation - Part I 1 (NICE.I), sub-
acordo com uma heurı́stica que usa um mapa de distância conjunto da UBIRIS.v2 [30]–[32]. Recomenda-se a leitura dos
de cores. Duas sementes, uma à esquerda e outra à direita mesmos para maiores informações sobre suas metodologias.
de cada arco da ı́ris são usadas para representar a região da O método vencedor da NICE.I foi proposto por [30] e
esclera. As coordenadas dessas sementes são definidas pelas consiste em remover os pontos de reflexo usando limiarização
coordenadas {x, y} centrais e o raio da ı́ris. Na proposta adaptativa e interpolação bi-linear. A ı́ris é segmentada por
de Pundlik et. al., [9] diferentes nı́veis de intensidade da agrupamento de regiões e modelada pelo operador integro-
imagem são usados para segmentar as regiões da ı́ris. Primeiro, differential constellation [12].
as reflexões são removidas na etapa de pré-processamento e No segundo lugar da NICE.I [31], a localização dos reflexos
informações de textura são calculadas conforme a variação ocorre na imagem convertida para escala de cinza com base em
de intensidade em uma vizinhança do pixel. Um mapa de luminance in-phase quadrature. Os limites internos e externos
probabilidades é gerado para atribuir o pixel a uma região de da ı́ris são encontrados pelo operador de Daugman [2], no
textura. Esse mapa de probabilidades é usado para binarizar componente de cor vermelho do RGB. As palpebras inferior e
a imagem, por meio de cortes gráficos, separando os pixels superior, são localizadas pelo detector de bordas (horizontais)
pertencentes aos cı́lios. As regiões da ı́ris são estimadas usando de Sobel. As transições de intensidade entre a esclera e a
a intensidade dos tons de cinza combinadas com operações pele são usadas para delimitar as partes da ı́ris ocluı́das pela
morfológicas e refinadas por elipses. pálpebra.
Redes Neurais Convolucionais ou Convolutional Neu- Em terceiro lugar [32], os reflexos são localizados com
ral Network - (CNN/ConvNet) são modelos computacionais base no valor de intensidade (tons de cinza) dos pixels acima
com várias camadas, que tem a capacidade de aprender de 250. Em seguida, um aumento de contraste destaca os
representações a partir de um conjunto de amostras de treina- pontos pretos da pupila, para facilitar sua detecção. Ambas
mento [20]. Após esse aprendizado, as CNNs podem fazer ı́ris e pupila são localizadas ao varrer a imagem com alguns
previsões em outras amostras a fim de reconhecê-las. O uso retângulos e “sementes”. As pálpebras são detectadas com
de CNNs tem permitido a obtenção de resultados do estado- base na mudança de contraste entre a esclera e a pele (nos
da-arte em diversos problemas de visão computacional como componentes de cor verde e azul) usando segmentos de arcos.
segmentação, reconhecimento e classificação em aplicações de Outro método estado-da-arte [33], comparado com o método
biometria, imagens médicas, sistemas de segurança, monitora- proposto, utiliza o operador de Daugman [2] para localizar
mento, etc. [21]–[24]. a ı́ris. As pálpebras são removidas na imagem normalizada,
Especificamente na segmentação, as CNNs permitem re- por meio de um polinômio de terceira ordem e estimativa de
alizar uma classificação a nı́vel de pı́xel na imagem. Essa média e desvio padrão. Os reflexos são detectados, por meio da
classificação atribui uma classe a cada pixel, agrupando-os combinação entre limiarização adaptativa e modelos de textura
em regiões pertencentes ao mesmo objeto [25]. Em [26], os Markovianos [34]. O método [33] foi comparado com os oito
autores fazem uma adaptação das redes AlexNet, VGG net, melhores resultados da competição NICE.I seguindo os mes-
and GoogLeNet, onde transferem as representações de apren- mos critérios de avaliação (Eq. 2) e alcançou um erro E menor
dizagem para afinar a segmentação. que o primeiro colocado. Por isso, essa abordagem passou a ser
Neste trabalho, é proposto o uso de um método para resolver utilizada para segmentar as imagens da competição Mobile Iris
o problema de segmentação de imagens da ı́ris ocular, trans- CHallenge Evaluation II 2 (MICHE-II), que é voltada apenas
ferindo representações aprendidas do contexto de segmentação para o reconhecimento de ı́ris.
de estradas. As técnicas de transfer-learning e fine-tunning A Tabela I representa a comparação dos métodos estado-da-
melhoraram resultados estado-da-arte em diversos trabalhos arte que serão utilizados para comparar o método proposto. É
como [27]–[29]. 1 http://nice1.di.ubi.pt/
Tabela I: Comparação do erro de segmentação E dos métodos as máscaras binárias originais (ground-truth produzidas ma-
estado-da-arte. nualmente pelos organizadores) e as máscaras geradas pelos
Método E algoritmos dos competidores. O erro médio de segmentação
Haindl & Krupička [33] 0, 0124
E é calculado pela divergência, dada pelo operador ⊗ (XOR),
Tan et al., 2010 [30] 0, 0131 dos pixels conforme a (Eq. 2).
Sankowski et al. [31] 0, 0162
Almeida [32] 0, 0180
1 XX
E= M (i, j) ⊗ GT (i, j) ∈ [0, 1] (2)
k×h×w i j
possı́vel observar que o método [33], com E = 0, 0124, supera
o método vencedor da NICE.I [30] com E = 0, 0131. onde i e j são as coordenadas da máscara binária M gerada
pelo algoritmo competidor, GT é o ground-truth, h e w
III. M ETODOLOGIA são as linhas e colunas da imagem respectivamente, k é a
A metodologia proposta foi inspirada no uso de uma abor- quantidade de imagens e [0, 1] representa melhor e pior E
dagem de aprendizado profundo, voltada para segmentação respectivamente.
semântica, classificação e detecção chamada MultiNet [27]. As Outras métricas de avaliação comumente utilizadas em
técnicas de transferência de aprendizagem e fine-tunning foram segmentação semântica são: precision (Eq. 3), recall (Eq. 4),
utilizadas, visando ajustar o modelo da rede para o problema F1-measure (F1-score) (Eq. 5), acurácia média (Eq. 6) e
de segmentação de ı́ris ocular. Portanto, nenhuma alteração Intersecção pela União (IoU) (Eq. 7) [37], [38]. Essas métricas
nas configurações da rede foi realizada. também serão utilizadas para avaliar o desempenho do método
proposto.
A. Arquitetura da Rede
A arquitetura da rede baseia-se em um codificador único e TP
prec = ∈ [0, 1] (3)
um decodificador para cada tarefa (segmentação, classificação TP + FP
e detecção). O codificador utiliza as caracterı́sticas ex-
traı́das da 5o camada de pooling (13 primeiras camadas) da
rede VGG16 [35], que são usadas pelos decodificadores de TP
rec = ∈ [0, 1] (4)
segmentação, classificação e detecção [27]. O foco deste artigo TP + FN
será apenas voltado para o decodificador de segmentação.
Esse decodificador segue a arquitetura da Fully Convolutional prec · rec
Network - FCN [26]. A Figura 1 representa a junção das duas F 1 = (1 + β 2 ) ∈ [0, 1] (5)
β 2 prec + rec
arquiteturas, na qual recebe, em sua entrada, uma imagem com
dimensões de 400x300 pixels e três canais de cor (RGB), e
gera uma imagem de saı́da com as mesmas dimensões. TP + TN
As camadas de convolução totalmente conectadas da M acc = ∈ [0, 1] (6)
TP + FP + TN + FN
VGG16 produzem uma saı́da de baixa resolução. Três camadas
de convolução transposta, entre a VGG16 e a FCN, fazem a
reconstrução das convoluções de forma bilinear, aumentando k
1 X |GT(i,j) ∩ M(i,j) |
(up-sampling) a resolução da saı́da [27]. IoU = ∈ [0, 1] (7)
k i=0 |GT(i,j) ∪ M(i,j) |
A função de custo da segmentaçao é dada pela cross-
entropy, conforme a (Eq. 1).
onde β = 1, T P , F P e F N são respectivamente True Positive,
1 XX False Positive e False Negative. Ao contrário da (Eq. 2), [0, 1]
loss(p, q) = − qi (c) log pi (c) (1) representa pior e melhor valor respectivamente.
|I|
i∈I c∈C
CNN Segmentation
Encoder Decoder
Input VGG16 max Encoded Conv: Prediction
Conv: FCN8
Features
400x300x3 13 Conv. Layers pol 12x9x512 1x1 3 Upsampling Layers 1x1 400x300x2
Fig. 1: Arquitetura da rede utilizando apenas o codificador único e o decodificador de segmentação da MultiNet. Fonte: adaptado
de [27].
Precision-recall Curve
1.0
0.6
Precision
(c) (d)
0.4
0.2
(e) (f)
área sob a curva = 0.9893
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Recall
(i) (j)
0.8
True Positive Rate
0.6
(k) (l)
- Processos # 307010/2014-7 & 428333/2016-8). Os autores [22] K. Ahuja, R. Islam, F. A. Barbhuiya, and K. Dey, “Convolutional neural
também agradecem a NVIDIA pela doação de duas GPU Titan networks for ocular smartphone-based biometrics,” Pattern Recognition
Letters, vol. 91, pp. 17 – 26, 2017, mobile Iris {CHallenge} Evaluation
Black e uma GPU Titan X. (MICHE-II).
[23] V. Dumoulin and F. Visin, “A guide to convolution arithmetic for deep
R EFER ÊNCIAS learning,” arXiv preprint arXiv:1603.07285, 2016.
[1] M. Turk and A. Pentland, “Eigenfaces for recognition,” Journal of [24] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification
Cognitive Neuroscience, vol. 3, no. 1, pp. 71–86, 1991, impact Factor: with deep convolutional neural networks,” in Advances in Neural In-
3.559. formation Processing Systems 25. Curran Associates, Inc., 2012, pp.
[2] J. Daugman, “High confidence visual recognition of persons by a test 1097–1105.
of statistical independence,” IEEE Transactions on Pattern Analysis and [25] M. Thoma, “A survey of semantic segmentation,” CoRR, vol.
Machine Intelligence, vol. 15, no. 11, pp. 1148–1161, 1993. abs/1602.06541, 2016. [Online]. Available: http://arxiv.org/abs/1602.
[3] R. P. Wildes, “Iris recognition: an emerging biometric technology,” 06541
Proceedings of the IEEE, vol. 85, no. 9, pp. 1348–1363, 1997, impact [26] E. Shelhamer, J. Long, and T. Darrell, “Fully convolutional networks
Factor: 5.629. for semantic segmentation,” IEEE Transactions on Pattern Analysis and
[4] A. K. Jain, A. Ross, and S. Prabhakar, “An introduction to biometric Machine Intelligence, vol. 39, no. 4, pp. 640–651, April 2015.
recognition,” IEEE Transactions on circuits and systems for video [27] M. Teichmann, M. Weber, M. Zoellner, R. Cipolla, and R. Urtasun,
technology, vol. 14, no. 1, pp. 4–20, 2004, qualis A1. “Multinet: Real-time joint semantic reasoning for autonomous driving,”
[5] A. K. Jain, L. Hong, and R. Bolle, “On-line fingerprint verification,” arXiv preprint arXiv:1612.07695, 2016.
IEEE Transactions on Pattern Analysis and Machine Intelligence, [28] Z. Tian, L. Liu, and B. Fei, “Deep convolutional neural network for
vol. 19, no. 4, pp. 302–314, 1997, qualis A1. prostate mr segmentation,” Proc. SPIE, vol. 10135, pp. 101 351L–
[6] S. Crihalmeanu, A. Ross, S. Schuckers, and L. Hornak, “A protocol 101 351L–6, 2017.
for multibiometric data acquisition, storage and dissemination,” Dept. [29] P. Brandao, E. Mazomenos, G. Ciuti, R. Caliò, F. Bianchi, A. Menciassi,
Comput. Sci. Elect. Eng., West Virginia Univ., Morgantown, WV, USA, P. Dario, A. Koulaouzidis, A. Arezzo, and D. Stoyanov, “Fully convo-
Tech. Rep, 2007. lutional neural networks for polyp segmentation in colonoscopy,” Proc.
[7] R. Jillela and A. A. Ross, “Segmenting iris images in the visible SPIE, vol. 10134, pp. 101 340F–101 340F–7, 2017.
spectrum with applications in mobile biometrics,” Pattern Recognition [30] T. Tan, Z. He, and Z. Sun, “Efficient and robust segmentation of noisy
Letters, vol. 57, pp. 4–16, 2015, mobile Iris {Challenge} Evaluation iris images for non-cooperative iris recognition,” Image and Vision
part I (MICHE I). Qualis A1. Computing, vol. 28, no. 2, pp. 223 – 230, 2010.
[8] ——, Methods for Iris Segmentation. London: Springer London, 2016, [31] W. Sankowski, K. Grabowski, M. Napieralska, M. Zubert, and
pp. 137–184. A. Napieralski, “Reliable algorithm for iris segmentation in eye image,”
[9] S. J. Pundlik, D. L. Woodard, and S. T. Birchfield, “Non-ideal iris Image and Vision Computing, vol. 28, no. 2, pp. 231 – 237, 2010.
segmentation using graph cuts,” in IEEE Computer Society Conference [32] P. de Almeida, “A knowledge-based approach to the iris segmentation
on Computer Vision and Pattern Recognition Workshops - CVPRW, problem,” Image and Vision Computing, vol. 28, no. 2, pp. 238 – 245,
2008, pp. 1–6. 2010.
[10] F. Jan, “Segmentation and localization schemes for non-ideal iris bio- [33] M. Haindl and M. Krupička, “Unsupervised detection of non-iris occlu-
metric systems,” Signal Processing, pp. 192–212, 2016. sions,” Pattern Recognition Letters, vol. 57, pp. 60 – 65, 2015, mobile
[11] G. Santos, E. Grancho, M. V. Bernardo, and P. T. Fiadeiro, “Fusing Iris CHallenge Evaluation part I (MICHE I).
iris and periocular information for cross-sensor recognition,” Pattern [34] M. Haindl, Visual Data Recognition and Modeling Based on Local
Recognition Letters, vol. 57, pp. 52 – 59, 2015, mobile Iris {CHallenge} Markovian Models. London: Springer, 2012, pp. 241–259.
Evaluation part I (MICHE I). [35] K. Simonyan and A. Zisserman, “Very deep convolutional networks for
[12] J. Daugman, “How iris recognition works,” IEEE Transactions on large-scale image recognition,” CoRR, vol. abs/1409.1556, 2014.
circuits and systems for video technology, vol. 14, no. 1, pp. 21–30, [36] H. Proenca and L. A. Alexandre, “The nice.i: Noisy iris challenge
2004. evaluation - part i,” in 2007 First IEEE International Conference on
[13] D. M. Rankin, B. W. Scotney, P. J. Morrow, D. R. McDowell, and Biometrics: Theory, Applications, and Systems, Sept 2007, pp. 1–4.
B. K. Pierscionek, “Dynamic iris biometry: a technique for enhanced [37] J. Fritsch, T. Kühnl, and A. Geiger, “A new performance measure and
identification,” Biology and Medicine Central Research Notes, vol. 3, evaluation benchmark for road detection algorithms,” in 16th Interna-
no. 1, pp. 1–7, 2010. tional IEEE Conference on Intelligent Transportation Systems (ITSC
[14] X. Liu, K. W. Bowyer, and P. J. Flynn, “Experiments with an improved 2013), Oct 2013, pp. 1693–1700.
iris segmentation algorithm,” in Workshop on Automatic Identification [38] F. Ge, S. Wang, and T. Liu, “Image-segmentation evaluation from the
Advanced Technologies (AutoID’05). IEEE, 2005, pp. 118–123. perspective of salient object extraction,” in 2006 IEEE Computer Society
[15] H. Proenca and L. A. Alexandre, “Iris segmentation methodology for Conference on Computer Vision and Pattern Recognition (CVPR’06),
non-cooperative recognition,” IEE Proceedings - Vision, Image and vol. 1, June 2006, pp. 1146–1153.
Signal Processing, vol. 153, no. 2, pp. 199–205, April 2006. [39] H. Proenca and L. A. Alexandre, UBIRIS: A Noisy Iris Image Database.
[16] P. Podder, T. Z. Khan, M. H. Khan, M. M. Rahman, R. Ahmed, and Berlin, Heidelberg: Springer, 2005, pp. 970–977.
M. S. Rahman, “An efficient iris segmentation model based on eyelids [40] H. Proenca, S. Filipe, R. Santos, J. Oliveira, and L. Alexandre, “The
and eyelashes detection in iris recognition system,” in International UBIRIS.v2: A database of visible wavelength images captured on-the-
Conference on Computer Communication and Informatics - ICCCI, move and at-a-distance,” IEEE Trans. PAMI, vol. 32, no. 8, pp. 1529–
2015, pp. 1–7. 1535, August 2010.
[17] D. F. Vera, D. M. Cadena, and J. M. RamÃrez, “Iris recognition algo- [41] J. Davis and M. Goadrich, “The relationship between precision-recall
rithm on beaglebone black,” in International Conference on Intelligent and roc curves,” in Proceedings of the 23rd International Conference
Data Acquisition and Advanced Computing Systems: Technology and on Machine Learning, ser. ICML ’06. New York, NY, USA: ACM,
Applications - IDAACS, vol. 1, Sept 2015, pp. 282–286. 2006, pp. 233–240.
[18] S. Shah and A. Ross, “Iris segmentation using geodesic active contours,”
IEEE Transactions on Information Forensics and Security, vol. 4, no. 4,
pp. 824–836, 2009.
[19] T. F. Chan and L. A. Vese, “Active contours without edges,” IEEE
Transactions on Image Processing - TIP, vol. 10, no. 2, pp. 266–277,
Feb 2001.
[20] Y. Bengio, A. Courville, and P. Vincent, “Representation learning: A re-
view and new perspectives,” Pattern Analysis and Machine Intelligence,
IEEE Transactions on, vol. 35, no. 8, 2013.
[21] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521,
no. 7553, pp. 436–444, 2015.
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✹✷
Abstract—Non Local Means (NLM) algorithm is one of the Compreendendo que existem padrões que se repetem por
state of the art denoising methods. Nevertheless, its toda imagem - como pixels que compõem um céu ou mar -, em
computational complexity becomes an obstacle to most [2] notou-se a necessidade de criar um método não-local que
applications. In this paper, we propose a new approach which filtrasse cada pixel utilizando a informação contida nos demais
aims to reduce processing time, without resorting to search ao longo de toda a imagem, atribuindo pesos de acordo com o
windows, thus preserving the non-local calculations that grau de semelhança entre eles. Desse modo, propôs-se o
characterize NLM. The proposed method uses K-means algoritmo Non Local Means (NLM), que foi o precursor de
clustering to group pixels with similar neighborhood in the outros algoritmos não-locais [3]. Para uma imagem ruidosa v =
Discrete Cosine Transform (DCT) domain. After this initial step,
{v(i) | i I}, a equação que define o funcionamento do
the NLM algorithm performs a cluster-based search.
Experimental results show that the approach achieves consistent
algoritmo sobre um pixel i pode ser descrita como
MAX
PSNR 20 log10 (2)
MSE
onde MAX é o valor máximo possível de um pixel numa
imagem e MSE (Mean Squared Error) é uma medida de
qualidade definida como:
1 m1 n1
MSE
mn i 0 j 0
|| I (i, j ) K (i, j ) || 2 (3)
alts para a imagens com de variância de ruído Gaussiano acima [6] H. Bhujle and S. Chaudhuri, “Accelerating non-local denoising with a
de 0.002; bem como resultados visuais semelhantes aos patch based dictionary”,in Proceedings of the Eighth Indian Conference
on Computer Vision, Graphics and Image Processing, 2012
encontrados com a filtragem através do NLM original.
[7] Y. Wu, B. Tracey, P. Natarajan and J. P. Noonan, "James–Stein Type
Center Pixel Weights for Non-Local Means Image Denoising," in IEEE
REFERENCES Signal Processing Letters, vol. 20, no. 4, pp. 411-414, April 2013.
[8] F. Tombari and L. Di Stefano, “Bounded Non-Local Means for Fast
and Effective Image Denoising”, in Image Analysis and Processing —
[1] P. Jain and V. Tyagi, “A survey of edge-preserving image denoising ICIAP 2015: 18th International Conference, Genoa, Italy, September 7-
methods”, Information Systems Frontiers, 1-12, 2014. 11, 2015, Proceedings, Part II, Italy, September 7-11, 2015.
[2] A. Buades, B. Coll and J. Morel, “On image denoising methods”, [9] M. Yang, J. Liang, J. Zhang, H. Gao, F. Meng, L. Xingdong and S.
Technical Note v. 5, CMLA, p.40, 2004 Song, “Non-local means theory based Perona–Malik model for image
[3] J. Salmon and Y. Strozecki, “From patches to pixels in Non-Local denosing”, Neurocomputing, Volume 120, November 2013.
methods: Weighted-average reprojection”, Image Processing (ICIP), [10] J. Peter and R. Ramya, “A novel adaptive Non Local Means for image
2010 17th IEEE International Conference on , vol., no., pp.1929,1932, de-noising”, Procedia Engineering, v. 38, p. 3278-3282, 2012.
2010
[11] J. Hu, Y. Pu, X. Wu, Y. Zhang and J. Zhou, “Improved DCT-Based
[4] A. Buades, B. Coll and J. Morel, “A Non-Local Algorithm for Image Nonlocal Means Filter for MR Images Denoising”, Computational and
Denoising”, Proc. IEEE Computer Society Conference on Computer Mathematical Methods in Medicine, 2012
Vision and Pattern Recognition, Vol.2, pp.60-65, 2005.
[12] R.C Gonzalez, R.E Woods. “Digital Image Processing”, 2nd ed., p. 160,
[5] K. Zhang, X. Gao, D. Tao and X. Li, "Single Image Super-Resolution Prentice Hall, 2002.
With Non-Local Means and Steering Kernel Regression," in IEEE
Transactions on Image Processing, vol. 21, no. 11, pp. 4544-4556, Nov. [13] A. Buades, B. Coll, J. Morel. “Non-Local Means Denoising”, Image
2012. Processing On Line, pp. 208–212, 2011.
✶✹✼ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
Abstract—Facial analysis is a very important area in the larga, óculos de sol, cabelo). O processo de localização de
computational view because it offers rich information related atributos faciais está associado a localização da face, uma vez
to the face. The analysis of this information can improve facial que a face não seja detectada a arquitetura responsável pelos
processing applications such as face detection and recognition
of physical characteristics of individuals, such as gender classi- atributos apresentará dificuldades em determinar a quantidade
fication in environments without restrictions. In this work, we correta de atributos presentes na imagem e suas respecti-
investigated a landmarks-free approach that uses only facial vas localizações, dificultando o processo de classificação de
parts (eyes, nose and mouth). We propose a new Convolutional gênero. Juntamente com o método proposto por Liu et al.
Neural Network (CNN) architecture denominated CNNFusion- [5], foi elaborado o conjunto de dados denominado CelebA
Gender that allows the execution of three CNNs in parallel to the
process of genre classification with a single facial part through the [5], que impulsionou o surgimento de novos métodos que
combination of features extracted from three facial parts (eyes, empregam Convolutional Neural Networks como solução do
nose and mouth) , A union made through the merger process problema de classificação de gênero, permitindo assim uma
between the intermediary layers of the CNNs. A state-of-the-art comparação mais abrangente.
face detector is applied to find the face and regions of the eyes, Zhang et al. [12] apresentam uma nova arquitetura de CNN
nose, and mouth prior to the classification process. We tested our
approach in two large datasets: CelebA and Faces of the World que realiza a representação da imagem de entrada em partes
available to the public. The results are compared with works e, ao mesmo tempo possibilita o alinhamento destas partes
considered state of the art in relation to gender classification facilitando o processo de classificação dos atributos. Esta
in uncontrolled environments. Our method presents competitive abordagem permite analisar várias partes da imagem e suas
results, even using only parts of the face instead of the entire respectivas poses individualmente, ao mesmo tempo que extrai
face.
as caracterı́sticas das mesmas. O diferencial deste método está
I. I NTROUCTION em que cada CNN é capaz de aprender uma caracterı́stica
especı́fica para uma determinada pose. A classificação final
Atributos e partes faciais são usados em várias aplicações, dos atributos é realizada por meio de um classificador SVM
tais como verificação de face [1], [2], identificação [3] e linear, que permite unir todas as caracterı́sticas extraı́das em
classificação de gênero [1], [4], [5]. A detecção destes atributos relação a cada pose, proporcionando assim a combinação de
e partes faciais a partir de imagens sem restrições (in the atributos (e.g. saia e cabelos longos) para realização de outras
wild) continuam sendo um desafio, principalmente, por causa tarefas, como o classificação de gênero.
da variação de poses, iluminação e oclusão presentes nos Recentemente, novos métodos que utilizam a abordagem
conjuntos de dados. de multitarefa foram aplicados, proporcionando um melhora-
No entanto, como tentativa de solucionar os desafios mento em relação a classificação de gênero. Ranjan et al. [14]
relacionados a imagens in the wild, abordagens que em- propuseram o HyperFace que executa simultaneamente várias
pregam landmarks foram aplicadas no processo automático de tarefas como: detecção da face, localização das landmarks,
detecção das partes faciais [6], [7], [8]. Contudo estes métodos estimativa da pose e reconhecimento de gênero. O método
apresentam limitações em relação a dependência da estimativa enfatiza a importância do conceito de multitarefa em CNNs e
correta das landmarks para o processo de detecção das regiões da técnica de fusão entre camadas intermediárias da arquitetura
da face. Assim, com o objetivo de solucionar as limitações de rede proposta. Em seu trabalho mais recente, Ranjan et al.
apresentadas com a utilização de landmarks ou de contornos, [11] aborda novamente o conceito de multitarefa, propondo
utilizamos o método considerado estado da arte na detecção de um novo framework de aprendizagem de multitarefas que
objetos genéricos proposto por Ren et al., denominado Faster permite a regularização dos parâmetros compartilhados pela
R-CNN [9], totalmente livre de landmarks. CNN. Similar ao HyperFace [14], também é aplicada a técnica
Na literatura, recentes trabalhos discutem abordagens de fusão entre a primeira, terceira e quinta camada da rede,
especı́ficas relacionadas à análise facial, dentre elas a permitindo que o treinamento das tarefas seja feito de forma
classificação de gênero em imagens in the wild [10], [11], [12], independente em relação as demais. O processo de fusão entre
[13], [14]. Nesse sentido, Liu et al. [5] propuseram um método as camadas é aplicado, pois uma vez que uma arquitetura de
de predição de atributos faciais em imagens sem restrições que uma CNN apresenta uma grande quantidade de feature maps, a
consiste no treinamento de duas CNNs simultaneamente, uma dimensão do vetor de caracterı́sticas é muito maior em relação
é responsável pela detecção da face e, a outra desempenha a a uma arquitetura com poucas camadas, impossibilitando
função de localização dos atributos (e.g. olhos pequenos, boca assim que o processo de aprendizagem de todas as tarefas
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✹✽
seja eficiente. Além disso, o processo de fusão visa combinar utilizadas para a realização dos experimentos e, os respectivos
as caracterı́sticas de um subespaço através de uma combinação resultados obtidos com a abordagem proposta. Por fim, a seção
linear ou não linear, atingindo um alto ı́ndice de acerto na etapa IV mostra uma breve discussão em relação aos resultados
de classificação de uma determinada aplicação, por exemplo, obtidos.
gênero.
Em Ehrlich et al. [10] apresentam uma nova abordagem II. CNNF USION -G ENDER
de aprendizagem para classificação de vários atributos faciais.
A representação das caracterı́sticas é feita através Restricted As Convolutional Neural Networks estabeleceram recente-
Boltzmann Machine (RBM) [15]. A etapa inicial do método mente, o estado da arte em diversas áreas da visão computa-
consiste na detecção das landmarks da face e da Principal cional [17], [18], [19], [20], [21], inclusive na solução de
Components Analysis (PCA). Após a obtenção das landmarks problemas relacionados a classificação de gênero [12], [13],
e PCA, os dados são enviados para o modelo Multi-Task Re- [14], [5], [10], [11]. Demonstrou-se eficiente na solução de
stricted Boltzmann Machine (MT-RBM) gerado com o auxı́lio problemas de classificação que exigem um número limitado
da RBM para classificação dos atributos. Uma desvantagem de classes (por exemplo, 2 classes), além disso outra van-
do método está relacionado com a geração do modelo de tagem presente nas CNNs está em relação a independência
classificação, pois caso as landmarks não sejam detectadas da necessidade de ter que definir explicitamente os descritores
corretamente o modelo apresentará inconsistência no processo utilizados para extração das caracterı́sticas.
de aprendizagem dos atributos. Portanto, com os benefı́cios apresentados pelas CNNs e para
Wang et al [13] propuseram um novo método de aprendiza- deixar a abordagem apresentada completamente automática,
gem relacionado a representação e classificação de atributos aplicou-se uma CNN de detecção automática da face e das
faciais através da utilização de informações de geolocalização, regiões faciais. Para esta finalidade, aplicou-se um detector
meteorológicas e contextuais de um determinado video, que estado da arte denominado Faster R-CNN [9] a fim de localizar
permitem determinar certos atributos de uma pessoa sem face e, em seguida os olhos, boca e nariz nas imagens de
a necessidade de uma anotação manual das caracterı́sticas. entrada antes de ser processada pela CNN de classificação.
A vantagem deste método está presente no processo de Nossa arquitetura proposta denominada CNNFusion-Gender
treinamento que não requer anotações de todos os atributos é composta por três CNNs, que possuem três camadas con-
presentes no vı́deo, o processo de aprendizagem encarrega-se volucionais, uma camada de concatenação (fusão), que realiza
de aprender automaticamente a representação de tais atributos a combinação das caracterı́sticas, seguida por três camadas
através da análise das informações contextuais presentes na totalmente conectadas. As Rectified Linear Units (ReLU) [22]
cena. são aplicadas após cada camada convolucional, essa camada
Liao et al. [16] propõem uma arquitetura de CNN simpli- aplica-se funções de ativação de não saturação. Essas funções
ficada, para o processo de estimativa de idade e classificação aumentam a não linearidade da função de decisão da rede, sem
de gênero através da extração das caracterı́sticas extraı́das de afetar os campos receptivos e, em seguida uma camada de pool
9 partes diferentes da face. Estas partes, abrangem as regiões responsável pela operação de down-sampling e uma camada
dos olhos, nariz e boca, sendo que a saı́da final corresponde de normalização estão presentes após a primeira e a segunda
o cálculo da média das predições referente a cada classe camada convolucional. Destaque-se que a nova arquitetura
em relação as nove partes recortas da face. Uma limitação proposta consiste em uma adaptação da rede utilizada por
apresenta no método proposto, está correlacionado a utilização Zavan et al. [23] no processo de estimativa da pose através do
do método de frontalização nas imagens face, aplicando assim, nariz.
a abordagem em apenas em imagens frontais. E por último aplicamos na camada de Loss, utilizada para
As principais contribuições apresentadas neste trabalho guiar o aprendizado, sendo a última camada da rede. Esta
são: a) uma abordagem automática, livre de landmarks para camada analisa durante o treinamento, o desvio entre a saı́da
classificação de gênero; b) uma nova arquitetura de CNN, e como a entrada foi classificada, sendo a expressão do erro da
que permite a fusão das caracterı́sticas das partes faciais, sem classificação, onde o objetivo é a maior minimização possı́vel.
que haja a necessidade da predição de atributos faciais para Existem diversas funções de Loss entre as mais utilizadas
resolver o problema de classificação de gênero; c) treinamento estão: (i) Softmax, (ii) Sigmoidal com cruzamento de entropia
de um único classificador, capaz de classificar um gênero e (iii) euclidiana. A função Softmax é utilizada para separar
apenas com a análise de uma parte especı́fica da face; d) uma classe de várias. A função Sigmoidal com cruzamento de
resultados competitivos, robustos e favoráveis com o estado entropia serve para prever vários valores probabilı́sticos de 0
da arte. a 1. Já a função euclidiana prevê valores infinitos e reais.
O restante deste trabalho está organizado da seguinte forma: Em nossa abordagem, aplicamos a cross-entropy loss ex-
a seção II descreve a nossa abordagem e a arquitetura de rede pressa pela equação (1), para medir o erro em uma camada
utilizada para realização dos experimentos de classificação de Softmax. O mesmo processo, foi aplicado nos trabalhos pro-
gênero, juntamente com a especificação da composição da postos por Rajan et al. [11], [14].
arquitetura, na secção III contém uma breve explicação do
funcionamento do detector utilizado, além das bases de dados LG = −(1 − g).log(1 − pg ) − g.log(pg ) (1)
✶✹✾ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
onde o g = 0 quando for masculino e 1 para feminino, pg 56x56 pixels, dimensão definida através dos bons resultados
é a probabilidade de que o atributo de entrada seja do gênero apresentados na Helen dataset [24]. Logo em seguida, realiza-
masculino ou feminino. se a extração das caracterı́sticas, processo realizado pelas
Para o processo de classificação de gênero executamos camadas convolucionais, que recebem como entrada a saı́da
paralelamente três CNNs com a mesma arquitetura, uma para da camada anterior, sendo que a única camada que não recebe
cada parte facial e realizamos a fusão de todos os feature informações das camadas anteriores é a primeira camada que
maps extraı́dos na terceira camada de cada rede. A quarta ca- tem como entrada as regiões dos olhos, boca e nariz). A
mada encarrega-se de efetuar concatenação das caracterı́sticas etapa seguinte realiza a fusão das caracterı́sticas extraı́das
extraı́das das partes da face (Figura 1), aumentando assim pela terceira camada, passando sua saı́da para as camadas
a eficiência do classificador gerado. Além desta arquitetura totalmente conectadas.
proposta que permite a fusão, utilizamos a arquitetura por A Figura 2 ilustra graficamente as etapas realizadas pela
Zavan et al [23], onde alterou-se as informações de entrada, nossa abordagem para classificação de gênero, através das
para que a rede recebesse as imagens das regiões faciais. Além partes faciais.
disso, a camada de fusão não foi adicionada a rede para que
pudéssemos realizar o treinamento individual de cada parte,
assim, foi possı́vel realizar uma comparação.
III. E XPERIMENTOS
A. Detecção das partes faciais
A Faster R-CNN [9] é o estado da arte na detecção de
objetos. Através da Region Proposal Networks (RPN), são
Fig. 1. Arquitetura da CNNFusion-Gender geradas regiões candidatas a partir da imagem de entrada da
face e das partes faciais. As regiões são avaliadas através
do score de confiabilidade fornecido pela métrica Intersec-
tion over-Union (IoU) [9], que permite calcular a interseção
simétrica entre o ground-truth da região correspondente ao
atributo com as coordenadas dos bounding boxes gerados das
regiões candidatas, selecionando assim as melhores regiões
para o treinamento.
Para avaliar individualmente o desempenho da Faster R-
CNN em relação a detecção das partes faciais, utilizou-se os
conjunto de dados Helen [24], CelebA dataset [5] e FotW
dataset [25]. A métrica do coeficiente de intersecção proposto
por Hoover et al. [26] foi aplicada para avaliar a taxa de
acurácia, resultados mostrados nas Tabela I. Já em relação ao
treinamento do detector da face, utilizamos as mesmas bases
utilizadas para treinar os detectores das partes faciais.
Tabela I exibe a taxa de detecção das partes faciais e da face
referente a cada conjunto de dados. A ordem de classificação
dos métodos estão conforme o valor da métrica F-score [27],
[28], que também é conhecida como F-measures.
TABLE I
TAXA DE ACUR ÁCIA DE DETECÇ ÃO DAS PARTES FACIAIS E DA FACE
O Algoritmo 1 descreve, passo a passo, todo o processo
realizado na fase de classificação de gênero. Em primeiro Dataset Olhos Nariz Boca Face
lugar a Faster R-CNN [9] é aplicada para detectar a região da 74.23% 90.19% 88.33% 96%
CelebA [5] 90.38% 93.71% 92.88% 96.60%
face, em seguida, a região correspondente a face é recortada e, FotW [25] 85.39% 91.10% 89.63% 90%
novamente a Faster R-CNN é aplicada sobre a face detectada
para que as partes faciais (olhos nariz e boca)s sejam detecta- Para efetivar a abordagem proposta, um comparativo foi
dos. A seguir, os tamanhos das partes são normalizados para realizado com o método utilizado na detecção das partes
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✺✵
faciais [9] no conjuntos de dados Helen com outros métodos TABLE III
estados da arte, onde o objetivo também consiste na detecção TAXA DE ACUR ÁCIA DE CLASSIFICAÇ ÃO DE G ÊNERO
das partes faciais, tais como olhos, nariz e boca. A Tabela II, CelebA Dataset Olhos Nariz Boca
exibe os resultados que estão organizados em ordem crescente NosePose [23] 92.45% 90.98% 91.65%
conforme a taxa de detecção das partes. CNNNFusion-gender 98.13% 97.90% 97.40%
TABLE II
R ESULTADOS COMPARATIVOS DA DETECÇ ÃO DE ATRIBUTOS FACIAIS NA Neste comprativo, a CNNFusion-Gender apresentou-se su-
BASE DE DADOS H ELEN perior em relação ao método proposto por [23]. Além disso,
outro comparativo foi realizado em relação a nossa abordagem
Métodos Olhos Nariz Boca
Zhu e Ramanan [6] 53.30% n/a 68.70% com outros métodos considerados estado da arte presentes na
Saragih et al.[29] 67.90% 89% 76.90% literatura, que visam também a classificação de gênero. A
Liu et al.[30] 77% 84.30% 74.20% Tabela IV destaca a comparação da CNNFusion-Gender com
Gu e Kanade [31] 74.30% 88.90% 78.90%
Smith et al.[8] 78.50% 92.20% 85.70% os demais métodos.
Faster R-CNN [9] 77.40% 93.47% 86.23%
TABLE IV
C LASSIFICAÇ ÃO DE G ÊNERO - C OMPARATIVO COM O M ÉTODOS ESTADO
Em geral, vemos que a Faster R-CNNN [9] compara-se DA ARTE )
favoravelmente com quase todos os trabalhos anteriores con-
siderados estado da arte sobre este conjunto de dados, exceto Métodos Gênero
quando comparamos a detecção dos olhos com a abordagem FaceTracker [32] 91%
Panda-1 [12] 97%
de Smith et al.[8]. Os métodos comparados visam a utilização Panda-w [12] 93%
das partes faciais para o alinhamento e reconstrução da face, Li and Zang [33]+ANet [5] 95%
objetivo contrário ao nosso que visa a classificação de gênero MT-RBM [10] 90%
Walk & Learn [13] 96%
imagens sem restrições. LNets+ANet [5] 98%
HyperFace [14] 97%
B. Classificação de gênero Rajanet al. [11] 99%
CNNFusion-Gender (Olhos) 98.13%
Para avaliar a performance da abordagem desenvolvida, CNNFusion-Gender (Nariz) 97.90%
utilizou-se dois conjuntos de dados adquiridos em ambientes CNNFusion-Gender (Boca) 97.40%
sem restrições (in the wild): Large-scale CelebFaces Attributes CNNFusion-Gender (Regra de Votação [34]) 98.34%
(CelebA) e Faces of the World (FotW). Os experimentos
foram conduzidos em duas fases distintas: a primeira avaliou Com base nos experimentos realizados na CelebA [5],
a classificação de gênero utilizando apenas classificadores comprovou-se também que a CNNFusion-Gender é eficiente
treinados com uma única parte facial separadamente, com para o processo de classificação de gênero utilizando apenas
a arquitetura proposta por Zavan et al. [23] e, a segunda uma única parte facial através da combinação de carac-
fase realizou a classificação com o classificador treinado a terı́sticas, e também obtém resultados satisfatórios em relação
partir da fusão das caracterı́sticas das partes faciais (olhos + aos outros métodos de classificação.
nariz + boca), utilizando a arquitetura apresentada na Figura Obteve-se resultados resultados superiores em relação a
1. Durante o processo de treinamento, apenas duas classes maioria dos métodos, quando comparado com a classificação
foram utilizadas em ambas as etapas, uma indicando o gênero realizada através dos olhos (98.13%) e com a aplicação da
masculino (0) e a outra o feminino (1). Todos os resultados regra de votação (98.34)%, exceto ao método proposto por
apresentados foram obtidos com a detecção automática da face Rajan et al. [11] que apresenta 99% de acerto.
e das regiões faciais. Ao analisar os resultados, os olhos demonstraram mais dis-
criminantes para o processo de classificação, quando analisado
C. CelebA dataset em relação a CelebA dataset. Durante a etapa de treinamento,
A Large-scale CelebFaces Attributes (CelebA) [5] é com- o olho esquerdo e direto foram treinados juntos, através da
posta por imagens de celebridades, cada uma contendo 40 união da regiões dos mesmos, passando assim a região total
atributos anotados manualmente (por exemplo. óculos de sol, como entrada na CNNFusion-Gender.
gênero). As imagens deste conjunto apresentam uma grande Além do comparativo em relação a classificação de
variação de pose e de fundo. A CelebA é formada por gênero, analisamos a performance da CNNFusion-Gender na
202.599 imagens de faces obtidas através de 10.177 indivı́duos classificação de um atributo especı́fico (gênero masculino)
diferentes e 5 anotações de landmarks. Este conjunto é divi- presente entre os 40 atributos anotados da CelebA dataset. A
dido em três subconjuntos: treinamento (162.770 imagens), Tabela V exibe o comparativo entre os métodos estado da arte
validação (19.867 imagens) e teste (19.962 imagens). Para utilizados para classificação de gênero masculino na CelebA
os experimentos juntamos os subconjuntos de treinamento dataset.
e de validação, formando assim, um novo subconjunto de Ao comparar a abordagem proposta obteve-se resultados
treinamento. A Tabela III ilustra um comparativo entre a inferiores apenas em relação ao método Liu et al. [5], quando
arquitetura proposta e o método proposto por [23]. comparados com olhos, boca e nariz. No entanto, ao comparar
✶✺✶ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
[10] M. Ehrlich, T. J. Shields, T. Almaev, and M. R. Amer, “Facial attributes [31] L. Gu and T. Kanade, “A generative shape regularization model for
classification using multi-task representation learning,” in Proceedings robust face alignment,” in European Conference on Computer Vision.
of the IEEE Conference on Computer Vision and Pattern Recognition Springer, 2008, pp. 413–426.
Workshops, 2016, pp. 47–55. [32] N. Kumar, P. Belhumeur, and S. Nayar, “Facetracer: A search engine
[11] R. Ranjan, S. Sankaranarayanan, C. D. Castillo, and R. Chellappa, “An for large collections of images with faces,” in European conference on
all-in-one convolutional neural network for face analysis,” arXiv preprint computer vision. Springer, 2008, pp. 340–353.
arXiv:1611.00851, 2016. [33] J. Li and Y. Zhang, “Learning surf cascade for fast and accurate object
[12] N. Zhang, M. Paluri, M. Ranzato, T. Darrell, and L. Bourdev, “Panda: detection,” in Proceedings of the IEEE Conference on Computer Vision
Pose aligned networks for deep attribute modeling,” in Proceedings and Pattern Recognition, 2013, pp. 3468–3475.
of the IEEE Conference on Computer Vision and Pattern Recognition, [34] J. Kittler, M. Hatef, R. P. Duin, and J. Matas, “On combining classifiers,”
2014, pp. 1637–1644. IEEE transactions on pattern analysis and machine intelligence, vol. 20,
[13] J. Wang, Y. Cheng, and R. S. Feris, “Walk and learn: Facial attribute no. 3, pp. 226–239, 1998.
representation learning from egocentric video and contextual data,” arXiv [35] M. Uřičář, R. Timofte, R. Rothe, J. Matas, and L. Van Gool, “Structured
preprint arXiv:1604.06433, 2016. output svm prediction of apparent age, gender and smile from deep
features,” 2016.
[14] R. Ranjan, V. M. Patel, and R. Chellappa, “Hyperface: A deep multi-
[36] C. Li, Q. Kang, G. Ge, Q. Song, H. Lu, and J. Cheng, “Deepbe: Learning
task learning framework for face detection, landmark localization, pose
deep binary encoding for multi-label classification,” in Proceedings of
estimation, and gender recognition,” arXiv preprint arXiv:1603.01249,
the IEEE Conference on Computer Vision and Pattern Recognition
2016.
Workshops, 2016, pp. 39–46.
[15] G. E. Hinton, S. Osindero, and Y.-W. Teh, “A fast learning algorithm for [37] K. Zhang, L. Tan, Z. Li, and Y. Qiao, “Gender and smile classification
deep belief nets,” Neural computation, vol. 18, no. 7, pp. 1527–1554, using deep convolutional neural networks,” in Proceedings of the IEEE
2006. Conference on Computer Vision and Pattern Recognition Workshops,
[16] Z. Liao, S. Petridis, and M. Pantic, “Local deep neural networks for age 2016, pp. 34–38.
and gender classification,” arXiv preprint arXiv:1703.08497, 2017.
[17] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf, “Deepface: Closing
the gap to human-level performance in face verification,” in Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition,
2014, pp. 1701–1708.
[18] R. Girshick, “Fast r-cnn,” in Proceedings of the IEEE International
Conference on Computer Vision, 2015, pp. 1440–1448.
[19] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma,
Z. Huang, A. Karpathy, A. Khosla, M. Bernstein et al., “Imagenet large
scale visual recognition challenge,” International Journal of Computer
Vision, vol. 115, no. 3, pp. 211–252, 2015.
[20] G. Hu, Y. Yang, D. Yi, J. Kittler, W. Christmas, S. Z. Li, and
T. Hospedales, “When face recognition meets with deep learning: an
evaluation of convolutional neural networks for face recognition,” in
Proceedings of the IEEE International Conference on Computer Vision
Workshops, 2015, pp. 142–150.
[21] G. Levi and T. Hassner, “Age and gender classification using convo-
lutional neural networks,” in Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition Workshops, 2015, pp. 34–42.
[22] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltz-
mann machines,” in Proceedings of the 27th International Conference
on Machine Learning (ICML-10), 2010, pp. 807–814.
[23] F. H. Zavan, A. C. Nascimento, O. R. Bellon, and L. Silva, “Nosepose:
a competitive, landmark-free methodology for head pose estimation in
the wild.”
[24] V. Le, J. Brandt, Z. Lin, L. Bourdev, and T. S. Huang, “Interactive
facial feature localization,” in European Conference on Computer Vision.
Springer, 2012, pp. 679–692.
[25] S. Escalera, M. Torres Torres, B. Martinez, X. Baró, H. Jair Escalante,
I. Guyon, G. Tzimiropoulos, C. Corneou, M. Oliu, M. Ali Bagheri
et al., “Chalearn looking at people and faces of the world: Face analysis
workshop and challenge 2016,” in Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition Workshops, 2016, pp. 1–8.
[26] A. Hoover, G. Jean-Baptiste, X. Jiang, P. J. Flynn, H. Bunke, D. B.
Goldgof, K. Bowyer, D. W. Eggert, A. Fitzgibbon, and R. B. Fisher,
“An experimental comparison of range image segmentation algorithms,”
IEEE transactions on pattern analysis and machine intelligence, vol. 18,
no. 7, pp. 673–689, 1996.
[27] C. Goutte and E. Gaussier, “A probabilistic interpretation of precision,
recall and f-score, with implication for evaluation,” in European Con-
ference on Information Retrieval. Springer, 2005, pp. 345–359.
[28] M. Sokolova and G. Lapalme, “A systematic analysis of performance
measures for classification tasks,” Information Processing & Manage-
ment, vol. 45, no. 4, pp. 427–437, 2009.
[29] J. M. Saragih, S. Lucey, and J. F. Cohn, “Face alignment through-
subspace constrained mean-shifts,” in 2009 IEEE 12th International
Conference on Computer Vision. IEEE, 2009, pp. 1034–1041.
[30] C. Liu, J. Yuen, and A. Torralba, “Nonparametric scene parsing via
label transfer,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 33, no. 12, pp. 2368–2382, 2011.
✶✺✸ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
I. I NTRODUÇ ÃO
A leucemia linfoide aguda (LLA) é um tipo maligno de Fig. 1: Exemplo de imagem de análise microscópica. Fonte:
câncer que ataca as células brancas do sangue (leucócitos), [2].
mais especificamente a linhagem dos linfócitos, fazendo com
que apenas células pertencentes a esta linhagem não maturem
da forma correta e passem a se multiplicar de forma desor-
denada comprometendo o sistema imunológico do paciente. sobre um determinado problema [3], no contexto referente ao
A LLA é o tipo mais comum de câncer a se manifestar na diagnóstico de LLA podem ser elaborados sistemas CAD que
infância, porém quando diagnosticada e tratada precocemente a partir de imagens de lâminas examinadas pelo patologista
90% das crianças atingem o estado de remissão, no entanto classifique-as como positivo ou negativo para LLA. A visão
quando manifestada em adultos o prognóstico não é favorável, computacional é o estudo que se dedica a extrair informações
uma vez que apenas 50% dos pacientes pertencentes a este de imagens, com o objetivo de descrever de maneira clara os
grupo chegam ao estado de remissão segundo a Associação objetos que a compõem [4], informações estas que podem ser
Brasileira de Linfoma e Leucemia (ABRALE) [1]. Por ser usadas para diferentes propósitos, como classificar ou identi-
uma leucemia do tipo aguda a LLA apresenta uma rápida ficar a existência de um objeto especı́fico em uma imagem.
evolução em seu quadro clı́nico, justificando a necessidade de Este trabalho propõe um sistema de visão computacional
um diagnostico rápido e confiável. capaz de segmentar, extrair de caracterı́sticas e classificar de
O diagnóstico de LLA normalmente é feito por por um imagens contendo células brancas do sangue como portadoras
médico patologista com base na análise microscópica de uma ou não de LLA, a partir da aplicação de técnicas de processa-
amostra de medula óssea ou sangue periférico, onde após mento digital de imagens e aprendizagem de máquina.
a aplicação de um contraste que destaca os leucócitos das
demais células presentes no sangue é verificada a incidência
II. R EVIS ÃO BIBLIOGR ÁFICA
e a maturidade dos linfócitos presentes na lâmina. Por ser
um processo cansativo que depende exclusivamente da opinião O trabalho proposto por [?] tem o objetivo de segmen-
de um especialista é importante prover ferramentas que pos- tar leucócitos existentes em imagens pertencentes a base
sam auxiliá-lo, fazendo com que os diagnósticos possam ser ALL IDB2, este trabalho apresentou eficiência ao se tra-
concluı́dos mais rapidamente. A figura 1 mostra uma lâmina balhar com diferentes modelos de cores para segmentação
contendo uma amostra de sangue periférico analisada para dos leucócitos, abordagem essa que pode ser vista em out-
diagnóstico de LLA. ros trabalhos relacionados ao mesmo tema. A proposta de
Sistemas de auxı́lio ao diagnóstico (CAD) são projetados segmentação trabalha com o canal Hue, do modelo HSV, e uma
com o propósito de gerar uma segunda opinião ao médico imagem em tons de cinza obtida a partir de uma imagem RGB
❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧ ✶✺✹
apresentaram melhor poder de discriminação entre leucócitos Classificador Acurácia média Desvio Padrão
saudáveis e portadores de LLA. Por fim os valores foram MLP 0,940 0,018
normalizados utilizando o método z-score. LDA 0,938 0,022
SVM 0,933 0,019
Perceptron 0,909 0,041
TABLE I: Caracterı́sticas GLCM KNN 0,656 0,074
Caracterı́stica Descrição
f1 Segundo momento angular
Pode-se observar que com exceção do classificador KNN
f2 Contraste todos os outros obtiveram resultados acima de 0,90 de acurácia
f3 Correlação média. Sendo que os três melhores foram LDA, SVM e MLP
f4 Soma dos quadrados: variância
f5 Momento de diferença inversa
todos com mais de 0,93 de acurácia. Isso mostra que as car-
f6 Somatório da média acterı́sticas utilizadas foram, em sua maioria, discriminantes.
f7 Somatório da variância
f8 Somatório da entropia
f9 Entropia C. Combinação de classificadores
f10 Diferença da variância
f11 Diferença da entropia Foram testadas as técnicas de combinação de classificadores
f12 Informação de medidas de correlação 1
f13 Informação de medidas de correlação 2 por meio de voto, soma e produto. Os classificadores MLP,
SVM e LDA foram utilizados para testar as técnicas de
combinação, a tabela IV apresenta os resultados obtidos na
IV. R ESULTADOS E D ISCUSS ÃO combinação dessas três técnicas que tiveram os melhores
resultados isoladas.
A. Segmentação
A grande dificuldade enfrentada durante a etapa de TABLE IV: Combinação de Classificadores (%)
segmentação foi a existência de diferentes padrões de
iluminação encontrados na base de imagens utilizada, porém Método de combinação Acurácia média Desvio Padrão
podemos afirmar a eficiência pipeline proposto em lidar com
Soma 0,946 0,022
este problema uma vez que 234 das 260 imagens existentes na
Produto 0,945 0,062
base foram segmentadas sem perda de informações. Podemos
Voto 0,943 0,022
fazer um comparativo entre o trabalho aqui proposto com o
trabalho desenvolvido por [9], onde os autores conseguiram A combinação dos classificadores apresentou os melhores
segmentar corretamente 98% das imagens testadas, porém resultados, onde em todos os casos se saı́ram melhor do que
foram testadas apenas 130 imagens das 260 presentes na base. a utilização de classificadores individuais.
B. Classificação D. Ensembles
Foram testados os classificadores K Nearest Neighbors Foram testados os algoritmos de ensembles Random Forest,
(KNN), Perceptron, Linear Discriminant Analysis (LDA), Bagging e AdaBoost, também utilizando 60% da base para
Multilayer Perceptron (MLP) e Support Vector Machines treinamento e 40% para teste, divididos aleatoriamente em
(SVM), utilizando os parâmetros listados na tabela II, mil iterações. A tabela V mostra o resultado dos algoritmos
parâmetros estes que foram escolhidos mediantes a diversos ensembles testados.
testes.
TABLE V: Acurácia Média Ensembles (%)
TABLE II: Parâmetros alterados Ensemble Acurácia média Desvio Padrão
Classificador Parâmetros Bagging 0,937 0,022
MLP solver = adam, hidden layer sizes = (10, AdaBoost 0,926 0,024
10), activation = identity, max iter = 1000 Random Forest 0,906 0,029
LDA solver = svd O melhor caso dos Ensembles foi o algoritmo Bagging que
SVM kernel = linear, C = 25.0 alcançou 0,937 de acerto. Se comparado com os três melhores
Perceptron n iter = 500, penality = elasticnet classificadores isolados o Bagging foi superior somente ao
KNN K=5 SVM que obteve 0,933, não melhorando dessa forma o melhor
resultado obtido anteriormente.
As 234 imagens segmentadas corretamente foram divididas
aleatoriamente em dois grupos, 60% para treinamento e 40%
para teste, a tabela III mostra a acurácia média apresentado V. C ONCLUS ÃO
por cada um dos classificadores após mil iterações. O trabalho desenvolvido apresenta uma taxa de acurácia
na classificação de imagens compatı́vel com os melhores
TABLE III: Acurácia Média dos Classificadores (%) trabalhos relacionados a base de imagens ALL IDB2. Pode-
mos fazer um comparativo direto com o trabalho Leukocytes
✶✺✼ ❆♥❛✐s ❞♦ ❳■■■ ❲♦r❦s❤♦♣ ❞❡ ❱✐sã♦ ❈♦♠♣✉t❛❝✐♦♥❛❧
R EFERENCES
[1] Dr. Guilherme Perini, “Leucemia Linfoide Aguda - LLA,”
http://www.abrale.org.br/lla/o-que-e, 2016, online; accessed 28
July 2017.
[2] R. D. Labati, “All-idb: The acute lymphoblastic leukemia image
database for image processing,” 2011.
[3] J. Capobianco1, D. Jasinowodolinski, and G. Szarf, “Detection of pul-
monary nodules by computer-aided diagnosis in multidetector computed
tomography: preliminary study of 24 cases,” 2008.
[4] D. H. Ballard and C. M. Brown, Computer Vision, 1st ed. Prentice
Hall, 1982.
[5] S. Selvaraj and B. Kanakaraj, “Naive bayesian classifier for acute
lymphocytic leukemia detection,” 2015.
[6] L. F. Rodrigues, J. H. Silva, P. H. C. C. Gondim, and J. F. Mari,
“Leukocytes classification in microscopy images for acute lymphoblas-
tic leukemia identification,” 2016.
[7] N. Otsu, “A threshold selection method from gray-level histograms,”
1979.
[8] R. M. Haralick, I. Dinstein, and K. Shanmugam, “Textural features
for image classification,” Ieee Transactions On Systems Man And
Cybernetics, vol. 3, no. 6, pp. 610–621, 1973. [Online]. Available:
http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnumber=4309314
[9] Y. Li, R. Zhu, L. Mi, Y. Cao, and D. Yao, “Segmentation of white blood
cell from acute lymphoblastic leukemia images using dual-threshold
method,” Ieee Transactions On Systems Man And Cybernetics, 2016.
[Online]. Available: http://dx.doi.org/10.1155/2016/9514707
[10] R. C. Gonzales and R. E. Woods, Processamento digital de imagens,
3rd ed. Pearson, 2010.
[11] K. Faceli, Inteligência Artificial:Uma Abordagem de Aprendizagem de
Máquina, 1st ed. LTC, 2011.
[12] M. G. Farias and S. M. de Castro, “Diagnóstico laboratonal das
leucemias linfóides agudas.” 2004.
[13] C. Cortes and V. Vapnik, “Support-vector networks,” 1995.