Академический Документы
Профессиональный Документы
Культура Документы
REMERCIEMENTS
Je tiens à remercier sincèrement monsieur Alain BOUCHER, mon superviseur, qui m'a aidé de
finir mon travail d'intérêt personnel encadré.
J’adresse mes sincères remerciements à mademoiselle LE Thi Lan qui m'a donné des conseils
sur la bibliothèque LTI-Lib.
Je tiens à remercier chaleureusement tous les professeurs ainsi que tous mes camarades à l'IFI
qui m'ont donné une bonne environnement scientifique.
Enfin je remercie mes parents, mon frère, pour leur soutien et leur confiance tout au long de
cette épreuve.
Hanoi, le 29 janvier 2007
DO Minh Chau
-- 1 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
-- 2 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
1. Introduction
-- 3 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
2. Segmentation d'images
Un bon résultat de segmentation ne permet pas forcément une bonne interprétation, mais nous
ne pouvons pas obtenir une bonne interprétation à partir d'un mauvais résultat de segmentation. C'est
pourquoi une définition de la segmentation est vraiment indispensable. Cependant, la segmentation
d'images n'a pas de définition officielle. Elle peut être définie ainsi : « La segmentation est un
traitement de bas niveau qui consiste à créer une partition de l'image A en sous-ensembles Ri, appelés
régions tels qu'aucune région ne soit vide, l'intersection entre deux région soit vide et l'ensemble des
régions recouvre toute l'image. Une région est un ensemble de pixels connexes ayant des propriétés
communes qui les différencient des pixels des régions voisines ». Il y a certaines autres définitions
similaires que nous pouvons trouver dans divers autres articles. Le but de la segmentation est
d'extraire les entités d'une image pour y appliquer un traitement spécifique et interpréter le contenu de
l'image. La segmentation est normalement basée sur les discontinuités (les arêtes, les changements
abruptes, etc.), les similitudes (intensités, couleurs, textures, etc.). La segmentation est donc le
découpage d'une image en différentes régions et/ou frontières. Il existe une dualité entre régions et
frontières : une région est délimitée par un contour, un contour sépare deux régions. À partir d'un
résultat de segmentation en régions, nous pouvons obtenir un résultat de détection de frontières.
Nous voyons que la segmentation seule ne peut pas trouver tous les composants de l'image tel
que nous les interprétons. Gestalt a proposé une approche humaine de la segmentation qui s'inspire de
la psychologie et de l'observation de l'humain et de son environnement. Selon cette approche, nous
regroupons les objets ou les courbes de l'image à partir de ses informations : la proximité, la
similarité, la tendance commune, la région commune, la parallélisme, la fermeture, la symétrie, la
continuité et la configuration familière. Malgré certains essais, cette approche reste surtout théorique.
Concernant la segmentation d'images, il y a toujours des difficultés à cause de la complexité des
images naturelles et de la définition du niveau de précision du résultat.
À ce jour, il existe de nombreuses méthodes de segmentation d'images que l'on peut regrouper
en quatre principales classes d'algorithmes 1:
Segmentation basée sur les régions (region-based segmentation). On y trouve par exemple
la croissance de région (region-growing), décomposition/fusion (split and merge).
Segmentation basée sur les contours (edge-based segmentation).
Segmentation basée sur une approche globale de l'image, par exemple : seuillage
(thresholding), histogramme, approches basées sur le nuage couleur.
Segmentation basée sur la coopération entre les trois premières segmentations.
J'utilise trois algorithmes de segmentation d'images pour mon TIPE : MeanShift, KMeans,
Watershed. L'objectif final est d'assigner un numéro (aussi appelé label ou étiquette) à chaque région;
chacun de ces numéros est associé à une couleur ou à un niveau de gris, ce qui permet de construire
une carte des régions représentant visuellement le découpage en régions de l'image. Un objet peut
ensuite être défini comme un ensemble de régions. Comme la sortie est une image en niveau de gris et
chaque région possède un numéro unique, le nombre de régions est limité. Plus précisément, le
nombre de régions maximal pour une carte des régions est de 256 car les étiquettes sont entre 0 et
255.
1 http://fr.wikipedia.org/wiki/Segmentation_d%27image
-- 4 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
3. Évaluation de la segmentation
De nombreux critères d'évaluation d'un résultat de segmentation d'images ont été proposés. Ces
critères d'évaluation peuvent être divisés en deux catégories principales : critères d'évaluation
supervisée et critères d'évaluation non supervisée. L'objectif principal d'un critère d'évaluation est
d'être capable de comparer de différents résultats de segmentation afin de trouver la meilleure
segmentation.
MeanShift
-- 5 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Concernant la détection de frontières, trois mesures d'erreur qui donnent des indices globaux sur
la qualité d'un résultat ont été abordées : l'erreur de sur-détection, l'erreur de sous-détection et l'erreur
de localisation. Nous considérons qu'un résultat de détection est bon si ces trois erreurs sont petites.
L'erreur de sur détection est définie comme suit :
card I F −card I F ∩I Ref
ERR SUR I F , I Ref =
card I −card I Ref
-- 6 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Nous pouvons évidemment calculer la divergence selon l'erreur quadratique moyenne de l'image
segmentée par rapport à la vérité terrain. Les distances L(q), qui sont des versions étendues de cette
mesure, nous donnent plusieurs critères en choisissant différentes valeurs q.
1
1
D L q I 1 , I 2= ∑
card X i , j ∈ X
∣g I i , j−g I i , j∣
1
q
2
q
Ces distances L(q) et quelques autres distances suivantes (les distances de Küllback, de
Bhattacharyya et de Jensen) ne sont pas précises parce qu'elles mesurent la divergence entre deux
images en basant seulement sur des intensités sans aucune information spatiale.
D KUL=
1
∑
card X i , j ∈ X
g I i , j−g I i , jlog
1
g I i , j
g I i , j
2
1
2
La distance de Bhattacharyya est définie comme suit :
D BHA I 1, I 2=−log
1
∑
card X i , j∈ X g I i , j x g I i , j
1 2
La distance de Jensen est calculée comme suit :
D GEN I 1, I 2 =J I 1 I 2
2
, I1
H I 1 H I 2
où J I 1, I 2 = H I 1 x I 2 −
2
1
∑
avec H I 1 = log 2 g I i , j , 3 ∈ℕ
1− i , j ∈ I 1
1
-- 7 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Quelques autres critères tels que le critère de Hausdorff, le critère de Baddeley mesurent la
distance spatiale entre deux cartes de frontières. Cette distance signifie que tous les pixels d'une carte
sont à une distance inférieure à cette distance de quelques pixels de l'autre carte.
où d x , I =min
y ∈I
d x , y
1
1
D 2BAD I F1 , I F2 = ∑ ∣d i , j , I F1 −d i , j , I F2 ∣p
card X i , j ∈ I ∪ I
p
F1 F2
Les critères de Pratt, de Straster et Gerbrands, et de Peli et Malah nous donnent des mesures de
divergence à partir de la somme des erreurs (la distance entre deux cartes de frontières) et le nombre
de pixels des frontières.
1
STR(IF, Iref)= CI ∑ 1 d 2 I Cont k , I Cont , si C I F/ Ref
0
F /Ref
k=1 F Ref
1 , si C I F/ Ref
=0
Cont Cont Cont
où C I F/Ref
=card I F – card I F ∩ I Ref
-- 8 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Les deux critères (l'un signifie la moyenne de l'erreur, l'autre signifie la variance de l'erreur de
détection) de Peli et Malah sont les suivants :
card I F
1
PEL1 I F , I Ref =
card I F
∑ d I Cont Cont
F k , I Ref
k=1
card I F
1
PEL2 I F , I Ref =
card I F
∑ 2 Cont Cont
d I F k , I Ref
k =1
Quatre mesures de divergence (ODIn, ODPn, UDIn, UDPn) sont proposées par C. Odet pour
évaluer différents niveaux d'erreur de résultats de segmentation binaires :
No n
1 d k
ODI n = ∗∑ o
No k=1 d TH
∑
No n
1 d o k
ODP n= ∗ ∗signd o k
No k =1 d TH
∑
No n
1 d u k
UDI n= ∗
Nu k =1 d TH
∑
No n
1 d u k
UDP n= ∗ ∗sign d u k
Nu k=1 d TH
où
Cont Cont Cont
No = card I F − card I F ∩I Ref
Cont Cont
Nu = card I Refont − card I F ∩I Ref
Cont Cont
do(k) correspond à la distance entre le pixel I F k et le plus proche de I Ref
n'appartenant pas à I Cont
F
Correia et Pereira propose une évaluation spatiale qui coordonne les quatre caractéristiques : la
fidélité de forme, la similarité géométrique, la similarité du contenu des frontières et la similarité
statistique des données. Chaque caractéristique est donnée un poids :
COR = ∗ forme ∗géom ∗ frontière ∗statistic
-- 9 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
∑ M ik −M kk
1 i=1
ERR YAS k =100 x n
∑ M ik
i=1
n
∑ M ki−M kk
ERR 2YAS k =100 x i=1
n n n
∑ ∑ M ij−∑ M ik
j=1 i=1 i =1
Ces deux critères rendent compte classe par classe des erreurs de classification, mais les
informations spatiales sur les pixels mal classés ne sont pas abordées. Sa troisième version donne un
taux d'erreur pour des pixels mal classés qui est proportionnel à la distance entre chaque pixel et le
plus proche pixel de la classe à laquelle il aurait dû être affecté. Ce critère ne donne pas une mesure
très fiable parce qu'une distance d'erreur peut être donnée par plusieurs configurations :
100
ERR 3YAS I R , I Ref =
card I R
x
∑ min d a , b
a∈ I R ,a ∉ Ra b ∈R a
Le critère proposé par Vinet est facile à appliquer mais il ne prend pas en compte toute
l'information. D'abord, on doit créer une table de superposition dont chaque cellule représente la
correspondance entre une classe du résultat et une classe de la vérité terrain. Puis, on recherche les
classes appariées de manière récursive pour trouver un ensemble de cellules sélectionnées. Enfin, le
résultat du critère est la soustraction entre le nombre de pixels de l'image originale et ceux qui sont
représentés par les cellules sélectionnées. Plus clairement, la table de superposition est définie comme
suit :
T I L , I L =[ card Li ∩L Ref
Ref
j ,i=1. . NL , j=1. . NLRef ]
Ref
où card L i∩L j est le nombre de pixels étiquetés i dans L en correspondance avec les
pixels j dans Lref.
-- 10 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
En ce qui concerne l'évaluation supervisée avec vérité terrain synthétique, le critère de Pratt
donne la meilleure performance dans le cas de l'évaluation de résultat de détection de frontières,
tandis que le critère de Vinet est le meilleur dans le cas de l'évaluation de résultat de segmentation en
classes. L'avantage principal de ces critères est de permettre de comparer plus précisément un résultat
de segmentation à une vérité terrain, puisque nous connaissons toute l'information des images
synthétiques. L'inconvénient majeur de ces critères est le besoin de beaucoup d'images pour tester afin
d'obtenir une évaluation fiable.
-- 11 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
D'abord, il faut classer les frontières d'un résultat de segmentation en frontières en deux types :
les frontières séparant deux objets de la scène et les lignes traversant un objet. Puis, nous devons
définir une caractéristique ou un attribut (par exemple : le niveau de gris, un calcul d'attribut de
texture) dont on calcule la moyenne sur une région. Enfin, nous calculons le contraste de part et
d'autre de chaque frontière et le gradient moyen le long de chaque ligne. De plus, Levine et Nazif
définissent un indice de connexité des frontières pour mesurer les frontières manquantes selon le
nombre de pixels et d'extrémités de chaque ligne.
Trois autres critères de Levine et Nazif :
G
LEV6 l i =
max a x − min a x
x∈{ Rk ∈W li } x∈ { Rk ∈W l i }
∑ wi x hl i
li ∈ I F
LEV7 I F =
∑ wi
li ∈ I F
∑ card l i x t li
l i ∈I F
LEV8 I F =
2 x ∑ card l i
l i∈ I F
Tan, Gelfand et Delp a proposé une fonction de coût qui est une somme des coûts locaux de tous
les pixels de la carte de frontières. Chaque pixel possède cinq facteurs coût locaux (dissimilarité,
courbure, nombre de pixels frontière, fragmentation, minceur). Chaque facteur est donné
arbitrairement un poids fixé.
-- 12 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
trois conditions en basant sur le nombre de pixels de l'image originale, le nombre de régions de
l'image résultat, le nombre de pixels de chaque région, les sommes des distances euclidiennes entre
les vecteurs couleurs des pixels de chaque région et le vecteur couleur attribué correspondant dans
l'image segmentée.
Soit e 2k correspond à la somme des distances euclidiennes entre les vecteurs couleur des pixels
de la région Rk et le vecteur attribué à la région Rk dans l'image segmentée :
e 2k = ∑ g I i , j− gI Rk 2
i , j ∈ Rk
où
∑ g I i , j
i , j ∈R k
gI Rk =
card R k
Plus la valeur du critère est petite, meilleur est supposé être le résultat de segmentation.
Observez que pour n'importe quelle segmentation I dont l'erreur de couleur est zéro pour toutes les
régions (c'est à dire qu'il n'y a aucun variance en couleurs dans chaque région), la valeur de LIU(IR)
est égale à 0 et par conséquent une segmentation qui considère chaque pixel comme une région
réduira au minimum la valeur de LIU. Supposez que nous avons une image complexe dans laquelle
tout ne peut pas être zéro, excepté la segmentation dont chaque pixel est une région. LIU a toujours
deux forts aspects : les segmentations contenant un grand nombre de régions sont fortement
pénalisées par NR , et les segmentations qui ont de grandes régions sont fortement pénalisées à
moins que les grandes régions soient très uniformes en couleurs.
Borsotti, Campadelli et Schettini, et puis Hui Zhang, Jason E. Fritts et Sally A. Goldman ont
modifié ce critère pour obtenir deux meilleurs critères.
Soit χ card R k correspond au nombre de région ayant une aire égale à card(Rk).
La valeur d'évaluation de Borsotti pour une région R de l'image originale I est la suivante :
[ ]
2
NR
NR
e 2k χ card Rk
BOR I R =
10 4 x card I k =1
∑ 1log card Rk
card Rk
L'idée principale de Borsotti est de combiner deux composants : le premier pénalise les régions
non homogènes (les régions deviennent moins homogènes quand le nombre de régions diminue),
alors que le second pénalise les régions dont l'aire est égale à beaucoup d'autres régions (quand le
nombre de régions est grand, normalement il y a beaucoup de régions dont l'aire est égale à celles de
beaucoup d'autres régions).
-- 13 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Huizhang, Jason E. Fritts et Sally A. Goldman souhaite améliorer le critère de Borsotti. Ils ont
proposé de nouvelles entropies pour l'évaluation de résultat de segmentation d'images. Selon eux, une
bonne évaluation de segmentation doit maximiser l'uniformité des pixels dans chaque région
segmentée et minimiser l'uniformité entre des régions adjacentes. Une entropie, qui est une mesure de
désordre d'une région, est donc une caractéristique naturelle pour incorporer dans une méthode
d'évaluation.
L'entropie de région désirée (expected region entropy) de l'image segmentée IR est la suivante :
NR
card R k
H r I R =∑ H Rk
k=1 card I R
Cette entropie est utilisée comme une mesure pour l'uniformité dans les région de l'image
segmentée IR. Si luminance de chaque région est très uniforme, la valeur de Hr(IR) sera petite. Quand
tous les pixels dans une région ont la même valeur, l'entropie pour la région est égale à 0. Comme une
image sur-segmentée a une très petite entropie de région désirée, il faut combiner cette entropie avec
un autre facteur qui pénalise des segmentations ayant un grand nombre de régions. Huizhang a
proposé l'entropie de disposition (layout entropy) qui est définie comme suit :
NR
card Rk card Rk
H l I R=−∑ log
k =1 card I R card I R
Selon Huizhang, cette mesure est meilleur que celle de Borsotti. Elle n'est pas minimisée quand
l'image est segmentée comme un pixel pour chaque région car dans ce cas, l'entropie de disposition
devient très grande. De plus, cette mesure n'appuie pas des segmentations ayant peu de régions car
dans ce cas, l'entropie de région désirée sera très grande. Le critère peut donc balancer ces deux coûts.
Cependant, en réalité, ce critère n'est pas encore bien appliqué car il manque deux poids pour deux
composants Hl(IR) et Hr(IR).
Certains critères d'uniformité intra-région tels que le critère de Levine et Nazif (la première
version), le critère de Sahoo, le critère de Cocquerez et Devars considèrent la variation de niveau de
gris de chaque région comme la mesure de qualité. Sur une image faiblement ou non texturé, les
régions segmentées doivent être les plus homogènes possibles.
-- 14 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
[ ]
2
NR
∑ g I i , j− ∑ g I m , n
i , j ∈ Rk m , n∈ Rk
LEV1 I R =1−∑
k =1 card I x max g I i , j− min g I i , j2
i , j ∈R k i , j ∈ Rk
LEV2 I R
SAH I R =1 –
C
[ ]
NR 2
1
où LEV2 I R =∑ ∑ g I i , j− ∑ g m , n
k =1 i , j ∈R k card R k m ,n ∈ R I k
NR
max 2I Rk
k=1
COC I R = NR
∑ 2I Rk
k=1
Par contre, un critère de contraste inter-régions tel que le critère de Levine et Nazif (la troisième
version) considère le contraste de chaque région et de ses région adjacentes comme la mesure à
évaluer.
NR
∑ w R C 2 R kk
k=1
LEV3 I R = NR
∑ wR k
k =1
∣ g I Ra − g I Rb ∣ ∑ pR
où C 1 Ra , Rb= , C 2 R a= R ∈W a Rk C 1 Ra , R k ,
g I Ra g I Rb R k a
1
wR =
et
2
j card R j −
2 e
2
Il y a des critères qui combinent ces deux catégories de critères tels que le critère de Zéboudj, le
critère de Rosenberger. Selon ces critères, un bon résultat de segmentation en régions doit avoir de
grandes valeurs de contraste inter-région et d'homogénéité intra-région.
Le contraste entre deux pixels x et y de l'image I est défini comme suit :
∣g I x−g I y∣
c I x , y=
max g I z −1
z∈ I
Si l'intensité de x est très différent de celle de y, cI(x, y) est très grand et vise versa.
Le contraste intérieur d'une région Rk de l'image I est défini comme suit :
1
C Int R k = ∑ max { c I x , y , y∈W x∩R k }
card Rk x∈R k
-- 15 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
où FRk correspond à la frontière de la région Rk. Normalement, FRk est grand quand le contraste
inter-région de la région Rk est grand.
Le contraste global de la région Rk de l'image originale I est calculé comme suit :
C Int R k
1− si 0C Int R k C Ext Rk
C Ext R k
C(Rk)=
C Ext R k si C Int R k =0
0 sinon
Le contraste global de l'image I est exprimé comme le suivant :
NR
1
ZEB I R = ∑ card Rk x C Rk
card I k=1
Selon Zéboudj une région bien segmentée doit avoir un grand contraste inter-région et un petit
contraste intra-région. On a une remarque que la valeur du critère de Zéboudj est entre 0 et 1. Plus
cette valeur est grande (c'est à dire qu'elle est plus proche de 1), meilleur est supposé être le résultat de
segmentation.
En ce qui concerne l'évaluation non supervisée, Sébastien Chabrier a montré le choix de critère
pour trois cas. Dans le cas d'une image totalement uniforme, il est préférable d'utiliser le critère de
Zéboudj. Dans le cas d'une image mixte ou totalement texturée avec une moyenne des niveaux de gris
des classes quelconques, le critère recommandé est le critère de Levine et Nazif (la troisième version).
Dans le cas d'une image totalement texturée avec une moyenne de niveaux de gris identique pour
chaque classe, il est recommandé d'utiliser le critère de Rosenberger.
Afin d'obtenir un nouveau critère d'évaluation non supervisée, nous pouvons fusionner les
résultats d'évaluation de certains critères. Le nouveau critère est donc une combinaison linéaire.
L'avantage principal des critères d'évaluation non supervisée est qu'ils requièrent seulement une
métrique de mesure de qualité. Alors, ils sont automatisable et ne nécessitent aucun expert.
L'inconvénient majeur de ces critères est l'incertitude sur la fonction de calcul de caractéristiques.
-- 16 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
4. Analyse
Afin de tester certains algorithmes d'évaluation et analyser leurs résultats, j'ai utilisé une base
d'images de Wang 5. Cette base contient 1000 images couleurs réparties en 10 classes (africains 000-
099, plages 100-199, monuments 200-299, autobus 300-399, dinosaures 400-499, éléphants 500-599,
fleurs 600-699, chevaux 700-799, montagnes 800-899, nourriture 900-999) où les numéros indiqués
correspondent aux noms des fichiers images correspondants.
-- 17 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
J'ai choisi 3 algorithmes d'évaluation pour mettre en pratique : Zéboudj, Borsotti et Huizhang.
En utilisant la bibliothèque TLI-Lib 6, j'ai développé 3 algorithmes de segmentation d'images pour
l'analyse : MeanShift, Kmeans et Watershed.
Le modèle de mes tests est comme suit :
Évaluation
Pré-traitement
Segmentation
Post-traitement
Image originale Image en niveaux Résultat de
(couleur, JPEG) de gris (JPEG) segmentation
(PNG)
Masquage (PNG)
L'image originale est une image couleur de format JPEG. Cette format est compressé et
compact. Il y a trois raisons pour sa conversion en niveaux de gris :
Les algorithmes d'évaluation ne marche qu'avec une seule classe de couleur;
Certains algorithmes de segmentation d'images n'accepte que des entrées en niveaux de
gris;
Une bonne méthode de segmentation doit donner de bon résultats pour les images en
niveaux de gris;
Normalement, il faut faire quelques pré-traitements et post-traitements pour une segmentation.
Cela est très important pour notre objectif. Dans mon cas, le pré-traitement est l'application d'un filtre
médian pour diminuer le nombre de petites régions ainsi que des bruits, alors que le post-traitement
est une application de « merge » qui permet d'assurer que le nombre de régions maximal dans le
résultat final n'est pas supérieur à la limite. Le format du résultat de segmentation choisi est PNG qui
est compressé sans perte, ce qui permet d'obtenir une évaluation précise. Chaque résultat de
segmentation est une image en niveaux de gris qui contient au plus 256 régions. Chaque région
possède une étiquette unique entre 0 et 255. Il faut deux images d'entrée pour une évaluation : une
image en niveaux de gris et sa segmentation correspondante. Afin de tester et vérifier nous-mêmes le
résultat d'évaluation, il faut faire un masquage entre l'image originale et le résultat de segmentation.
6 LTI-Lib (Object oriented library in C++ for image processing and computer vision)
-- 18 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
L'idée est que quand on combine une bonne méthode de segmentation et une ou plusieurs
bonnes méthodes d'évaluation, on obtient un nouvel algorithme de segmentation qui est automatique.
Soit on a n paramètres p1, p2, ... pn. Les valeurs par défaut sont p1=p1default, p2=p2default, pn=pndefault.
• Étape 1: La valeur de p1 change, alor que les valeurs de p2, p3, ..., pn sont mises par défaut.
Trouver le meilleur p1.
• Étape 2: La valeur de p2 change, p1=p1best, alors que les valeurs de p3, ...pn sont mises par
défaut. Trouver le meilleur p2.
• .............
• Étape n: La valeur de pn change,, p1=p1best, p2=p2best, ..., pn-1=p(n-1)best. Trouver le meilleur pn.
On voit facilement que le paramètre d'une étape est meilleur que celui de l'étape précédente. On
peut appliquer cette méthode avec plusieurs boucles.
-- 19 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Paramètres Descriptions
-R sigmaR: the range radius of the mean shift spheer (default: 5), higher values result
in less regions
-S sigmaS: the spatial radius of the mean shift spheer (default: 5), higher values causes
longer computational time and smoother region boundary
-d Regions having a color difference less than this parameter are joined together
(default: 3). It should be smaller than sigmaR
Paramètres Descriptions
Selon mes tests, les paramètres pouvant fortement influencer le résultat est M, c, N.
-- 20 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Paramètres Descriptions
● Test 1 : MeanShift avec M = 5; N = 256; S = 10; d = 5; R = 4, 5, 6, 7, 8, 10, 12, 14, 16, 18,
20, 22, 24, 26, 28, 30;
-- 21 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
On peut voir facilement que le nombre de régions diminue quand R augmente. R est donc un
très fort paramètre de MeanShift pour diminuer le nombre de régions dans le résultat de segmentation.
Dans le graphique ci-dessus, on peut trouver la plus petite valeur pour chaque courbe.
Image 052.jpg 192.jpg 252.jpg 381.jpg 466.jpg 510.jpg 673.jpg 760.jpg 834.jpg 961.jpg
R 4 20 26 16 18 24 12 22 8 8
(meilleur)
Borsotti 2.39979 0.772784 1.55173 2.4508 0.643682 1.46966 0.397301 0.717349 1.39733 0.934296
Les plus belles courbes sont celles des images 381.jpg, 673.jpg, 961.jpg. Ce sont des courbes
dont la plus petite valeur est très différente des autres. Pour ces images, le critère de Borsotti donne de
bonnes évaluations. On voit maintenant le cas de l'image 381.jpg. Il nous semble que l'image
-- 22 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
segmentée correspondante à R=16 est la meilleure, car les objets principaux sont bien segmentés et le
nombre de régions est petit. Plus précisément, le résultat avec R=16 est meilleure que celles avec
R=18, R=24 selon nos yeux et meilleure également que celles de R=8, R=12 car son nombre de
régions est plus petit et il n'y a pas de grande différence entre elles.
Dans les cas des courbes dont la plus petite valeur n'est pas très différente des autres, il y a une
incertitude dans le résultat d'évaluation de Borsotti. On voit maintenant le cas de l'image 252.jpg.
-- 23 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
À partir du graphique ci-dessus, on voit que plus la valeur de R est grande, meilleur est le
résultat de segmentation. Cependant, ce n'est pas vrai.
L'objectif de Huizhang est d'améliorer le critère de Borsotti. Son critère contient deux parties
importantes :
• L'entropie de région désirée qui est une mesure pour l'uniformité dans les région de
l'image segmentée
• L'entropie de disposition qui pénalise des segmentations ayant un grand nombre de
régions
On voit que plus la valeur du R est grande, plus grande est la valeur de Hr et plus petite est la valeur
de Hl. Cependant, la vitesse de diminution de Hl est plus grande que la vitesse d'augmentation de Hr.
C'est pourquoi l'influence de Hr est moins que celle de Hl. Dans son article de Huizhang concernant
ces entropies, il a déjà abordé des paramètres pour les deux parties Hr et Hl mais aucune idée a été
citée pour trouver de bons paramètres. J'essaie de trouver deux nombre a et b pour modifier le critère
de Huizhang. J'ai donc avoir un nouveau critère :
Avec a = 3, b = 1 et a = 11, b = 4 on a de meilleures courbes. C'est à dire qu'on peut trouver des
valeurs minimales pour certaines courbes.
-- 24 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Pour le critère de Zéboudj, plus la valeur du critère est proche de 1, meilleur est supposé être le
résultat de segmentation.
-- 25 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Image 052.jpg 192.jpg 252.jpg 381.jpg 466.jpg 510.jpg 673.jpg 760.jpg 834.jpg 961.jpg
R 18 12 24 8 14 14 24 14 30 28
meilleur
Zéboudj 0.25869 0.73367 0.602032 0.49106 0.861515 0.521255 0.655863 0.404121 0.795789 0.682279
Selon le graphique ci-dessus, on voit que la plus part des courbes ne peuvent pas bien expliquer
la meilleure valeur R pour chaque image. La courbe de l'image 760.jpg est peut-être la plus belle, c'est
à dire qu'on peut voir facilement la meilleure valeur.
Pour l'image 760.jpg, le critère de Zéboudj a raison. En comparant les images ci-dessus, on peut
voir facilement que le résultat de segmentation avec R=14 est meilleur que ceux avec R=10, R=18,
R=24. On peut considérer qu'il est également meilleur que celui avec R=6 car les objets principaux de
l'image originale sont bien segmentés et son nombre de région est plus petit que celui de R=6.
On peut maintenant regarder les courbes de Borsotti et il est très intéressant que le critère de
Borsotti donne une bonne valeur pour R=14. Le critère de Borsotti considère R=22 est le meilleur
paramètre, mais pour Zéboudj c'est un mauvais paramètre.
Est-ce que le critère de Zéboudj est meilleur que celui de Borsotti ? La réponse est non car cela
dépend de chaque cas. Par exemple, pour l'image 673.jpg, le critère de Zéboudj considère R=24 est le
meilleur paramètre, mais pour Borsotti c'est R=12 qui est le meilleur. Si on regarde la valeur
d'évaluation de Zéboudj pour R=12, on voit que c'est aussi une bonne valeur.
J'ai une idée qu'une segmentation est bonne si les critères d'évaluation (Borsotti et Zéboudj)
donnent de bonnes valeurs à la fois.
-- 26 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
● Test 2 : KMeans avec M = 5; N = 256; c = 4, 5, 6, 7, 8, 9, 10, 11, 12, 14, 16, 18, 20, 22, 24;
-- 27 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Huizhang considère aussi que c=4 est le meilleur paramètre dans presque tous les cas de 10
images.
Zéboudj considère c=4 est le meilleur paramètre dans presque tous les cas de 10 images.
-- 28 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Selon nos yeux, c=4 est peut-être le meilleur paramètre car les objets principaux sont bien
segmentés et le nombre de région est petit.
Un autre problème se pose : Peut-on utiliser un même paramètre pour toutes les images d'une
classe et obtenir de bons résultats ? Pour le répondre, je teste 30 images de la classe 1, de 110.jpg à
139.jpg. L'algorithme de segmentation est MeanShift et R est le paramètre qui est varié. En obtenant
les meilleurs R, j'ai une courbe Gaussienne suivante
À partir de cette courbe, on voit que la variance des bons paramètres est grande. Afin d'obtenir
de bons résultats de segmentation, on ne peut pas utiliser un même paramètre R pour toutes les
images d'une classe.
-- 29 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
5. Conclusion et perspectives
Dans ce rapport, un aperçu des critères d'évaluation de résultat de segmentation est présenté.
Nous pouvons évaluer un résultat de segmentation de façon supervisée, non supervisée ou
psychovisuelle. Les avantages et les inconvénients principaux des critères sont également présentés.
Même si aucun critère proposé n'est parfait, nous avons certaines approches d'évaluation pour choisir.
De plus, nous pouvons obtenir de nouveaux critères à partir des critères de base.
Les critères d'évaluation supervisée sont vraiment intéressants mais ils ont certains problèmes
pour mettre en pratique car nous devons les tester sur un très grand nombre d'images. De plus,
plusieurs personnes les ont utilisés et développé depuis longtemps.
Les critères d'évaluation différents ne peuvent pas donner un même résultat pour une image car
les idées de différents critères sont différentes. C'est pourquoi il est très difficile de trouver un
vraiment bon algorithme d'évaluation automatique. Mon idée est d'appliquer plusieurs méthodes
d'évaluation à la fois. Normalement, une segmentation est bonne si plusieurs critères le considèrent
être bonne. Une autre remarque est que pour une classe d'images (images de même type), les bons
paramètres de segmentation sont peut-être très variés.
Le programme de mon TIPE a été écrit en C++ en utilisant la bibliothèque LTI-Lib.
Ce travail est encore ouvert car sa complexité est grande.
-- 30 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Bibliographie
[3] Muñoz Pujol, Xavier. Image segmentation integrating colour, texture and
boundary information. Chapter 5: Experimental Results, pages 131-166, 2003.
PDF
[4] Yu-Jin ZHANG. The Evolution of Evaluation for Image Segmentation. SCATI
- Journée évaluation des traitements dans un système de vision, 2005.
PDF
[5] Hui Zhang, Jason E. Fritts and Sally A. Goldman. An Entropy-based Objective
Evaluation Method for Image Segmentation. SPIE Electronic Imaging - Storage
and Retrieval Methods and Applications for Multimedia 2004, pp. 38-49, Jan. PDF
2004.
[6] Yitzhak Yitzhaky, Member, IEEE, and Eli Peli. A Method for Objective Edge
Detection Evaluation and Detector Parameter Selection. IEEE
TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE PDF
INTELLIGENCE, VOL. 25, NO. 8, pages 1027-1033, August 2003.
[7] Hui Zhang, Sharath Cholleti, Sally A. Goldman, Jason E. Fritts. Meta-
Evaluation of Image Segmentation Using Machine Learning, 2005.
PDF
-- 31 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
[9] Xiaoyi Jiang, CyrilMarti, Christophe Irniger, and Horst Bunke. Distance
Measures for Image Segmentation Evaluation. Hindawi Publishing
Corporation, EURASIP Journal on Applied Signal Processing, Pages 1–10, PDF
Article ID 35909, Volume 2006.
[12] Mark Everingham, Henk Muller, and Barry Thomas. Algorithm Evaluation by
Probabilistic Fitness/Cost Analysis, and Application to Image Segmentation.
PDF
[17] Laboratoire Vision & Robotique (LVR), Université d'Orléans. Base d'images &
programmes pour l'évaluation de traitements d'image.
Site web
-- 32 --
TIPE – Évaluation de la segmentation d'images DO Minh Chau
Site web
[19] LTI-Lib: Object oriented library in C++ for image processing and computer
vision
Site web
-- 33 --
This document was created with OpenOffice.org 2.1