Академический Документы
Профессиональный Документы
Культура Документы
����������������������
��������������������
�������� �����������������������������������������
� ��������
���� ������������
����������������������������������������
9 �4����� � ������ � ��� �� � ����&��$- � ����&��$ � ������� ��- � ����& � � ����� � �������- � ����� � �� �������-
������������������-���� ������ ������
5
6
Remerciements
Je voudrais remercier un certain nombre de personnes sans qui cette thèse n’aurait pas été
possible. Merci à Philippe Bidaud qui a eu l’idée de cette collaboration entre l’ISIR et l’ONERA,
à Stéphane Herbin et à Benoît Girard qui ont monté ce projet de recherche, et à Jacques Droulez
qui en a accepté la direction.
Merci à Stéphane, Benoît et Jacques de m’avoir accompagnée, conseillée et encouragée tout
au long de ces trois années. Merci pour nos nombreuses discussions à l’ONERA et à l’ISIR.
Stéphane, merci de m’avoir transmis ton expérience et ton savoir, tu n’étais jamais à court
d’idées et ton habileté à trouver les mots justes pour les exprimer m’a toujours impressionnée.
Benoît, merci pour ton enthousiasme, ta spontanéité et ton optimisme, qui m’ont toujours
encouragée à continuer à aller de l’avant.
Jacques, merci pour ton expérience, ta sagesse et ton humilité, tes remarques étaient toujours
très pertinentes.
Il y a encore tellement de choses pour lesquelles je voudrais vous remercier mais les mots ne
suffiront pas à vous exprimer toute ma gratitude. Je n’oublierai pas ce que vous m’avez appris.
J’aimerais vous dire que vous formez un trio complémentaire, à l’image de mes tracteurs :)
Je voudrais également remercier les membres du jury : un grand merci à David Filliat et
à Michèle Rombaut d’avoir accepté, l’examen minutieux de ma thèse, à Patrick Pérez d’avoir
accepté de faire partie de mon jury malgré son emploi du temps très chargé, et enfin, à Nicolas
Thome d’avoir présidé ma soutenance.
Je voudrais remercier tout le laboratoire ISIR pour son accueil, Michèle Vié et Ludovic Billard
pour leur aide logistique.
Un grand merci à tout le département DTIM de l’ONERA pour son accueil et pour la bonne
ambiance qui règne dans les couloirs : Alain Michel, Gilles Foulon, Patrick Secchi, Fabrice Savignol,
Françoise Pradines, Elise Koeniguer, Fabrice Janez, Alexandre Alakian, Adrien Chan-Hon-Tong,
Alexandre Boulch, Benjamin Pannetier, Julien Moras, Robin Doumerc, Martial Sanfourche,
Alexandre Eudes, Anthelme Bernard-Brunel, Guy Le Besnerais, Frédéric Champagnat, Aurélien
Plyer, Kaouthar Benameur, Valentina Dragos, Eric Glemet, Olivier Poirel, Jerôme Besombes,
7
REMERCIEMENTS 8
Bertrand Le Saux, Annie Bastière, Pauline Trouvé, Philippe Cornic, Christian Musso, Jean
Dezert. Merci pour toutes ces belles rencontres et ces échanges, je ne vous oublierai pas.
Merci à tous les doctorants du DTIM pour toutes ces pauses conviviales et pour tous ces bons
moments : Thibaut Castings, Oana Alexandra Ciobanu, Cédric Le Barz, Hicham Randrianarivo,
Flora Weissgerber, Maxime Derome, Hélène Roggeman, Calum Burns, Joris Guerry, Guillaume
Brigot, David Caruso, Nicolas Audebert, Maxime Bucher, David Schwartz, Florent Bonnier,
Maxime Ferrera, Marcela Carvalho. Je n’oublie pas les apprentis : Sémi Mechaab, Elyse Cordeau.
Ainsi que les stagiaires : Thierry Dumas, Jonathan Lardy, Adrien Lagrange, Manuel Tanguy,
Oriane Simeoni, Martin Touzot.
Je remercie tout particulièrement mes co-bureaux, Thibaut, Maxime D. et Hicham, pour vos
blagues et vos encouragements.
J’ai apprécié chacun d’entre vous et vous souhaite le meilleur. Pardon à tous ceux que j’ai
oublié de citer.
Merci à David Picard et à Thomas Tang de m’avoir donné l’opportunité d’encadrer les TP à
l’ENSEA, ce fut très enrichissant.
Matthieu, mon petit fiancé, merci d’avoir été là dans les moments difficiles, tu m’as donné le
courage d’aller jusqu’au bout, merci pour ta joie et ta bonne humeur qui m’ont accompagnée
chaque jour. Papa, Maman, Tatou et Margue, merci pour votre soutien inconditionnel ! Vous
avez été formidables.
Bonne lecture !
Table des matières
Introduction 13
1 Bibliographie 17
1.1 Le suivi d’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.1 Modélisation de l’apparence de l’objet . . . . . . . . . . . . . . . . . . . . 21
1.1.2 Localisation de l’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.1.3 Mise à jour du modèle d’apparence . . . . . . . . . . . . . . . . . . . . . . 28
1.1.4 Évaluation qualitative des approches . . . . . . . . . . . . . . . . . . . . . 32
1.2 Évaluation des trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.2.1 Bases de vidéos pour le suivi d’objet . . . . . . . . . . . . . . . . . . . . . 35
1.2.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.2.3 Le benchmark VOT [Kristan et al., 2013] . . . . . . . . . . . . . . . . . . 42
1.3 Fusion en suivi d’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.3.1 Architectures de fusion, généralités . . . . . . . . . . . . . . . . . . . . . . 46
1.3.2 Fusion de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.3.3 Fusion de modules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2 Matériel et Méthodes 59
2.1 Méthodologie d’évaluation des trackers . . . . . . . . . . . . . . . . . . . . . . . . 59
2.1.1 Bases d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.1.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.1.3 Protocole d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2 Répertoire de trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.2.1 NCC (Normalized Cross Correlation) [Lewis, 1995] . . . . . . . . . . . . . 65
2.2.2 KLT (Kanade Lucas Tomasi Tracker) [Kalal et al., 2012] . . . . . . . . . . 66
2.2.3 CT (Compressive Tracking) [Zhang et al., 2012] . . . . . . . . . . . . . . . 67
2.2.4 STRUCK (Structured Output Tracking with Kernels) [Hare et al., 2011] . 69
2.2.5 Tracker basé DPM (Deformable Part Models) [Felzenszwalb et al., 2010,
Kalman, 1960] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.2.6 DSST (Discriminative Scale Space Tracker) [Danelljan et al., 2014] . . . . 73
9
TABLE DES MATIÈRES 10
Conclusion 175
Bibliographie 191
TABLE DES MATIÈRES 12
Introduction
Le suivi visuel ou visual tracking en anglais, et plus communément appelé « poursuite visuelle »
en vision naturelle, est une fonction élémentaire d’analyse des signaux visuels, présente dans le
système visuel humain, et des primates supérieurs. Mais cette fonction est également essentielle
pour la conception des algorithmes de vision artificielle dès lors que l’on analyse des séquences
vidéo, car elle assure une cohérence et une stabilité spatio-temporelle des entités d’intérêt présentes
dans la scène, nécessaires à leur interprétation ou à une interaction. Ainsi, le suivi visuel a fait
l’objet de nombreux travaux dans le domaine de la vision par ordinateur, et cités dans un
certain nombre de revues : [Yilmaz et al., 2006, Yang et al., 2011, Salti et al., 2012, Wu et al.,
2013, Li et al., 2013, Smeulders et al., 2014]. On peut distinguer deux littératures sur ce sujet :
le « suivi visuel d’objet » et le « pistage multi-objets ». Le suivi visuel d’objet est une fonction
élémentaire de suivi d’un seul objet, tandis que le « pistage multi-objets » se rapporte à un
problème d’association de données temporelle, d’une image à la suivante, pour reconstituer les
pistes des objets présents dans la scène. Ces données sont par exemple des détections issues d’un
radar. Nous parlerons de VOT (Visual Object Tracking) et de MOT (Multiple Object Tracking)
pour les distinguer, et nous nous intéresserons essentiellement à VOT.
VOT est une fonction élémentaire, nécessaire à un grand nombre d’applications d’interpréta-
tion et d’exploitation de vidéos. C’est une brique de base utilisée par d’autres fonctionnalités
telles que MOT. Les algorithmes de VOT produits sont appelés trackers en anglais et c’est le
terme que nous utiliserons dans la suite. Ils consistent à estimer la position d’un objet mobile
dans un flux vidéo, pris par une caméra fixe ou embarquée, avec comme seules informations sa
position et ses caractéristiques images à l’instant initial.
Le problème qui nous intéresse en particulier dans VOT est le phénomène de dérive. La
dérive est une mauvaise estimation de la position de l’entité suivie pendant un certain intervalle
temporel et qui aboutit à la perte définitive de l’entité. Elle renseigne sur la robustesse de suivi
d’un tracker, définie comme étant le nombre de fois où le tracker perd la cible sur une base de
vidéos. Différentes perturbations visuelles sont à l’origine des dérives telles que les changements
d’apparence de l’objet, les changements d’illumination de la scène, le contraste dans l’image, les
mouvements de caméra, les occultations, etc.
Les approches proposées pour répondre à ces difficultés sont nombreuses. Tous les ans,
de nouvelles approches sont publiées, toujours plus performantes que les précédentes, voir les
13
INTRODUCTION 14
résultats des challenges VOT2013 [Kristan et al., 2013], VOT2014 [Kristan et al., 2014] et
VOT2015 [Kristan et al., 2015a]. Une récente étude de [Kristan et al., 2015b] a analysé plus
finement les performances des trackers du challenge VOT2014 [Kristan et al., 2014] par rapport
à différents types de perturbations visuelles (illumination, occultation, mouvement de camera,
forte variation d’apparence). Les principales conclusions de cette étude sont les suivantes : les
trackers se spécialisent soit en précision de localisation, soit en robustesse ; aucun tracker ne
surpasse tous les autres sur tous les critères de performance (précision, robustesse) et pour toutes
les perturbations visuelles. Enfin, les trackers qui réussissent les mieux, sont de conception variée
(représentation globale ou par parties, apprentissage discriminant, segmentation).
Étant donné les limites des trackers individuels et le nombre important de solutions proposées,
une idée naturelle est d’étudier dans quelle mesure leur fusion permet d’améliorer globalement les
performances de suivi. Il existe des travaux s’intéressant à la fusion en suivi d’objet mais peu se
rapportent à la fusion de trackers individuels. Les quelques travaux réalisant la fusion de trackers
améliorent les performances globales de suivi par rapport aux performances individuelles des
trackers mais limitent le type d’objet suivi [Stenger et al., 2009], le nombre de trackers étudiés
[Kalal et al., 2012, Vojir et al., 2015] ou le type de trackers [Moujtahid et al., 2015b], combinent
spécifiquement les entrées et sorties des trackers [Santner et al., 2010], ou limitent les interactions
possibles entre les trackers dans la chaîne de fusion [Bailer et al., 2014]. Chacun de ces travaux
présente donc des limites.
C’est dans ce contexte que notre étude a été développée. L’objectif de l’étude est de proposer
une fusion en ligne de trackers la plus générique possible permettant d’améliorer la robustesse
du suivi : un schéma générique de fusion qui n’est pas limité par le type d’objet suivi, le type
de trackers et qui autorise un certain niveau d’interaction entre les trackers dans la chaîne de
fusion. L’intérêt de l’approche proposée est de pouvoir fusionner des trackers très hétérogènes en
performance et en structure algorithmique. Une démarche expérimentale approfondie a permis
d’identifier la meilleure stratégie de fusion parmi un large répertoire de configurations de fusion
possibles. Le manuscrit est organisé comme suit :
Dans le chapitre 1, nous réalisons un état de l’art sur le suivi d’objet, afin de montrer la
diversité de conception des approches développées mais aussi leur complémentarité pour résoudre
un certain nombre de difficultés, incitant à développer une approche de fusion. Nous présentons
les principales bases, ainsi que les métriques et protocoles d’évaluation, en particulier ceux du
challenge VOT [Kristan et al., 2013] utilisés en suivi d’objet pour l’évaluation des trackers
individuels. Enfin, nous proposons un état de l’art sur la fusion en suivi d’objet en distinguant la
fusion de modèles de la fusion de modules.
Dans le chapitre 2, nous précisons les bases, les métriques et le protocole d’évaluation utilisés
pour réaliser l’évaluation de notre système de fusion de trackers. Nous décrivons ensuite le
fonctionnement de chacun des trackers du répertoire utilisé. Enfin, nous donnons quelques détails
INTRODUCTION 15
d’implémentation sur la plateforme C++ que nous avons développée pour intégrer les trackers du
répertoire et réaliser leur fusion, et pour évaluer leurs performances individuelles ou fusionnées.
La démarche a consisté dans un premier temps à démontrer l’intérêt de la fusion pour
améliorer la robustesse de suivi, décrite dans le chapitre 3. Nous étudions en particulier les
instants de dérives des trackers sur les séquences de la base pour révéler une complémentarité
locale des comportements, et pour vérifier qu’il est possible de reconstituer une piste continue de
suivi. Nous proposons une métrique mesurant la complémentarité d’un ensemble de trackers en
termes de robustesse atteignable lorsqu’ils sont fusionnés. Cependant, la reconstitution d’une
piste continue n’est qu’une simulation. Dans une situation réelle de fusion en ligne de trackers,
les instants de dérive ne sont pas connus.
Le chapitre 4 a donc consisté à développer des méthodes d’estimation en ligne du bon fonc-
tionnement d’un tracker pour pouvoir prédire ses éventuelles dérives. Plusieurs méthodes ont été
étudiées : des méthodes exploitant le comportement individuel des trackers à partir d’informations
intrinsèques au modèle d’apparence ou d’informations de localisation des prédictions, et des
méthodes exploitant le comportement collectif des trackers à partir de la distribution spatiale
des prédictions. Une évaluation des performances de prédiction de certaines de ces méthodes
a pu être réalisée. Cependant, les méthodes n’étant pas intégrées dans une chaîne de fusion en
ligne des trackers, l’évaluation réalisée ne permet pas de dire si ces méthodes sont performantes
et améliorent la robustesse de fusion.
C’est l’objet du chapitre 5 de décrire une chaîne de fusion générique de trackers disposant
d’une étape de sélection et d’une étape de correction des trackers. Les méthodes de prédiction en
ligne des dérives dans la chaîne de fusion développées dans le chapitre 4, servent à sélectionner
les bons trackers à fusionner à chaque instant. Des méthodes permettant de les combiner et
éventuellement les corriger ont été développées. A partir de cette chaîne de fusion, nous avons
expérimenté différentes stratégies de fusion pour identifier les stratégies de fusion permettant
de renforcer la robustesse de suivi. L’idée est d’optimiser chaque niveau de la fusion : choisir
les trackers à combiner, la méthode de sélection des trackers, la méthode de fusion des boîtes,
et la méthode de correction (boucle ouverte ou fermée, mise à jour ou réinitialisation). Au
total, 46 configurations de fusion ont été évaluées sur 105 séquences vidéo et ont abouti aux
principales conclusions suivantes : la sélection performante des trackers améliore considérablement
les performances de suivi. La correction des trackers ayant dérivé est utile lorsque la sélection
est bien maîtrisée. La fusion d’un grand nombre de trackers n’est pas nécessairement une bonne
stratégie mais en revanche, fusionner des trackers complémentaires et homogènes en performance
apporte une meilleure robustesse.
INTRODUCTION 16
Chapitre 1
Bibliographie
Sommaire
1.1 Le suivi d’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.1 Modélisation de l’apparence de l’objet . . . . . . . . . . . . . . . . . . . 21
1.1.2 Localisation de l’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.1.3 Mise à jour du modèle d’apparence . . . . . . . . . . . . . . . . . . . . . 28
1.1.4 Évaluation qualitative des approches . . . . . . . . . . . . . . . . . . . . 32
1.2 Évaluation des trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.2.1 Bases de vidéos pour le suivi d’objet . . . . . . . . . . . . . . . . . . . . 35
1.2.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.2.3 Le benchmark VOT [Kristan et al., 2013] . . . . . . . . . . . . . . . . . 42
1.3 Fusion en suivi d’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.3.1 Architectures de fusion, généralités . . . . . . . . . . . . . . . . . . . . . 46
1.3.2 Fusion de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.3.3 Fusion de modules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Ce chapitre a pour objectif de présenter dans un premier temps, un état de l’art sur le suivi
d’objet visant à montrer la diversité des approches proposées mais aussi leur complémentarité
pour résoudre un certain nombre de difficultés en suivi dans la section 1.1. Nous présenterons
dans un deuxième temps, les principaux benchmarks, bases de vidéos et métriques utilisés pour
évaluer les performances de trackers individuels dans la section 1.2. Enfin, nous présenterons un
état de l’art sur la fusion en suivi d’objet dans la section 1.3.
Le suivi visuel d’objet est l’un des sujets de recherche les plus explorés en vision par ordinateur
avec à la clé de nombreuses applications : sécurité, vidéo-surveillance, contrôle du trafic, production
industrielle, interaction homme-machine, etc. Les thèmes de recherche vont du suivi mono-cible
(Challenge VOT [Kristan et al., 2013]) au suivi multi-cibles (Workshop PETS [Ferryman et Ellis,
17
CHAPITRE 1. BIBLIOGRAPHIE 18
Figure 1.1 – Représentations de l’objet. (a) un point, (b) une boîte englobante rectangulaire,
(c) une boîte englobante rectangulaire orientée, (d) un quadrilatère, (e) un contour.
2010], Challenge MOT [Leal-Taixé et al., 2015]), du suivi d’objets catégorisés (visages, piétons,
véhicules) au suivi d’objets arbitraires, désignés manuellement par l’utilisateur. Dès lors, des
avancées majeures ont contribué à améliorer le suivi sur différents aspects comme une meilleure
caractérisation de l’apparence de l’objet par des caractéristiques images de meilleure capacité
descriptive et, l’intégration des variations d’apparence temporelles par des modèles d’apparence
plus sophistiqués inspirés des techniques d’apprentissage automatique (machine learning).
Objectif du suivi
Le suivi mono-objet consiste à estimer la position d’un objet dans une vidéo (séquence
d’images successives) connaissant sa position dans la première image I0 .
Il existe différentes manières de repérer la position d’un objet dans une image, comme illustrées
dans la figure 1.1. La représentation la plus approximative est un point (figure 1.1a) et la plus
précise est un contour (figure 1.1e). La représentation la plus fréquemment utilisée est une boîte
englobante rectangulaire (figure 1.1b) car c’est une représentation minimale, et aussi parce que
l’on suppose que des algorithmes de segmentation pourront l’isoler de l’arrière-plan. C’est la
représentation que nous utiliserons dans la suite.
Notons B̂0 = (x0 , y0 , w0 , h0 ) la boîte englobante rectangulaire de l’objet dans l’image I0 à
l’instant t = 0, (x0 , y0 ) correspondant aux coordonnées du coin supérieur gauche de la boîte,
w0 à la largeur et h0 à la hauteur. Cette position est connue, c’est la vérité terrain de l’objet à
t = 0. Un algorithme de suivi ou tracker en anglais, a alors pour objectif d’estimer précisément la
position (xt , yt ) et la taille (wt , ht ) de la boîte englobante de l’objet B̂t = (xt , yt , wt , ht ) à chaque
instant t > 0.
CHAPITRE 1. BIBLIOGRAPHIE 19
Figure 1.2 – Difficultés rencontrées lors du suivi d’une camionnette de la base KITTI [Geiger
et al., 2012] à partir de son apparence initiale (a) : illumination (b), occultations (c) et variations
d’apparence (d).
Figure 1.3 – Suivi d’objet quelconque : un sac plastique, un ballon, un poisson, un papillon,
un lapin, un oiseau, un motocycliste et un hélicoptère, provenant de la base VOT2015 [Kristan
et al., 2015a].
Difficultés du suivi
Un certain nombre de facteurs rendent le suivi difficile. Ces facteurs sont liés à :
— l’acquisition : la qualité des images acquises (bruit, résolution, flou), les mouvements de
caméra et les changements d’illumination ;
Une autre difficulté de la tâche de suivi est la nature des objets suivis, ils peuvent être très
variés comme ceux présents dans la figure 1.3. Un bon tracker doit donc être capable de suivre
l’objet quelles que soient les perturbations rencontrées à partir de sa seule apparence initiale
connue.
Formalisation du problème
Pour résoudre le problème du suivi, les trackers exploitent l’apparence de l’objet de manière
dynamique. Le schéma générique de fonctionnement est le suivant (figure 1.4) :
CHAPITRE 1. BIBLIOGRAPHIE 20
𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑖𝑖
𝑖𝑖 𝑖𝑖
𝐵𝐵�𝑡𝑡𝑖𝑖 , 𝑐𝑐𝑡𝑡𝑖𝑖
Tracker i (𝑀𝑀𝑡𝑡−1 , 𝑊𝑊𝑡𝑡−1 )
Figure 1.4 – Schéma générique de fonctionnement d’un tracker. Le Tracker i prédit la position
de la cible B̂ti dans l’image It , à l’instant t, à partir de sa position à l’instant précédent B̂t−1
i ,
la fenêtre de recherche et le modèle d’apparence sont mis à jour (MAJ) en utilisant la nouvelle
position.
l’instant précédent. Un score de confiance cit qualifiant la qualité de la prédiction B̂ti est
calculé par le modèle.
i
— Mise à jour : il met à jour son modèle Mt−1 → Mti à partir de la nouvelle prédiction B̂ti
pour intégrer les changements d’apparence de l’objet dans le temps.
Les étapes de prédiction et de mise à jour sont répétées dans chaque nouvelle image.
La littérature sur ce sujet est importante pour répondre aux difficultés du suivi. Plusieurs
revues de l’état de l’art ont été publiées et rendent compte des approches de suivi proposées
(catégorisation, comparaison, évaluation).
Pour les citer chronologiquement, [Yilmaz et al., 2006] proposent une classification des
méthodes de suivi en fonction de la représentation d’objet utilisée (correspondance de points,
modèles géométriques et modèles d’évolution de contours) et présentent les méthodes de détection
d’objet existantes. Une discussion est réalisée sur les représentations d’objet, les modèles de
mouvement, l’estimation des paramètres et les avantages et inconvénients des différentes approches
de manière qualitative. [Yang et al., 2011] réalisent un état de l’art sur les différents composants
d’un tracker : descripteurs de caractéristiques, méthodes d’apprentissage en ligne, prise en compte
de l’information de contexte et méthodes d’échantillonnage de Monte-Carlo. [Salti et al., 2012]
focalisent l’étude sur les modèles d’apparence adaptatifs et leur fonctionnement (échantillonnage
et labellisation des exemples d’apprentissage, extraction de caractéristiques, estimation du modèle
et sa mise à jour), et évaluent quantitativement plusieurs d’entre eux. [Wu et al., 2013] évaluent
quantitativement 29 trackers de l’état de l’art sur une base de 50 vidéos. [Li et al., 2013] fournissent
une description très détaillée de tous les modèles d’apparence existant en suivi et discutent de leur
composition (représentation visuelle et modélisation statistique de l’apparence). [Smeulders et al.,
2014] analysent les différents composants principaux d’un tracker (région d’objet, représentation
CHAPITRE 1. BIBLIOGRAPHIE 21
Grille de lecture proposée L’objectif de notre analyse bibliographique n’est pas de faire
une synthèse des approches de suivi existantes mais d’analyser les spécificités de chacune d’elles
pour les combiner dans un algorithme de fusion. Elle est organisée en trois parties décrivant les
trois principales étapes de fonctionnement d’un tracker générique : modélisation de l’apparence
de l’objet, prédiction de la localisation et mise à jour du modèle. Pour chacune des étapes,
nous exposons et discutons des forces et faiblesses des approches proposées, ce qui va permettre
de cerner les domaines d’emploi des trackers vis à vis des perturbations rencontrées dans les
séquences.
Notre voulons ainsi montrer la diversité des approches mais aussi leur complémentarité pour
résoudre un certain nombre de difficultés.
L’apparence de l’objet est la principale information exploitée par les trackers ; sa modélisation
est donc une étape importante pour réussir à suivre l’objet correctement. Il existe une diversité
de représentations d’un objet, chacune étant adaptée à un type de difficulté rencontré en suivi
(nature de l’objet, nature de la scène, qualité d’image, etc.). Nous présentons les principales
représentations utilisées et examinons les avantages et inconvénients de chacune d’elle.
Points Une des techniques répandues est le suivi de points d’intérêt extraits de l’objet : points
de Harris [Harris et Stephens, 1988], SIFT [Lowe, 2004], SURF [Bay et al., 2008], etc. Cette
représentation par points hérite des techniques de recalage de la même façon que l’approche
par template. Les points d’intérêt sont invariants à certaines transformations géométriques ou
radiométriques, ce qui rend leur suivi plus robuste. Ils sont répertoriés et discutés dans [Tuytelaars
CHAPITRE 1. BIBLIOGRAPHIE 22
et Mikolajczyk, 2008]. La mise en correspondance des points entre deux images utilise soit une
mesure de similarité des descripteurs locaux de texture (SSD, SAD), soit un flot optique [Shi
et Tomasi, 1994]. Cette représentation par points d’intérêt est adaptée aux objets non rigides
(articulés ou déformables) et texturés en tolérant un certain nombre de déformations de l’objet
dans le plan mais est peu robuste aux occultations, changements d’illumination et variations
importantes de l’apparence de l’objet.
Au lieu de restreindre le suivi aux points d’intérêt, des méthodes réalisent le suivi de tous
les points, par flot optique dense [Lucas et al., 1981], mais présentent les mêmes problèmes
que le suivi de points d’intérêt. Pour répondre à ces difficultés, des contraintes d’apparence
ou de mouvement sont utilisées. [Kalal et al., 2010b] filtrent les mauvaises correspondances de
points en calculant l’erreur de flot optique aller-retour de chaque point ou en calculant un score
de corrélation NCC (proche voisinage) pour chaque paire de points appariés. Le tracker FoT
[Matas et Vojíř, 2011, Vojíř et Matas, 2014] (amélioration de [Kalal et al., 2010b]) impose des
contraintes de mouvement en utilisant une grille de cellules de points pour renforcer la robustesse
de l’estimation de mouvement de l’objet. Pour gérer les occultations et réapparitions de l’objet
dans l’image, [Brox et Malik, 2010] exploitent les trajectoires long-terme des points par flot
optique dense pour permettre un suivi long-terme de l’objet dans la vidéo.
Une autre méthode très utilisée consiste à estimer la meilleure transformation géométrique
(translation, affine, similitude, homographie) de l’ensemble de points entre deux images, par
un algorithme appelé RANSAC (Random Sample Consensus) [Fischler et Bolles, 1981]. Les
paires de points n’observant pas cette transformation sont rejetées. Cependant, ces contraintes
de mouvement empêchent de modéliser les déformations de l’objet. Pour pouvoir modéliser ces
déformations, [Zass et Shashua, 2008] utilisent des hypergraphes pour représenter les relations
géométriques complexes entre les points. CMT [Nebehay et Pflugfelder, 2015] modélise la
déformation de l’ensemble de points par une mesure de dissimilarité géométrique pour classer les
correspondances de points, permettant par ailleurs d’estimer la rotation de l’objet.
Parties d’objet Une autre approche classique est la représentation par parties [Li et al.,
2015, Xiao et al., 2015]. Cette représentation surpasse la représentation par points car elle exploite
l’apparence de chacune des parties, ainsi que leur configuration géométrique. Un avantage de
la modélisation locale de l’apparence de l’objet est qu’elle est plus précise que la modélisation
globale. Au lieu de calculer un histogramme global, [Adam et al., 2006] fragmentent l’objet en un
ensemble de cellules réparties uniformément dans une grille, chaque cellule étant représentée par
un histogramme.
CHAPITRE 1. BIBLIOGRAPHIE 23
Une des possibilités de la représentation par parties est la sélection des parties d’objet
intéressantes pour le suivi. Dans le cadre de la détection d’objets, [Felzenszwalb et al., 2010]
entraînent des modèles à parties déformables pour différentes catégories d’objet, les parties
correspondent à des régions discriminantes de l’objet (faciles à détecter). [Kwon et Lee, 2013]
disposent d’un ensemble de parties prises aléatoirement sur l’objet et proposent une méthode de
mise à jour de cet ensemble (ajout et suppression de parties) en mesurant la robustesse de chaque
partie définie par son apparence. RPT [Li et al., 2015] exploite un ensemble de parties fiables en
utilisant une métrique construite sur la réponse du tracker pour mesurer cette fiabilité. [Xiao
et al., 2015] segmentent l’objet en « superpixels », régions homogènes et stables, par l’algorithme
de segmentation SLIC [Achanta et al., 2012], pour ne suivre que des régions d’objet et non de
fond.
Représentation éparse Pour pouvoir gérer les occultations de l’objet, [Mei et Ling, 2011]
modélisent l’apparence de l’objet par un ensemble de templates dans lesquels différentes régions
sont masquées afin de simuler les occultations partielles de l’apparence, pouvant survenir lors du
suivi. Cette représentation a été largement utilisée [Mei et al., 2011, Wang et al., 2013].
Caractéristiques visuelles Habituellement extraites d’un template objet, d’une partie d’objet
ou du voisinage d’un point (descripteurs locaux), les caractéristiques visuelles ont été largement
exploitées par les trackers. Elles fournissent une description plus robuste de l’apparence de l’objet
par rapport à l’information d’intensité des pixels. Cette dernière étant sensible à la plupart
des perturbations de l’image (bruit, illumination, réflectance). La plupart des caractéristiques
visuelles sont construites « à la main » et présentées sous forme de vecteur. [Dalal et Triggs,
2005] proposent un histogramme de gradients orientés (HOG) pour caractériser la forme globale
des objets pour la détection de piétons. [Henriques et al., 2015] intègrent ces caractéristiques
dans un filtre de corrélation discriminant. [Viola et al., 2005, Zhang et al., 2012, Hare et al.,
2011, Ahonen et al., 2006] utilisent des caractéristiques de texture telles que les caractéristiques
de Haar ou les motifs binaires locaux (LBP). [Klaser et al., 2008, Zhao et Pietikainen, 2007]
exploitent des caractéristiques spatio-temporelles telles que les HOG3D et DLBP.
Les propriétés recherchées des caractéristiques sont multiples : robustesse face aux changements
d’apparence de l’objet (réflectance, transformation géométrique, déformation, point de vue,
occultation) quel que soit le type d’objet (rigide, déformable, texturé ou peu texturé, etc.), aux
dégradations de l’image (bruit, illumination, floue, mauvaise résolution) et au bruit de contexte
(contraste, similarité entre objet et fond, objets similaires). Cependant, certaines caractéristiques
le sont plus ou moins : les caractéristiques de forme sont moins sensibles aux changements de
luminosité et aux dégradations de l’image, tandis que les caractéristiques de couleur sont moins
sensibles aux transformations géométriques. La plupart des trackers n’utilisent qu’un seul type de
caractéristiques alors qu’elles peuvent être complémentaires, c’est comme cela que [Wang et al.,
2015b] montrent une amélioration des performances de suivi de l’ordre de 20% en combinant des
HOG et des couleurs. La combinaison de caractéristiques offre donc de nombreux avantages mais
toutes les caractéristiques ne sont pas discriminantes. [Grabner et Bischof, 2006] proposent alors
de sélectionner les caractéristiques discriminantes parmi un large répertoire de caractéristiques
simples en utilisant du Boosting, une technique d’apprentissage automatique. [Kwon et Lee,
2013] sélectionnent la caractéristique la plus discriminante pour modéliser l’apparence des parties
d’objet en comparant à la vraisemblance de leur arrière-plan.
Deep features Récemment, l’utilisation des caractéristiques calculées par des réseaux profonds,
appelées deep features, est devenue très populaire. Connus pour leur grande capacité de représen-
tation des objets, les réseaux profonds issus de « l’apprentissage profond » (Deep learning) sont
utilisés comme fournisseurs de caractéristiques pour le suivi d’objet [Wang et Yeung, 2013, Hong
et al., 2015a, Danelljan et al., 2015]. Le réseau est tout d’abord pré-entraîné sur une grande base
d’images, par exemple ImageNet [Russakovsky et al., 2015] (plusieurs millions d’images), puis
utilisé en tant que boîte noire pour fournir les cartes de caractéristiques des images passées en
entrée du réseau. C’est le cas du tracker Deep-SRDCF [Danelljan et al., 2015], deuxième au
classement du challenge VOT2015 (Visual Objet Tracking) [Kristan et al., 2015b], qui exploite les
deep features pour les combiner avec un filtre de corrélation. [Hong et al., 2015a] utilisent le réseau
CHAPITRE 1. BIBLIOGRAPHIE 25
R-CNN [Girshick et al., 2014] pré-entraîné sur la base ImageNet dont l’avant dernière couche
(fully-connected) sert d’extracteur de deep features. Ces caractéristiques alimentent un classifieur
SVM (en anglais Support Vector Machine) en ligne (dernière couche du réseau remplacée par
un SVM) dont l’objectif est d’apprendre les caractéristiques spécifiques à la cible permettant
de discriminer la cible du fond. Cependant, l’information spatiale de localisation de la cible
n’est pas conservée par les deep features à cause des opérations de pooling (groupements de
neurones) qui ont lieu dans différentes couches du réseau. Par conséquent, pour avoir accès à la
localisation spatiale de la cible, l’idée est de générer des cartes de saillance spécifiques à la cible
en rétro-propageant les caractéristiques spécifiques à la cible classées par SVM dans le réseau
jusqu’à la première couche. Cette méthode est inspirée de [Simonyan et al., 2014] qui génèrent
des cartes de saillance spécifiques à une classe d’objet donnée, permettant d’identifier les régions
de l’image saillantes pour cette classe.
Les caractéristiques exploitées dans les réseaux proviennent habituellement des couches
supérieures, et ne sont pas directement adaptées au suivi d’objet car leur fonction est de
renseigner sur la sémantique des objets de l’image. Ils ne permettent donc pas de discriminer
un objet en particulier parmi d’autres objets similaires. Pour remédier à ce problème, [Wang
et al., 2015a, Qi et al., 2016] cherchent à exploiter les caractéristiques des couches intermédiaires
pour le suivi d’objet. [Wang et al., 2015a] utilisent le réseau VGG à 16 couches de [Simonyan et
Zisserman, 2014] pré-entraîné sur ImageNet et exploitent les propriétés complémentaires d’une
couche profonde et d’une couche moins profonde du réseau pour localiser la position de l’objet.
La plus profonde fournit des caractéristiques sémantiques (objets de même classe) tandis que
la moins profonde fournit des caractéristiques plus précises de la cible pour la discriminer des
objets de même classe. Par ailleurs, ils observent que toutes les cartes de caractéristiques ne sont
pas utiles pour discriminer l’objet, une méthode de sélection des cartes sur ces deux couches est
proposée. [Qi et al., 2016] exploitent les cartes de caractéristiques de différentes couches du réseau
pré-entraîné VGG [Simonyan et Zisserman, 2014], chaque carte étant utilisée pour apprendre un
filtre de corrélation. La cible est localisée en réalisant une somme pondérées des réponses des
filtres.
la détection d’objets dans une image par fenêtre glissante, elle est appelée Track-by-detection.
La première image sert à initialiser le classifieur en prenant comme exemple positif la position
de l’objet et comme exemples négatifs les positions contenant du fond. Les images suivantes
servent à entraîner le classifieur en ligne. L’intérêt de cette approche est d’améliorer la robustesse
de suivi en intégrant à la fois les apparences de l’objet et les informations de contexte dans le
modèle, de manière dynamique. Plusieurs problèmes se posent : la construction d’un détecteur
objet-fond, la mise à jour incrémentale du modèle et la gestion des exemples positifs et négatifs
dans le modèle du fait qu’ils sont bruités.
Estimer la meilleure localisation de l’objet dans chaque image (position, taille et parfois, angle
et pose), soulève le problème du coût de calcul nécessaire pour le réaliser. Pour cela, différentes
approches ont été utilisées pour estimer la position ou l’état de l’objet.
Méthodes d’optimisation Le problème de suivi est formulé sous la forme d’une optimisation
de fonction différentiable par rapport à la variable position et où l’estimation de position de
l’objet est résolue par une descente de gradient, comme c’est le cas du flot optique [Lucas et al.,
1981] ou de l’algorithme Meanshift [Comaniciu et al., 2000]. Le flot optique estime le déplacement
2D d’un pixel d’une image à l’autre en imposant une contrainte de conservation d’intensité
de celui-ci. Cette estimation peut être rendue plus robuste éventuellement par des contraintes
supplémentaires d’intensité ou géométriques de déplacement [Kalal et al., 2010b, Matas et Vojíř,
2011].
Le Meanshift [Comaniciu et al., 2000] est une procédure itérative de recherche du maximum
d’une densité de probabilité où la position estimée de l’objet est déplacée vers un centre de
CHAPITRE 1. BIBLIOGRAPHIE 27
gravité local jusqu’à convergence. CamShift (Continuously Adaptive Mean Shift) [Allen et al.,
2004] est une extension du Meanshift avec une adaptation de taille de la fenêtre. Cependant,
un des risques classiques présents dans ces méthodes d’optimisation est la convergence vers un
minimum local qui ne soit pas la position réelle de l’objet, i.e. minimum le plus proche de la
position initiale. Ces méthodes ne sont donc pas adaptées aux grands déplacements de l’objet.
Filtrage de Kalman Une autre stratégie de recherche est d’utiliser un modèle de mouvement
pour restreindre l’espace de recherche de l’objet, notamment un filtre de Kalman [Kalman, 1960].
Celui-ci réalise la prédiction d’état de l’objet (localisation) en supposant que l’état de l’objet est
normalement distribué (gaussien) et le modèle de mouvement linéaire (par exemple, un modèle à
vitesse constante [Čehovin et al., 2011]). Cette prédiction est réalisée en deux temps : une étape
de prédiction puis de correction de l’état. L’étape de prédiction est assurée par le modèle de
mouvement linéaire calculé à l’instant précédent Mt−1 . L’étape de correction corrige la prédiction
d’état en utilisant l’écart entre l’observation prédite (modèle) et l’observation courante (par
exemple issue de la détection). A l’origine conçu pour le suivi de points (radar), le filtre de Kalman
linéaire est peu adapté au suivi d’objets dans des vidéos. En effet, ces derniers suivent difficilement
un modèle de mouvement linéaire (changement brusque de direction, mouvement de caméra).
Des modèles de mouvement plus complexes ont été développés mais l’apparence de l’objet y
est peu exploitée : EKF (Extended Kalman Filter) [Julier et Uhlmann, 2004], UKF (Unscented
Kalman Filter) [Julier et Uhlmann, 1997], IMM (Interacting Multiple Model) [Bar-Shalom et al.,
2004], etc.
et al., 2011], détection [Kalal et al., 2012], etc. C’est le cas des approches de suivi basées sur la
correspondance de template ou de type Track-by-detection. Cet espace de recherche peut être
toute l’image (recherche exhaustive), ce qui implique un coût de calcul élevé mais s’avère utile
lorsque la cible effectue de grands déplacements dans l’image. Il répond aussi à des problématiques
de ré-identification de la cible lorsqu’elle est perdue pendant plusieurs images et que l’on cherche
à le ré-identifier dans les images suivantes. Le détecteur du TLD remplit cette fonction [Kalal
et al., 2012].
Pour réduire le coût de calcul, la plupart des trackers font l’hypothèse que les déplacements
de l’objet sont faibles d’une image à l’autre et recherchent l’objet dans une fenêtre locale
(recherche locale) de manière uniforme ou gaussienne autour de la position précédente de l’objet.
Pour une localisation plus précise, la recherche multi-échelles permet d’adapter les variations
de taille de l’objet. C’est le cas par exemple des filtres de corrélation discriminants [Danelljan
et al., 2014, Henriques et al., 2015]. Ceux-ci ont connu une forte popularité ces dernières années
pour répondre aux problématiques du suivi d’objet, en modélisant l’apparence de l’objet par
un filtre de caractéristiques dans le domaine des fréquences spatiales. Ils permettent de calculer
facilement les corrélations pour une population de déplacements (fenêtres candidates), de l’ordre
de la centaine d’images par seconde. Nous présenterons en détails un algorithme de cette famille,
le tracker DSST [Danelljan et al., 2014] dans la section 2.2.6.
D’autres paramètres peuvent être intégrés dans la recherche telle que l’orientation de l’objet
[Yilmaz, 2007, Hua et al., 2015].
Un des points centraux du suivi d’objet est la capacité des trackers à s’adapter aux variations
d’apparence de l’objet en mettant à jour leur modèle d’apparence. Évidemment, la façon dont
cette mise à jour est réalisée est cruciale et peut entraîner la dérive du tracker lorsque de mauvaises
mises à jour sont introduites dans le modèle. Deux problématiques s’articulent donc autour de ce
sujet :
— Comment mettre à jour le modèle ? (techniques de mise à jour en ligne, choix des exemples
d’apprentissage, labellisation)
— Quand effectuer la mise à jour ? A quelle fréquence ? Comment décider qu’une mise à jour
est bonne ou mauvaise ?
Mt = Mt−1 (1.1)
CHAPITRE 1. BIBLIOGRAPHIE 29
Processus dynamiques d’ordre 1 Une manière naïve de réaliser cette mise à jour est de
remplacer le modèle précédent par le modèle courant :
Mt−1 ← Mt (1.2)
C’est le cas du suivi de points par flot optique dans [Kalal et al., 2010b] où à chaque instant la
grille de points est réinitialisée à partir de la nouvelle prédiction.
[Matthews et al., 2004] proposent une alternative à la méthode naïve pour l’adaptation du
modèle par correspondance de template incorporant le template original T1 :
Mt = f (Tt , T1 ) (1.3)
C’est le cas du tracker IVT [Ross et al., 2008], qui réalise l’apprentissage incrémental d’un
sous-espace de représentation de l’objet (PCA) et adapte le modèle en intégrant la nouvelle
apparence de l’objet avec un facteur d’oubli sur les apparences passées de l’objet. L’inconvénient
d’une telle approche est que la nouvelle apparence est intégrée au modèle sans contrôle, ce qui
peut facilement conduire à une dérive du modèle. De plus, un aspect important de la mise à jour
concerne le choix des exemples utilisés dans la mise à jour et leur labellisation. Pour ces trois
derniers trackers [Kalal et al., 2010b, Matthews et al., 2004, Ross et al., 2008], la localisation
de l’objet est le seul exemple positif utilisé pour la mise à jour de leur modèle. Cette méthode
est clairement peu robuste en particulier lorsque la localisation de l’objet est imprécise. Pour
éviter ce problème, [Kim et al., 2008] réalisent le suivi de visages en ajoutant des contraintes de
variations d’apparence du visage (pose, alignement) pour empêcher l’adaptation du modèle à des
apparences candidates qui ne sont pas des visages. Ces contraintes sont apprises hors ligne à
partir de connaissances a priori. Les apparences candidates sont pondérées en fonction de leur
CHAPITRE 1. BIBLIOGRAPHIE 30
pose et de leur alignement, ce qui permet de rejeter les candidates mal-alignées par exemple.
Toutefois, ce procédé ne peut s’appliquer au suivi d’objet quelconque.
Classifieurs appris en ligne Les trackers inspirés des techniques d’apprentissage automatique
(Boosting, forêts aléatoires, SVM, réseaux de neurones) adaptent les classifieurs hors ligne en
classifieurs en ligne. [Grabner et al., 2006] présentent un version en ligne de l’algorithme AdaBoost
(Adaptive Boosting) [Grabner et Bischof, 2006] pour le suivi d’objet. [Hare et al., 2011] utilisent
une méthode d’optimisation [Platt, 1999, Bordes et al., 2007, Bordes et al., 2008] pour entraîner
en ligne un classifieur SVM sur des données à labels structurés. Cette méthode permet la mise
à jour des vecteurs de support tenant compte des nouveaux exemples d’apprentissage sans
avoir à ré-entraîner le classifieur sur tous les exemples existants. Dans beaucoup de cas, les
classifieurs sont utilisés à la fois pour prédire la position de l’objet et pour générer les exemples
d’entraînement, une imprécision du classifieur peut alors entraîner des erreurs de labellisation
des exemples.
Labellisation robuste des exemples d’apprentissage Pour rendre les classifieurs plus
robustes aux erreurs de labellisation, différentes approches de labellisation ont été développées.
Au lieu de suivre un apprentissage classique avec un label par exemple d’apprentissage, [Babenko
et al., 2009] entraînent leur classifieur sur des ensembles d’exemples labellisés positifs lorsqu’ils
CHAPITRE 1. BIBLIOGRAPHIE 31
contiennent au moins un exemple positif sinon négatif. [Grabner et al., 2008] utilisent un a priori
(externe) pour mettre à jour leur classifieur en ligne. [Kalal et al., 2012] utilisent des contraintes
spatiales pour labelliser les exemples d’apprentissage destinés à mettre à jour le détecteur d’objet
[Kalal et al., 2010a] : à chaque image, le détecteur produit un certain nombre de détections, or une
seule contient l’objet, toutes les autres sont des fausses détections. Un évaluateur externe (expert
P-N) détermine les exemples mal-classés du détecteur (fausses détections) par des contraintes
spatiales (position de l’objet), qui sont alors utilisés pour entraîner le détecteur.
Deep Learning L’apprentissage en ligne des réseaux profonds avec ou sans pré-entraînement
sur une autre base est confronté au phénomène de surapprentissage (overfitting), dû au faible
nombre d’exemples d’apprentissage rencontrés au cours du suivi de l’objet. Pour adapter un réseau
pré-entraîné à un nouveau problème de vision, une technique très employée est d’ajouter des
couches d’adaptation en sortie du réseau pré-appris d’extraction de caractéristiques et prenant en
entrée les caractéristiques du réseau. Seules les couches d’adaptation sont entraînées en ligne. Pour
éviter le surapprentissage de cette nouvelle structure, [Wang et al., 2016] entraînent un réseau
convolutif (CNN) par une méthode d’apprentissage séquentiel. [Nam et Han, 2015] proposent le
réseau MDNet (Multi-Domain) basé sur l’apprentissage de représentations multi-domaines pour
le suivi d’objet (un domaine correspond à une séquence vidéo). Le réseau est pré-entraîné sur une
large base de vidéos de suivi, les dernières couches (fully-connected) et des couches spécifiques au
domaine sont entraînées en ligne afin de s’adapter au nouveau domaine.
Mécanisme de censure
Les trackers suivants mettent en place un mécanisme de censure qui empêche la mise à jour
de leur modèle lorsque certaines conditions ne sont pas satisfaites. Ces conditions sont pour la
plupart basées sur des hypothèses de mouvement ou de changement d’apparence. [Supancic et
Ramanan, 2013] sélectionnent les bonnes images à apprendre parmi les images précédentes pour
faire l’apprentissage de leur modèle. Cette sélection est utile notamment lors d’occultations. [Mei
et al., 2011] détectent une occultation à partir de l’erreur de reconstruction de l’observation par
rapport au modèle, cette erreur est basée sur une minimisation `1 . Le modèle n’est pas mis à
jour pendant les 5 prochaines images suivant la détection d’occultation. De la même manière,
[Zhong et al., 2012] calculent une carte d’occultation de l’image basée sur une mesure d’erreur de
reconstruction par rapport au modèle et décident la mise à jour du modèle lorsque les occultations
CHAPITRE 1. BIBLIOGRAPHIE 32
présentes sur la carte sont faibles. [Kalal et al., 2012] autorisent l’apprentissage du détecteur
lorsque celui-ci fournit une réponse fiable, déterminée par un évaluateur extérieur construit sur
un modèle d’apparence différent de celui du détecteur.
Combinaison stabilité-adaptabilité
Pour les différentes approches, nous indiquons les différentes représentations d’apparence,
méthodes de comparaison et de recherche de l’objet utilisées. Nous indiquons aussi la présence
(3) ou l’absence (7) de mise à jour du modèle, d’estimation d’échelle et de rotation.
points d’intérêt (KeyPoints), des patchs locaux (Patch) ou encore des superpixels (Superpixels).
Certaines approches calculent un histogramme global sur la boîte englobante (HistoG) ou des
histogrammes locaux sur des patchs de l’objet (HistoL), d’autres combinent des histogrammes
globaux et locaux (HistoGL). Les histogrammes mesurent différentes quantités (intensité, cou-
leurs, orientation). L’apparence peut être représentée dans un sous-espace de représentation
(espace propre, PCA). Certains exploitent seulement l’intensité brute des pixels (Int). Plusieurs
espaces de couleurs ont été exploités : RGB, HSV (en anglais Hue Saturation Value), HS (Hue
Saturation) ou Lab. D’autres calculent des caractéristiques plus complexes de l’image telles que
les caractéristiques de texture (Haar, LBP) ou de forme (HOG, PCA-HOG [Felzenszwalb et al.,
2010]), ou encore les caractéristiques des réseaux convolutifs (DeepF). Les approches utilisent soit
un modèle génératif (MG), soit un modèle discriminant (MD) ou combinent les deux modèles
(MGD). Les approches à modèle génératif cherchent à calculer une vraisemblance ou probabilité
a posteriori à partir de l’apparence et localisent l’objet en maximisant cette vraisemblance.
Méthode Il existe différentes méthodes pour déterminer si une région de l’image contient
l’objet. Une première série de méthodes cherchent à comparer la région au modèle d’apparence de
l’objet en utilisant des mesures de similarité (Simil) telles que la corrélation (Corr), une somme
des différences au carré (SSD), ou une dissimilarité géométrique (Géom). Les modèles génératifs
utilisent une vraisemblance (L). Les autres approches utilisent des techniques d’apprentissage
automatique telles qu’un arbre de décision (Arbre), des forêts aléatoires ou variantes de même
type (FA), du Boosting (Boost), un SVM linéaire ou structuré (SVM, SVM str), un filtre de
corrélation (FC) ou des réseaux convolutifs (CNN).
Perturbations visuelles
Les approches sont notées par des (+) en fonction de leur capacité à gérer les changements
d’apparence. (+++) signifie une grande capacité de gestion des changements d’apparence. Pour
les perturbations liées au contexte, au mouvement, à l’illumination et aux occultations, nous
indiquons pour les différentes approches la prise en compte de ces perturbations (3ou 7).
modèle (Maj) sont capables de s’adapter aux variations d’apparence de l’objet, contrairement aux
approches à modèle statique. La représentation de l’apparence de l’objet joue également un rôle
important, certaines représentations sont plus robustes que d’autres pour certains changements
d’apparence (caractéristiques plus robustes qu’un template). Les réseaux de neurones offrent une
grande capacité de représentation des objets via les deep features, pouvant décrire les différents
types de changement d’apparence ayant eu lieu.
Contexte L’information de contexte est prise en compte dans les trackers à modèle discriminant.
Pour les trackers à modèle génératif, certains modélisent le contexte en complément de la
modélisation objet.
Illumination Une représentation de l’apparence adaptée permet d’être robuste vis à vis des
changements d’intensité importants dans l’image. Par exemple en utilisant des caractéristiques
invariantes aux changements d’intensité telles que les caractéristiques de forme moins sensibles.
Les deep features ont également l’avantage de présenter un très large choix de caractéristiques
parmi lesquelles certaines sont invariantes à l’illumination.
Occultations La capacité à localiser un objet après une occultation dépend de plusieurs para-
mètres : la fenêtre de recherche utilisée et le mécanisme de mise à jour du modèle. Tout d’abord,
lorsque l’objet réapparaît après une occultation en s’étant déplacé, la fenêtre de recherche doit
être suffisamment large pour pouvoir le capturer. Certains trackers traitent l’image entière pour
pouvoir redétecter l’objet après une occultation totale (3), par exemple en faisant passer un
détecteur sur toute l’image, ou en calculant des deep features sur l’image entière. Les trackers
disposant d’un mécanisme de mise à jour incrémental (à toutes les images) sont capables de
détecter l’objet lors d’une occultation partielle (P), mais introduisent des erreurs lors de l’appren-
tissage, ce qui peut mener à une dérive du modèle. Les trackers disposant d’un mécanisme de
censure de la mise à jour ou contrôlant les exemples d’apprentissage sont davantage robustes aux
occultations partielles ou totales (3). Les trackers combinant plusieurs niveaux de représentation
de l’apparence (pixels, superpixels, patchs locaux, apparence globale) tolèrent les occultations en
filtrant les régions occultées.
CHAPITRE 1. BIBLIOGRAPHIE 35
Globalement, plusieurs trackers se démarquent : TLD [Kalal et al., 2012] est robuste aux
grands mouvements de caméra ou de l’objet. DSST [Danelljan et al., 2014] est robuste aux
changements d’échelle de l’objet. Les trackers utilisant des deep features tels que Deep-SRDCF
[Danelljan et al., 2015], [Hong et al., 2015a] et MDNet [Nam et Han, 2015] possèdent les propriétés
leur permettant d’être robuste à l’ensemble des perturbations. Les trackers capables de modéliser
les déformations de l’objet LGT [Čehovin et al., 2011] et [Xiao et al., 2015], ont une forte capacité
d’adaptation aux changements d’apparence et à l’environnement.
Nous pouvons espérer une complémentarité des trackers pour les différentes perturbations en
combinant leurs points forts.
Le suivi d’objet produit chaque année un nombre considérable d’études, souvent accompagnées
de nouveaux benchmarks et métriques d’évaluation, comme l’étude menée par [Smeulders et al.,
2014] sur la base ALOV++ réalisant l’évaluation de 19 trackers sur 315 vidéos, ou encore le
benchmark The Online Object Tracking Benchmark (OTB) de [Wu et al., 2013] évaluant 29
trackers sur 50 vidéos.
Un benchmark de suivi d’objet constitue sa propre base de vidéos d’objets à suivre, des
métriques de performance sur lesquels les trackers sont évalués, et un protocole d’évaluation des
trackers qui décrit précisément les expériences auxquelles les trackers sont soumis, évalués et
classés. Une des actions récentes d’envergure est le challenge VOT 1 (Visual Object Tracking),
organisé en conjonction avec ICCV/ECCV tous les ans depuis 2013 et dont nous nous intéresserons
de plus près dans cette partie.
Jusque dans les années 2010, un tracker était expérimentalement évalué sur un nombre
restreint de vidéos (5 ∼ 10 vidéos choisies par l’auteur) et selon des métriques d’évaluation
propres à l’auteur. Une telle évaluation est insuffisante pour mesurer les forces et faiblesses de
chacun des trackers pour les nombreux phénomènes existants en suivi d’objet (illumination,
occultation, variations d’apparence, etc.).
Il existe plusieurs bases connues, créées dans le cadre de la vidéo-surveillance et de la détection
d’événements telles que VIVID 2 [Collins et al., 2005], CAVIAR 3 et PETS [Ferryman et Ellis,
2010] mais les catégories d’objets d’intérêt sont assez restreintes (piétons, véhicules) et l’arrière-
plan est statique. CVBASE 4 est destinée à l’analyse d’événements sportifs et FERET 5 [Phillips
1. http://www.votchallenge.net/
2. http://vision.cse.psu.edu/data/vividEval/datasets/datasets.html
3. http://homepages.inf.ed.ac.uk/rbf/CAVIAR/
4. http://vision.fe.uni-lj.si/cvbase06/
5. http://www.itl.nist.gov/iad/humanid/feret/feret_master.html
Composition Perturbations
Représentation Méthode Rech Maj Ech Rot App Cont Mvt Ill Occ
NCC [Lewis, 1995] Templ,Int Corr Ds 7 7 7 + 7 3 7 7
[Matthews et al., 2004] Templ,Int SSD Ds 3 7 7 + 7 3 7 7
KLT [Kalal et al., 2010b] Points,Int Fl 3 3 7 + 7 F 7 7
TLD [Kalal et al., 2012] Points,Templ,Int,LBP FA Fl,Ds 3 3 7 +++ 3 3 7 3
FoT [Matas et Vojíř, 2011] Points,Int Fl 3 3 7 + 7 F 7 7
[Zass et Shashua, 2008] Points,Hypergraphes Opt 7 3 3 D++ 7 3 7 7
CMT [Nebehay et Pflugfelder, 2015] KeyPoints Géom Fl 3 3 3 D++ 7 F 7 P
[Mei et Ling, 2011] Templ épars,MG FP,Opt 3 3 3 D+ 7 R 7 P
[Mei et al., 2011] Templ L FP,Opt 3 7 7 + 7 R 7 3
[Supancic et Ramanan, 2013] Templ HOG,MGD SVM Ds 3 7 7 ++ 3 R 3 3
MST [Comaniciu et al., 2000] HistoG RGB Ms 7 7 7 + 7 F 7 7
CHAPITRE 1. BIBLIOGRAPHIE
Figure 1.5 – Séquences de la base OTB [Wu et al., 2013]. Les images correspondent à la première
image de chaque séquence avec l’objet d’intérêt détouré par une boîte englobante rouge. Les
séquences sont classées du plus difficile en haut à gauche au plus facile en bas à droite. [Wu et al.,
2013].
et al., 2000] à la reconnaissance de visages pour des applications de sécurité. Cependant, ces
bases ne sont pas suffisamment génériques (catégories d’objet peu variées) et représentatives des
difficultés qu’il est possible de rencontrer en suivi d’objet.
Les bases récentes sont celles collectées par [Wu et al., 2013] (base OTB) et [Smeulders et al.,
2014] (base ALOV++) visant à couvrir un grand nombre de situations possibles.
La base OTB [Wu et al., 2013] comprend 50 séquences annotées suivant 11 difficultés
(illumination, variation d’échelle, occultation, déformation, flou de bouger, etc.), ces séquences
font partie de celles habituellement utilisées en suivi d’objet, voir la figure 1.5.
La base ALOV++ [Smeulders et al., 2014] contient 315 vidéos réparties dans 13 catégories
de difficulté (illumination, transparence, spécularité, confusion avec des objets similaires, bruit
de fond, occultation, zoom, déformation importante, faible contraste, mouvement, etc.). Ces
situations sont discutées dans [Chu et Smeulders, 2010]. Cette base est constituée à partir de
séquences de la base PETS (65 vidéos), de séquences habituellement utilisées dans les articles
récents de suivi d’objet et de 250 nouvelles séquences. Ces séquences proviennent principalement
de YouTube (vidéos d’amateurs) et couvrent 64 catégories d’objet (visage, personne, ballon, sac
plastique, pieuvre, verre, oiseau, poisson, etc.).
La base VOT [Kristan et al., 2013] Le benchmark VOT créé en 2013 est devenu la référence
en suivi d’objet. C’est sur ce dernier que les trackers actuels s’évaluent et se comparent. Depuis,
une nouvelle édition est organisée chaque année [Kristan et al., 2014, Kristan et al., 2015a] et
s’étend au suivi d’objet dans des images infra-rouge [Felsberg et al., 2015] (VOT-TIR2015). Il
sera décrit plus en détails dans la section 1.2.3.
CHAPITRE 1. BIBLIOGRAPHIE 38
Les bases d’évaluation de VOT2013 (16 vidéos) et VOT2014 (25 vidéos) se composent
de séquences sélectionnées parmi OTB et ALOV++ de manière semi-automatique selon les
phénomènes présents (occultation, changement d’illumination, changement de taille, mouvement
objet, mouvement caméra). Tandis que VOT2015 sélectionne automatiquement 60 séquences
parmi OTB, ALOV++, PTR [Vojir et al., 2013] et 30 autres séquences annotées selon 11 attributs
globaux (figure 1.6). Les 11 attributs globaux utilisés pour annoter les vidéos sont les suivants :
changement d’illumination, changement de taille de l’objet, mouvement de l’objet, bruit de
contexte, mouvement de la caméra, flou, changement de rapport largeur-hauteur de l’objet,
changement de couleur de l’objet, déformation, complexité de la scène, mouvement absolu de
l’objet dans l’image. VOT2016 est constitué des mêmes vidéos de VOT2015 mais avec une
vérité terrain plus précise (annotation de la position de l’objet). VOT-TIR2015 utilise la base de
vidéos infra-rouge LTIR [Berg et al., 2015] (20 vidéos) provenant de sources diverses (industrie,
universités) et utilisant jusqu’à 8 capteurs différents dans des conditions variées (intérieur,
extérieur), voir la figure 1.7. VOT-TIR2016 se compose de nouvelles séquences.
Le benckmark VOT vise à composer des bases avec les objets les plus divers (personnes,
animaux, véhicules, objets quotidiens, etc.), les scènes les plus variées (scène d’intérieur, d’exté-
rieur, fort contraste, changement de luminosité, occultation, etc.) provenant de sources diverses
CHAPITRE 1. BIBLIOGRAPHIE 39
(YouTube, films, vidéos réalisées en laboratoire, dans des lieux publics ou privés, etc.), ce qui a
un impact sur la qualité des images, très variable d’une séquence à l’autre (résolution, flou, bruit).
La figure 1.8 montre quelques séquences difficiles de VOT2015 [Kristan et al., 2015a] combinant
plusieurs phénomènes : occultation, changement d’apparence (déformation, taille), contexte
(texture, contraste, objets similaires), mouvement (objet, caméra) et changement d’illumination.
Il existe de nombreuses métriques de performance en suivi d’objet détaillées dans [Wu et al.,
2013, Smeulders et al., 2014, Čehovin et al., 2014]. Les principales utilisées sont les suivantes :
Précision selon un seuil sur l’erreur de localisation Une autre mesure très utilisée est
la précision selon un seuil sur l’erreur de localisation [Wu et al., 2013, Bailer et al., 2014]. Elle
mesure la proportion d’images, entre [0, 1], pour lesquelles la distance entre les centres de la
boîte prédite et de la vérité terrain est inférieure à un seuil en nombre de pixels. Une courbe de
proportion d’images en fonction du seuil sur l’erreur de localisation peut être calculée, voir la
CHAPITRE 1. BIBLIOGRAPHIE 40
(c) basketball : scène complexe, confusion avec des objets similaires, occultation, variations d’apparence,
déplacements importants
(d) graduate : zoom et dézoom de la caméra, fortes variations de taille, objet peu texturé, confusion
avec l’arrière-plan
(e) soccer2 : résolution faible, objet de petite taille, flou de bouger, mouvements brusques de caméra
Figure 1.9 – Métriques d’évaluation. (a) Courbe de proportion d’images en fonction du seuil
sur l’erreur de localisation pour différents trackers. La valeur indiquée à côté de chaque tracker
correspond au seuil de 20 pixels. (b) Courbe de proportion d’images en fonction du seuil sur
le taux de recouvrement pour différents trackers. La valeur indiquée à côté de chaque tracker
correspond à l’aire sous la courbe. [Wu et al., 2013]
figure 1.9a. Le seuil habituellement utilisé pour comparer la précision entre différents trackers est
de 20 pixels.
|B ∩ B 0 |
IoU (B, B 0 ) = (1.5)
|B ∪ B 0 |
IoU , illustré dans la figure 1.10a, est une mesure d’erreur plus précise que l’erreur de localisation
du centre puisqu’il tient compte de la taille des boîtes. Le taux de recouvrement moyen consiste
alors à moyenner IoU sur l’ensemble des images de la base [Zhang et al., 2012].
Précision selon un seuil sur le taux de recouvrement Une autre mesure largement uti-
lisée par les trackers actuels trace une courbe de proportion d’images en fonction du seuil sur le
taux de recouvrement compris entre [0, 1] [Wu et al., 2013, Bailer et al., 2014]. Chaque valeur
du taux de recouvrement correspond à la proportion d’images de la séquence ayant un taux de
recouvrement avec la vérité terrain, inférieur à cette valeur. De cette courbe, on tire une valeur
représentative du comportement du tracker qui est l’aire sous la courbe (Area Under Curve),
voir la figure 1.9b. Cette métrique est souvent utilisée conjointement avec la précision selon un
seuil sur l’erreur de localisation.
Selon l’étude de [Čehovin et al., 2014], la plupart des métriques sont corrélées et ne reflètent
pas les différents aspects de la performance de suivi. Pour le benchmark VOT [Kristan et al.,
CHAPITRE 1. BIBLIOGRAPHIE 42
2013], deux métriques considérées comme étant mieux décorrélées ont été choisies pour évaluer
les trackers : la précision et la robustesse définies ci-dessous.
Avant de les définir, décrivons le protocole d’évaluation de VOT. Selon ce protocole, un
tracker a 3 régimes de fonctionnement : suivi, dérive et réinitialisation, comme illustré dans la
figure 1.10c. Pour savoir dans quel régime est un tracker, entre suivi et dérive, l’IoU est calculé à
chaque instant :
— Dérive : ensuite, il dérive. Une dérive étant mesurée par un IoU de valeur nulle (figure
1.10b). C’est le seuil critique choisi pour déterminer qu’un tracker a dérivé de l’objet. Passé
ce seuil, le tracker a peu de chance de retrouver l’objet.
— Réinitialisation : puis, il est réinitialisé (position et modèle) avec la vérité terrain, 5 images
après que la dérive est détectée. Pendant ces 5 images, le tracker est arrêté.
Robustesse La robustesse est le nombre total de dérives du tracker sur une séquence ou sur
une base de vidéos. Plus un tracker compte de dérives, moins il est robuste.
Précision La précision est définie comme étant la moyenne du taux de recouvrement mesuré
entre le tracker et la vérité terrain sur une séquence ou sur une base de vidéos. Les 10 premières
boîtes suivant une initialisation ou réinitialisation du tracker sont éliminées du calcul de la
précision car elles introduisent un biais. En effet, la précision y est élevée dans les premières
images due à l’initialisation ou la réinitialisation par la vérité terrain. Réinitialiser le tracker est
utile car une fois qu’il a dérivé, le taux de recouvrement mesuré sera toujours nul.
Dans le protocole d’évaluation de VOT, la précision et la robustesse sont calculées non pas
sur toutes les images de la base mais sur des sous-ensembles d’images annotées par un même
attribut visuel, voir la description détaillée dans la section 1.2.3.
Figure 1.10 – Fonctionnement d’un tracker dans VOT [Kristan et al., 2013]. (a) Mesure du
taux de recouvrement entre la prédiction et la vérité terrain. (b) Le tracker est considéré comme
ayant dérivé lorsque ce taux est nul. (c) Réinitialisation du tracker après chaque dérive détectée.
[Kristan et al., 2013]
CHAPITRE 1. BIBLIOGRAPHIE 44
Le challenge comprend un kit d’évaluation Matlab permettant à chacun d’évaluer son tracker
quel que soit son langage de programmation (C/C++, Matlab, Python) selon la méthodologie
d’évaluation définie par le challenge. L’intégration des trackers se réalise de manière générique
en utilisant un protocole standard de communication des entrées et sorties du tracker avec le
kit dont l’intérêt est de simplifier l’interaction du tracker avec le kit. La spécificité du toolkit
est de pouvoir communiquer avec le tracker à chaque instant de la vidéo, comme par exemple
réinitialiser le tracker au milieu de la vidéo, ce qui n’était pas possible avec les toolkits précédents.
Dans chaque image, l’objet est annoté manuellement par une boîte englobante, traditionnelle-
ment un rectangle dans VOT2013, puis un quadrilatère à partir de VOT2014 (4 coordonnées x
et 4 coordonnées y), pour un marquage plus précis de l’objet permettant de prendre en compte
les déformations géométriques de l’objet et autres transformations du plan (rotation).
De plus, chaque image est annotée manuellement ou semi-manuellement selon 5 attributs
visuels A = {A1 , ..., A5 } pour rendre compte des principaux phénomènes visuels, sources de
difficultés : occultation, changement d’illumination, changement de mouvement, changement de
taille et mouvement de caméra. Ces annotations sont utilisées pour évaluer les trackers selon
chaque phénomène visuel.
Protocole d’évaluation
— Expérience 1 : le tracker réalise le suivi sur toutes les vidéos de la base et est initialisé avec
la vérité terrain.
— Expérience 3 : consiste à réaliser l’expérience 1 mais les images couleurs sont converties en
niveaux de gris.
Pour les trackers qui fonctionnent en niveaux de gris, seule l’expérience 3 est effectuée.
Chaque expérience est réalisée 15 fois pour des trackers stochastiques, sinon 3 fois lorsqu’ils sont
déterministes. Chaque tracker est évalué sur chacune des expériences.
Évaluation Chaque tracker est tout d’abord évalué sur des sous-ensembles d’images corres-
pondant au même attribut visuel, ce qui donne une valeur de précision pAi et de robustesse rAi
CHAPITRE 1. BIBLIOGRAPHIE 45
Figure 1.11 – Classement de performance des trackers de VOT2013 selon les métriques de
précision (en ordonnée) et de robustesse (en abscisse) pour les 3 expériences du protocole. Le
meilleur tracker en précision et en robustesse se trouve en haut à droite. [Kristan et al., 2013].
Classement Une fois les précisions {pAi }i et robustesses {rAi }i calculées, on peut procéder
à un classement de performance des trackers, l’idée est de calculer un rang c(j) par tracker j
reflétant à la fois les performances mesurées sur les deux métriques. Tout d’abord, on considère
les métriques de précision et de robustesse séparément. Pour chaque métrique, on calcule un rang
par tracker sur chaque attribut séparément, ce qui donne c(j, p, Ai ) et c(j, r, Ai ) pour le tracker j,
où p désigne la précision et r la robustesse. Ensuite, pour chaque tracker j sur chaque métrique,
1 P
on moyenne le rang sur l’ensemble des attributs, ce qui donne c(j, p) = Card(A) i c(j, p, Ai ) et
1 P
c(j, r) = Card(A) i c(j, r, Ai ). La précision et la robustesse ont le même poids dans le calcul
du rang final c(j) du tracker j qui est donc une moyenne du rang sur les deux métriques :
c(j,p)+c(j,r)
c(j) = 2 .
La figure 1.11 montre le classement de performance des trackers de VOT2013 [Kristan et al.,
2013] pour les 3 expériences du protocole. Ces 3 expériences permettent d’estimer la variance
des performances des trackers liée aux conditions initiales. On remarque que les métriques de
précision et de robustesse sont peu corrélées, le nuage de points étant assez isotrope.
𝑌𝑌𝑡𝑡1
Capteur 1
𝑌𝑌𝑡𝑡𝑁𝑁
Capteur N
𝑌𝑌𝑡𝑡𝑁𝑁 𝑋𝑋�𝑡𝑡𝑁𝑁
Capteur N Estimateur N
Figure 1.12 – Architecture de fusion centralisée (a) et décentralisée (b). Une série de N capteurs
parallèles réalisent un ensemble de mesures {Yti }N i=1 à partir de l’image d’entrée It à l’instant
t. (a) Dans l’architecture centralisée, les mesures sont envoyées vers une unité de fusion pour
estimer directement la position de l’objet X̂t . (b) Dans l’architecture décentralisée, les mesures
sont envoyées vers des estimateurs qui estiment la position de l’objet {X̂ti }N i=1 . Une unité de
fusion combine ces estimations pour estimer une seule position de l’objet X̂t .
CHAPITRE 1. BIBLIOGRAPHIE 48
Figure 1.13 – Schémas de fusion décentralisée de [Stenger et al., 2009] combinant n trackers
et un détecteur de mains et de visages, entraîné hors ligne. (a) Les n trackers sont exécutés en
parallèle. L’état de la cible, position x̂kt , à l’instant t, est la prédiction du tracker dont l’erreur
de prédiction estimée est la plus faible. (b) Les n trackers sont exécutés en cascade. Le tracker
suivant n’est exécuté que lorsque l’erreur de prédiction estimée du tracker courant est supérieure
à un certain seuil. Le détecteur sert à réinitialiser les trackers lorsque leur erreur de prédiction
estimée est trop importante. [Stenger et al., 2009]
lorsque le tracker courant n’est pas en mesure de fournir une prédiction correcte (une erreur
de prédiction est estimée). La position de l’objet correspond alors à la prédiction réalisée par
le dernier tracker exécuté. L’avantage d’une telle architecture est de pouvoir réduire les coûts
de calculs en exécutant le moins de trackers possible. En revanche, ce type d’architecture est
souvent difficile à configurer et est de plus, sensible aux échecs individuels des trackers de par
leur dépendance en chaîne.
incorrectes pour les éliminer avant de les combiner. Puisqu’aucune interaction n’a lieu, un tracker
ayant dérivé ne peut être corrigé (en position et en modèle) par un autre tracker ou détecteur
fonctionnel afin de lui permettre de se raccrocher à la cible.
La deuxième approche, fusion « en boucle fermée », favorise l’interaction entre les trackers et
détecteurs. Une des motivations est de pouvoir corriger les dérives des trackers en s’appuyant sur
les autres trackers ou détecteurs, par exemple en contrôlant la mise à jour et la réinitialisation
des modèles ou en contrôlant la fenêtre de recherche.
Dans les deux approches, un étape clé est d’identifier les bonnes prédictions des mauvaises
pour pouvoir les sélectionner avant fusion et/ou d’identifier les mauvais trackers des bons pour
pouvoir les corriger. Il est nécessaire alors de concevoir un mécanisme d’évaluation capable
d’évaluer le bon fonctionnement de chacun des traitements.
Les algorithmes de suivi combinent en général deux types de modèles : des modèles de
mouvement et des modèles d’apparence.
multi-objets, pas de suivi. Pour le suivi multi-personnes dans des vidéos, [Breitenstein et al.,
2011] combinent des filtres particulaires, un détecteur générique de personnes et des classifieurs
spécifiques appris en ligne, proposés par [Grabner et Bischof, 2006] : le détecteur génère des
détections de personnes, qui servent d’une part à initialiser les pistes de suivi, et d’autre part,
comme exemples d’apprentissage pour entraîner des classifieurs spécifiques à chaque personne afin
de pouvoir discriminer les personnes entre elles par l’apparence. [Khan et al., 2014] améliorent
la recherche de l’objet en ajoutant une échelle/région variable dans le modèle de mouvement,
et disposent ainsi d’un ensemble de modèles de mouvement à échelles différentes ou régions
variables permettant de couvrir des espaces plus grands. Parmi cet ensemble, un seul modèle
de mouvement est sélectionné à chaque instant, et correspond à celui dont la prédiction d’état
maximise la vraisemblance des observations. Cette dernière est calculée à partir d’un modèle
d’observation basé sur un histogramme de couleurs HSV.
Les efforts majeurs dans le suivi vidéo ont porté sur le modèle d’apparence, en particulier sur
la fusion de modèles d’apparence différents et la sélection des modèles, adaptés aux situations.
Une solution fusionnant des trackers à différents niveaux est le VTS (Tracking by Sampling
Trackers) de [Kwon et Lee, 2011] qui utilise un ensemble de N trackers échantillonnés dans
l’espace des modèles d’apparence, modèles de mouvement, types de représentation d’état et types
d’observation. Similaire à l’étude précédente [Yoon et al., 2012], le suivi d’objet est formulé sous
la forme d’un filtrage bayésien. La probabilité a posteriori est estimée par une somme pondérée
des probabilités a posteriori conditionnelles aux trackers :
N
X
p(Xt |Y1:t ) ' p(Xt |Tt , Y1:t ) = p(Tti |Y1:t )p(Xt |Tti , Y1:t ) (1.6)
i=1
CHAPITRE 1. BIBLIOGRAPHIE 52
où p(Xt |Tti , Y1:t ) est la probabilité a posteriori conditionnelle au ième tracker Tti à l’instant t,
et p(Tti |Y1:t ) le poids correspondant. Tt désigne l’ensemble des trackers à l’instant t et Y1:t les
observations des instants 1 à t. L’état de la cible X̂t maximise cette probabilité a posteriori
conditionnellement à l’ensemble des trackers Tt : X̂t = argmax p(Xt |Tt , Y1:t ), où Y1:t désigne les
Xt
observations des instants 1 à t.
Cependant, parmi ces approches, deux seulement utilisent des contraintes spatiales pour
évaluer la qualité des modèles d’observation [Zhang et al., 2014a, Penne et al., 2013]. Pour toutes
les autres approches, la qualité des modèles d’observation n’est pas évaluée en ligne, rendant la
performance dépendante de la fiabilité des vraisemblances.
Une autre manière d’aborder la problématique de fusion est de combiner les entrées et sorties
de différents modules de traitements. La littérature en vision par ordinateur offre divers types
de modules de traitements qui peuvent être combinés spécifiquement ou génériquement afin
d’obtenir un tracker performant, notamment en associant des détecteurs génériques ou spécifiques,
et des trackers à faible dimension d’espace d’état. La sortie du système de fusion correspond
généralement à la combinaison d’un sous-ensemble de sorties des modules. Pour décider quel
sous-ensemble fusionner, la plupart des systèmes disposent d’une fonction capable d’évaluer
individuellement chaque traitement afin de sélectionner les meilleures sorties à fusionner.
De nombreux indicateurs ont été considérés pour juger de la qualité des traitements. [Chau
et al., 2009] évaluent la performance en ligne des trackers (confiance des trajectoires, précision des
trackers) à partir d’un ensemble de caractéristiques comportementales génériques du tracker et
dont les seuils ont été fixés empiriquement : longueur de trajectoires avant perte de la cible, zones
de dérive, rapport largeur/hauteur de la boîte au cours du temps, aire de la boîte, vitesse de la
cible, histogramme de couleurs et sens de déplacement de la cible. Cette approche ne permet pas
de généraliser étant donné que le comportement observé d’un tracker dépend de la difficulté de
la séquence.
[SanMiguel et al., 2012, Biresaw et al., 2014a] recherchent des caractéristiques plus spécifiques,
en analysant le comportement du modèle d’observation. [SanMiguel et al., 2012] mesurent
l’incertitude d’un tracker à filtrage particulaire par l’incertitude spatiale des N particules, en
analysant les valeurs propres de la matrice de covariance. [Biresaw et al., 2014a] utilisent un
ensemble de trackers par point, chaque point est associé à un filtre de Kalman, la qualité de
prédiction de chaque tracker est mesurée en observant les valeurs de la matrice de covariance
du filtre de Kalman. Cette qualité classe les trackers dans deux catégories : les trackers faibles
et les trackers forts. Une correction des trackers faibles est effectuée par les trackers forts en
CHAPITRE 1. BIBLIOGRAPHIE 53
utilisant une régression par PLS (Partial Least Square). Cependant, ces indicateurs sont difficiles
à produire et demandent une bonne compréhension du fonctionnement des trackers.
Dans une approche plus générique par apprentissage et pour des systèmes de vision variés
(segmentation sémantique, estimation de point de fuite, estimation de paramètres caméra, etc.),
[Zhang et al., 2014b] entraînent une fonction d’alerte de mauvais fonctionnement des systèmes
à partir des sorties (mesure d’erreur ou de précision) couplées aux entrées par SVM. Les
entrées sont soit des images, soit des caractéristiques extraites (SIFT, couleurs, textures, HOG,
histogrammes de lignes, LBP, similarités). Ils proposent ensuite deux métriques d’évaluation des
alertes générées par la fonction apprise. Cependant, l’approche est mono-image alors que le suivi
d’objet nécessite d’exploiter un signal temporel, elle ne peut donc pas prendre en compte cette
dimension temporelle.
Dans la plupart des systèmes de fusion de trackers rencontrés [Santner et al., 2010, Stenger
et al., 2009, Kalal et al., 2012, Vojir et al., 2015], le score de confiance correspondant à la boîte
englobante prédite est utilisé comme critère d’évaluation de bon fonctionnement du tracker.
Fusion de modules
Il existe différents types de schémas de fusion, des schémas spécifiques et des schémas
génériques.
Schéma spécifique de fusion [Siebel et Maybank, 2002, Santner et al., 2010] proposent
des schémas de fusion qui combinent de manière spécifique un certain nombre de traitements.
Pour répondre au problème du suivi de personnes, [Siebel et Maybank, 2002] combinent les
informations provenant de différents modules séquentiels réalisant chacun une fonction différente
dans la chaîne de traitements : un détecteur de mouvement pour détecter les zones de mouvement
de l’image, un tracker de région pour suivre une zone de mouvement, un détecteur de visages
pour détecter des personnes, et un tracker basé forme pour suivre spécifiquement une personne.
Les sorties des modules sont combinées dans un ordre précis pour produire une boîte englobante
pour chaque personne présente dans la scène. [Santner et al., 2010] exploitent les spécificités de
3 trackers basés sur des concepts différents, notamment en jouant sur la stabilité-plasticité de
leurs modèles. Les trackers en question, du plus stable au plus adaptatif, sont : une corrélation
de template NCC, un détecteur en ligne basé sur des forêts aléatoires ORF et un flot optique
FLOW. Ils sont combinés en cascade selon les règles de fonctionnement suivantes : FLOW est
choisi comme tracker principal pour gérer les variations rapides d’apparence. Étant de nature
moins stable, il peut être invalidé par son prédécesseur dans la cascade. Si les boîtes englobantes
de FLOW et ORF ont un recouvrement nul et que le score de confiance de FLOW est inférieur à
un certain seuil, alors ORF prédomine par rapport à FLOW qui est corrigé par ORF (FLOW
prend comme entrée la sortie de ORF). ORF est mis à jour uniquement lorsque sa boîte recouvre
CHAPITRE 1. BIBLIOGRAPHIE 54
celle de NCC ou de FLOW sinon il est corrigé par NCC. Lorsqu’un tracker dérive, il est corrigé
par son prédécesseur dans la cascade, dont le modèle est plus stable.
Schéma générique de fusion Les trackers suivants conçoivent des schémas génériques de
fusion. Un traitement de la chaîne peut être remplacé par un autre du même type à condition de
renvoyer le même type de sortie, le schéma reste alors valable indépendamment du traitement
choisi dans la chaîne. Une première série d’études combine un détecteur et des trackers [Stenger
et al., 2009, Kalal et al., 2012, Vojir et al., 2015]. Pour le suivi de mains et de visages, [Stenger
et al., 2009] proposent deux schémas de fusion : un schéma parallèle et un schéma en cascade,
combinant un détecteur spécifique de mains ou de visages et plusieurs trackers. Chaque tracker
de la chaîne (cascade ou parallèle) est évalué à partir du score de confiance associé à la boîte
prédite, ce score renvoie à une erreur de précision de prédiction issue d’un apprentissage hors
ligne. Si l’erreur est supérieure à un certain seuil, le tracker est identifié comme étant en échec. Le
détecteur spécifique appris hors ligne sert à réinitialiser les trackers lorsque ces derniers échouent.
Dans le schéma parallèle, le tracker d’erreur estimée la plus faible et inférieure à un certain seuil,
est sélectionné à chaque instant. Si tous les trackers ont une erreur supérieure à ce seuil, alors ils
sont réinitialisés par le détecteur. Dans le schéma séquentiel, les trackers sont évalués à la chaîne,
le premier tracker d’erreur estimée inférieure au seuil est sélectionné. Si tous les trackers ont une
erreur supérieure au seuil, alors ils sont réinitialisés par le détecteur.
[Kalal et al., 2012] décrivent le TLD comme la coopération d’un tracker basé flot optique et
d’un détecteur appris en ligne, leur combinaison et mise à jour sont gérées par un autre modèle
construit à partir de templates basse résolution de l’objet qui évalue la qualité de chaque estimée.
Lorsque le tracker échoue, il est corrigé par le détecteur. Le détecteur est mis à jour lorsque le
tracker et lui-même sont validés par le 3ième modèle. Une version récente assez similaire au TLD
est le HMMTxD [Vojir et al., 2015]. Il décrit les états d’un ensemble de trackers sous la forme
d’un modèle de Markov caché (HMM), chaque tracker ayant deux états possibles s = {0, 1}, 1
pour un état correct et 0 sinon. Le HMM détermine les états des trackers à partir de couples
d’observables (boîte, score de confiance) produits par chacun des trackers à chaque instant. Un
détecteur hors ligne très précis (zéro taux de faux positifs et 30% de rappel) est utilisé pour
l’apprentissage en ligne des paramètres du HMM et également pour réinitialiser les trackers
lorsque c’est nécessaire. Lorsque le détecteur ne génère pas de détection, le HMM estime l’état
le plus probable du système (état de chaque tracker) et produit une boîte de fusion qui est la
moyenne des boîtes des trackers aux états corrects. Un vote majoritaire des trackers est utilisé
pour vérifier l’exactitude de la détection, auquel cas une mauvaise détection ne sera pas utilisée
pour réinitialiser les trackers.
Les trackers suivants réalisent la fusion de trackers sans détecteur. [Biresaw et al., 2014b]
mettent en compétition 2 trackers à filtre particulaire dont la qualité de chaque prédiction est
évaluée selon un critère d’incertitude spatiale des particules. [Zhong et al., 2014] proposent une
fusion « en boucle ouverte » des sorties de trackers en utilisant un apprentissage faiblement
CHAPITRE 1. BIBLIOGRAPHIE 55
supervisé sur des labels imparfaits générés par des « oracles » (trackers) pour estimer en ligne
leur précision et sélectionner l’oracle le plus précis à chaque instant. [Moujtahid et al., 2015b]
combinent un ensemble de trackers de type AdaBoost en ligne [Grabner et Bischof, 2006] basés
sur des caractéristiques hétérogènes (couleur, texture, forme) et fonctionnant indépendamment.
A chaque instant, le meilleur tracker est sélectionné à partir de son score de confiance normalisé
et d’une mesure de cohérence spatio-temporelle. Seul le tracker sélectionné réalise la mise à
jour de son modèle utilisant sa sortie. Dans une version plus récente, [Moujtahid et al., 2015a]
réalisent la sélection du tracker le plus adapté à la scène à partir d’un classifieur (perceptron
multi-couches) de contexte de scènes. Ce classifieur apprend le tracker le plus adapté (taux de
recouvrement avec la vérité terrain) à partir des caractéristiques extraites de la scène, des scores
de confiance des trackers et des trackers sélectionnés dans les trois images précédentes.
Une dernière approche plus générique est d’élaborer des stratégies de fusion de boîtes
englobantes (sorties de trackers), exploitant peu de connaissances sur les trackers [Bailer et al.,
2014]. Ces derniers proposent la fusion en « boucle ouverte » de boîtes produites par 29 trackers
issus de [Wu et al., 2013] en maximisant une fonction d’attraction de boîtes et en lissant la
trajectoire finale. Les boîtes peuvent être pondérées par la performance hors ligne des trackers.
La fusion des trackers réalise de meilleures performances de précision que le meilleur tracker sur
chaque séquence de la base.
Le tableau 1.2 résume les principales approches de fusion en précisant le type de fusion
(parallèle ou en cascade), les attributs jugeant de la qualité des prédictions et le contrôle de la
mise à jour ou de la réinitialisation des trackers et détecteurs.
1.3.4 Conclusion
Table 1.2 – Tableau résumé des approches de fusion décentralisée. Ces approches combinent des
trackers et parfois des détecteurs. k et ⊥ indiquent respectivement une fusion parallèle ou en
cascade des trackers. La colonne Évaluation indique les critères utilisés pour juger de la qualité
des prédictions, les principaux étant le score de confiance, le taux de recouvrement (overlap),
la position des prédictions, une incertitude spatiale des particules et un poids d’attraction. La
colonne Contrôle indique si les approches contrôlent la mise à jour ou la réinitialisation des
trackers et détecteurs. Une mise à jour marquée par un 7, signifie que les trackers et détecteurs
suivent leur propre mécanisme de mise à jour du modèle. Lorsque la mise à jour est marquée par
un 3, la mise à jour d’un ou plusieurs trackers et/ou détecteurs est contrôlée (sélection, censure
de mise à jour). Lorsque la réinitialisation est marquée par un 3, les trackers sont réinitialisés
par un détecteur hors ligne (HL) ou en ligne (EL) lorsque c’est nécessaire. Lorsque mise à jour et
réinitialisation sont marquées par un 7, alors il s’agit d’une fusion en boucle ouverte.
k ou ⊥ Évaluation Contrôle
Mise à jour Réinitialisation
[Santner et al., 2010] ⊥ confiance, overlap 3 7
[Stenger et al., 2009] k et ⊥ confiance 7 3détecteur HL
[Kalal et al., 2012] k confiance, overlap 3 3détecteur EL
[Vojir et al., 2015] k confiance, position 7 3détecteur HL
[Biresaw et al., 2014b] k incertitude spatiale 3 7
[Zhong et al., 2012] k position 3 7
[Moujtahid et al., 2015b] k confiance, position 3 7
[Bailer et al., 2014] k poids d’attraction 7 7
ou cette probabilité a posteriori. Les modèles sont pondérés en fonction de leur réponse à la
situation (vraisemblance, probabilité a posteriori, probabilité du tracker, résultat de classification).
Cependant, cette approche ne permet pas de contrôler la qualité des modèles d’observation. Une
autre approche cherche à évaluer la qualité des modèles d’observation, par exemple en utilisant
des contraintes spatiales, mais elle est peu explorée. Une des limites rencontrées dans la fusion
de modèles d’apparence est que les modèles utilisés ne présentent aucune différence structurelle
mis à part le type de caractéristiques utilisées.
La fusion de modules combine les entrées et sorties de différents traitements ou fonctions,
le plus souvent des trackers et des détecteurs. L’intérêt de combiner des traitements différents
est la possibilité d’exploiter des schémas de fonctionnement variés, non seulement les modèles
d’apparence peuvent être différents mais aussi les stratégies de recherche et de localisation, et les
mécanismes de mise à jour des modèles. Une des possibilités est de pouvoir tirer avantage de la
stabilité ou de la plasticité des modèles de certains traitements. Par exemple, un des schémas
de fusion répandu est l’association détecteur-tracker. Cette combinaison exploite la stabilité du
modèle du détecteur pour évaluer la qualité des trackers et les réinitialiser lorsqu’ils sont en échec.
Cette approche n’est pas la seule utilisée pour évaluer l’état des trackers, d’autres modèles plus
fiables peuvent être mis à contribution pour évaluer la qualité des prédictions. Une autre méthode
utilise des caractéristiques (vraisemblance, etc.) pour évaluer la qualité a priori des prédictions,
cependant elle repose souvent sur des seuils déterminés de manière empirique. Lorsque l’état des
CHAPITRE 1. BIBLIOGRAPHIE 57
trackers n’est pas évalué, la fusion peut exploiter des contraintes de continuité spatio-temporelle
des pistes de trackers et des connaissances a priori sur les trackers (performances globales).
L’approche de fusion que nous proposons est la fusion de modules, l’objectif étant de combiner
un répertoire de trackers hétérogènes, de performances et coûts variables, et autorisant un niveau
d’interaction générique entre eux. Nous démontrons par une étude de complémentarité, l’intérêt
d’une telle fusion pour améliorer la robustesse globale de suivi. Les dynamiques globales de
sélection, agrégation et correction d’un ensemble de trackers sont gouvernées par une évaluation
en ligne du bon comportement de chaque tracker. Cette évaluation repose essentiellement sur
l’utilisation d’a priori spatio-temporels construits à partir de données intrinsèques aux modèles
ou sorties de trackers (scores, cartes de scores, variable interne) pour détecter un mauvais
fonctionnement. Nous montrons que la simple fusion de sorties de trackers a des avantages et
que ces sorties peuvent être facilement utilisées pour écarter les trackers en échec.
CHAPITRE 1. BIBLIOGRAPHIE 58
Chapitre 2
Matériel et Méthodes
Sommaire
2.1 Méthodologie d’évaluation des trackers . . . . . . . . . . . . . . . . . 59
2.1.1 Bases d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.1.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.1.3 Protocole d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2 Répertoire de trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.2.1 NCC (Normalized Cross Correlation) [Lewis, 1995] . . . . . . . . . . . . 65
2.2.2 KLT (Kanade Lucas Tomasi Tracker) [Kalal et al., 2012] . . . . . . . . . 66
2.2.3 CT (Compressive Tracking) [Zhang et al., 2012] . . . . . . . . . . . . . . 67
2.2.4 STRUCK (Structured Output Tracking with Kernels) [Hare et al., 2011] 69
2.2.5 Tracker basé DPM (Deformable Part Models) [Felzenszwalb et al., 2010,
Kalman, 1960] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.2.6 DSST (Discriminative Scale Space Tracker) [Danelljan et al., 2014] . . . 73
2.2.7 MS (Meanshift) [Bradski, 1998] . . . . . . . . . . . . . . . . . . . . . . . 75
2.2.8 ASMS (Adaptive Scale mean-shift) [Vojir et al., 2014] . . . . . . . . . . 75
2.3 Développement de la plateforme C++ de fusion de trackers . . . . 76
2.3.1 Intégration des trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.3.2 Entrées/Sorties, paramètres de fusion . . . . . . . . . . . . . . . . . . . 80
Nous présentons les bases, les métriques de performance et le protocole d’évaluation utilisés
pour évaluer les trackers individuels et la fusion.
59
CHAPITRE 2. MATÉRIEL ET MÉTHODES 60
Pour évaluer les performances de suivi des trackers et de leur fusion, nous avons utilisé 3
bases de vidéos présentant des objets et des scènes variés soumis à différentes perturbations
(mouvement de caméra, zoom, changements d’illumination, occultations, objets déformables,
changements d’apparence rapides, mouvements d’objet, etc.) :
— VOT2013+ contient 12 vidéos tirées de VOT2013 [Kristan et al., 2013], complétées avec
1 vidéo du benchmark KITTI [Geiger et al., 2012], et 5 autres vidéos provenant de notre
base de vidéos GoPro. La base contient au total 25 objets (6525 images).
Les bases VOT2015 et VOT-TIR2015 utilisent les bases complètes du challenge VOT.
La base du challenge VOT2013 contient 16 séquences mais pour constituer VOT2013+, nous
n’avons sélectionné que les 12 séquences contenant des objets de la base Pascal VOC (voiture,
personne, bus, moto) [Everingham et al., 2010]. Hormis les bases présentes dans le challenge VOT,
nous avons utilisé des vidéos provenant d’autres bases, KITTI et GoPro présentées ci-dessous.
Elles se situent dans le cadre de l’analyse de scène observée depuis un véhicule en déplacement.
Nous avons réalisé 5 vidéos contenant 11 objets, à l’aide d’une caméra GoPro Hero3+ Black
Edition embarquée sur un véhicule aux alentours de la gare de Massy-Palaiseau. L’objectif était
CHAPITRE 2. MATÉRIEL ET MÉTHODES 61
de constituer une base de vidéos à haute résolution prises en conditions réelles : 2.7K à 30 ips
(2704x1440) et 4K à 15 ips (3840x2160). Les vidéos ont été réalisées le même jour à un même
moment de la journée afin de garantir une homogénéité de la base. Les situations rencontrées
sont des scènes de trafic urbain comme des ronds-points et des carrefours où les changements
d’apparence et d’échelle des objets sont importants. La majorité des cibles sont des voitures, des
bus et des motos. Quelques exemples de scènes filmées sont illustrés dans la figure 2.2. Afin de
constituer la vérité terrain des objets, nous avons annoté les vidéos à l’aide de l’outil d’annotation
d’objets VATIC (Video Annotation Tool from Irvine, California) [Vondrick et al., 2013]. Pour le
suivi, les images ont été redimensionnées à 676x360 ou 640x360.
Deux métriques ont été utilisées pour évaluer les trackers : la robustesse et la précision,
définies par VOT [Kristan et al., 2013] dans la section 1.2.2. Rappelons leur définition exacte.
Robustesse La robustesse est définie par le nombre de dérives sur la base d’évaluation. Une
dérive du tracker est détectée par un taux de recouvrement IoU = 0, IoU étant défini dans la
section 1.2.2. Une réinitialisation du tracker a lieu 5 images après chaque dérive détectée.
Précision La précision est la moyenne du taux de recouvrement IoU sur l’ensemble des images
de la base où le tracker a un fonctionnement correct (IoU > 0) et en éliminant tous les IoU des
10 premières images après une initialisation ou une réinitialisation.
Notre étude se concentre sur le contrôle de la dérive, qui est plus naturellement mesurée par
la robustesse. Toutefois, la réalisation d’une bonne précision peut être critique dans plusieurs
applications nécessitant une précision géométrique (saisie, interaction homme-machine). Les
trackers individuels sont évalués selon ces deux métriques mais pour comparer la performance de
la fusion à celle des trackers individuels, seule la robustesse nous intéresse.
Le protocole d’évaluation utilisé pour évaluer les trackers individuels et la fusion n’est pas
celui de VOT décrit dans la section 1.2.3 mais s’en rapproche. En effet, une particularité qui
nous intéresse dans VOT est de pouvoir mesurer les instants de dérive des trackers à travers la
métrique de robustesse (suivi, dérive, réinitialisation du tracker). Nous nous y intéressons puisque
l’objectif principal est de réduire le nombre de dérives ; ils seront étudiés plus précisément dans
le chapitre 3.
Notre évaluation diffère de celle de VOT sur différents aspects : au niveau des annotations des
images, de l’expérience utilisée, de l’évaluation des performances et du classement des trackers.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 63
Annotations des images Comme nous l’avons évoqué dans la section 1.2.3, la vérité terrain
des objets est annotée par des boîtes de forme quadrilatérale et non rectangulaire dans VOT2015
et VOT-TIR2015. Le protocole de VOT utilise ces annotations pour évaluer la précision du
tracker. Notre évaluation est différente : les quadrilatères ont été redimensionnés en rectangles
pour le calcul de la précision et la robustesse. Ainsi, la vérité terrain de l’ensemble des bases
utilisées VOT2013+, VOT2015 et VOT-TIR2015 est une boîte rectangulaire et IoU est le taux
de recouvrement entre deux rectangles.
L’utilisation des quadrilatères peut être utile lorsque le tracker estime un repérage précis
de l’objet (contours), or les trackers utilisés dans nos travaux et présentés dans la section 2.2
n’estiment que des boîtes rectangulaires. De plus, puisque la précision n’est pas celle qui nous
intéresse en premier, il n’est pas nécessaire d’en avoir un calcul précis avec des quadrilatères.
Évaluation La différence avec VOT est que la précision et la robustesse ne sont pas calculées
sur les mêmes sous-ensembles d’images que VOT. En effet, VOT moyenne la précision et la
robustesse sur des sous-ensembles d’images annotées par un même attribut visuel (section 1.2.3)
tandis que dans notre évaluation, la précision et la robustesse sont calculées sur toutes les
images de la base sans tenir compte des annotations d’attributs visuels. Nous n’avons donc
pas évalués la précision et la robustesse des trackers selon chaque phénomène visuel. L’une des
raisons est que les attributs visuels étant annoté manuellement ou semi-manuellement pour
chaque image de VOT (section 1.2.3), cela soulève un problème de constance et de fiabilité
des annotations. Nous avons par exemple déjà remarqué des annotations manquantes dans une
image pour laquelle une perturbation visuelle est présente, ou une annotation présente pour
une perturbation pratiquement inexistante (occultation très faible de l’objet). Quel que soit le
niveau de difficulté de la perturbation, l’image est annotée de la même manière. De plus, nous ne
possédons pas les annotations des vidéos de KITTI et GoPro nouvellement introduites dans la
base VOT2013+ (section 2.1.1).
Classement Le classement des performances des trackers dans VOT ne sert que si l’on a la
précision et la robustesse des trackers par attribut visuel, or nous n’utilisons pas les attributs.
Donc, nous ne réalisons pas de classement.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 65
— Tracker basé DPM 5 (Deformable Part Models) [Felzenszwalb et al., 2010, Kalman, 1960]
Les codes sources C++ ou composantes de ces trackers sont disponibles aux adresses indiquées.
Des modifications ont été réalisées à partir de ces codes de manière à ce que chaque tracker
fournisse un score ou une carte de scores à chaque instant (chapitre 4). Pour certains trackers,
un score particulier a dû être construit (section 4.4.1).
Nous décrivons le fonctionnement des 8 trackers ci-dessous.
0 0 − T̄ ] ∗ [It (x + x0 , y + y 0 ) − I¯t ]
P
x0 ,y 0 [T (x , y )
s(x, y) = qP (2.1)
[T (x0 , y 0 ) − T̄ ]2 ∗ [It (x + x0 , y + y 0 ) − I¯t ]2
P
x0 ,y 0 x0 ,y 0
1. https://github.com/votchallenge/vot-toolkit
2. https://github.com/gnebehay/OpenTLD
3. http://www4.comp.polyu.edu.hk/~cslzhang/CT/CT.htm
4. https://github.com/samhare/struck
5. https://github.com/fanxu/ffld, http://docs.opencv.org/master/dd/d6a/classcv_1_1KalmanFilter.
html
6. https://github.com/klahaag/cf_tracking
7. http://docs.opencv.org/2.4/modules/video/doc/motion_analysis_and_object_tracking.html
8. https://github.com/vojirt/asms
CHAPITRE 2. MATÉRIEL ET MÉTHODES 66
où (x0 , y 0 ) parcourt tous les pixels dans T , T̄ est la moyenne des intensités de T et I¯t la moyenne
des intensités de la région centrée en (x, y) de taille (w, h) dans l’image It .
Le tracker NCC est le plus simple et le plus rapide de ceux étudiés.
KLT est une implémentation d’un algorithme basé flot optique épars [Kalal et al., 2012].
L’objet est représenté par un ensemble E = {(xi , yi )}M
i=1 de M points. A l’instant initial t = 0,
les points sont générés à partir d’une grille régulière de M points, notons E0 cet ensemble.
L’algorithme fonctionne comme suit :
— Afin d’éliminer les mauvaises correspondances de points obtenues précédemment par flot,
deux filtrages sont appliqués sur ces points :
à éliminer tous les points de Et dont le score de corrélation associé est inférieur à
median(s).
— Le filtrage par l’erreur de flot optique aller-retour (en anglais forward backward error)
f orward
[Kalal et al., 2010b]. Le flot optique aller a été calculé précédemment Et−1 = Et−1 .
Le flot optique retour est calculé pour chaque point (xti , yit ) ∈ Et de l’image It dans
backward . Pour chaque point i ∈ E f orward ,
l’image It−1 , on obtient alors l’ensemble Et−1 t−1
backward . On
on mesure l’erreur ei (distance euclidienne) avec son homologue dans Et−1
obtient alors e = {ei }M
i=1 . Le médian des erreurs est noté median(e). Le filtrage consiste
à éliminer tous les points de Et dont l’erreur associée est supérieure à median(e).
— les points restants dans Et permettent d’estimer une translation médian des points, déter-
minant la nouvelle position de l’objet.
— afin de conserver un nombre de points constant à suivre, Et est complété par de nouveaux
points tirés aléatoirement à partir de la nouvelle position de l’objet de manière à obtenir
Card(Et ) = M .
Dans la version originale de [Kalal et al., 2012], KLT réalise une estimation d’échelle (de
taille) de l’objet mais dans la version que nous utilisons, l’estimation d’échelle est absente.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 67
CT repose sur l’apprentissage en ligne de M classifieurs objet-fond {c1 , ..., cM }, basés sur des
caractéristiques de type fenêtre de Haar.
Chaque classifieur ci , i ∈ [1, M ], comprend ni fenêtres de Haar, avec ni < N où N est le
nombre maximal de fenêtres autorisé. Le classifieur ci dispose donc d’un jeu de fenêtres de Haar
{fij }nj=1
i
, où j parcourt les ni fenêtres du classifieur. Pour chaque classifieur, le jeu de fenêtres de
Haar est généré aléatoirement lors de l’initialisation et conservé au cours du temps.
Une fenêtre de Haar est définie par sa position (x, y), sa largeur l et sa hauteur L, de taille
inférieure à l’objet. Chaque fenêtre fij est affectée d’un coefficient multiplicateur αij = {1, −1}
tiré aléatoirement lors de l’initialisation. Calculer la valeur vij d’une caractéristique fenêtre de
Haar fij sur un exemple donné, consiste à sommer l’intensité I de tous les pixels contenus dans
cette fenêtre puis à multiplier cette somme par le coefficient αij propre à cette fenêtre :
X
vij = αij Ik (2.2)
k∈fij
ni
X
vi = vij (2.3)
j=1
La position définie par la boîte englobante de référence X 0 est utilisée pour générer des
exemples positifs (voisinage proche de X 0 ) et négatifs (voisinage lointain de X 0 ), servant à
initialiser les M classifieurs.
L’initialisation consiste à :
— extraire les caractéristiques des exemples positifs et négatifs, c’est à dire calculer les valeurs
de v = {v1 , v2 , ...vM } pour chacun des exemples, où M est le nombre de classifieurs.
— pour chaque classifieur i = 1..M , on a une distribution des vi+ pour les exemples positifs et
une distribution des vi− pour les exemples négatifs.
— pour chaque classifieur i = 1..M , on modélise les deux distributions par des modèles
−
gaussiens. La distribution des vi+ suit une loi normale N (µ+ +
i , σi ). La distribution des vi
suit une loi normale N (µ− −
i , σi ).
Score de classification :
Les modèles gaussiens sont des estimateurs des distributions des observations ou vraisem-
blances. A partir de ces modèles, on calcule un score de classification sur une région d’image z.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 68
M
QM !
i=1 p(vi |y = 1)p(y = 1) p(vi |y = 1)
X
H(v(z)) = log QM = (2.4)
i=1 p(vi |y = 0)p(y = 0) i=1
p(vi |y = 0)
avec v = {v1 , v2 , ...vM } calculé sur l’échantillon z, y représente le label, 1 pour le positif et 0
pour le négatif.
Le score de classification est finalement le cumul des scores de classification des M classifieurs
sur l’échantillon pris indépendamment. La cible se trouve à la position pour laquelle le score de
classification est maximal. Pour cela, on explore les échantillons dans une zone de recherche définie
par un rayon γ autour de la position précédente de la cible notée lt−1 = (xt−1 , y t−1 ). Notons z
les échantillons de la zone de recherche tel que ||l(z) − lt−1 || < γ. On extrait les caractéristiques
et on calcule le score de classification de tous les échantillons. On définit la nouvelle position de
la cible lt = l(z) tel que z = argmax H(v(z)).
z
On met à jour les M classifieurs par des exemples positifs et négatifs générés à partir de la
nouvelle position trouvée lt . Ces exemples sont de nouvelles observations qui vont servir à mettre
à jour les modèles statistiques des classifieurs de l’état précédent t − 1. Les exemples positifs
sont les z + ∈ Z + tels que ||l(z + ) − lt || < α. Les exemples négatifs sont les z − ∈ Z − tels que
ξ < ||l(z − ) − lt || < β avec 0 < α < ξ < β.
Pour tout z + ∈ Z + , on calcule v(z + ) = {v1 (z + ), v2 (z + )...vM (z + )}. De même, pour tout
z − ∈ Z − , on calcule v(z − ) = {v1 (z − ), v2 (z − )...vM (z − )}.
Pour chaque classifieur ci , les distributions vi (z + ) et vi (z − ) permettent d’estimer une loi
normale pour la classe positive N (µdata+
i , σidata+ ) et une loi normale pour la classe négative
N (µdata−
i , σidata− ) :
1
µdata+,t
X
i = vi (z + ) (2.5)
|Z + | + +
z ∈Z
v
u 1
u
σidata+,t (vi (z + ) − µ+,t−1
X
=t + i )2 (2.6)
|Z |
z + ∈Z +
A l’instant t, on met à jour les paramètres de chaque classifieur par un modèle dynamique
d’ordre 1 :
µti = λµt−1
i + (1 − λ)µdata,t
i (2.7)
q
σit = λ(σit−1 )2 + (1 − λ)(σidata,t )2 + λ(1 − λ)(µt−1
i − µdata,t
i )2 (2.8)
STRUCK résout le problème du suivi d’objet par l’apprentissage en ligne d’un modèle SVM (en
anglais Support Vector Machine) [Vapnik, 1995] à sorties structurées. Plutôt que d’apprendre un
classifieur binaire (labels ±1) permettant de séparer les caractéristiques objet des caractéristiques
du fond, on apprend une fonction de prédiction f : X → Y permettant de prédire directement
la transformation 2D de l’objet, notée Y (translation) à partir des caractéristiques X extraites
p
d’un patch. Soit pt−1 la position de l’objet à l’instant t − 1 et xt t−1 les caractéristiques extraites
à la position pt−1 à l’instant t. L’objectif de f est de prédire la transformation de l’objet yt à
l’instant t relative à pt−1 . Pour cela, on introduit une fonction discriminante F : X × Y → R
permettant de prédire la transformation :
p p
yt = f (xt t−1 ) = argmax F (xt t−1 , y) (2.9)
y∈Y
où Y = {(u, v)|u2 + v 2 < r2 } est la zone de recherche de l’objet définie dans un rayon r = 30
pixels autour de la position pt−1 .
Les caractéristiques utilisées sont 192 caractéristiques de Haar (6 types de caractéristiques de
Haar différents, arrangés sur une grille 4 ∗ 4 à 2 échelles). Le vecteur de caractéristiques x en
entrée de f est la concaténation des réponses des 192 caractéristiques calculées sur le patch.
F intègre simultanément les informations d’apparence (caractéristiques) et de position dans
un voisinage proche de la position de l’objet, configuration qui ne peut être réalisée qu’avec un
SVM structuré. Les exemples d’apprentissage sont des couples de caractéristiques et de vecteurs
de translation {(x1 , y1 ), ..., (xn , yn )}, pris dans un rayon de 60 pixels autour de la position prédite
de l’objet pt = pt−1 ◦ yt . Ils sont échantillonnés sur une grille polaire de 5 rayons et 16 divisions
angulaires, réalisant au total 81 positions.
L’objectif de F est de fournir un score élevé pour des couples (x, y) qui se correspondent. F
est définie comme suit : F (x, y) = hw, Φ(x, y)i, où Φ est une fonction noyau. L’apprentissage de
F passe par une fonction de coût :
où s0pt (y, ȳ) est la mesure de recouvrement entre les boîtes définies aux positions y (sortie prédite)
et ȳ (sortie désirée).
On ne sait pas résoudre F dans l’espace primal, i.e. estimer directement les w. Le problème
est résolu dans l’espace dual avec une optimisation en ligne par l’étape SMO (en anglais
Sequential Minimal Optimization) développée par [Platt, 1999] selon une approche classique
du formalisme SVM. Dans l’espace dual, la fonction discriminante prend la forme suivante :
βiȳ hΦ(xi , ȳ), Φ(x, y)i, où le produit scalaire est défini par une fonction noyau
P
F (x, y) = i,ȳ
gaussien k(x, y, x̄, ȳ) = hΦ(x, y), Φ(x̄, ȳ)i = exp(−σkx − x̄k2 ). Les couples d’exemples (xi , y) pour
CHAPITRE 2. MATÉRIEL ET MÉTHODES 70
lesquels le βiy 6= 0 sont les vecteurs de supports que l’on recherche, les xi associés sont appelés
patterns de support.
Les étapes principales de l’algorithme de suivi sont alors :
Mise à jour du modèle : la nouvelle position prédite pt est utilisée pour mettre à jour St−1 ,
avec comme nouvel exemple positif ou vecteur de support positif, le couple (xpt t , y0 ) où y0 indique
la transformation nulle. Les exemples négatifs (81 positions) sont pris autour d’un rayon de
60 pixels autour de l’exemple positif (Y est l’ensemble des transformations possibles), comme
mentionné précédemment. Plusieurs stratégies sont mises en place afin de trouver les vecteurs
de support négatifs correspondants. Pour cela, l’étape d’optimisation définit deux directions de
recherche du gradient pour un vecteur de support donné (xi , y) :
Le tracker basé DPM combine un détecteur générique d’objets basé sur des modèles à parties
déformables pré-entraînés [Felzenszwalb et al., 2010] et un filtre de Kalman [Kalman, 1960].
L’idée est de réaliser l’étape de prédiction par une détection sémantique.
Le filtre de Kalman utilisé est celui d’OpenCV [Bradski, 2000]. Le détecteur utilisé reprend
l’implémentation de [Dubout et Fleuret, 2012], plus rapide que celui de [Felzenszwalb et al.,
2010], grâce à une optimisation des calculs dans l’espace de Fourier. Les modèles d’objet utilisés
correspondent aux modèles pré-entraînés sur la base Pascal VOC [Everingham et al., 2010]
comptant 20 classes d’objet différentes :
— personne : personne
L’idée des modèles à parties déformables est de représenter un objet déformable sous forme
d’un ensemble de parties à configuration déformable. Plutôt que de représenter une personne
par un modèle rigide englobant le tout, le modèle est décomposé en sous-parties (tête, buste,
bras, jambes). Un objet peut avoir plusieurs modèles à parties déformables, lorsqu’il peut être
présenté sous différents angles de vue, par exemple un modèle pour représenter une personne de
profil et un modèle de face.
Un modèle consiste alors en un filtre global qui est la base commune contenant l’objet entier
et de plusieurs modèles de « partie » pour les parties d’objet relatives à la base commune. Un
modèle de partie définit un positionnement spatial de la partie par rapport à la base commune
et un filtre de partie représentant la partie. Les filtres sont des PCA-HOG, caractéristiques
améliorées des HOG, calculées à des résolutions différentes de l’image suivant la nature du
filtre : les filtres de partie sont deux fois plus résolus que le filtre global, ils capturent ainsi des
caractéristiques plus fines permettant une représentation plus détaillée des parties tandis que le
filtre global moins résolu capture la forme approximative mais globale de l’objet.
Un modèle à n parties est donc défini par le filtre global F0 et un ensemble de modèles de
partie (P1 , ..., Pn ) où P = (Fi , vi , si , ai , bi ). Fi est le filtre de la partie i, vi est la position relative
de la partie i par rapport au filtre global F0 , si est la taille du filtre et (ai , bi ) sont les coefficients
d’une fonction quadratique mesurant un score pour chaque position possible de la partie i. Le
positionnement d’un modèle sur une pyramide HOG notée H est défini par z = (p0 , ..., pn ) où
pi = (xi , yi , li ) avec (xi , yi ) la position du filtre i et li le niveau de la pyramide.
Le score de détection obtenu par un filtre F appliqué sur la pyramide HOG notée H à la
position p (coin supérieur gauche) est F · φ(H, p) où φ(H, p) le vecteur obtenu par concaténation
CHAPITRE 2. MATÉRIEL ET MÉTHODES 72
des caractéristiques HOG dans la pyramide H à partir de la position p sur une fenêtre de même
taille que le filtre F .
Le score de détection du modèle est alors la somme des scores de détection des filtres dont on
ajoute un score de positionnement des parties relatif au filtre global :
n
X n
X
Fi · φ(H, pi ) + ai · (x̃i , ỹi ) + bi · (x̃2i , ỹi2 ) (2.12)
i=0 i=1
où (x̃i , ỹi ) = ((xi , yi ) − 2(x0 , y0 ) + vi )/si est la position de la partie i relativement au filtre global.
L’apprentissage d’un modèle à parties déformables consiste à apprendre le vecteur de
paramètres du modèle β = (F0 , ..., Fn , a1 , ..., an ) à partir d’une base d’apprentissage D =
({x1 , y1 }, ..., {xn , yn }) où xi est l’exemple i et yi le label correspondant, valant −1 pour un
exemple négatif et 1 pour un exemple positif. Pour chaque exemple xi , on dispose de sa pyramide
HOG, H(xi ) et d’un ensemble de positionnements possibles Z(xi ) du filtre global et des filtres
de partie.
Cela passe par l’apprentissage d’un modèle SVM latent où l’exact positionnement du filtre
global et des filtres de partie, notée z est considérée comme une variable latente. Chaque exemple
x doit maximiser un score de détection généré par une fonction de la forme :
où z est un positionnement possible des filtres, β = (F0 , ..., Fn , a1 , ..., an ) les paramètres du
modèle à déterminer, et φ(x, z) = (φ(H, p0 ), ..., φ(H, pn ), x̃1 , ỹ1 , x̃21 , ỹ12 , ..., x̃n , ỹn , x̃2n , ỹn2 ).
Pour déterminer β à partir de la base d’apprentissage D, la fonction à optimiser est :
n
β ∗ (D) = argminβ (λ k β k2 +
X
max(0, 1 − yi fβ (xi ))) (2.14)
i=1
Les exemples positifs sont toutes les boîtes englobantes contenant l’objet, tandis que les
exemples négatifs sont toutes celles qui ne contiennent pas l’objet. Afin de limiter le nombre
d’exemples négatifs d’entraînement par rapport aux exemples positifs en minorité, une sélection
est réalisée afin de n’entraîner le modèle qu’avec des exemples négatifs difficiles, situés proches
de la marge.
Le tracker basé DPM dont nous décrivons le fonctionnement exploite les détections générées
par le détecteur générique d’objet pré-entraîné sur la base Pascal VOC. Une détection d’objet
correspond donc à l’une des 20 classes apprises sur cette base. Voici les étapes de fonctionnement
du tracker :
détecteur générique d’objet. L’objectif est qu’à l’issu de cette étape, le détecteur ne renvoie que
les détections correspondantes à la classe de la cible. Pour cela, on va tester les 20 modèles
à notre disposition sur la première image à la position de la boîte englobante et sélectionner
le modèle qui renvoie le score de détection le plus élevé par rapport aux autres modèles et en
même temps est supérieur à un certain seuil de détection afin de garantir une bonne détection.
Pour exploiter pleinement le DPM dans le tracker, la cible doit faire partie d’un des modèles
pré-entraînés à disposition.
DSST modélise la cible par un filtre de corrélation discriminant espace-échelle basé sur des
caractéristiques PCA-HOG [Felzenszwalb et al., 2010] extraites de la cible. La particularité du
DSST par rapport à d’autres filtres de corrélation comme MOSSE [Bolme et al., 2010] et KCF
[Henriques et al., 2015] est la capacité à s’adapter aux variations de taille de la cible par une
estimation précise de l’échelle.
— on dispose d’exemples d’apprentissage qui sont des patchs en niveaux de gris f1 , .., fn de
l’apparence cible.
— ils sont labellisés par des scores de corrélation qui sont les sorties désirées du filtre, g1 , .., gn .
Ces scores sont générés à partir d’une gaussienne centrée sur la position de la cible.
n n
X 1 X
= k ht ∗ fj − gj k2 = k Ht Fj − Gj k2 (2.15)
j=1
M N j=1
l GF l Alt
Htrans = Pd = (2.17)
k=1 F
kF k +λ Bt
— pour localiser la cible dans l’image It , on applique le filtre sur lePpatch rectangulaire z à
d
Al Z l
la position pt−1 , ce qui donne une carte de corrélation y = F −1 ( k=1 B+λ ) où F −1 est la
transformée de Fourier inverse. La nouvelle position estimée de la cible pt est la position
où le score de corrélation est maximal.
— le filtre d’échelle hscale est mis à jour de la même manière que le filtre de translation htrans .
− xi )xi
P
x ∈N (x) K(x
m(x) = Pi (2.20)
xi ∈N (x) K(x − xi )
Dans le tracker mean-shift classique, la cible est modélisée par un histogramme de couleurs
q = {qu }u=1..m de m classes, calculé sur la première image. Pour localiser la cible dans une image,
CHAPITRE 2. MATÉRIEL ET MÉTHODES 76
q
H(p, q) = 1 − ρ(p, q) (2.21)
Pm √
où ρ(p, q) = u=1 pu qu est le coefficient de Bhattacharyya.
Minimiser H(p, q) revient à maximiser ρ(p, q).
Dans ASMS, au lieu de maximiser ρ(p, q), on va chercher à maximiser un ratio cible/fond :
ρ(p, q)
R= (2.22)
ρ(p, bg)
où bg = {bgu }u=1..m est l’histogramme du fond calculé dans un voisinage proche de la cible à la
première image.
Les estimations de position y et d’échelle h de la cible sont calculées simultanément et
itérativement par mean-shift en les déplaçant dans la direction du gradient ∇ρ(p(y, h), q).
Une vérification aller-retour de l’échelle estimée h est effectuée : elle consiste à comparer le
changement d’échelle h de l’image It−1 à It , et le changement d’échelle hback dans le sens inverse
de It à It−1 afin de vérifier la cohérence du résultat.
Nous avons développé une plateforme C++ permettant de réaliser la fusion de plusieurs
trackers C++. Les besoins de cette plateforme sont multiples :
— tout d’abord, nous avons besoin d’évaluer des trackers individuels sur une base de vidéos
commune utilisant le même protocole d’évaluation et les mêmes critères de performance. Un
tel outil existe, c’est la plateforme Matlab de VOT 9 permettant l’intégration de trackers
en Python, C/C++, Matlab. Nous avons commencé nos travaux avec cette plateforme
mais nous avons vite constaté ses limites. Sa structure peu flexible ne permettait pas
les modifications nécessaires à la fusion des trackers. Il a fallu développer notre propre
plateforme, en s’inspirant de VOT.
Les codes C++ des trackers dont nous disposons possèdent la même structure fonctionnelle.
Ils initialisent leur modèle à la première image, prédisent la position de l’objet dans l’image
suivante et corrigent leur modèle à partir de la position prédite. Mais les fonctions développées
9. https://github.com/votchallenge/vot-toolkit
CHAPITRE 2. MATÉRIEL ET MÉTHODES 77
ne prennent pas les mêmes entrées et ne produisent pas les mêmes sorties. Afin d’uniformiser les
entrées et sorties des fonctions de trackers, nous définissons une classe mère GenericTracker
décrivant un tracker générique avec des méthodes virtuelles. Un tracker correspondrait alors à
une classe dérivée de la classe mère.
initialise le tracker à partir d’une boîte englobante définie dans une image d’entrée, cette
fonction est généralement appelée au début de la séquence.
réalise la prédiction dans l’image courante utilisant la boîte prédite dans l’image précédente.
L’historique des prédictions est stocké dans l’attribut vector<cv::Rect> bbox.
Nous définissons deux autres méthodes virtuelles dans le but de prédire les dérives des trackers
à partir d’indicateurs de comportement :
cette fonction prédit la dérive ou non du tracker à partir des valeurs des indices de com-
portement en renvoyant un booléen qui vaut true pour une dérive et false pour un bon
fonctionnement du tracker. Les prédictions de dérive pour toutes les images sont stockées
dans l’attribut vector<int> drift.
#ifndef DEF_GENERICTRACKER
#define DEF_GENERICTRACKER
#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <opencv2/imgproc/imgproc.hpp>
CHAPITRE 2. MATÉRIEL ET MÉTHODES 78
#include <iostream>
#include <string>
#include <vector>
// classe mère
class GenericTracker
{
public:
GenericTracker();
~GenericTracker(){};
protected:
// historique du suivi
vector<cv::Rect> bbox; // boîtes englobantes prédites
vector<vector<double> > mapfeatures; // indices de comportement calculés
vector<int> drift; // prédictions de dérive
};
#endif
Tracker fusion La fusion de trackers est définie dans la classe FusionTracker, qui dérive de la
classe GenericTracker. Un tracker fusion contient une liste de trackers vector<GenericTracker*>
trackerList. Les trackers de la liste sont initialisés via la fonction d’initialisation virtual void
Initialize(). La fonction de traitement est réalisée par void FusionProcess() où les trackers
sont exécutés en parallèle, les dérives prédites dans vector<bool> adrift, les sorties des trackers
fusionnées (fonctions cv::Rect average_box() et cv::Rect centerofgravity_box()) et les
CHAPITRE 2. MATÉRIEL ET MÉTHODES 79
entrées corrigées selon un ensemble de paramètres de fusion à définir dans la fonction void
SetFusionParameters().
Les paramètres de fusion correspondant à différentes méthodes de fusion (sélection, fusion,
correction) seront précisés dans le chapitre 5.
#ifndef DEF_FUSIONTRACKER
#define DEF_FUSIONTRACKER
#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <iostream>
#include <string>
#include <vector>
#include "GenericTracker.h"
public:
vector<GenericTracker*> trackerList; // liste des trackers à fusionner
vector<bool> adrift; // prédiction de dérive de chaque tracker de la liste
,→ à un instant donné
private:
// paramètres de fusion
string DriftPredictionMethod;
string CheckBoxesSpatialCoherenceMethod;
string BoxesFusionMethod;
string ReinitTrackerMethod;
};
#endif
Architecture logicielle L’architecture globale du code est présentée dans la figure 2.3. Les
trackers sont reliés à la version 3.0 de la librairie OpenCV.
Machine Tous les calculs ont été réalisé sur un Intel Xeon 4 core 2.80 GHz CPU 8 GB RAM,
sans utilisation du GPU.
En entrée :
— base de vidéos : spécifier le chemin du dossier contenant toutes les séquences, par exemple
/sequences et la liste des noms des séquences dans un fichier .txt, list.txt. Chaque
séquence correspond à un sous-dossier, par exemple le sous-dossier /sequences/bag est
créé pour la séquence bag. Chaque sous-dossier contient l’ensemble des images au format
%08.jpg et un fichier vérité terrain groundtruth.txt.
— paramètres de fusion : spécifier le chemin du fichier .txt contenant les paramètres de fusion
correspondant à une configuration possible de fusion.
— liste des trackers : spécifier le chemin du fichier .txt contenant la liste des noms des trackers
à fusionner, un nom par ligne. Les noms possibles sont : NCC, KLT, CT, STRUCK, DPM,
CHAPITRE 2. MATÉRIEL ET MÉTHODES 81
Codes sources
NCC KLT CT STRUCK …
des trackers
GenericTracker
int main()
MultiTracker.exe
Figure 2.3 – Architecture logicielle. Les classes sont représentées en jaune. On génère
une librairie à partir de chaque code source de trackers. Pour chaque tracker, on crée une
classe dérivée de la classe GenericTracker. Chaque classe est reliée à la librairie corres-
pondante. La fonction principale appelle une instance de la classe FusionTracker dérivant
aussi de la classe GenericTracker et qui réalise la fusion de plusieurs trackers spécifiés dans
vector<GenericTracker*> trackerList.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 82
En sortie :
— performances sur la base : spécifier le chemin du fichier .txt dans lequel seront stockées les
performances, par exemple performance.txt.
Paramètres de fusion Un exemple de fichier .txt spécifiant les paramètres de fusion est
présenté dans le listing 1. Les valeurs prises par chaque paramètre sont récapitulées dans la table
2.1.
DriftPredictionMethod spécifie l’emploi de la méthode de prédiction de dérives par des
indicateurs de comportement scoremapfeatures (BI) ou par la simulation d’une prédiction
idéale par vérité terrain groundtruth (Ideal) ou aucune des deux méthodes, dans ce cas, le
membre de droite ne contient aucune valeur (∅). Ces méthodes sont décrites dans les sections 4.2
et 5.2.2.
CheckBoxesSpatialCoherenceMethod spécifie l’emploi d’une prédiction de dérives par boîtes
englobantes distance (BF) ou clustering (BC). Lorsqu’aucune méthode n’est employée, le
membre de droite ne contient aucune valeur. Les méthodes sont précisées dans les sections 4.3 et
5.2.2.
BoxesFusionMethod spécifie une méthode de fusion des boîtes average (Avg) ou centerofgravity
(Grav). Les méthodes sont détaillées dans la section 5.2.3.
ReinitTrackerMethod décide de la mise à jour/réinitialisation de tous les trackers quel que
soit l’état prédit alltrackers, des trackers dont l’état prédit est une dérive onlydriftedtrackers
ou aucun tracker n’est mis à jour/réinitialisé quel que soit l’état prédit, dans ce cas, le membre
de droite ne contient aucune valeur. Les méthodes sont détaillées dans la section 5.2.4.
ReinitModelObject = true active la réinitialisation des trackers pour lesquels une dérive a
été prédite. ReinitModelObject = false n’autorise que des mises à jour des trackers, pas de
réinitialisations. Les méthodes sont détaillées dans la section 5.2.4.
ReinitFusionVOTprocedure = true active la réinitialisation du tracker après chaque dérive
mesurée comme décrite dans le protocole d’évaluation du chapitre 2, sinon le tracker n’est jamais
réinitialisé.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 83
DriftPredictionMethod = groundtruth
CheckBoxesSpatialCoherenceMethod = distance
BoxesFusionMethod = average
ReinitTrackerMethod = onlydriftedtrackers
ReinitModelObject = false
ReinitFusionVOTprocedure = true
Listing 1 – Exemple de fichier .txt spécifiant les paramètres de fusion. Le nom des paramètres
est à gauche et la valeur à droite.
Table 2.1 – Tableau récapitulatif des valeurs prises par les différents paramètres de fusion.
Performances sur une base Un exemple de fichier .txt de performances est présenté dans le
listing 2.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 84
Listing 2 – Exemple de fichier .txt des performances du DSST [Danelljan et al., 2014] obtenues
sur un ensemble de séquences spécifiées dans la colonne de gauche. Les colonnes suivantes
correspondent à différentes mesures de performance : la précision, l’erreur de localisation à
20 pixels, la robustesse, le temps moyen d’exécution par image en secondes et la vitesse en
nombre d’images traitées par seconde. La dernière ligne indique les performances sur la base,
correspondant à une moyenne sur l’ensemble des séquences pour presque toutes les mesures sauf
pour la robustesse qui est une somme.
Chapitre 3
Sommaire
3.1 Complémentarité de conception . . . . . . . . . . . . . . . . . . . . . . 85
3.2 Mesure des performances . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2.1 Performances globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2.2 Performances locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.3 Étude des instants de dérive des trackers . . . . . . . . . . . . . . . . 93
3.3.1 Instants de dérive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.3.2 Simuler une piste de suivi reconstituée . . . . . . . . . . . . . . . . . . . 96
3.3.3 Proposition d’une métrique pour mesurer la complémentarité d’un en-
semble de trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.4 Discussion et travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . 103
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
L’objectif principal des travaux consiste à développer une fusion robuste d’un ensemble de
trackers. Ce chapitre a plus particulièrement pour objectif de déterminer si leur fusion a un intérêt,
c’est à dire améliore la robustesse globale de suivi en réduisant le nombre de dérives sur une
base d’évaluation. La complémentarité des trackers a été observée à différents niveaux, d’abord
au niveau de leur conception, puis au niveau des performances (globales et locales), et enfin au
niveau de leurs instants de dérives individuels. Nous nous intéresserons plus particulièrement à
ce dernier niveau pour démontrer et évaluer l’intérêt de la fusion.
Les trackers réagissent différemment vis à vis des perturbations visuelles (apparence, contexte,
mouvement, illumination, occultation). Ces différences de comportement sont liées à leur com-
position structurelle comme nous avons pu le voir dans l’étude bibliographique (section 1.1.4).
L’idée est alors de tirer avantage des spécificités (représentation, modèle, mise à jour) de chacun
85
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 86
des trackers du répertoire pour assurer une complémentarité des comportements au niveau de
l’ensemble des perturbations existantes. Rappelons que ces trackers au nombre de 8, ont été
décrits en détails dans le chapitre 2 :
Dans cette partie, nous justifions le choix des trackers utilisés tout au long de l’étude, dont
les caractéristiques semblent présenter une éventuelle complémentarité des comportements.
Type de trackers La complexité des trackers du répertoire est très hétérogène. NCC, KLT
et MS forment les trackers les plus simples (représentation, modèle, fonctionnement) et les
plus standards de la littérature. Ils n’utilisent qu’une seule vue de l’objet pour le suivi, soit
l’apparence initiale de l’objet, soit l’apparence courante de l’objet. ASMS, version améliorée de
MS, dispose d’un modèle statique construit sur l’apparence initiale de l’objet. Les autres trackers
(CT, STRUCK, DSST) ont des modèles d’apparence plus complexes (exemples d’apprentissage,
mise à jour du modèle). DPM, combinaison d’un détecteur d’objet entraîné hors ligne et d’un filtre
de Kalman, ajoute une information sémantique (notion d’objet). Cette information sémantique
apporte une précision supplémentaire par rapport aux autres trackers. En effet, en connaissant le
type d’objet suivi et en étant capable de détecter l’objet précisément, la dérive du tracker vers
l’arrière-plan peut être évitée. Ce qui n’est pas le cas de KLT, qui peut facilement dériver lorsque
des points de l’arrière-plan sont introduits dans son modèle.
Mise à jour NCC, DPM, MS et ASMS ont un modèle d’apparence statique. L’avantage des
modèles statiques est qu’ils ne peuvent introduire de bruit dans leur modèle, lié à une absence de
mise à jour. Mais l’inconvénient est qu’ils ne sont pas robustes aux changements d’apparence. Les
autres trackers du répertoire disposent de mécanismes de mise à jour : KLT ré-échantillonne de
nouveaux points à partir de la nouvelle apparence de l’objet pour remplacer les points non fiables
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 87
Contexte NCC, KLT et MS construisent leur modèle à partir des informations provenant
de l’objet uniquement. Les autres trackers intègrent des informations de contexte dans leur
modèle (CT, STRUCK, DPM, DSST, ASMS). CT et ASMS modélisent le fond (modèle gaussien,
histogramme) pour pouvoir mesurer l’écart entre la similarité à l’objet et la similarité au fond. En
effet, pour localiser l’objet, ils cherchent à maximiser un rapport de vraisemblance ou de similarité
objet-fond. STRUCK, DPM et DSST utilisent des modèles discriminants par l’apprentissage
d’exemples positifs et négatifs. Cependant, DPM est différent de STRUCK et de DSST car il
n’adapte pas son modèle dans le temps. Son modèle est discriminant non par rapport au contexte
dans lequel l’objet se trouve mais par rapport aux exemples négatifs de sa base d’apprentissage.
CT, ASMS, STRUCK et DSST peuvent compenser l’absence de prise en compte du contexte des
autres trackers.
Recherche de l’objet Les stratégies de recherche utilisées sont variées : modèle de mouvement
linéaire (DPM), flot optique (KLT), meanshift (MS, ASMS), détection dense dans une fenêtre
de recherche locale centrée sur la position précédente de l’objet (NCC, CT, STRUCK, DPM,
DSST). Les avantages et inconvénients de ces méthodes ont d’ores et déjà été évoqués dans
l’étude bibliographique de la section 1.1.2. La plupart des trackers fonctionnent à échelle fixe
sauf DPM, DSST et ASMS qui réalisent une estimation d’échelle de l’objet à chaque instant.
Leur utilisation permet d’améliorer la précision de suivi.
Le tableau 3.1 récapitule la composition et les domaines d’emploi des 8 trackers, similairement
à l’étude bibliographique de la section 1.1.4. En additionnant les domaines d’emploi des 8 trackers,
l’ensemble des perturbations visuelles semble pouvoir être maîtrisé.
La figure 3.1 illustre différents comportements de dérive de 6 trackers (NCC, KLT, CT,
STRUCK, DPM, MS) face à différentes perturbations (occultation, illumination, flou, bruit de
contexte, échelle, apparence). Dans (a), DPM et CT arrivent à gérer l’occultation partielle du
cycliste par un poteau entre l’image 174 et 176 (milieu et droite). DPM détecte le vélo lorsque la
cycliste est occultée. Dans (b), les trackers KLT, CT et STRUCK dérivent en même temps à
l’image 70 (milieu) car ils ne sont pas capables d’estimer l’échelle de la moto. Dans (c), la plupart
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 88
des trackers dérivent à l’image 84 (milieu) à cause du flou et du manque de contraste entre le
dinosaure et l’arrière-plan. Dans (d), le poisson se déforme et présente des couleurs très similaires
à l’arrière-plan. La plupart des trackers perdent le poisson à cause des variations importantes
d’apparence et du manque de contraste de la scène, image 150 (droite). Dans (e), la moto réalise
une pirouette avec d’importantes variations de luminosité et du flou. Grâce à l’adaptation du
modèle et la prise en compte du contexte, CT et STRUCK parviennent à suivre la moto jusqu’à
l’image 79 (droite). Dans (f), la difficulté des images infra-rouge est l’absence de texture dans les
objets qui les rendent peu distinguables. Aucun tracker n’est capable de détecter le drone dans
l’image 177 (droite).
Table 3.1 – Composition des 8 trackers et leurs domaines d’emploi. Ceux-ci utilisent plusieurs représentations de l’apparence : template en niveaux de gris
(Templ), points en niveaux de gris (Points, Int), caractéristiques de Haar, PCA-HOG, histogramme global (HistoG) dans les espaces de couleurs HSV ou
RGB. Les modèles sont soit génératifs (MG), soit discriminants (MD). Les méthodes utilisées sont la corrélation (Corr), la log-vraisemblance (L), des SVM
structuré (str) ou latent (lat) et un filtre de corrélation (FC). La recherche de l’objet utilise soit une fenêtre de recherche dense (Ds) en indiquant sa taille,
un flot optique (Fl), un filtre de Kalman (FK) ou un Meanshift (Ms). (w0 , h0 ) = (2 ∗ max(w, h) + 1, 2 ∗ max(w, h) + 1) où (w, h) est la taille de l’objet.
1 ,h1 )
r = 30 indique un rayon de recherche de 30 pixels. (w0 , h0 ) = (w + delta, h + delta) où delta = 2 ∗ min(w, h). (w2 , h2 ) = (w
2∗scale où (w1 , h1 ) = 2.6 ∗ (w, h) et
scale = 0.01 ∗ max(w1 , h1 ). Les colonnes Maj, Ech et Rot indiquent si une mise à jour du modèle, une estimation d’échelle ou de rotation sont effectuées
par ces trackers (présence 3, absence 7). Les perturbations comprennent les variations d’apparence (App), la prise en compte du contexte (Cont), les
variations de mouvement (Mvt), l’illumination (Ill) et les occultations (Occ). App classe les trackers avec des + en fonction de leur capacité à faire face aux
variations d’apparence relativement les uns par rapport aux autres. Certains trackers ne peuvent traiter que des mouvements faibles de l’objet (F), les
autres dépendent de la fenêtre de recherche utilisée (R). Plusieurs types d’occultations sont prises en compte, partielles (P) ou totales (3). La dernière
ligne TOTAL prend la meilleure réponse parmi les 8 trackers pour chaque type de perturbations.
Composition Perturbations
Représentation Méthode Recherche Maj Ech Rot App Cont Mvt Ill Occ
NCC Templ,Int Corr Ds : (w0 , h0 ) 7 7 7 + 7 R 7 7
KLT Points,Int Fl 3 7 7 + 7 F 7 7
CT Haar,MG L Ds : (41, 41) 3 7 7 ++ 3 R 7 P
STRUCK Haar,MD SVM str Ds : r = 30 3 7 7 +++ 3 R 7 3
DPM PCA-HOG,MD SVM lat Ds : (w0 , h0 ), FK 7 3 7 ++ 7 R 3 P
DSST PCA-HOG,MD FC Ds : (w2 , h2 ) 3 3 7 +++ 3 R 3 P
MS HistoG HSV Ms 7 7 7 + 7 F 7 7
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS
L’analyse des trackers pour les différentes perturbations dans la section précédente 3.1 n’est
pas suffisante pour garantir le succès ou l’échec d’un suivi. Une évaluation de performances des
trackers est donc nécessaire, non seulement pour mesurer quantitativement leur succès mais aussi
pour pouvoir les comparer entre eux. L’évaluation standard calcule généralement une ou plusieurs
métriques de performance sur une base de vidéos en suivant un protocole d’évaluation bien défini.
Notre évaluation présentée dans cette partie, utilise le protocole défini dans le chapitre 2 et donne
lieu à des performances globales de suivi.
Les performances globales d’un tracker sur une base de vidéos sont représentées par une
précision et une robustesse. La précision est la précision moyenne sur l’ensemble des vidéos de la
base, et la robustesse le nombre total de dérives sur la base. Nous nous intéressons davantage à
la robustesse, mesure de la dérive.
Les performances des 8 trackers ont été estimées sur les 3 bases d’évaluation (VOT2013+,
VOT2015, VOT-TIR2015), ainsi que leur vitesse moyenne d’exécution (en nombre d’images
traitées par seconde), et sont indiquées dans le tableau 3.2.
Précision et robustesse sont deux métriques décorrélées : une meilleure précision n’implique
pas nécessairement une meilleure robustesse. C’est par exemple le cas de NCC qui réalise les
meilleures précisions mais les moins bonnes robustesses.
En fait, ces chiffres peuvent être interprétés comme des indicateurs de la manière dont les
trackers dérivent. NCC dérive rapidement toutes les fois qu’il dérive, c’est pourquoi il garde une
bonne précision même s’il dérive souvent. MS n’est ni précis en localisation ni robuste mais il
est rapide. KLT et CT dérivent lentement, la précision étant moins bonne. DSST a une bonne
précision, en partie due à l’estimation d’échelle. ASMS est robuste mais moins précis malgré
l’estimation d’échelle, l’une des raisons est qu’il se sert du contexte pour bien localiser l’objet. Le
détecteur d’objet du tracker basé DPM n’est pas très performant globalement sur l’ensemble
des séquences, notamment sur les bases VOT2015 et VOT-TIR2015 où une partie des objets
à suivre ne font pas partie des classes d’objet connues du détecteur. Il faudrait lui substituer
d’autres détecteurs d’objet plus récents, exploitant des deep features par exemple. La précision du
détecteur dépend des classes apprises : la classe visage n’existe pas, donc lorsqu’on lui demande de
suivre un visage, il va détecter plutôt des bustes ou des personnes (classe personne). Le filtre de
Kalman sert à faire l’association temporelle entre deux images en filtrant les mauvaises détections
lorsqu’elles sont multiples à partir d’un modèle de mouvement. Il manque un apprentissage en
ligne de l’apparence de l’objet. STRUCK fait partie de la gamme des trackers intermédiaires
mais est plutôt lent. Les meilleures performances sont obtenues pour les trackers DSST et ASMS.
Cette évaluation des performances de suivi est globale et ne permet pas d’analyser et de
comparer la capacité des trackers à faire face à une diversité de phénomènes nuisibles. Notamment,
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 91
NCC NCC
KLT KLT
CT CT CT
(a) STRUCK
DPM DPM DPM
MS
NCC NCC
KLT KLT
CT CT
(c) STRUCK STRUCK STRUCK
DPM DPM
MS MS MS
NCC NCC
KLT KLT KLT
(e) CT CT CT
STRUCK STRUCK STRUCK
DPM DPM DPM
MS
NCC NCC
KLT
CT CT
STRUCK STRUCK
(f) DPM
MS MS
Figure 3.1 – Comportement de dérives de 6 trackers (NCC, KLT, CT, STRUCK, DPM, MS)
pour différentes perturbations telles que l’occultation (a), l’illumination (e,f), le flou (c,e), le
bruit de contexte (c,d,f), les changements d’échelle (b) et les changements d’apparence (d,e,f) sur
6 vidéos de VOT2013+ (a,b), de VOT2015 (c,d,e) et de VOT-TIR2015 (f), utilisant le protocole
défini dans le chapitre 2. Les trackers actifs sont affichés, chaque tracker fournit une boîte de
couleur différente.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 92
Table 3.2 – Performances individuelles des trackers sur les bases VOT2013+, VOT2015 et
VOT-TIR2015. Le nombre de séquences et d’images de chaque base est indiqué entre parenthèse.
R indique la robustesse (nombre total de dérives), P la précision (recouvrement moyen) et V, la
vitesse d’exécution en nombre d’images par seconde. Les meilleurs scores de robustesse, précision
et vitesse par base sont indiqués en rouge, les deuxièmes meilleurs en bleu.
ces chiffres ne donnent aucune indication sur une quelconque complémentarité des comportements
des trackers. D’où le besoin d’une étude de performance plus locale.
Nous nous intéressons à la robustesse des trackers par séquence, plus informative que la
robustesse globale. Prenons comme exemple, les résultats sur VOT2013+ présentés dans le
tableau 3.3. Les performances des bases VOT2015 et VOT-TIR2015 sont dans l’annexe A.
La robustesse par séquence est un indicateur de difficulté d’une séquence. Les séquences faciles
sont celles qui réalisent le moins de dérives, voire une robustesse maximale (face). Tandis que les
séquences difficiles cumulent le plus de dérives. La base présente des difficultés hétérogènes d’une
séquence à l’autre.
Les performances locales d’un tracker sont également très hétérogènes, il n’existe pas de
meilleur tracker pour toutes les séquences malgré les bonnes performances de DSST et ASMS.
Des trackers considérés comme « mauvais » lors de l’évaluation globale (section précédente)
peuvent être bons sur certaines séquences. Par exemple, KLT et MS ne dérivent pas dans les
séquences diving et gopr0013_car4 alors que d’autres trackers plus complexes dérivent. CT
et DPM ne dérivent pas dans la séquence gopr0008_car2 tandis que tous les autres dérivent.
Dans la séquence gymnastics, DPM est le deuxième meilleur tracker après ASMS avec une seule
dérive. Il est équivalent au DSST sur la séquence kitti_van avec une seule dérive. STRUCK est le
meilleur tracker sur la séquence woman avec 0 dérives. Il est aussi meilleur tracker avec MS sur
la séquence gopr0013_car3 avec 0 dérives. Nous en tirons les mêmes conclusions sur VOT2015
et VOT-TIR2015.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 93
Il existe donc une certaine complémentarité locale des trackers qui peut être exploitée,
dépendant des séquences. Une fusion possible des trackers serait alors de sélectionner le meilleur
tracker par séquence.
Cette évaluation est intéressante puisqu’elle démontre une certaine complémentarité des
trackers et donc un intérêt à les fusionner. Cependant, elle ne permet pas de caractériser et
quantifier précisément la complémentarité des trackers lors des dérives. D’où le besoin d’étudier
les instants de dérive.
A présent, nous allons regarder plus finement ce qui se passe au niveau d’une séquence,
c’est-à-dire les instants de dérive des trackers, plutôt que de considérer uniquement la robustesse.
En effet, les instants de dérive des trackers renseignent sur une certaine complémentarité
locale des dérives, plus précisément sur la capacité des trackers à s’auto-relayer lorsque l’un
d’entre eux dérive. Cette complémentarité locale peut être exploitée pour la fusion.
Pour observer cette complémentarité locale, nous analysons les instants de dérive des trackers
dans une même séquence, en appliquant le protocole défini dans le chapitre 2. Le protocole permet
d’obtenir des pistes de suivi discontinues dont les interruptions correspondent aux instants de
dérive (voir la figure 3.2). Chaque graphe indique les instants de dérive des 8 trackers sur une
séquence différente de VOT2013+. On remarque tout d’abord l’hétérogénéité des comportements
de dérive des trackers d’une séquence à l’autre. Par exemple, les dérives sont beaucoup plus
nombreuses pour CT et DPM dans handball1 que dans les autres séquences.
On observe également des corrélations de dérive où plusieurs trackers dérivent au même
moment. C’est le cas par exemple de la séquence gymnastics à l’image 100, la plupart des trackers
dérivent pour des variations d’apparence et de mouvement importantes du gymnaste. Hormis les
corrélations de dérive, il existe aussi des comportements complémentaires où certains trackers ne
dérivent pas lorsque d’autres dérivent. C’est le cas de ASMS dans gymnastics à l’image 100, qui
est complémentaire des autres trackers puisqu’il est le seul à ne pas dériver. De la même façon,
DSST et ASMS sont complémentaires dans bolt aux images 10 et 170.
Cependant, l’usage de plusieurs trackers implique de nombreuses redondances. La plupart
des trackers fonctionnent correctement dans gymnastics de l’image 1 à 100, il n’est donc pas
nécessaire de tous les utiliser puisqu’il y a un coût à les faire fonctionner. Un bon système de
fusion devrait être en mesure de trouver un bon équilibre entre complémentarité et redondance
de comportements des trackers.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 94
Table 3.3 – Robustesse des trackers pour chaque séquence de VOT2013+. Le nom des séquences
est indiqué dans la colonne de gauche, le nombre d’images par séquence dans la colonne #img.
La robustesse par séquence mesure le nombre de dérives du tracker dans la séquence. La ligne
TOTAL indique le nombre total de dérives par tracker sur l’ensemble des séquences. Les séquences
considérées comme difficiles sont encadrées. La/les meilleures performances de robustesse par
séquence sont en gras et la/les moins bonnes sont surlignées.
bolt
NCC
KLT
CT
STRUCK
DPM
DSST
MS
ASMS
50 100 150 200 250 300 350
time
(a) bolt, VOT2013+
gymnastics
NCC
KLT
CT
STRUCK
DPM
DSST
MS
ASMS
50 100 150 200
time
(b) gymnastics, VOT2013+
handball1
NCC
KLT
CT
STRUCK
DPM
DSST
MS
ASMS
50 100 150 200 250 300 350
time
(c) handball1, VOT2015
Figure 3.2 – Instants de dérive des 8 trackers (NCC, KLT, CT, STRUCK, DPM, DSST, MS,
ASMS) sur des séquences difficiles de VOT2013+ (bolt, gymnastics) et de VOT2015 (handball1 ).
L’abscisse représente le numéro d’image dans la séquence. Les points indiquent les instants de
dérive des trackers dans la séquence.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 96
Nous voulons savoir s’il est possible de reconstituer une piste continue de suivi à partir de
plusieurs trackers fonctionnant individuellement. L’hypothèse est que si les trackers ne dérivent
pas tous aux mêmes moments, il est possible d’assurer une continuité du suivi.
L’idée est de regarder si les instants de dérive individuels des trackers, obtenus dans la section
3.3.1, se complètent. Considérons qu’un tracker est actif à un instant donné s’il ne dérive pas.
Pour chaque image d’une séquence, nous comptons le nombre de trackers actifs et vérifions qu’il
y a au moins un tracker actif. Le nombre de trackers actifs correspond alors à la somme des
trackers ne dérivant pas. La figure 3.3 montre le nombre de trackers actifs dans la séquence bolt,
ce nombre est supérieur ou égal à 4 tout au long de la séquence.
Nous avons regardé les séquences pour lesquelles le nombre de trackers actifs peut être ≤ 2 sur
VOT2013+, VOT2015 et VOT-TIR2015, voir la figure 3.4. Pour ces séquences, nous indiquons le
nombre de fois (images) où le nombre de trackers actifs est ≤ 2, ≤ 1, voire égal à 0 (tous les
trackers dérivent au même moment). Sur VOT2013+, il existe au moins 2 trackers actifs par
image et par séquence, les trackers se complètent bien au niveau des dérives individuelles. De
plus, les images pour lesquels il n’y a que 2 trackers actifs sont peu nombreuses, 1 image dans la
séquence gymnastics et 2 dans la séquence kitti_van (courbe verte). VOT2015 et VOT-TIR2015
présentent peu de séquences pour lesquelles le nombre de trackers actifs est égal à 0 (glove,
pedestrian1, quadrocopter). VOT2015 compte le plus de séquences difficiles, 12 séquences ont un
nombre de trackers actifs ≤ 2 (ball1, ball2, birds1, book, fish1, etc.). VOT-TIR2015 compte une
séquence difficile, quadracopter2 pour laquelle 27 images ont au plus 2 trackers actifs.
Finalement, les trackers montrent une assez bonne complémentarité locale des dérives avec
peu d’images présentant 0 trackers actifs. Puisque pour la plupart des séquences, il existe au
moins un tracker actif à chaque instant, il est possible de reconstituer une piste continue de suivi
dans l’hypothèse que l’on dispose d’un mécanisme de sélection du bon tracker.
Nous voulons évaluer le degré de complémentarité des trackers. En effet, mesurer la complé-
mentarité d’un ensemble de trackers permet de juger de l’intérêt de fusionner cet ensemble, et
plus particulièrement de déterminer la combinaison de trackers la plus efficace. Nous voulons
savoir jusqu’où nous pouvons espérer gagner en performance en exploitant correctement la
complémentarité des trackers (instants de dérive). L’étude précédente utilise tous les trackers
pour reconstituer une piste continue de suivi (section 3.3.2). Cependant, elle n’indique pas les
sous-ensembles de trackers les plus efficaces, et notamment si le nombre de trackers combinés a
un impact sur la performance espérée.
[Bailer et Stricker, 2015] introduisent le concept de « fusibilité », qui mesure l’impact d’un
tracker lorsqu’il est ajouté ou retiré de la fusion (impact positif et négatif, gain, etc.). Cependant,
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 97
bolt
NCC
KLT
CT
STR
DPM
DSST
MS
ASMS
50 100 150 200 250 300 350
10
#trackers
0
50 100 150 200 250 300 350
time
Figure 3.3 – Nombre de trackers actifs par image dans la séquence bolt de VOT2013+ utilisant
les 8 trackers. Le premier graphe indique les instants de dérives individuels des trackers sur cette
séquence. Le second graphe indique le nombre de trackers actifs en fonction du temps.
cette mesure de fusibilité est dépendante de la méthode de fusion puisqu’elle est calculée à partir
du résultat de la fusion.
Nous proposons à la place une métrique mesurant la complémentarité d’un ensemble de
trackers pour une base de vidéos donnée, appelée « incomplétude », indépendante de la méthode de
fusion. Elle ne nécessite que les dérives individuelles des trackers, voir la figure 3.2. Contrairement
à [Bailer et Stricker, 2015], elle ne mesure pas la contribution positive ou négative d’un tracker
relativement à un groupe de trackers, mais la complémentarité de l’ensemble.
Rappelons que, dans le protocole d’évaluation défini dans le chapitre 2 et hérité du challenge
VOT, la réinitialisation d’un tracker a lieu 5 images après qu’une dérive est détectée. Cet intervalle
neutre peut être interprété comme une incertitude sur l’instant de dérive.
L’incomplétude I donne une évaluation de la robustesse maximale que l’on peut attendre
avec une fusion basée sur la vérité terrain. Elle devrait être comparée à la robustesse maximale
nb images correspondant a N trackers actifs nb images correspondant a N trackers actifs nb images correspondant a N trackers actifs
0
1
2
0
1
2
3
4
5
6
7
8
9
10
15
20
25
30
0
5
ba
bi
g
cy
ba
ll
cl
bi ba ba 1 e
rd sk ll2
s et
b bo
bi all
rd lt
bi s1
rd
ca bl s2
r an ca
ke
cr
os bm t
r
si bo x
da
lt vi
cr ng bo 1
lt
d
b 2
ou di
ch bu oo vi
tte k
de i ng rfl
y
ng
ca
pt r1 gy fa
hw cr cr car2
is ow os m ce
di sin na
e_ d no g
cr fe sa
rn ur
s
an ic tics
d
os es
si fis o
ng h ka
fis 1 te
h2 r
ga fis
rd h ju
fis 3 m
en h4
gi
p
r si
hi go glo l n
d df ve
in a su ge
g gy gra the
m du r ns r
gy na ate ha
m sti
ho gy na cs1 d
rs m sti go w e
e gy na cs2
m m stic
na s
pr
0
om
ix ja st 3
ic
ed s4 go 008 an
_d ck ha ha pr _c
is e nd nd
ha ba 0 a
tra t n ll1 go 008 r1
he dba
qu ct l ll pr _
ic icop 2
(b) VOT2015
or es te 00 ca
ad s
(a) VOT2013+
ic kat r
ro es er go 09 r2
(c) VOT-TIR2015
c ka 1
qu te pr _c
ad
op
m av
le r2 0 a
te ar es
rh ro r ch
go 009 r1
in m m ing
co pr _c
ot a
Activite des trackers sur VOT2015
o_ 00
Activite des trackers sur VOT2013+
pt m ocr trix
ar
be er ot os go 09 2
2 oc s1
si eep pr _c
se ng 0
lm si er1
ng go 01 ar3
a si er2
ng pr 3_
so er3 00 ca
so c 20 r4
cc so cer1
er cc
e
_
so r2
ld ki mo
sp ier tti
st he _c to
re re yc
tig
et e l
tra r
f ki ist
tu fic
N≤1
N≤2
tti
N=0
N≤1
N≤2
nn
N=0
e
N≤1
N≤2
tre
N=0
_v
w l
es ip an
er
courbes verte, rouge et bleue indiquent le nombre d’images de chaque séquence pour lesquelles le
de trackers actifs N peut être ≤ 2. L’abscisse correspond aux séquences de chaque base. Les
Figure 3.4 – Séquences de VOT2013+, VOT2015 et VOT-TIR2015 pour lesquelles le nombre
98
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 99
du meilleur tracker de l’ensemble étudié rmax . Si I est inférieure à rmax , alors cela signifie qu’il
y a bien une complémentarité des trackers de l’ensemble. Plus l’écart rmax − I est important,
meilleure est la complémentarité.
Nous avons calculé l’incomplétude pour toutes les combinaisons de 2-8 trackers du répertoire
sur les 3 bases. Les résultats de VOT2013+ sont présentés dans la figure 3.5, ceux de VOT2015
et VOT-TIR2015 sont dans l’annexe B (figures B.1 et B.2). Intéressons-nous aux résultats sur
VOT2013+. Nous observons que l’incomplétude diminue avec le nombre de trackers fusionnés, ce
qui est intuitivement attendu. L’incomplétude minimale est atteinte pour les combinaisons de
3-4-5 trackers. Elle est nulle pour la plupart des combinaisons de 5 trackers. Il n’est donc pas
utile de combiner les 8 trackers.
Les valeurs d’incomplétude sont assez hétérogènes en fonction des combinaisons, variant
de 3 (DSST-ASMS) à 140 (NCC-MS) parmi les combinaisons de 2 trackers. Il est de même
difficile de trouver une règle indiquant les meilleures combinaisons puisque cela dépend des
perturbations dans les séquences et de la capacité des trackers à faire face à ces perturbations.
La meilleure combinaison de 2 trackers n’est pas la même pour les 3 bases : DSST-ASMS
sur VOT2013+ et VOT-TIR2015 (figure B.2), STRUCK-ASMS sur VOT2015 (figure B.1).
Ces combinaisons semblent être formées par les deux meilleurs trackers de la base, voir le
tableau 3.2 des performances individuelles des trackers. Cependant, d’autres combinaisons sont
assez compétitives et pourtant formées par des trackers moins bons, par exemple KLT-DSST
et CT-ASMS qui arrivent en 2ème et 3ème position parmi les combinaisons de 2 trackers sur
VOT2013+. De même pour les combinaisons de 3 trackers, l’incomplétude minimale est obtenue
pour trois combinaisons NCC-DSST-ASMS, KLT-DSST-ASMS, CT-DSST-ASMS sur VOT2013+,
et pourtant NCC et KLT font partie des trackers les moins robustes.
L’étude sur l’incomplétude permet donc de classer les combinaisons de trackers selon leur
capacité à se compléter mutuellement lors des dérives individuelles de chacun. Elle donne
également une idée des combinaisons de trackers les plus prometteuses en termes de robustesse
de fusion espérée lorsque leur complémentarité est bien exploitée.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 100
0
0 5 10 15 20 25 30
N combinaison
NCC−KLT−CT NCC−KLT−STRUCK
NCC−KLT−DPM NCC−KLT−DSST
Complementarite de 3 trackers, VOT2013+ NCC−KLT−MS NCC−KLT−ASMS
35 NCC−CT−STRUCK NCC−CT−DPM
NCC−CT−DSST NCC−CT−MS
NCC−CT−ASMS NCC−STRUCK−DPM
NCC−STRUCK−DSST NCC−STRUCK−MS
30
NCC−STRUCK−ASMS NCC−DPM−DSST
NCC−DPM−MS NCC−DPM−ASMS
NCC−DSST−MS NCC−DSST−ASMS
25 NCC−MS−ASMS KLT−CT−STRUCK
KLT−CT−DPM KLT−CT−DSST
Incompletude
KLT−CT−MS KLT−CT−ASMS
20 KLT−STRUCK−DPM KLT−STRUCK−DSST
KLT−STRUCK−MS KLT−STRUCK−ASMS
KLT−DPM−DSST KLT−DPM−MS
15 KLT−DPM−ASMS KLT−DSST−MS
KLT−DSST−ASMS KLT−MS−ASMS
CT−MS−ASMS CT−DSST−ASMS
10 CT−DSST−MS CT−DPM−ASMS
CT−DPM−MS CT−DPM−DSST
CT−STRUCK−ASMS CT−STRUCK−MS
CT−STRUCK−DSST CT−STRUCK−DPM
5
STRUCK−MS−ASMS STRUCK−DSST−ASMS
STRUCK−DSST−MS STRUCK−DPM−ASMS
STRUCK−DPM−MS STRUCK−DPM−DSST
0 DPM−DSST−MS DPM−DSST−ASMS
0 10 20 30 40 50 60
N combinaison DPM−MS−ASMS DSST−MS−ASMS
KLT−CT−DPM−ASMS KLT−CT−DPM−MS
KLT−CT−DPM−DSST KLT−CT−STRUCK−ASMS
KLT−CT−STRUCK−MS KLT−CT−STRUCK−DSST
4 KLT−CT−STRUCK−DPM NCC−DSST−MS−ASMS
NCC−DPM−MS−ASMS NCC−DPM−DSST−ASMS
NCC−DPM−DSST−MS NCC−STRUCK−MS−ASMS
NCC−STRUCK−DSST−ASMS NCC−STRUCK−DSST−MS
3 NCC−STRUCK−DPM−ASMS NCC−STRUCK−DPM−MS
NCC−STRUCK−DPM−DSST NCC−CT−MS−ASMS
NCC−CT−DSST−ASMS NCC−CT−DSST−MS
NCC−CT−DPM−ASMS NCC−CT−DPM−MS
2 NCC−CT−DPM−DSST NCC−CT−STRUCK−ASMS
NCC−CT−STRUCK−MS NCC−CT−STRUCK−DSST
NCC−CT−STRUCK−DPM NCC−KLT−MS−ASMS
1 NCC−KLT−DSST−ASMS NCC−KLT−DSST−MS
NCC−KLT−DPM−ASMS NCC−KLT−DPM−MS
NCC−KLT−DPM−DSST NCC−KLT−STRUCK−ASMS
NCC−KLT−STRUCK−MS NCC−KLT−STRUCK−DSST
0 NCC−KLT−STRUCK−DPM NCC−KLT−CT−ASMS
0 10 20 30 40 50 60 70 NCC−KLT−CT−MS NCC−KLT−CT−DSST
N combinaison NCC−KLT−CT−DPM NCC−KLT−CT−STRUCK
KLT−CT−STRUCK−DPM−DSST NCC−DPM−DSST−MS−ASMS
NCC−STRUCK−DSST−MS−ASMS NCC−STRUCK−DPM−MS−ASMS
NCC−STRUCK−DPM−DSST−ASMS NCC−STRUCK−DPM−DSST−MS
3 NCC−CT−DSST−MS−ASMS NCC−CT−DPM−MS−ASMS
NCC−CT−DPM−DSST−ASMS NCC−CT−DPM−DSST−MS
NCC−CT−STRUCK−MS−ASMS NCC−CT−STRUCK−DSST−ASMS
NCC−CT−STRUCK−DSST−MS NCC−CT−STRUCK−DPM−ASMS
2 NCC−CT−STRUCK−DPM−MS NCC−CT−STRUCK−DPM−DSST
NCC−KLT−DSST−MS−ASMS NCC−KLT−DPM−MS−ASMS
NCC−KLT−DPM−DSST−ASMS NCC−KLT−DPM−DSST−MS
NCC−KLT−STRUCK−MS−ASMS NCC−KLT−STRUCK−DSST−ASMS
1 NCC−KLT−STRUCK−DSST−MS NCC−KLT−STRUCK−DPM−ASMS
NCC−KLT−STRUCK−DPM−MS NCC−KLT−STRUCK−DPM−DSST
NCC−KLT−CT−MS−ASMS NCC−KLT−CT−DSST−ASMS
NCC−KLT−CT−DSST−MS NCC−KLT−CT−DPM−ASMS
NCC−KLT−CT−DPM−MS NCC−KLT−CT−DPM−DSST
0
0 10 20 30 40 50 60 NCC−KLT−CT−STRUCK−ASMS NCC−KLT−CT−STRUCK−MS
N combinaison NCC−KLT−CT−STRUCK−DSST NCC−KLT−CT−STRUCK−DPM
Incompletude
1.2 NCC−CT−STRUCK−DPM−DSST−MS
NCC−KLT−DPM−DSST−MS−ASMS
NCC−KLT−STRUCK−DSST−MS−ASMS
NCC−KLT−STRUCK−DPM−MS−ASMS
1 NCC−KLT−STRUCK−DPM−DSST−ASMS
NCC−KLT−STRUCK−DPM−DSST−MS
NCC−KLT−CT−DSST−MS−ASMS
0.8 NCC−KLT−CT−DPM−MS−ASMS
NCC−KLT−CT−DPM−DSST−ASMS
NCC−KLT−CT−DPM−DSST−MS
0.6 NCC−KLT−CT−STRUCK−MS−ASMS
NCC−KLT−CT−STRUCK−DSST−ASMS
NCC−KLT−CT−STRUCK−DSST−MS
0.4 NCC−KLT−CT−STRUCK−DPM−ASMS
NCC−KLT−CT−STRUCK−DPM−MS
NCC−KLT−CT−STRUCK−DPM−DSST
0.2
0
0 10 20 30
N combinaison
0.4
Incompletude
0.2
−0.2
−0.4
−0.6
−0.8
−1
0 2 4 6 8
N combinaison
0.8
0.6
0.4
Incompletude
0.2
−0.2
−0.4
−0.6
−0.8
−1
0 1 2
N combinaison
Figure 3.5 – Incomplétude calculée pour les combinaisons de 2-8 trackers sur VOT2013+. Chaque
combinaison est représentée par un symbole. L’abscisse correspond au no de la combinaison de la
liste (légende de droite), par exemple l’abscisse 1 fait référence à la 1ère combinaison de la liste.
L’ordonnée indique l’incomplétude (en nombre d’images) de la combinaison correspondante.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 103
Étude des instants de dérive Nous avons montré la possibilité de reconstituer une piste
continue de suivi à partir des pistes individuelles des trackers pour la plupart des séquences de
la base. Cependant, cette reconstitution présente des limites car elle se base sur les instants de
dérive et dépend donc de la manière dont ils ont été obtenus. Dans notre expérience, le protocole
utilisé autorise peu de manœuvres : une dérive est définie par un taux de recouvrement nul
et chaque dérive est suivie automatiquement par une réinitialisation utilisant la vérité terrain.
Plusieurs paramètres pourraient être étudiés de plus près comme le moment d’initialisation de la
piste de suivi. L’idée serait de regarder si on obtient les mêmes instants de dérive d’un tracker s’il
est initialisé à différents instants de la séquence au lieu de la première image. L’autre paramètre
intéressant à étudier concerne la boîte de vérité terrain utilisée pour initialiser ou réinitialiser les
trackers. Sachant que les trackers sont plutôt sensibles à l’initialisation, une possibilité serait
d’ajouter un bruit spatial sur la boîte d’initialisation (position et taille) pour voir si les mêmes
instants de dérive des trackers sont conservés.
La mesure d’incomplétude est de même calibrée par les instants de dérive. Une possibilité
serait d’ajouter une incertitude sur les instants de dérive par exemple en augmentant le seuil de
dérive et en augmentant la plage d’inactivité du tracker pour regarder comment l’incomplétude
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 104
se dégrade. Pour l’instant, cette plage d’inactivité est de 5 images entre le moment où la dérive
est détectée et la réinitialisation de la piste.
3.5 Conclusion
L’objectif de ce chapitre est de montrer une complémentarité possible des trackers pour la
fusion. Cette complémentarité a été étudiée à plusieurs niveaux : composition, performances et
instants de dérive. 8 trackers ont été choisis pour l’étude, construits sur des principes différents
afin qu’ils n’échouent pas pour les mêmes perturbations mais manifestent des comportements de
dérive complémentaires.
L’étude de performance a montré une complémentarité des performances des trackers au
niveau des séquences. En effet, la performance globale ne détermine pas le succès ou l’échec d’un
tracker sur une séquence donnée puisque celui-ci dépend de la capacité du tracker à surmonter la
difficulté présente dans la séquence.
L’intérêt s’est donc porté sur l’étude des instants de dérive des trackers à l’intérieur des
séquences. Nous avons montré la possibilité de reconstituer une piste de suivi avec peu ou pas
de dérives, à partir des pistes individuelles des trackers comportant des dérives. Ce qui montre
un réel intérêt à la fusion. Nous avons proposé une métrique, l’incomplétude, permettant de
mesurer quantitativement la complémentarité d’un ensemble de trackers à partir de leurs instants
de dérive. L’incomplétude renseigne sur la robustesse maximale pouvant être atteinte par une
combinaison de trackers lorsque la complémentarité des instants de dérive est bien exploitée.
Cependant, les résultats de cette étude reposent sur des instants de dérive préalablement
connus grâce à la vérité terrain. Lors de la fusion en ligne de trackers, ces instants ne sont pas
connus. Ainsi, pour pouvoir exploiter la complémentarité des instants de dérive des différents
trackers et fusionner leurs pistes, il faut pouvoir détecter tous leurs instants de dérive. La
prochaine étape est alors de construire un prédicteur de dérives, capable de prédire en ligne les
dérives des trackers. Cela fait l’objet du chapitre suivant.
Chapitre 4
Sommaire
4.1 Indicateurs de bon comportement . . . . . . . . . . . . . . . . . . . . 106
4.1.1 Score de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.1.2 Carte de scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.1.3 Autres indicateurs spécifiques . . . . . . . . . . . . . . . . . . . . . . . . 110
4.2 Prédiction en ligne des dérives par apprentissage des indicateurs
de comportement (BI) . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.2.1 Estimation des seuils des indicateurs de comportement . . . . . . . . . . 115
4.2.2 Apprentissage SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2.3 Fusion de trackers par mélange d’experts à partir des indicateurs de
comportement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3 Prédiction en ligne des dérives par une analyse de la distribution
spatiale des boîtes englobantes . . . . . . . . . . . . . . . . . . . . . . 117
4.3.1 Filtrage temporel de boîtes (BF) . . . . . . . . . . . . . . . . . . . . . . 118
4.3.2 Consensus de boîtes (BC) . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.4 Évaluation des prédicteurs de dérives par apprentissage des indica-
teurs de comportement . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.4.1 Recherche des indicateurs de comportement . . . . . . . . . . . . . . . . 119
4.4.2 Estimation des seuils des indicateurs . . . . . . . . . . . . . . . . . . . . 128
4.4.3 Apprentissage SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.4.4 Fusion de trackers par mélange d’experts . . . . . . . . . . . . . . . . . 134
4.5 Discussion et travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . 137
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Une caractéristique décisive pour toute stratégie de fusion de trackers multiples est une
capacité d’estimation en ligne de la qualité des résultats produits. En effet, la fusion n’est
performante que si les informations incertaines ou bruitées sont filtrées. L’objectif de ce chapitre
105
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 106
𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑖𝑖
𝑖𝑖 𝑖𝑖
𝐵𝐵�𝑡𝑡𝑖𝑖 , 𝑐𝑐𝑡𝑡𝑖𝑖
Tracker i (𝑀𝑀𝑡𝑡−1 , 𝑊𝑊𝑡𝑡−1 )
Figure 4.1 – Schéma générique de fonctionnement d’un tracker. Le Tracker i prédit la position
de la cible B̂ti dans l’image It à l’instant t à partir de sa position à l’instant précédent B̂t−1
i ,
i
d’une fenêtre de recherche Wt−1 i
définie par B̂t−1 et de son modèle d’apparence calculé à l’instant
i i
précédent Mt−1 . Un score de confiance ct est associé à la prédiction. La position de l’objet, la
fenêtre de recherche et le modèle d’apparence sont mis à jour en utilisant la nouvelle position.
est de développer des méthodes génériques capables d’évaluer en ligne le bon fonctionnement
d’un tracker, et plus spécifiquement prédire ses dérives. La première idée a consisté à prédire
les dérives d’un tracker en évaluant la qualité de son modèle d’apparence par des indicateurs
de comportement décrits dans la section 4.1. Les méthodes développées seront présentées dans
la section 4.2. La deuxième idée a consisté à déterminer une anomalie de comportement en
exploitant l’information spatiale des prédictions (boîtes englobantes) des trackers de manière
individuelle ou collective. Ces méthodes seront décrites dans la section 4.3. Enfin, les résultats de
ces méthodes seront présentés dans la section 4.4.
Comme nous avons pu le voir dans l’état de l’art du suivi d’objet (section 1.1), la modélisation
de l’apparence de l’objet joue un rôle capital dans la gestion des différents types de perturbations
(variations d’apparence, occultation, mouvement, etc.) à l’origine des dérives du tracker. Une
représentation d’apparence limitée des objets (type d’objet), une mauvaise prise en compte du
contexte (type de scène) et une adaptation du modèle inexistante ou bruitée (accumulation
d’erreurs liées à l’imprécision de localisation) provoquent la dérive du tracker.
Puisque le point de départ est le modèle d’apparence, nous allons chercher à évaluer son
bon fonctionnement à partir des informations intrinsèques qu’il délivre. Rappelons la structure
fonctionnelle d’un tracker, représentée dans la figure 4.1. Pour prédire la position de l’objet B̂ti
dans la nouvelle It , le Tracker i estime la valeur des prédictions possibles à partir du modèle
i , chaque prédiction possible étant une position dans la fenêtre de recherche
d’apparence Mt−1
i
Wt−1 i . Puis, la prédiction qui maximise l’ensemble des valeurs des prédictions est
définie par B̂t−1
choisie comme nouvelle position de l’objet. La valeur cit associée à la prédiction B̂ti et qualifiée de
« score de confiance », peut être utilisée comme indicateur de la qualité de la prédiction.
Le score de confiance est un exemple d’information intrinsèque du modèle pouvant servir
à caractériser le bon comportement d’un tracker. Dans cette section, nous présentons 3 types
d’indicateurs de bon comportement pouvant s’adapter de manière générique à la plupart des
trackers : score de confiance, carte de scores et autres indicateurs spécifiques.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 107
overlap
0.6 0.6
0.4 0.4
0.2 0.2
0 0
50 100 150 200 250 50 100 150 200 250 300 350
time time
1 1
confidence score
confidence score
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
50 100 150 200 250 50 100 150 200 250 300 350
time time
(a) NCC bicycle (b) NCC car
DPM car DPM gymnastics
1 1
0.8 0.8
overlap
overlap
0.6 0.6
0.4 0.4
0.2 0.2
0 0
50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 200
time time
1 2
confidence score
confidence score
0.5 1
0 0
−0.5 −1
−1 −2
50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 200
time time
(c) DPM car (d) DPM gymnastics
Figure 4.2 – Évolution du score de corrélation du tracker NCC (a,b) et du score de détection
du tracker basé DPM (c,d) en fonction du temps dans plusieurs séquences de VOT2013+. La
courbe rouge indique le recouvrement de la boîte englobante prédite avec la vérité terrain et la
courbe bleue, le score de corrélation ou détection associé à la boîte. Les bandes grises indiquent
les moments de dérive du tracker ; après chaque dérive, le tracker est réinitialisé avec la vérité
terrain.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 109
#2/271 250
0.8
5 10
10 0.6 200
20
15
0.4 30
20 150
y
25 40
y
0.2
30
50 100
35 0
60
40
−0.2 50
45 70
10 20 30 40 50 60 70 80
0
x 10 20 30 40
x
50 60 70 80
0.8
−80 10 0.35
10 10
0.6
−100 15 0.3
15
0.4
20
−120 20 0.25
20
0.2
30 −140 25
y
y
25
y
0 0.2
−0.2 −160 30
30
40
0.15
−0.4 −180
35 35
0.1
50 −0.6
−200
40 40
−0.8 0.05
−220
60 45 45
−1
10 20 30 40 50 60 0
−240
x 5 10 15 50
5 10 15
x
x
(d) (e) (f)
Figure 4.3 – Carte de scores de 5 trackers. (a) image 2 de la séquence bicycle dans VOT2013
[Kristan et al., 2013], la boîte bleue indique la vérité terrain de la cible. (b), (c), (d), (e) et (f) sont
les cartes de scores respectives des trackers NCC, KLT, STRUCK, CT et DSST, correspondant à
l’image (a). L’échelle de valeurs indique rouge pour des valeurs de score élevées et bleu pour des
valeurs de score faibles. La distribution des scores (intensité, maxima locaux, etc.) donne des
informations sur l’état de fonctionnement des trackers. Nous nous basons sur ces informations
pour prédire l’état des trackers dans la section 4.2.
Plutôt que d’utiliser seulement le score maximal associé à la prédiction courante, notre idée
est d’exploiter la distribution spatiale des scores de confiance sur l’image entière ou sur une
fenêtre locale. Cette distribution est appelée « carte de scores » et notée Ct , calculée sur une
fenêtre (xf , yf , wf , hf ) à l’instant t. Ct = {ct (i, j)|xf ≤ i ≤ xf + wf , yf ≤ j ≤ yf + hf }, où ct (i, j)
est le score calculé à la position (i, j) de l’image à l’instant t. Les cartes de scores révèlent la
manière dont les trackers « voient » les images brutes, quelle interprétation ils leur donnent. La
distribution spatiale des scores peut renseigner sur la précision de la localisation, par exemple
la présence de deux maxima locaux indiquerait deux positions possibles de la cible pouvant
entraîner une erreur de localisation.
La figure 4.3 montre les cartes de scores d’une même image, calculées par 5 trackers différents.
La taille des cartes et la nature des scores est différente d’un tracker à l’autre. Nous supposons
que les changements de comportement du tracker peuvent être détectés en observant l’évolution
spatio-temporelle de cette carte. Pour différents trackers, nous montrons le comportement des
cartes à différents instants d’une même séquence dans les figures 4.4, 4.5, 4.6 et 4.7. Ces cartes
ont des allures très différentes selon les trackers et les séquences. Les cartes qui semblent traduire
un bon comportement du tracker sont encadrées en vert, celles qui semblent traduire une dérive
en rouge. Les cartes encadrées en bleu présentent un comportement ambigu où elles semblent
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 110
indiquer un mauvais fonctionnement du tracker (mêmes allures que lors d’une dérive du tracker)
alors que ce n’est pas le cas.
Pour NCC (figure 4.4), un bon comportement du tracker est observé pour des cartes présentant
une intensité locale élevée, renseignant sur la précision de localisation du tracker (encadré vert).
En revanche, une dérive est observée pour des régions homogènes de scores faibles ou de même
intensité, indiquant une localisation imprécise de l’objet (encadré rouge). Cependant, dans
certains cas, NCC ne dérive pas alors que la carte semble indiquer le contraire (encadré bleu).
Pour KLT (figure 4.5), un bon fonctionnement du tracker est observé lorsque les cartes
présentent des régions compactes d’intensité élevée (encadré vert). Un mauvais comportement
correspondrait à une déformation importante de cette région par rapport à sa forme initiale
(encadré rouge).
Pour CT (figure 4.6), un bon fonctionnement du tracker est observé lorsque les scores
d’intensité élevée sont localisées, celles-ci rendent compte de la précision de localisation (encadré
vert). Un mauvais comportement est observé lorsque les cartes présentent une région étendue
d’intensité homogène, rendant compte d’une mauvaise précision de localisation (encadré rouge).
Les cartes indiquant une dérive du tracker alors que celui-ci fonctionne correctement (encadré
bleu) sont présentes en début de séquence lorsque le modèle commence tout juste à apprendre
l’objet.
Pour STRUCK (figure 4.7), un bon comportement du tracker est observé pour des cartes
présentant un seul maximum local (foyer), indiquant une seule localisation possible de l’objet
(encadré vert). Tandis que les cartes ayant plusieurs maxima locaux (foyers) sont souvent
accompagnées d’une dérive du tracker (encadré rouge) car la localisation est imprécise. Cependant,
des cas ambigus existent où la carte présente plusieurs maxima locaux mais où le tracker localise
correctement la cible (encadré bleu). L’interprétation des cartes n’est donc pas toujours évidente.
Toutes les informations contenues dans la carte ne sont pas utiles pour caractériser l’état de
fonctionnement d’un tracker. Nous cherchons donc à extraire de ces cartes des indicateurs spatio-
temporels simples, traduisant les changements de comportement observés lorsque le tracker passe
d’un état de bon fonctionnement à une dérive. Une autre raison à la construction d’indicateurs
simples est que l’on dispose peu de données (cartes) et que si ces données sont de grande
dimension, alors il est difficile voire impossible de faire de l’apprentissage. Nous allons donc
construire des indicateurs de comportement exploitant la variation spatiale et temporelle de la
distribution des scores. Par la suite, ces indicateurs ont été déterminés empiriquement par une
analyse plus approfondie de cette distribution en choisissant ceux qui décrivent le mieux son
évolution. Les indicateurs précis sont détaillés dans la partie 4.4.1.
Pour les trackers complexes ou ceux pour lesquels le calcul de la carte de scores est peu
fiable ou non réalisable en raison de leur structure algorithmique, c’est par exemple le cas du
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 111
y
25 0 0
30
30 −0.2 35
−0.2 40 −0.2
−1 55 −1 −1
10 20 30 40 50 60 70 10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80 90 100
x x x
30 30 30
y
0 0 0
10 10 0.8
NCC woman #227
0.8 1
20 0.6 20 0.6 10
30 0.4 0.4
30 20 0.5
40 0.2 0.2
40 30
50
y
y
0 0 0
50 40
60
0.2 0.2
60 50
70
0.4 0.4 0.5
80 70 60
0.6 0.6
90 80 70
0.8 0.8 1
20 40 60 80 100 120 140
100 90
20 40 60 80 100 120 140 160
1
20 40 60 80 100 120 140
1 x
x x
Figure 4.4 – Carte de scores de NCC à différents instants des séquences bicycle (t = 2, 85, 174),
bolt (t = 2, 121, 340) et woman (t = 60, 139, 227) de la base VOT2013+ (de haut en bas). Les
images encadrées en vert indiquent un bon comportement du tracker, en rouge une dérive et
en bleu un comportement ambigu de la carte de scores. Une intensité locale élevée sur la carte
semble indiquer un bon fonctionnement du tracker tandis qu’une intensité étendue faible ou de
même valeur semble indiquer une dérive.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 112
#2/271 #190/271
KLT KLT
10 10
200 200
20 20
30 30
150 150
40 40
y
y
50 100 50 100
60 60
50 50
70 70
80 80
0 0
10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80
x x
#2/350 #243/350
KLT KLT
10 10
200 200
20 20
30 30
150 150
40 40
y
50 100 50 100
60 60
50 50
70 70
80 80
0 0
10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80
x x
#2/597 #190/597
KLT KLT
10 10
200 200
20 20
30 30
150 150
40 40
y
50 100 50 100
60 60
50 50
70 70
80 80
0 0
10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80
x x
Figure 4.5 – Carte de scores de KLT à différents instants des séquences bicycle (t = 2, 190), bolt
(t = 2, 243) et woman (t = 2, 190) de la base VOT2013+ (de haut en bas). Les images encadrées
en vert indiquent un bon comportement du tracker et en rouge une dérive. Une déformation
importante de la région d’intensité élevée par rapport à sa forme de départ semble indiquer un
mauvais fonctionnement du tracker.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 113
50 50 50
10 10 10
0 0 0
30 30 30
y
y
−150 −150 −150
60 60 60
−400 −400 −400
5 10 15 20 25 5 10 15 20 25 5 10 15 20 25
x x x
CT CT CT
50 50
20 20
0 0 CT − gymnastics − #190
100
40 −50 40 −50 5
10 0
−100 −100 15
60 60 20
−100
y
y
−150 −150
25
−200
30
−200 −200
80 80
35
−300
−250 −250 40
45
100 100 10 20 30 40 50 60 70 80 90
−400
−300 −300
x
−350 −350
120 120
−400 −400
10 20 30 10 20 30
x x
CT CT CT
10 50 10 50 10 50
20 0 20 0 20 0
40 40 40
−100 −100 −100
50 50 50
y
60 60 60
−200 −200 −200
70 70 70
−250 −250 −250
80 80 80
−300 −300 −300
90 90 90
−350 −350 −350
Figure 4.6 – Carte de scores de CT à différents instants des séquences bolt (t = 2, 120, 160),
gymnastics (t = 10, 50, 190) et woman (t = 2, 90, 120) de la base VOT2013+ (de haut en bas).
Les images encadrées en vert indiquent un bon comportement du tracker, en rouge une dérive et
en bleu un comportement ambigu de la carte de scores. Une région étendue d’intensité faibles ou
de mêmes valeurs semble indiquer une mauvaise localisation de la cible.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 114
30 30 30
y
y
0 0 0
60 60 60
−1 −1 −1
10 20 30 40 50 60 10 20 30 40 50 60 10 20 30 40 50 60
x x x
30 30 30
y
0 0 0
60 60 60
−1 −1 −1
10 20 30 40 50 60 10 20 30 40 50 60 10 20 30 40 50 60
x x x
30 30 30
y
0 0 0
60 60 60
−1 −1 −1
10 20 30 40 50 60 10 20 30 40 50 60 10 20 30 40 50 60
x x x
Figure 4.7 – Carte de scores de STRUCK à différents instants des séquences bolt (t = 2, 103, 165),
gymnastics (t = 2, 92, 185) et gopr0009_car1 (t = 5, 20, 65) de la base VOT2013+ (de haut
en bas). Les images encadrées en vert indiquent un bon comportement du tracker, en rouge
une dérive et en bleu un comportement ambigu de la carte de scores. La présence de plusieurs
foyers d’intensité élevée semble indiquer plusieurs localisations possibles pour la cible et donc
potentiellement un mauvais fonctionnement du tracker.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 115
tracker basé DPM renvoyant des détections rares et non une carte de détections denses. D’autres
indicateurs peuvent être calculés par exemple en exploitant des variables internes du modèle
d’apparence ou en construisant d’autres métriques. Leur définition exacte est détaillée dans la
partie 4.4.1.
Fonction de prédiction
Pour chaque tracker Ti , i ∈ [1, M ], nous cherchons une fonction DPi capable de prédire son
état sit en fonction de ses indicateurs de comportement φit = {φi,1 i,2 i,K
t , φt ..., φt } à chaque instant
t:
DPi : φit → sit (4.1)
Pour construire cette fonction de prédiction, la première méthode consiste à estimer un seuil
pour chaque indicateur de comportement séparant les valeurs d’indicateurs indiquant une dérive
des valeurs indiquant un bon fonctionnement du tracker. Cette méthode est décrite dans la
section 4.2.1.
Les deux autres méthodes utilisent des techniques d’apprentissage. La première consiste à
apprendre une classification binaire des valeurs d’indicateurs par apprentissage SVM et détaillée
dans la section 4.2.2. La deuxième consiste à apprendre une pondération des trackers en fonction
de la valeur des indicateurs par un mélange d’experts et détaillée dans la section 4.2.3. La piste de
l’apprentissage a été considérée afin d’automatiser le réglage des seuils mais non la recherche des
indicateurs dans une carte de scores. En effet, apprendre directement sur les cartes nécessiterait
une base considérable de données d’apprentissage vu la dimensionnalité du problème, ce que nous
n’avons pas. L’apprentissage n’a donc pu se faire qu’avec des indicateurs déjà extraits des cartes.
La prédiction de dérives est réalisée à partir d’un seuil sur chaque indicateur de comportement.
Toute la difficulté consiste à choisir les bons seuils permettant de séparer correctement les valeurs
correspondant à un bon fonctionnement du tracker des valeurs correspondant à un mauvais
fonctionnement.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 116
L’estimation des seuils des indicateurs individuels passe par une évaluation hors ligne des
performances de prédiction de dérives des prédicteurs en fonction des seuils choisis. Plusieurs
valeurs de seuil sont testées en suivant un protocole d’évaluation permettant de mesurer la
capacité de prédiction du prédicteur selon ces valeurs. Les critères de dérive et les valeurs de seuil
choisies sont détaillés dans la partie 4.4.1. Finalement, ces dernières sont choisies de manière
à ne pas dépasser un certain nombre de fausses alarmes, i.e. fausses prédictions de dérives. Un
compromis entre fausses alarmes et bonnes détections est nécessaire, il sera discuté dans la section
4.4.2.
Une méthode plus automatique consiste à apprendre directement une fonction de classification
de valeurs d’indicateurs de comportement capable de séparer les valeurs d’indicateurs correspon-
dant à une dérive du tracker et celles correspondant à un bon fonctionnement. Pour chaque tracker,
l’apprentissage SVM utilise un ensemble d’exemples d’apprentissage : (φ1 , l1 ), (φ2 , l2 ), ...(φn , ln ),
où φj est un vecteur d’indicateurs de comportement concaténant les m indicateurs du tracker
calculés à un instant donné, et lj ∈ {0, 1} le label correspondant.
0 si IoU (B̂j , Bj∗ ) < η
lj =
1 si IoU (B̂j , Bj∗ ) ≥ η
où B̂j est la boîte prédite par le tracker correspondant à (φj , lj ), Bj∗ la vérité terrain et IoU
(Intersection over Union) le taux de recouvrement entre les boîtes. La constante η est le seuil
délimitant les exemples positifs des exemples négatifs.
Les résultats d’apprentissage seront présentés dans la section 4.4.3.
L’approche par un mélange d’experts ne cherche pas à prédire les dérives des trackers mais à
apprendre une pondération des sorties des trackers (boîtes englobantes) en fonction des valeurs
des indicateurs des trackers. Le problème de fusion de trackers est formulé sous la forme d’un
mélange d’experts : au lieu de considérer des prédicteurs de dérives binaires de trackers, on
considère des experts évaluant la qualité de chaque tracker dans un intervalle de valeurs ∈ [0, 1].
On dispose d’un ensemble de M trackers T = {T1 , T2 , ...TM }. A chaque instant t, chaque
tracker Ti prédit la position de la cible sous forme d’une boîte Ẑit . Leur fusion consiste à calculer
à chaque instant t, une boîte de fusion Ẑ t née de la combinaison des boîtes {Ẑit }M
i=1 , en pondérant
localisation). Formulée sous la forme d’un mélange d’experts, la fusion des boîtes donne :
M
X
Ẑ t = gi (φti ) ∗ Ẑit (4.2)
i=1
On a fait l’hypothèse que les fonctions gi ne dépendaient que des indicateurs du trackers Ti :
gi (φti ). Mais on pourrait aussi avoir gi (φt ), où φt est la concaténation des vecteurs d’indicateurs
des différents trackers à l’instant t.
L’estimation des {wi }M
i=1 se ramène à un problème de minimisation d’erreur quadratique sur
∂E
wit+1 = wit + λ (4.5)
∂wit
= wit − λ(Ẑ t − Z ∗t )φti gi (φti )(Ẑit − Ẑ t ) (4.6)
Une solution alternative à l’optimisation par descente de gradient est une optimisation globale,
comme celle développée dans Sferes2 1 [Mouret et Doncieux, 2010].
Les résultats d’apprentissage seront présentés dans la section 4.4.4.
Une autre manière de détecter un comportement aberrant des trackers est d’exploiter l’infor-
mation spatiale des boîtes englobantes prédites, de manière individuelle ou collective. Les deux
méthodes développées utilisent deux informations :
B4
B2
B1 B1
Bf B3 Cluster 2
d
Cluster 1
(a) Filtrage temporel (b) Consensus
Figure 4.8 – Analyse de la distribution spatiale des boîtes englobantes utilisant (a) un filtrage
temporel ou (b) un consensus de boîtes.
f usion
— Une position de référence passée. Prenons comme exemple, la prédiction B̂t−1 à l’instant
t − 1 produite par un système de fusion combinant les boîtes des trackers individuels B̂t−1 .
Le principe consiste à prédire une dérive (sit = 0) lorsque la position estimée par le tracker Ti
f usion
à l’instant t, B̂ti , est éloignée de la position estimée par le système à l’instant précédent B̂t−1
et illustré dans la figure 4.8a :
f usion f usion
0 si dist(B̂t−1 , B̂ti ) > width(B̂t−1 )
sit =
1 sinon
f usion f usion
où width(B̂t−1 ) est la largeur de la boîte B̂t−1 . La distance dist utilisée est la distance
euclidienne entre les centres des boîtes. Contrairement à la mesure de recouvrement IoU définie
en section 1.2.2, dist ne pénalise pas une boîte B̂ti lorsqu’elle est bien centrée sur la cible et
f usion
différente en taille de B̂t−1 .
Cette méthode est utile lorsque les mouvements de la caméra sont lisses (pas de brusque
changement de ligne de visée) et que les déplacements de la cible sont faibles d’une image à
l’autre. Elle permet donc de filtrer les déplacements aberrants mais ne prévient pas en cas de
mouvements importants de la caméra ou de déplacements importants de cible liés à une cadence
vidéo faible. Par ailleurs, le seuil choisi pour définir la validité d’une prédiction (taille de la boîte)
est assez large, ce qui peut rendre l’estimation de position de la cible imprécise.
Le principe est d’utiliser les prédictions produites par d’autres trackers pour estimer la qualité
de la prédiction actuelle, l’évaluation des trackers se fait de manière collective comme illustrée
dans la figure 4.8b. La règle de décision utilisée est simple :
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 119
— On procède par une analyse de la répartition spatiale des boîtes englobantes produites par
les trackers B̂t , en regroupant les boîtes « connexes », c’est-à-dire proches spatialement, et
en définissant un seuil de similarité : les boîtes dont le taux de recouvrement IoU > 0.5
sont placées dans un même cluster. Pour chaque cluster formé, on calcule un centre, qui
correspond à la boîte moyenne des boîtes du cluster.
— On sélectionne le cluster dont le centre est le plus proche de la position estimée précé-
f usion
dente B̂t−1 (distance centre à centre). Les boîtes de ce cluster sont considérées comme
fonctionnelles et on leur attribue la valeur sit = 1.
— Les boîtes ne faisant pas partie du cluster sélectionné sont déclarées invalides (sit = 0).
Cette détection de boîtes aberrantes semble suffisante dans nos expériences compte tenu de
la taille de la collection de trackers utilisés. L’intérêt de cette méthode est d’éliminer des groupes
de trackers aux comportements différents (prédictions éparses). La taille des clusters n’est pas
utilisée comme critère de sélection car il n’est pas exclu que plusieurs trackers dérivent en votant
pour une même position.
Limites des méthodes BF et BC Ces règles simples en soi ne permettent pas d’évaluer la
qualité intrinsèque des prédictions produites. Un cas d’utilisation possible serait de les combiner
à une autre méthode de prédiction basée sur des critères plus pertinents, par exemple la méthode
BI (indicateurs de comportement). L’évaluation complète de ces deux méthodes se fera dans le
f usion
chapitre 5 car elles nécessitent le résultat de la fusion B̂t−1 .
Nous cherchons à extraire des indicateurs de comportement à partir des cartes de scores des
trackers. Pour la plupart des trackers du répertoire, cette manœuvre est possible. Nous modifions
les trackers afin de pouvoir accéder à cette carte de scores lorsque leur structure algorithmique le
permet. NCC, CT, STRUCK, DSST et MS disposent naturellement d’une telle carte. Celle-ci
est de forme rectangulaire ou circulaire, de taille fixe ou fonction des dimensions de l’objet suivi
(w, h). Cependant pour NCC, les indicateurs extraits de la carte n’ayant pas donné de résultats
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 120
satisfaisants, nous avons utilisé d’autres indicateurs. Les trackers restants KLT, DPM et ASMS ne
disposent pas naturellement d’une carte de scores. Pour KLT, nous avons pu déduire facilement
une carte de scores à partir de son fonctionnement. DPM ne fournit pas de cartes de détection
denses puisque seules les détections dont le score est supérieur à un certain seuil de détection
sont retenues, nous avons donc calculé des indicateurs à partir des détections éparses. Du fait de
la complexité de fonctionnement d’ASMS intégrant une recherche d’échelle, nous avons calculé
des indicateurs simples.
Nous distinguons donc deux catégories de trackers :
Les indicateurs de comportement calculés pour chaque tracker sont détaillés ci-dessous et leurs
évolutions sur certaines séquences de VOT2013+ sont illustrées dans la figure 4.9 :
NCC A chaque instant t, la localisation de l’objet par NCC correspond à un score maximal
sur la carte. Notons max(t) sa valeur et (xmax (t), ymax (t)) ses coordonnées.
Trois indicateurs sont utilisés :
max(t) − max(t − 1)
∆max = −
max(t − 1)
Une diminution importante du taux de recouvrement IoU correspond à des valeurs élevées de
∆xmax ou ∆ymax ou ∆max comme illustré dans la figure 4.9a aux instants t = 100, 150, 220, 270.
Cependant, la première dérive a lieu brusquement à t = 40 mais aucun des indicateurs n’indique
une quelconque dérive. De même pour le taux de recouvrement qui est resté constant de t = 0−40.
KLT KLT effectue le suivi d’un ensemble de points de l’image I(t − 1) à l’image I(t). La
carte de scores calculée est une carte locale de taille (81, 81), centrée sur la position de l’objet
à t − 1. Pour chaque position (x, y) de la carte, nous définissons une fenêtre locale de même
dimension que l’objet et comptons le nombre de points appariés issus du suivi dans cette fenêtre.
La position comptant le maximum de points appariés correspond à la position actuelle de l’objet.
Les valeurs de la carte sont ensuite normalisées à 255. L’ensemble des scores de la carte est noté
C = {c(x, y)}. Définissons la région R200 = {(x, y) ∈ C | c(x, y) > 200}. Notons (xc (t), yc (t)), le
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 121
centre de R200 , obtenu en moyennant les positions de R200 à l’instant t. Définissons également la
région R0 = {(x, y) ∈ C | c(x, y) > 0}.
Trois indicateurs sont calculés à partir de la carte :
xc (t) − xc (t − 1) yc (t) − yc (t − 1)
∆xc = , ∆yc =
w h
Card(R200 (t))
où spotsize(t) = Card(R0 (t)) et Card est le cardinal de l’ensemble.
Une valeur importante de l’un des indicateurs semble indiquer un mauvais fonctionnement
du tracker, comme illustré dans la figure 4.9b : KLT dérive pour des valeurs élevées de ∆xc et
∆yc à t = 200, et pour des valeurs élevées de ∆xc et ∆spotsize à t = 330 et t = 510. Cependant,
ce n’est pas toujours systématique, par exemple à t = 230, KLT dérive pour des valeurs faibles
d’indicateurs.
CT La carte de scores correspondante est une carte locale de même dimension que l’objet (w, h)
dont les valeurs sont des sommes de rapports de log-vraisemblance objet-fond. L’ensemble des
scores de la carte est noté C = {c(x, y)} où (x, y) parcourt les positions de la carte. Notons max(t)
et min(t) les valeurs maximale et minimale de la carte à l’instant t, pouvant être négatives. Notons
l’ensemble A(t) = {(x, y) ∈ C | c(x, y) > thr(t)} où thr(t) = max(t) − 0.1 ∗ (max(t) − min(t)).
A est constituée de scores élevés regroupés autour de la position de l’objet.
Un seul indicateur est utilisé à partir de cette carte, et mesure la variation en taille de A
entre les instants t − 1 et t :
STRUCK STRUCK calcule une carte de scores locale centrée sur la prédiction précédente,
de rayon r = 30 pixels. Les scores sont des scores de classification par SVM dont les valeurs
varient autour de -1 et 1. Notons (xmax (t), ymax (t)) les coordonnées du score maximal de la carte
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 122
Les dérives aux variations importantes du taux de recouvrement (courbe rouge) correspondent
à des valeurs élevées de l’un des indicateurs var10 ou d comme le montre la figure 4.9d aux
instants t = 5, 20, 30, 125, 135. Cependant, une valeur élevée ne correspond pas toujours à une
dérive comme c’est le cas à t = 245 Entre t = 50 − 100 et t = 150 − 250, on remarque beaucoup de
pics de var10 et/ou de d. Ces pics ne correspondant pas à des dérives réelles du tracker peuvent
alors être considérés comme des fausses alarmes.
DPM DPM fournit des détections éparses dont les scores dépassent un seuil minimal défini
par le modèle d’objet issu d’un pré-entraînement.
A partir de ces détections, deux indicateurs sont calculés :
— La valeur de recouvrement IoU (intersection sur l’union) entre ces deux meilleures détec-
tions :
obest = IoU (best1, best2)
DSST La carte de scores correspond à la réponse du filtre calculé sur une fenêtre de taille
(w1,h1)
(w2 , h2 ) centrée sur la position de l’objet à l’instant précédent t − 1, où (w2, h2) = 2∗scale ,
(w1, h1) = 2.6 ∗ (w, h) et scale = max(w1, h1)/100.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 123
Un indicateur de dérive est calculé sur cette carte, il consiste à mesurer l’intensité du signal
par rapport au bruit et appelé « Peak to Sidelobe Ratio (PSR) » [Bolme et al., 2010] :
P eak − µφ
P SR =
σφ
ASMS Deux indicateurs sont calculés correspondant aux coefficients de Bhattacharyya [Kailath,
1967], notés ρ(m, f ) et ρ(m, b) :
p
X p p
X
p
ρ(m, f ) = mu ∗ fu , ρ(m, b) = mu ∗ bu
u=1 u=1
La prédiction de dérive à partir des indicateurs construits est donc possible mais présente
tout de même des difficultés comme nous avons pu le voir (figure 4.9). Premièrement, la valeur
de recouvrement mesurée IoU et les indicateurs ne sont pas directement corrélés bien qu’ils
soient liés. En effet, le comportement du modèle est complexe d’interprétation et ne peut donc se
résumer à la simple valeur de recouvrement. C’est pourquoi, il peut se passer un laps de temps
plus ou moins long entre le changement de comportement d’un indicateur (pic d’intensité) et la
dérive absolue du tracker (par exemple, à t = 100 dans la figure 4.9a).
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 124
NCC bicycle
1
0.5
0
50 100 150 200 250
time
1
0.5
0
50 100 150 200 250
time
0.5
0
50 100 150 200 250
time
0.5
−0.5
50 100 150 200 250
time
0.5
0
50 100 150 200 250 300 350 400 450 500 550
time
1
0.5
0
50 100 150 200 250 300 350 400 450 500 550
time
0.4
0.2
0
50 100 150 200 250 300 350 400 450 500 550
time
4
0
50 100 150 200 250 300 350 400 450 500 550
time
CT woman
1
0.8
0.6
0.4
0.2
0
50 100 150 200 250 300 350 400 450 500 550
time
1.5
0.5
−0.5
−1
50 100 150 200 250 300 350 400 450 500 550
time
(c) CT woman
STRUCK bolt
1
0.5
0
50 100 150 200 250 300 350
time
1
0.5
0
50 100 150 200 250 300 350
time
2
1.5
0.5
0
50 100 150 200 250 300 350
time
DSST kitti_cyclist
1
0.8
0.6
0.4
0.2
0
20 40 60 80 100 120 140
time
60
50
40
30
20
10
0
20 40 60 80 100 120 140
time
0.5
0
50 100 150 200 250 300 350 400 450 500 550
time
1
0.5
0
50 100 150 200 250 300 350 400 450 500 550
time
1
0.5
0
50 100 150 200 250 300 350 400 450 500 550
time
Figure 4.9 – Évolution des indicateurs de comportements des trackers NCC (a), KLT (b), CT
(c), STRUCK (d), DSST (e) et ASMS (f) dans différentes séquences de VOT2013+.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 128
Par observation de l’évolution des indicateurs de comportement (figure 4.9), une dérive
est généré pour des valeurs élevées ou des valeurs faibles d’indicateurs. La construction des
prédicteurs de dérives à partir des indicateurs de comportement consiste à estimer les seuils
adéquats permettant de déterminer si une dérive a lieu pour une valeur d’indicateur donnée.
Prédicteurs de dérives
Les indicateurs sont considérés pour la plupart comme indépendants : un tracker dérive lorsque
l’un des indicateurs est inférieur ou supérieur à un seuil donné. Après analyse de l’évolution des
indicateurs dans la section 4.4.1, une dérive a potentiellement lieu pour les conditions suivantes
où ∨ indique l’opération logique OU et ∧ l’opération logique ET :
NCC (∆xmax > α1 ) ∨ (∆ymax > α2 ) ∨ (∆max > α3 ), où α1 , α2 et α3 sont les seuils respectifs
des indicateurs.
KLT (∆xc > β1 ) ∨ (∆yc > β2 ) ∨ (∆spotsize > β3 ), où β1 , β2 et β3 sont les seuils respectifs des
indicateurs.
STRUCK (var10 > δ1 ) ∨ (d > δ2 ), où δ1 et δ2 sont les seuils respectifs des indicateurs.
DPM (dbest < ε1 ) ∧ (obest < ε2 ), où ε1 et ε2 sont les seuils respectifs des indicateurs.
ASMS (ρ(m, f ) < θ1 ) ∨ (ρ(m, b) < θ2 ), où θ1 et θ2 sont les seuils respectifs des indicateurs.
Ce que nous cherchons à estimer, ce sont les seuils de chacun des indicateurs. Nous procédons à
une évaluation de performance de prédiction des indicateurs individuels ou combinés (prédicteurs)
en fonction des seuils choisis, en mesurant la précision et le rappel sur une base d’évaluation.
Rappelons que les mesures de performance classiques de précision rappel sont définies comme
suit :
BP
P recision = (4.7)
BP + F A
BP
Rappel = (4.8)
D
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 129
Protocole d’évaluation
— Le nombre de dérives réelles du tracker D sur la base d’évaluation est obtenu en appliquant
le protocole d’évaluation défini dans le chapitre 2 : les dérives réelles du tracker sont
détectées avec la vérité terrain et le trackers est réinitialisé après chaque dérive sur la base.
— Pour chaque image de la base, le tracker réalise la prédiction de dérives (calcul des indicateurs
de comportement puis prédiction de dérives). Une fois l’opération réalisée sur toute la base,
on obtient un nombre de dérives prédites P .
— Parmi les dérives prédites P , on détermine celles correspondant aux bonnes prédictions de
dérives BP et celles correspondant aux fausses alarmes F A en comparant leurs instants
aux dérives réelles du tracker D : une prédiction de dérive est comptée comme une bonne
prédiction (BP ) lorsqu’elle a eu lieu dans un intervalle de 1-15 images avant la dérive
réelle. Dans le cas contraire, elle est comptée comme une fausse alarme (F A). L’intervalle
choisi est large afin de prendre en compte les différents types de dérives. En effet, certaines
sont associées à des perturbations brusques et soudaines (occultation), d’autres à des
perturbations lentes (changement modéré d’apparence). Celles-ci ont pour effet d’opérer
un changement de comportement du modèle avec un intervalle de temps variable avant la
dérive réelle.
Performances de prédiction
En faisant varier le seuil d’un prédicteur de dérives, on obtient une courbe de précision rappel
P R ou courbe de bonnes prédictions fausses alarmes BP F A. Les figures 4.10 et 4.11 montrent
les courbes P R et BP F A des prédicteurs de dérives de CT, DSST et MS sur VOT2013+ et
VOT2015. Les courbes P R sont différentes d’un tracker à l’autre et d’une base à l’autre. Le
prédicteur de CT n’a pas les mêmes valeurs de P R pour un même seuil de VOT2013+ (figure
4.10) à VOT2015 (figure 4.11). Cependant, nous observons la même tendance de courbe. Malgré
des tendances différentes des courbes P R de DSST, de VOT2013+ à VOT2015, on peut par
exemple retrouver la même valeur de rappel pour un même seuil : un seuil de 10 donne un rappel
entre 0.6 et 0.7. De même pour MS, un seuil de 4 donne un rappel proche de 0.8.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 130
Table 4.1 – Seuils des prédicteurs de dérives des trackers générant le meilleur rapport Rappel
et nombre de fausses alarmes #F A sur la base VOT2013+. #D indique le nombre de dérives
réelles du tracker et #BP le nombre de bonnes prédictions de dérives réalisées par le prédicteur.
En pratique, l’apprentissage des indicateurs de dérives dans les conditions définies dans la
section 4.2.2 n’a pas donné de résultats satisfaisants.
Plusieurs raisons expliquent cet échec :
— Une première est la difficulté à généraliser à cause d’un nombre insuffisant d’exemples
négatifs,
CT CT
0.2 1000
0.9 VOT2013+ VOT2013+
0.8 0.1
0.18 900
0.7
800
0.16
0.6
700
0.14
0.12
0.4 500
0.1 0.2
400
0.3
0.08
300
0.3
0.06 0.2
200
0.4
0.04 100 0.5
0.1 0.6
0.9 0.8 0.7
0.02 0
0.4 0.5 0.6 0.7 0.8 0.9 1 14 16 18 20 22 24 26 28 30 32 34
recall number of good predictions
0.045 8 1400
0.04
1200
number of false alarms
0.035
1000 12
precision
0.03
800
0.025
4
10 600
0.02 10
400
0.015
12
0.01 200 8
15
4 6
0.005 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 2 4 6 8 10 12 14
recall number of good predictions
8
2500
number of false alarms
0.2 0.5
2000 6
precision
1500
0.15 4
2
1000
0.1
4
500 2
0.1 6
0.1 0.5 1
8 0
0.05 0 20 40 60 80 100 120 140 160 180 200
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10 1
recall number of good predictions
Figure 4.10 – Courbes de précision rappel P R (a,c,e) avec en ordonnée la précision et en abscisse
le rappel et courbes de nombre de bonnes prédictions fausses alarmes BP F A (b,d,f) avec en
ordonnée le nombre de fausses alarmes et en abscisse le nombre de bonnes prédictions, des
prédicteurs de dérives des trackers CT, DSST et MS en faisant varier les seuils des prédicteurs
sur VOT2013+. Le seuil des prédicteurs est indiqué pour chaque point de la courbe.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 132
CT CT
0.2 3500
VOT2015 VOT2015
0.9
0.8 0.1
0.18 3000
0.7
0.6
0.16
0.5 2500
0.12 0.2
1500
0.3
0.1
0.3
1000
0.08 0.2
0.4
0.5
0.06 500 0.6
0.1 0.7
0.9 0.8
0.04 0
0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 60 80 100 120 140 160 180
recall number of good predictions
0.09 8
5000
0.08
4000
number of false alarms
0.07
12
precision
6
0.06 3000
10
0.05 10
2000
0.04
12 8
1000
0.03 4 4 6
15
0.02 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 50 100 150
recall number of good predictions
0.1
precision
5000
0.08 6
4000 4
8
0.06 10
3000
0.04 0.5
2000 2
0.02 1000
1
VOT2015 0.5
0.1
0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 100 200 300 400 500 600 700
0.1 recall number of good predictions
Figure 4.11 – Courbes de précision rappel P R (a,c,e) avec en ordonnée la précision et en abscisse
le rappel et courbes de nombre de bonnes prédictions fausses alarmes BP F A (b,d,f) avec en
ordonnée le nombre de fausses alarmes et en abscisse le nombre de bonnes prédictions, des
prédicteurs de dérives des trackers CT, DSST et MS en faisant varier les seuils des prédicteurs
sur VOT2015. Le seuil des prédicteurs est indiqué pour chaque point de la courbe.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 133
Table 4.2 – Seuils des prédicteurs de dérives des trackers générant le meilleur rapport Rappel et
nombre de fausses alarmes #F A sur la base VOT2015. #D indique le nombre de dérives réelles
du tracker et #BP le nombre de bonnes prédictions de dérives réalisées par le prédicteur.
— Le biais engendré par le recentrage de la caméra sur l’objet mobile dans beaucoup de vidéos
ne permet pas de connaître l’état exact du tracker. Le modèle d’apparence peut avoir
dérivé tandis que le recouvrement des boîtes indique le contraire à cause du recentrage.
A l’inverse, le modèle d’apparence peut ne pas dériver (capacité d’absorption du modèle)
malgré un recouvrement faible des boîtes, c’est le cas lorsqu’une partie de l’objet est suivie
correctement ou lorsque le tracker ne pratique pas d’adaptation de taille de la boîte. Il
pourra être envisagé d’utiliser une plus grande base d’exemples d’apprentissage afin de
réduire le biais causé par le recentrage des objets.
Dans cette section, nous réalisons la fusion de deux trackers, CT et STRUCK, par un mélange
d’experts. Le mélange d’experts estime les poids respectifs p1 et p2 des trackers CT et STRUCK
à partir des valeurs des indicateurs de comportement calculés à chaque instant. Les indicateurs
de comportement utilisés sont ceux de la section 4.4.1 dont on ajoute un biais de 1. CT possède
un indicateur ∆area, STRUCK en possède deux, var10 et d.
Données d’apprentissage Les données d’apprentissage et de test utilisées sont calculées sur
12 séquences de VOT2013 [Kristan et al., 2013] en lançant les trackers sur chacune des séquences
suivant le protocole d’évaluation défini dans le chapitre 2. Les données comportent :
exemple, on entraîne sur les 11 premières séquences et on évalue les performances de la fusion
sur la dernière.
bicycle bicycle
60 1
Erreur(CT) CT
Erreur(STRUCK) 0.9 STRUCK
50 Erreur(Fusion)
0.8
0.7
40
0.6
30 0.5
0.4
20
0.3
0.2
10
0.1
0 0
0 50 100 150 200 250 300 0 50 100 150 200 250 300
temps temps
(a) bicycle, erreur de localisation du centre (b) bicycle, poids des trackers
car car
30 1
Erreur(CT) CT
Erreur(STRUCK) 0.9 STRUCK
25 Erreur(Fusion)
0.8
0.7
20
poids des trackers
erreur en pixels
0.6
15 0.5
0.4
10
0.3
0.2
5
0.1
0 0
0 50 100 150 200 250 300 350 400 0 50 100 150 200 250 300 350 400
temps temps
Figure 4.13 – Évolution de l’erreur de localisation du centre (en pixels) et des poids des
trackers de la fusion CT-STRUCK par mélange d’experts dans les séquences bicycle et car
de VOT2013. (a,c) représentent l’évolution de l’erreur de localisation du centre instantanée
des trackers individuels CT (vert) et STRUCK (violet), et de la fusion CT-STRUCK. (b,d)
représentent l’évolution des poids gi (φti ) des trackers CT (vert) et STRUCK (violet) dans la
fusion CT-STRUCK. Les poids des trackers sont initialisés à 0.5 dans la première image. Les
deux instants 130 et 180 dans (b) où les poids des deux trackers sont à 0.5 correspondent à une
dérive de l’un des deux trackers.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 137
L’objectif de cette étude a été de développer des fonctions de prédiction en ligne des dérives
des trackers en analysant leur comportement. La construction d’une telle fonction est en réalité
loin d’être générique et simple à réaliser.
La première approche a consisté à prédire la dérive à partir d’indicateurs de qualité du
modèle d’apparence, calculés en ligne. Une des difficultés était de trouver les « bons indicateurs
spécifiques » construits à partir des données intrinsèques au modèle. Une autre concernait la
manière de régler les seuils des prédicteurs de dérives, à savoir quelle précision rappel pour
un usage optimal. L’apprentissage d’un classifieur SVM ou d’un mélange d’experts à partir
des indicateurs était difficile principalement dus au manque de données d’apprentissage et à la
manière de labelliser les exemples. Il pourra être envisagé d’étendre les tests sur d’autres trackers
ou combinaisons de trackers en utilisant une base de données d’apprentissage plus conséquente.
Une autre perspective est d’apprendre à prédire les dérives des trackers directement à partir des
images brutes ou des caractéristiques image sans passer par les cartes de scores, ces dernières ne
permettant pas d’obtenir des indicateurs de comportement de manière générique. Une dimension
temporelle devra être ajoutée à l’exploitation des images brutes ou caractéristiques puisque le
suivi d’objet exploite un signal temporel.
La deuxième approche raisonne à partir de la localisation et de la configuration spatiale des
boîtes prédites sans utiliser les données intrinsèques du modèle. L’efficacité de cette approche n’a
pas encore été prouvée puisqu’elle ne sera évaluée que dans le chapitre 5.
4.6 Conclusion
Les travaux décrits dans ce chapitre sont centrés sur la prédiction en ligne des dérives des
trackers, plus précisément sur la conception de méthodes d’auto-évaluation de bon ou mauvais
fonctionnement des trackers.
Puisque les dérives des trackers sont la conséquence d’un modèle d’apparence inadapté au suivi,
la première approche a consisté à évaluer la qualité du modèle d’apparence du tracker à partir
d’indicateurs de comportement du tracker calculés en ligne. Ces indicateurs de comportement
exploitent des caractéristiques intrinsèques du modèle (score de confiance, carte de scores et
autres scores) qui traduisent une certaine qualité de la prédiction, comme leur vraisemblance avec
le modèle, ou leur variation spatio-temporelle. Ces deux aspects ont été étudiés car détecter un
changement de leur comportement permet d’anticiper une dérive du tracker. La deuxième approche
exploite le comportement individuel ou collectif des boîtes prédites prises au même instant qui, en
fonction de leur distribution spatiale, détermine les boîtes aberrantes. L’efficacité des prédicteurs
de dérives par indicateurs de comportement dépend fortement des seuils d’indicateurs choisis.
Leur apprentissage n’ayant pas donné de résultats concrets, ils seront utilisés avec des seuils fixes
dans la suite du travail de thèse.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 138
Cependant, l’évaluation de performances de ces approches a été réalisée de manière hors ligne
et ne permet pas de juger de l’efficacité de l’approche lorsqu’elle est intégrée dans une chaîne
de fusion. La prochaine étape sera alors de proposer une chaîne de fusion complète intégrant
les méthodes de prédiction en ligne des dérives proposées, de façon à sélectionner et fusionner
de manière robuste un ensemble de trackers pour en améliorer globalement les performances de
suivi.
Chapitre 5
Sommaire
5.1 Différents schémas de fusion possibles . . . . . . . . . . . . . . . . . . 140
5.1.1 Fonctionnement général d’un tracker . . . . . . . . . . . . . . . . . . . . 140
5.1.2 Fusion en boucle ouverte . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.1.3 Fusion en boucle fermée . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.2 Approche de fusion proposée . . . . . . . . . . . . . . . . . . . . . . . 144
5.2.1 Schéma générique de fusion . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.2.2 Sélection des trackers par prédiction en ligne des dérives . . . . . . . . . 145
5.2.3 Fusion des boîtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.4 Correction de la position et/ou du modèle des trackers . . . . . . . . . . 147
5.2.5 Une variété de configurations possibles de fusion . . . . . . . . . . . . . 148
5.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.3.1 Évaluation des configurations de fusion . . . . . . . . . . . . . . . . . . 149
5.3.2 Meilleure combinaison de trackers ? . . . . . . . . . . . . . . . . . . . . . 153
5.4 Discussion et travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . 171
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
139
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 140
𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑖𝑖
𝑖𝑖 𝑖𝑖
𝐵𝐵�𝑡𝑡𝑖𝑖 , 𝑐𝑐𝑡𝑡𝑖𝑖
Tracker i (𝑀𝑀𝑡𝑡−1 , 𝑊𝑊𝑡𝑡−1 )
Figure 5.1 – Schéma générique de fonctionnement d’un tracker. Le Tracker i prédit la position
de la cible B̂ti dans l’image It à l’instant t à partir de sa position à l’instant précédent B̂t−1
i ,
i
d’une fenêtre de recherche Wt−1 i
définie par B̂t−1 et de son modèle d’apparence calculé à l’instant
i i
précédent Mt−1 . Un score de confiance ct est associé à la prédiction. La position de l’objet, la
fenêtre de recherche et le modèle d’apparence sont mis à jour en utilisant la nouvelle position.
Pour concevoir ces mécanismes de fusion, nous allons tout d’abord nous intéresser aux
emplacements dans la chaîne de traitement où des interactions entre trackers sont possibles, telles
que la fusion d’informations ou la réinjection d’informations dans les trackers.
Partons tout d’abord d’un schéma générique de tracker, représenté dans la figure 5.1. Un
Tracker i fonctionne en deux temps :
1. Prédiction : il prédit la position de l’objet B̂ti dans la nouvelle image It à l’instant t à partir
i , d’une fenêtre de recherche W i
de sa position à l’instant précédent B̂t−1 i
t−1 définie par B̂t−1
i
et de son modèle d’apparence de l’objet Mt−1 à t − 1. Un score de confiance cit (score de
corrélation, détection, etc.) calculé par le modèle est associé à la prédiction (section 4.1.1).
i
2. Mise à jour : il met à jour la position de l’objet B̂t−1 → B̂ti , la fenêtre de recherche de
i
l’objet utilisant la nouvelle position Wt−1 → Wti , et met à jour son modèle Mt−1
i → Mti à
partir de la nouvelle position. Dans le cas d’un modèle statique, Mti = Mt−1
i .
(i) La sortie prédite B̂ti peut être récupérée pour être utilisée en aval (post-traitement).
i
(ii) La mise à jour du modèle Mt−1 peut être contrôlée en changeant la position en entrée B̂ti .
i
(iii) Le réajustement de la fenêtre de recherche Wt−1 en contrôlant la position en entrée B̂ti .
Différents schémas de fusion sont possibles combinant un ensemble de trackers. Nous nous
orientons vers une architecture parallèle car comme nous l’avons vu dans l’étude bibliographique
(section 1.3.1), les architectures en cascade sont souvent difficiles à configurer dues aux dépendances
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 141
𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
1
𝐵𝐵�𝑡𝑡1
Tracker 1
𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓
� 𝒕𝒕
𝑩𝑩 𝐵𝐵�𝑡𝑡
𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹
𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑀𝑀
𝐵𝐵�𝑡𝑡𝑀𝑀
Tracker M
en chaîne, et étant donné que notre objectif est de robustifier le suivi, ce type d’architectures
n’est pas la meilleure option. Deux types de fusion sont alors possibles : fusion en boucle ouverte
et fusion en boucle fermée. Pour ces deux types de fusion, nous présentons en détails les différents
schémas de fusion possibles.
Un schéma simple de fusion consiste à faire fonctionner les trackers individuellement {Tracker 1, ...Tracker M },
à récupérer leurs sorties B̂t = (B̂t1 , ...B̂tM ) qui sont ensuite fusionnées pour produire la sortie du
système B̂tf usion , par exemple, en moyennant les sorties. Un autre exemple de fusion est celui
de [Bailer et al., 2014] qui calcule une somme pondérée des sorties en utilisant une fonction
d’attraction des boîtes. Les trackers n’interagissent pas entre eux, on dit que la fusion est en
boucle ouverte, voir la figure 5.2.
Le principal inconvénient d’une fusion simple des sorties est sa sensibilité à la dérive. Dès lors
qu’un tracker dérive, la précision de B̂tf usion calculé en combinant toutes les sorties individuelles
des trackers, s’en trouve affectée. Afin de résoudre ce problème, une étape de sélection des sorties
peut être ajoutée avant leur fusion (figure 5.3). Elle consiste à sélectionner un sous-ensemble
B̂selection
t de sorties correctes de B̂t , en évaluant la qualité de chaque sortie B̂ti par un coefficient
sit ∈ {0, 1}. Une valeur de 1 indiquerait un bon fonctionnement du Tracker i, et dans le cas
contraire, un mauvais fonctionnement. Dans l’étape de fusion, seules sont prises en compte les
sorties des trackers dont le coefficient est non nul. Un cas particulier de sélection consiste à
sélectionner le meilleur tracker à chaque instant [Moujtahid et al., 2015b, Zhong et al., 2014].
Dans une fusion en boucle ouverte, un tracker n’est plus utile une fois qu’il a dérivé, à moins
qu’il ne raccroche par hasard la cible. Afin de suivre une cible du début à la fin d’une séquence,
il est nécessaire qu’au moins un des trackers de la fusion assure le suivi du début à la fin : si tous
les trackers dérivent avant la fin de la séquence, le suivi ne peut être assuré, voir la figure 5.4a.
En revanche, dans une fusion en boucle fermée, les trackers peuvent interagir entre eux pour
s’autocorriger. Le principe général de la fusion en boucle fermée est illustré dans la figure 5.4b.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 142
𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
1
𝐵𝐵�𝑡𝑡1
Tracker 1
𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓
� 𝒕𝒕
𝑩𝑩 � 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔
𝑩𝑩𝒕𝒕
𝐵𝐵�𝑡𝑡
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹
𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑀𝑀
𝐵𝐵�𝑡𝑡𝑀𝑀
Tracker M
failure
Tracker 1
failure
no tracker
Tracker 2 works
time
t=0 end
(a) Fusion en boucle ouverte
failure
reinitialization
Tracker 1
failure
reinitialization
Tracker 2
time
t=0 end
(b) Fusion en boucle fermée
Figure 5.4 – (a) Fusion en boucle ouverte. En vert, les pistes des Tracker 1 et Tracker 2. Les
deux trackers dérivent avant la fin de la séquence, donc leur fusion ne permet pas d’assurer le
suivi jusqu’au bout. (b) Fusion en boucle fermée. Les deux trackers peuvent interagir entre eux,
le Tracker 2 réinitialise le Tracker 1 lorsque celui-ci a dérivé et vice-versa, dans un cas idéal, cette
interaction permet la continuité du suivi des deux trackers et ainsi, de leur fusion.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 143
𝐵𝐵�𝑡𝑡1
Tracker 1
𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓
𝐼𝐼𝑡𝑡 𝐵𝐵�𝑡𝑡𝑖𝑖 � 𝒕𝒕
𝑩𝑩 � 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔
𝑩𝑩𝒕𝒕 𝐵𝐵�𝑡𝑡
Tracker i 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹
𝐵𝐵�𝑡𝑡𝑀𝑀
Tracker M
� 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄
𝑩𝑩 𝒕𝒕
Figure 5.5 – Schéma de fusion en boucle fermée (correction) avec sélection. Une boucle de
rétroaction permet de contrôler la position de la fenêtre de recherche des M trackers, la mise
à jour ou réinitialisation de leurs modèles, ce qui permet de corriger les trackers ayant dérivé.
L’étape de fusion calcule non seulement la sortie de fusion B̂tf usion mais génère aussi les positions
corrigées B̂correction
t = (B̂t1,correction , ...B̂tM,correction ) destinées à la correction des trackers.
(ii) Le pilotage de la mise à jour du modèle permet de corriger ou d’améliorer le modèle en lui
fournissant une boîte plus précise en localisation, issue des étapes de sélection et fusion,
plutôt qu’utiliser la prédiction produite par le tracker même, qui peut être erronée.
(iii) Le pilotage de la réinitialisation des modèles des trackers ayant dérivé, leur dérive étant
déterminée par une évaluation en ligne de leur comportant dans l’étape de sélection. Leur
réinitialisation avec la bonne apparence de la cible permet aux trackers d’être à nouveau
opérationnels. C’est le cas par exemple de la fusion de [Stenger et al., 2009, Vojir et al.,
2015], les trackers sont réinitialisés par un détecteur hors ligne lorsqu’ils ne sont plus
suffisamment fiables. [Kalal et al., 2012] réinitialisent le tracker par un détecteur en ligne,
et ce dernier est mis à jour par la sortie de fusion.
5.1.4 Conclusion
Les principaux mécanismes de fusion de trackers identifiés sont la sélection des boîtes avant
leur fusion et la correction des entrées et états internes des trackers, donnant lieu à différents
schémas de fusion possibles. Le plus complet des schémas est celui de la fusion en boucle fermée,
représentée dans la figure 5.5. La fusion en boucle ouverte est la plus simple des fusions, reposant
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 144
sur des stratégies de fusion de boîtes, prédites par des trackers fonctionnant individuellement.
Cette fusion peut se faire de manière hors ligne en récupérant les pistes de tous les trackers
comme cela a été réalisé dans [Bailer et al., 2014]. Cependant, elle est sensible au bruit introduit
par les prédictions incorrectes. Une étape de sélection peut être ajoutée en sélectionnant les bons
trackers à chaque instant. Cependant, pour assurer une continuité du suivi, cette configuration
n’est efficace que lorsqu’au moins un des trackers de l’ensemble ne dérivent pas dans la séquence.
La fusion en boucle fermée avec sélection est avantageuse car elle permet de corriger les trackers
imprécis ou ayant dérivé en pilotant leur fenêtre de recherche, mise à jour et réinitialisation.
Cependant, elle est complexe à contrôler et difficile à évaluer, cela nécessite une implémentation
globale.
L’approche de fusion que nous proposons est une fusion en boucle fermée, dont nous détaillerons
plus précisément les étapes de sélection, fusion et correction, ainsi que les méthodes proposées
pour les réaliser. Le schéma ainsi développé permet d’expérimenter différentes configurations de
fusion en boucle fermée en combinant différentes méthodes de sélection, fusion et correction. Par
ailleurs, il permet aussi d’expérimenter des schémas de fusion en boucle ouverte, comme ceux
représentés dans les figures 5.2 et 5.3.
Le système proposé réalise la fusion d’un ensemble de M trackers {T1 , . . . TM }. Tout d’abord, le
système est initialisé. Ensuite, la fusion est opérée en 4 étapes (suivi, sélection, fusion, correction),
illustrée dans la figure 5.6.
Initialisation du système A l’instant initial t = 0, chaque tracker est initialisé avec la même
boîte englobante B0 , correspondant à la vérité terrain de la cible à la première image I0 (véritable
position). La phase d’initialisation comprend également la construction du modèle d’apparence.
Suivi A chaque nouvelle image It , chaque tracker Ti , i ∈ [1, M ], estime la position de la cible
à l’instant t en calculant une boîte englobante, B̂ti . Cette estimation est réalisée à partir d’une
position calculée à t − 1 définissant la zone de recherche de la cible à t et du modèle d’apparence
du tracker calculé à t − 1. En complément de l’estimation, chaque tracker Ti calcule un ensemble
d’indicateurs de comportement, voir la 4.1. Ceux-ci sont représentés par un vecteur φit .
Sélection Une sélection en ligne des sorties des trackers B̂t = (B̂t1 , ...B̂tM ) est effectuée. Cette
sélection repose sur la prédiction en ligne des dérives des trackers décrite dans le chapitre 4.
Fusion Les sorties sélectionnées sont combinées pour produire la sortie du système B̂tf usion .
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 145
� 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄
𝑩𝑩 𝒕𝒕 , 𝒔𝒔𝒕𝒕 4. Tracker Correction
System
Figure 5.6 – Notre approche de fusion en boucle fermée est divisée en 4 étapes principales. Les
vecteurs sont en gras.
(1) Suivi parallèle des trackers : pour chaque nouvelle image It , chaque tracker Ti , i ∈ [1, M ],
prédit la localisation de la cible sous la forme d’une boîte englobante B̂ti et calcule des indicateurs
de comportement φit indiquant le bon ou mauvais fonctionnement du tracker.
(2) Sélection des trackers : les sorties ainsi calculées B̂t = (B̂t1 , ...B̂tM ) et φt = (φ1t , ...φMt ) sont
utilisés par les prédicteurs de dérives (Drift Predictors) pour prédire l’état de chaque tracker
sit ∈ {0, 1}, 1 indiquant un fonctionnement correct et 0 une dérive du tracker. A l’issue de cette
étape, on obtient le vecteur d’état st = (s1t , ...sM t ).
(3) Fusion des boîtes : les boîtes provenant des trackers au fonctionnement correct sont fusionnées
pour produire la sortie du système B̂tf usion .
(4) Correction des trackers : une correction peut être apportée aux trackers dont l’état indique
une dérive, notamment en corrigeant leur position et/ou modèle d’observation (mise à jour ou
réinitialisation) en utilisant la sortie du système B̂tf usion . Les prédictions corrigées B̂corrected
t =
1,corrected M,corrected i,corrected f usion
(B̂t , ...B̂t ) sont rebouclées sur les entrées des trackers où B̂t = B̂t
i,corrected i
lorsque la correction a lieu sinon B̂t = B̂t .
Nous détaillons les étapes de sélection, fusion et correction dans les sections suivantes.
Cette étape réalise la sélection en ligne des trackers en prenant en entrée, les boîtes prédites
B̂t = (B̂t1 , ...B̂tM ) et les indicateurs de comportement Φt = (φ1t , ...φM
t ) des trackers, pour produire
Ti . Cet état est binaire, valant 1 lorsque le tracker en bon fonctionnement et 0 lorsqu’il dérive.
Méthodes proposées L’estimation de st est réalisée par des prédicteurs de dérives (Drift
Predictors), notés DP, décrites dans le chapitre 4. Les méthodes utilisées pour les construire sont
les suivantes :
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 146
(a) BI (Behavioral Indicators) : à partir des indicateurs de comportement. Pour chaque tracker
Ti , i ∈ [1, M ], un DPi estime l’état du tracker sit à chaque instant t à partir des indicateurs
de comportement φit . Chaque tracker possède un DP qui lui est propre. L’estimation
des {sit }M i i
i=1 se réalise en M opérations indépendantes et parallèles : st = DPi (φt ). Cette
méthode a été décrite dans le chapitre précédent dans la section 4.2. Les prédicteurs de
dérives utilisés par la suite (section 5.3) ont été construits en utilisant un seuil (section
4.2.1). Les seuils ont été fixés aux valeurs indiquées dans le tableau 5.3.
(b) BF (Box Filtering) : en réalisant un filtrage de boîtes. La règle de filtrage étant la même
pour tous les trackers, il s’agit du même DP itéré sur chaque tracker. Pour chaque tracker
Ti , i ∈ [1, M ], le DP estime l’état sit à chaque instant t à partir de la prédiction du
tracker B̂ti . L’estimation des {sit }M
i=1 se réalise en M opérations indépendantes et parallèles :
sit = DP (B̂ti ). Ce filtrage a été décrit dans le chapitre précédent dans la section 4.3.1.
(c) BC (Box Consensus) : en effectuant un consensus de boîtes. Les états {sit }M
i=1 sont estimés
conjointe à tous les trackers, à l’issue de laquelle le vecteur d’état est obtenu : st = DP (B̂t ).
Cette méthode a été décrite dans le chapitre précédent dans la section 4.3.2.
(d) BI+BF : en combinant les méthodes BI et BF. Ceci revient à appliquer une opération
OU entre les vecteurs d’état estimés individuellement par chacune des méthodes BI et BF :
st = sBI BF
t ∨ st .
(e) BI+BC : en combinant les méthodes BI et BC. Les méthodes BI et BF sont appliquées
séquentiellement, BI en premier suivi de BC : un premier filtrage des prédictions {B̂ti }M
i=1
est réalisé par BI, puis le consensus BC effectué sur les prédictions restantes.
La sortie du système de fusion B̂tf usion est calculée en combinant les prédictions des trackers
dont l’état estimé sit est non nul. Cet ensemble est noté B̂selection
t = {B̂ti |sit = 1, i ∈ [1, M ]}.
Deux méthodes ont été utilisées pour réaliser la fusion :
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 147
(a) Avg (Average) : réalise une moyenne des coordonnées (x, y, w, h) des K ≤ M prédictions
PM
dont le coefficient sit = 1, avec K = i
i=1 st :
M
1 X
B̂tf usion = si ∗ B̂ti . (5.1)
K i=1 t
(b) Grav (Gravity) : B̂tf usion correspond au barycentre pondéré des K prédictions :
B̂tf usion =
X
wi ∗ B̂ti (5.2)
i|B̂ti ∈B̂selection
t
Chaque coordonnée de B̂tf usion est la somme pondérée des K coordonnées utilisant les
poids précédemment calculés. Cette méthode permet de pondérer les boîtes en fonction de
leur densité spatiale, en particulier favoriser les boîtes qui sont proches.
Si B̂selection
t = ∅, alors B̂tf usion = B̂t−1
f usion
.
Une fois la fusion réalisée, une étape de correction des trackers peut avoir lieu en utilisant la
sortie du système, calculée en combinant les prédictions correctes. En effet, une non correction
d’un tracker dont le coefficient sit = 0 (dérive) causerait son échec puisque le modèle serait mis à
jour par des observations incorrectes générées par le tracker lui-même.
Deux types de correction peuvent leur être apportés : une mise à jour ou une réinitialisation de
la position et/ou du modèle d’observation des trackers. La réinitialisation d’un tracker concerne à
la fois sa position et son modèle, elle s’avère nécessaire lorsque la cible est définitivement perdue,
i.e. loin de la fenêtre de recherche du tracker. Cependant, cette opération est risquée puisque
les connaissances accumulées dans le modèle sont entièrement remises à zéro et la variabilité du
modèle inexistante. Une mauvaise réinitialisation entraîne immédiatement l’échec du tracker à
cause de l’instabilité du modèle.
La mise à jour est moins radicale que la réinitialisation. Pour les trackers à modèle dynamique,
la mise à jour concerne à la fois la position et le modèle, consistant à recentrer la fenêtre de
recherche sur la bonne position et à alimenter le tracker avec les bonnes caractéristiques à suivre.
Pour les trackers à modèle statique, le modèle ne peut être mis à jour, seule une correction de la
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 148
position est possible (redirection de la fenêtre de recherche) mais non pertinente si le modèle
lui-même est inadapté. Dans ce dernier cas, le choix a été de remplacer la mise à jour par une
réinitialisation.
Trois corrections possibles pour les trackers ont été utilisées et sont présentées ci-dessous :
(a) RD (Reinitialize drifting trackers) : réinitialisation de la position et du modèle des trackers
dont le coefficient sit est nul.
(b) UD (Update drifting trackers) : mise à jour de la position et du modèle des trackers dont
le coefficient sit est nul.
(c) UA (Reinitialize all trackers) : mise à jour de la position et du modèle de tous les trackers
B̂t en utilisant B̂tf usion . Cette dernière option a pour objectif de prévenir les dérives
(prévention) des trackers même lorsqu’ils fonctionnent correctement ou d’améliorer leur
modèle en leur fournissant une observation plus précise.
Une autre possibilité est d’ignorer l’étape de correction pour tester la fusion en boucle ouverte
avec ou sans sélection :
(d) P : aucune correction. ∀t, ∀i, B̂ti,corrected = B̂ti .
Notons B̂corrected
t = {B̂ti,corrected }M
i=1 , les nouvelles entrées des trackers, voir la figure 5.6. Si
le tracker Ti réalise l’une des corrections (a), (b) ou (c), alors B̂ti,corrected = B̂tf usion , sinon il est
mis à jour en utilisant sa propre prédiction B̂ti,corrected = B̂ti .
L’utilisation d’une des 4 méthodes est exclusive tout au long d’une séquence : le système
tel qu’il a été conçu ne permet pas pour l’instant d’alterner entre différentes corrections pour
différents trackers et à des différents moments de la séquence.
L’architecture que nous proposons permet le pilotage des deux étapes clés : sélection et
correction, et autorise à la fois la boucle ouverte (sans correction) et la boucle fermée (avec
correction). Les méthodes possibles pour les différentes étapes de la fusion (sélection, fusion,
correction) sont résumées dans le tableau 5.1. Ce qui donne le choix à une variété de configurations
possibles de fusion, une configuration de fusion consistant à choisir une méthode pour chaque
étape de la fusion.
Table 5.1 – Tableau récapitulatif des méthodes développées pour les étapes de sélection, fusion
et correction de notre approche de fusion, et décrites dans la section 5.2. Une configuration de
fusion consiste à choisir une méthode pour chaque étape de la fusion.
Les configurations réalisant une sélection par indicateurs de comportement (BI, BI+BF,
BI+BC) doivent nécessairement disposer d’une correction pour leur permettre de corriger les
modèles des trackers (donc P impossible), notamment lorsque ceux-ci sont dynamiques. En effet,
les indicateurs de comportement reflètent le comportement du modèle du tracker, une dérive a
lieu parce qu’il y a eu adaptation du modèle à un nouvel objet, par exemple apprentissage du
fond et non de la cible. Une fois que le modèle s’est adapté, son comportement sera normal et la
dérive ne pourra plus être détectée. Il est donc nécessaire de corriger le modèle lorsqu’une dérive
a été détectée afin que les indicateurs puissent jouer pleinement leur rôle.
5.3 Évaluation
Dans cette partie, nous présentons les performances de fusion réalisées sur les 46 configurations
de fusion présentées dans la section 5.2.5. Ces configurations sont évaluées sur différentes
combinaisons de trackers du répertoire (NCC, KLT, CT, STRUCK, DPM, DSST, MS, ASMS) et
bases de vidéos (VOT2013+, VOT2015, VOT-TIR2015) décrites dans le chapitre 2. La mesure
de performance qui nous intéresse est évidemment la robustesse mesurée en suivant le protocole
d’évaluation décrit dans le chapitre 2.
L’évaluation a été conduite de manière à répondre à deux questions :
— Quelle stratégie de fusion adopter parmi les différents schémas de fusion présentés précé-
demment (fusion en boucle ouverte ou fermée, avec ou sans sélection) ? cette question est
abordée en section 5.3.1.
— Quels trackers fusionner de façon à maximiser les performances ? cette question est abordée
en 5.3.2.
Table 5.2 – 46 configurations de fusion testées utilisant différentes méthodes de sélection (∅,
Ideal, BF, BC, BI, BI+BF, BI+BC), fusion (Avg, Grav) et correction (P, UD, UA, RD).
— CT+STRUCK+DSST,
— CT+STRUCK+ASMS,
— CT+DSST+ASMS,
— STRUCK+DSST+ASMS.
En effet, pour tester l’efficacité de certaines configurations de fusion comme celles qui réalisent
la sélection à partir d’un raisonnement sur des clusters de boîtes (BC), le nombre de trackers
combinés doit être au moins de 3.
Parmi les 46 configurations de fusion, nous avons sélectionné les 23 configurations utilisant
une fusion par une moyenne (Avg) et éliminé les 23 utilisant une fusion par un barycentre pondéré
(Grav). Celles qui calculent un barycentre pondéré (Grav) ont montré qu’elles généraient plus de
dérives que les autres (Avg) pour une même combinaison de trackers : au total 18646 dérives
pour Grav contre 18375 pour Avg sur les 23 configurations correspondantes, calculées sur les 3
bases et pour les 4 combinaisons de trackers.
Évaluation Les résultats présentés dans la suite de cette partie, impact de la sélection et
impact de la correction, sont obtenus ainsi :
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 152
(i) pour évaluer une configuration de fusion parmi les 23, on mesure la performance de fusion
(robustesse) pour chacune des 4 combinaisons de trackers. On obtient alors le vecteur des
robustesses rob = {robj }4i=1 . La performance de la configuration est calculée en moyennant
1 P4
les robustesses : robmean = 4 i=1 robj .
(ii) pour évaluer une méthode de sélection en particulier parmi les 7 (∅, Ideal, BF, BC, BI,
BI+BF, BI+BC), on mesure la robustesse de chacune des configurations de fusion utilisant
cette méthode de sélection (parmi les 23) pour chacune des 4 combinaisons de trackers, on
obtient alors le vecteur des robustesses rob = robij où i parcourt les combinaisons et j les
configurations (figure 5.7).
(iii) pour évaluer une méthode de correction en particulier parmi les 4 (P, UD, UA, RD), on
procède de la même manière qu’en (ii) mais en retirant toutes les configurations utilisant
un DP Ideal (figure 5.7).
(iv) pour évaluer une méthode de sélection combinée à une méthode de correction (Ideal+P,
BF+UD, etc.), on procède de la même manière qu’en (ii) mais j parcourt les configurations
utilisant à la fois la méthode de sélection et la méthode de correction choisies (tableau 5.4).
Nous voulons mesurer si la sélection améliore la fusion. Pour avoir une interprétation globale
de la sélection, il faut évaluer chaque méthode de sélection en intégrant les configurations avec
et sans correction. En effet, il existe des couplages entre sélection et correction, ces derniers ne
P (si , cj ) où si désigne ième méthode de sélection, cj la j ème
P
sont pas indépendants : P (si ) = j
Nous avons évalué chacune des méthodes de correction (P, UD, UA, RD) sur les 3 bases
séparément (VOT2013+, VOT2015, VOT-TIR2015) et sur le total de 3 (Total). Les résultats
sont représentés graphiquement dans la figure 5.7b. UA et UD sont globalement supérieurs à
P sur le total des bases (Total). Cependant, ils sont moins bons sur VOT2015 (recouvrements
d’écarts-types). RD est nettement moins bon que P sur VOT2015 et équivalent à P sur VOT2013+
et VOT-TIR2015. Une des raisons de l’impact négatif de la réinitialisation est que l’apparence
utilisée pour configurer un nouveau modèle se produit simultanément avec le phénomène de
dérive (occultation, illumination, changement d’aspect), qui est souvent un événement transitoire
dans la séquence. Pour éviter que la réinitialisation ne s’achève sur une dérive, il vaut mieux
qu’elle ait lieu après ce phénomène transitoire. Ainsi, les mises à jour du modèle sont préférables
aux réinitialisations. Globalement, UA est meilleur que UD sur le total des bases, on pourrait
noter : UA < UD < P < RD, sachant que la meilleure méthode correspond à l’indicateur de
robustesse (nombre de dérives) le plus petit.
Nous avons évalué chaque méthode de sélection (∅, Ideal, BF, BC, BI, BI+BF, BI+BC)
combinée à une méthode de correction (P, UD, UA, RD) sur les 3 bases cumulées (Total), et
reporté les résultats dans le tableau 5.4. Dans le cas d’une sélection idéale (Ideal), corriger
les trackers a un intérêt, avec UD la meilleure méthode de correction : UD < RD < UA <
P. Sinon la meilleure performance est obtenue avec une sélection BI+BF et une correction
UA. Une fusion en boucle fermée peut apporter davantage qu’une fusion en boucle ouverte.
Cependant, certaines configurations en boucle ouverte (BF+P, BC+P) sont concurrentes avec
les meilleures configurations en boucle fermée (BI+BF+UA, BI+UA). Ces dernières semblent
plus performantes, mais également plus fluctuantes avec un écart-type important et donc des
performances variables en fonction des combinaisons de trackers. Notons également l’écart de
performance entre la meilleure configuration de fusion obtenue avec une sélection idéale Ideal+UD
(67 ± 12) et celle obtenue avec une des méthodes de sélection développées BI+BF+UA (180 ± 62).
Une méthode de sélection peu efficace (fausses alarmes, non détection de dérives, sélection des
mauvais trackers) nuit au suivi, ajouter une étape de correction est alors d’autant plus néfaste.
Admettons que l’on contrôle parfaitement les étapes de sélection et de correction de la fusion,
i.e. sélectionne correctement les sorties des trackers avant leur fusion et corrige les trackers
en situation d’échec. Il reste un choix important dont la performance de fusion dépend : la
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 154
250
200
Total
150 VOT2015
VOT-TIR2015
VOT2013+
100
50
0
Ø Ideal BF BC BI BI+BF BI+BC
Méthode de sélection
(a) Sélection
250
200
Total
150 VOT2015
VOT-TIR2015
VOT2013+
100
50
0
P UD UA RD
Méthode de correction
(b) Correction
Figure 5.7 – Robustesse moyenne sur les 3 bases (VOT2013+, VOT2015, VOT-TIR2015) et
leur total (Total). (a) montre la robustesse moyenne de fusion par méthode de sélection (∅, Ideal,
BF, BC, BI, BI+BF, BI+BC). (b) montre la robustesse moyenne de fusion par méthode de
correction (P, UD, UA, RD). Pour chacune des méthodes, la robustesse est moyennée sur 4
combinaisons (CT+STR+DSST, CT+STR+ASMS, CT+DSST+ASMS, STR+DSST+ASMS)
et sur les configurations de fusion de la méthode de sélection correspondante en (a) et de la
méthode de correction en (b). Les barres d’erreurs représentent ± l’écart-type.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 155
Table 5.4 – Robustesse moyenne ± l’écart-type pour chaque méthode de sélection (∅, Ideal, BF,
BC, BI, BI+BF, BI+BC) et combinée à une méthode de correction (P, UD, UA, RD), évaluée sur
le total des 3 bases (Total). Pour chaque méthode de sélection+correction, la robustesse de fusion
est moyennée sur les 4 combinaisons (CT+STR+DSST, CT+STR+ASMS, CT+DSST+ASMS,
STR+DSST+ASMS) et sur les configurations de fusion de la méthode de sélection+correction
correspondante. Les meilleures robustesses (toute méthode excepté Ideal) sont en rouge, et le
meilleur est de plus souligné.
combinaison de trackers utilisée. En effet, pour une configuration de fusion fixée, quels trackers
combiner pour atteindre les meilleures performances ? Un domaine de recherche à explorer est la
complémentarité des trackers. Notre hypothèse est que, plus les trackers sont complémentaires,
meilleure est leur fusion.
Pour les évaluations suivantes, nous retenons deux des meilleures configurations de fusion
obtenues dans la section 5.3.1 : une fusion en boucle ouverte BC+P et une fusion en boucle
fermée BI+BF+UA, pour les comparer.
Nous avons évalué les combinaisons de trackers sur la base représentative VOT2015 en utilisant
les configurations de fusion BC+P et BI+BF+UA. Les tableaux 5.5, 5.6 et 5.7 montrent les
performances des combinaisons de 2, 3 et 4 trackers classées par ordre décroissant de performance
avec la configuration BC+P, de la meilleure robustesse à la moins bonne. Les tableaux 5.8, 5.9,
5.10 correspondent aux performances de la configuration BI+BF+UA. Pour chaque combinaison,
nous avons indiqué la robustesse de fusion (Fusion), la robustesse du meilleur tracker de la
combinaison (Best Ind), la différence de robustesse entre le meilleur tracker et le moins bon
tracker de la combinaison (Diff Ind) et le gain en pourcentage de la fusion par rapport au meilleur
tracker de la combinaison (Gain) :
BestInd − F usion
Gain = (5.4)
BestInd
L’indicateur Diff Ind renseigne sur l’homogénéité des performances individuelles des trackers
de la combinaison. Celui-ci n’est pas corrélé au gain de la fusion : une faible valeur de Diff Ind
n’implique pas un gain élevé, par exemple STRUCK-ASMS obtient un gain de +10.7% pour un
Diff Ind = 40 (tableau 5.5). De même une valeur élevée de Diff Ind n’implique pas un gain faible,
par exemple STRUCK-MS obtient un gain de +19.1% pour un Diff Ind = 502 (tableau 5.5).
La performance de fusion maximale est atteinte pour 2 trackers sur VOT2015 avec 100
dérives (STRUCK-ASMS), celles de 3 et 4 trackers génèrent respectivement 102 dérives (NCC-
STRUCK-ASMS) et 110 dérives (NCC-STRUCK-MS-ASMS). Combiner des trackers performants
(STRUCK, ASMS) avec des trackers peu performants (NCC, MS) exige la capacité de gérer
les nombreuses dérives générées par les trackers peu performants. Il y a un coût à corriger
les mauvaises performances des trackers, la performance de fusion dépend dans un sens du
nombre total de dérives individuelles des trackers fusionnés. Le répertoire dont nous disposons
est formé de trackers très hétérogènes en performance de robustesse (tableau 3.2). Plus l’on
combine de trackers, plus le nombre total de dérives individuelles est important. Ce qui explique
le gain négatif observé pour la plupart des combinaisons de 4 trackers (tableaux 5.7 et 5.10). Par
conséquent, fusionner un grand nombre de trackers n’assure pas de meilleures performances.
Pour espérer un gain positif d’une combinaison d’au moins 3 trackers, il faut que les trackers
2 à 2 de la combinaison génèrent un gain positif. Par exemple, les combinaisons NCC-DPM
(+43.4%), NCC-MS (+20.4%), DPM-MS (+47.4%) produisent un gain positif, leur combinaison
NCC-DPM-MS (+47.9%) produit également un gain positif (tableau 5.6). Un résultat inattendu
est que NCC combiné à n’importe quel tracker du répertoire, génère un gain positif pour la
configuration de fusion BC+P malgré ses faibles performances individuelles (tableau 5.5). Ce
gain pourrait être lié à sa complémentarité avec les autres trackers.
Table 5.5 – Classement des combinaisons de 2 trackers parmi les 8 sur VOT2015 utilisant la
fusion BC+P. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la meilleure
robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure robustesse
individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport à la
meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un gain
positif sont surlignées en rouge.
Table 5.6 – Classement des combinaisons de 3 trackers parmi les 8 sur VOT2015 utilisant la
fusion BC+P. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la meilleure
robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure robustesse
individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport à la
meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un gain
positif sont surlignées en rouge.
Table 5.7 – Classement des combinaisons de 4 trackers parmi les 8 sur VOT2015 utilisant la
fusion BC+P. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la meilleure
robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure robustesse
individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport à la
meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un gain
positif sont surlignées en rouge.
Table 5.8 – Classement des combinaisons de 2 trackers parmi les 8 sur VOT2015 utilisant la
fusion BI+BF+UA. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la
meilleure robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure
robustesse individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport
à la meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un
gain positif sont surlignées en rouge.
Table 5.9 – Classement des combinaisons de 3 trackers parmi les 8 sur VOT2015 utilisant la
fusion BI+BF+UA. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la
meilleure robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure
robustesse individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport
à la meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un
gain positif sont surlignées en rouge.
Table 5.10 – Classement des combinaisons de 4 trackers parmi les 8 sur VOT2015 utilisant la
fusion BI+BF+UA. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la
meilleure robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure
robustesse individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport
à la meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un
gain positif sont surlignées en rouge.
Pour les deux configurations de fusion BC+P et BI+BF+UA, nous avons tracé la performance
de fusion en ordonnée et l’incomplétude en abscisse pour les combinaisons de 2-4 trackers sur
les 3 bases (a,c,e) et détaillé les combinaisons de 2 trackers (b,d,f) dans les figures 5.8 et 5.9.
Une corrélation peut être observée entre la performance de fusion et l’incomplétude, et être
représentée par une droite (figure 5.10) : plus l’incomplétude est faible, meilleure est la robustesse.
Elle est moins évidente sur VOT-TIR2015. Mais cette corrélation n’est observée que lorsque le
nombre de trackers fusionnés est faible car pour des combinaisons de 5-8 trackers, elle est très
faible. Nous n’avons donc pas fait apparaître les combinaisons de 5-8 trackers sur les graphes.
Ceci s’explique par le fait que l’incomplétude n’est plus informative lorsque le nombre de trackers
fusionnés est élevé, étant presque toujours égale à 0 (voir la section 3.3.3). Et aussi parce que la
robustesse maximale pouvant être atteinte par un système de fusion qui a ses limites, n’est pas
de l’ordre de 0 dérives.
L’incomplétude est donc prédictive de la performance de fusion lorsque le nombre de trackers
fusionnés est faible et peut être utilisée comme moyen empirique pour choisir la meilleure
combinaison de trackers à fusionner.
Nous comparons les performances de fusion obtenues avec les configurations BC+P et
BI+BF+UA, et celles obtenues avec la fusion [Bailer et al., 2014]. Cette dernière est similaire à
la fusion BC+P, toutes deux exploitant des schémas en boucle ouverte. Le code testé 1 est celui
de l’approche élémentaire basic approach. Il consiste à combiner les prédictions de boîtes de M
trackers en maximisant une fonction d’attraction ai pour une boîte candidate c à chaque instant
i:
X 1
ai (c) = (5.5)
j∈M
d(bi,j , c)2 + σ
où bi,j est la boîte prédite par le tracker j à l’instant i, σ une constante, et d(bi,j , c) la distance
entre les boîtes bi,j et c. La distance entre deux boîtes b et c étant définie par :
VOT2013+ : 2 trackers
VOT2013+ 110 NCC−KLT
110 NCC−CT
NCC−STRUCK
100 NCC−DPM
100 NCC−DSST
NCC−MS
90 NCC−ASMS
90
KLT−STRUCK
80 80 KLT−DPM
KLT−DSST
KLT−MS
70 70 KLT−ASMS
CT−STRUCK
CT−DPM
CT−DSST
60 60 CT−MS
CT−ASMS
STRUCK−DPM
50 50 STRUCK−DSST
STRUCK−MS
STRUCK−ASMS
40 40 DPM−DSST
DPM−MS
DPM−ASMS
30 30 DSST−MS
DSST−ASMS
2 trackers MS−ASMS
20 3 trackers 20
4 trackers
10 10
0 20 40 60 80 100 120 140 0 50 100 150
Incompleteness Incompleteness
KLT−CT
Fusion performance (nb drifts)
KLT−STRUCK
KLT−DPM
3 trackers
4 trackers
100 100
0 100 200 300 400 500 600 0 100 200 300 400 500 600
Incompleteness Incompleteness
KLT−CT
Fusion performance (nb drifts)
KLT−STRUCK
120 KLT−DPM
120 KLT−DSST
KLT−MS
KLT−ASMS
CT−STRUCK
100 CT−DPM
CT−DSST
100 CT−MS
CT−ASMS
80 STRUCK−DPM
STRUCK−DSST
STRUCK−MS
80 STRUCK−ASMS
DPM−DSST
60 DPM−MS
DPM−ASMS
DSST−MS
60 DSST−ASMS
40 2 trackers MS−ASMS
3 trackers
4 trackers
20 40
0 50 100 150 200 250 0 50 100 150 200 250
Incompleteness Incompleteness
Figure 5.8 – Robustesse de fusion par rapport à l’incomplétude des combinaisons de trackers
(NCC, KLT, CT, STRUCK, DPM, DSST, MS, ASMS) en utilisant la configuration de fusion
BC+P sur VOT2013+ (a,b), VOT2015 (c,d) et VOT-TIR2015 (e,f). (a,c,e) montrent toutes les
combinaisons de 2-4 trackers parmi les 8 pour chaque base. Les combinaisons avec le même nombre
de trackers sont représentées avec le même symbole. (b,d,f) montrent toutes les combinaisons de
2 trackers pour chaque base. Chaque combinaison est représentée par un symbole différent.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 168
VOT2013+ : 2 trackers
VOT2013+ 80 NCC−KLT
80 NCC−CT
NCC−STRUCK
NCC−DPM
70 NCC−DSST
70 NCC−MS
NCC−ASMS
KLT−STRUCK
60 60 KLT−DPM
KLT−DSST
KLT−MS
KLT−ASMS
50 50 CT−STRUCK
CT−DPM
CT−DSST
CT−MS
CT−ASMS
40 40 STRUCK−DPM
STRUCK−DSST
STRUCK−MS
STRUCK−ASMS
30 30 DPM−DSST
DPM−MS
DPM−ASMS
DSST−MS
DSST−ASMS
20 2 trackers 20 MS−ASMS
3 trackers
4 trackers
10 10
0 20 40 60 80 100 120 140 0 50 100 150
Incompleteness Incompleteness
350 350
KLT−STRUCK
KLT−DPM
KLT−DSST
KLT−MS
300 KLT−ASMS
300 CT−STRUCK
CT−DPM
CT−DSST
250 CT−MS
CT−ASMS
250 STRUCK−DPM
STRUCK−DSST
200 STRUCK−MS
STRUCK−ASMS
200 DPM−DSST
DPM−MS
150 DPM−ASMS
DSST−MS
DSST−ASMS
2 trackers 150 MS−ASMS
100
3 trackers
4 trackers
50 100
0 100 200 300 400 500 600 0 100 200 300 400 500 600
Incompleteness Incompleteness
180 KLT−CT
Fusion performance (nb drifts)
KLT−STRUCK
KLT−DPM
80 80 DPM−ASMS
DSST−MS
DSST−ASMS
2 trackers MS−ASMS
60 60
3 trackers
4 trackers
40 40
0 50 100 150 200 250 0 50 100 150 200 250
Incompleteness Incompleteness
Figure 5.9 – Robustesse de fusion par rapport à l’incomplétude des combinaisons de trackers
(NCC, KLT, CT, STRUCK, DPM, DSST, MS, ASMS) en utilisant la configuration de fusion
BI+BF+UA sur VOT2013+ (a,b), VOT2015 (c,d) et VOT-TIR2015 (e,f). (a,c,e) montrent
toutes les combinaisons de 2-4 trackers parmi les 8 pour chaque base. Les combinaisons avec
le même nombre de trackers sont représentées avec le même symbole. (b,d,f) montrent toutes
les combinaisons de 2 trackers pour chaque base. Chaque combinaison est représentée par un
symbole différent.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 169
VOT2013+
110
100
90
70
60
50
40
2 trackers
30 y=0.69*x+7, σ=13, r2=0.62
3 trackers
20
y=1.40*x+19, σ=11, r2=0.22
10 4 trackers
2
y=2.72*x+26, σ=11, r =−0.25
0
0 20 40 60 80 100 120 140
Incompleteness
(a) VOT2013
VOT2015
350
300
Fusion performance (nb drifts)
250
200
150
2 trackers
100 y=0.49*x+60, σ=27, r2=0.75
3 trackers
50 y=0.91*x+102, σ=27, r2=0.27
4 trackers
y=1.67*x+104, σ=27, r2=−0.36
0
0 100 200 300 400 500
Incompleteness
(b) VOT2015
VOT−TIR2015
140
120
Fusion performance (nb drifts)
100
80
60
2 trackers
2
40 y=0.44*x+29, σ=25, r =0.03
3 trackers
y=0.43*x+48, σ=19, r2=−0.16
20
4 trackers
y=0.83*x+46, σ=15, r2=−0.18
0
0 50 100 150 200
Incompleteness
(c) VOT-TIR2015
Figure 5.10 – Régression linéaire de la robustesse de fusion par rapport à l’incomplétude des
combinaisons de 2-4 trackers en utilisant la configuration de fusion BC+P sur VOT2013+ (a),
VOT2015 (b) et VOT-TIR2015 (c). y est l’équation de la droite, σ l’écart-type par rapport à
l’ordonnée et r2 le coefficient de détermination.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 170
Table 5.11 – Meilleure robustesse (Robust) avec la fusion de [Bailer et al., 2014] (Bailer) et
avec notre fusion (Ours) en utilisant les configurations BC+P et BI+BF+UA sur chacune des
bases. Best indique la combinaison de trackers correspondante à la meilleure robustesse. Les
pourcentages indiquent le gain de la fusion par rapport au meilleur tracker individuel de la
combinaison (Indiv). D : DSST, A : ASMS, M : MS, S : STRUCK, C : CT, P : DPM, K : KLT.
Les meilleurs résultats sont en rouge.
Table 5.12 – Meilleure (+) et moins bonne (−) combinaison de 2-4 trackers sur VOT2015 avec
la fusion de [Bailer et al., 2014] (Bailer) et avec notre fusion (Ours) en utilisant les configurations
BC+P et BI+BF+UA. Combi indique la combinaison de trackers et Robust la robustesse
correspondante. Les pourcentages indiquent le gain de la fusion par rapport au meilleur tracker
individuel de la combinaison. D : DSST, A : ASMS, M : MS, S : STRUCK, C : CT, P : DPM,
N : NCC, K : KLT. Les meilleurs résultats sont en rouge.
qu’il n’y a pas une combinaison qui soit meilleure que toutes les autres pour toutes les bases,
puisque la performance d’un tracker est variable d’une séquence à l’autre, et la performance de
fusion dépendante de la configuration utilisée. Mais, le gain est toujours positif, la fusion a donc
un intérêt.
Nous montrons également les résultats des meilleures et moins bonnes combinaisons de 2-4
trackers utilisant notre approche (BC+P ou BI+BF+UA) et celles obtenues avec l’approche de
[Bailer et al., 2014] sur VOT2015 dans le tableau 5.12. La fusion BC+P est plus robuste que
celle de [Bailer et al., 2014] lorsque le nombre de tackers combinés augmente, le gain est toujours
positif contrairement. La fusion BI+BF+UA est au contraire moins robuste, les moins bonnes
combinaisons (−) montrant toutes des gains négatifs.
Pour les deux approches, la borne supérieure de la robustesse (robustesse la plus faible)
diminue avec le nombre de trackers mais la borne inférieure est atteinte pour 2 (Ours) ou 3
trackers (Bailer). La fusion ne permet donc pas de compenser les différentes sources de dérives.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 171
L’objectif principal de cette étude est d’exploiter la prédiction en ligne des dérives des trackers
dans une chaîne de fusion en boucle fermée puis de l’évaluer. Ceci a été motivé par le fait qu’avoir
accès à un prédicteur de dérives idéal améliore considérablement la performance de suivi. La
conception d’un tel prédicteur et le contrôle de son impact semblent délicat dans la pratique.
Sélection La sélection en ligne des trackers est une étape essentielle des stratégies de fusion.
Deux approches différentes ont été proposées pour la réaliser. La première analyse la distribution
spatiale des prédictions des trackers, en utilisant deux schémas de calcul, BF et BC, qui se
basent respectivement sur des contraintes de trajectoire et des contraintes géométriques. Ces deux
schémas de sélection se sont avérés simples et efficaces pour une certaine configuration (P) mais
échouent dans plusieurs circonstances telles que les grands mouvements de caméra. Le modèle
de mouvement utilisé dans la méthode BF fait l’hypothèse que la cible est dans un voisinage
proche de sa position à l’instant précédent. La méthode BC utilise un critère de recouvrement
des boîtes pour déterminer si deux boîtes votent pour la même position et un critère de distance
minimale pour éliminer celles qui sont éloignées de la position de la cible à l’instant précédent.
La seule information exploitée dans cette première approche est la prédiction instantanée de
position de chaque tracker. Cela s’est révélé être un faible indicateur de leur comportement. Il
faudrait exploiter simultanément la temporalité des états internes des trackers.
La deuxième approche proposée (BI) est basée sur le calcul d’indicateurs en ligne de la
qualité du modèle d’apparence. Ces indicateurs étaient difficiles à calibrer directement à partir
des données internes accessibles dans chaque tracker et ont montré peu d’améliorations dans le
processus de fusion lorsqu’ils sont utilisés seuls.
Il serait intéressant d’étudier deux évolutions. La première est d’apprendre pour chaque
tracker un prédicteur de dérives à partir de caractéristiques de la scène (couleur, distribution de
texture, bruit, mouvement global, etc.) et d’expériences variées par un apprentissage hors ligne.
Dans un deuxième temps, nous avons remarqué que les trackers se comportaient différemment
pendant une dérive : certains dérivent lentement, d’autres brusquement. Un constat général est
que l’exploitation et la modélisation du comportement temporel de leur état pourrait être un
moyen d’anticiper leur dérive.
Correction Une limite de l’architecture de notre système est la rigidité des schémas de
réinitialisation et de mise à jour : soit tous les trackers réinitialisent leur modèle à partir de
la sortie de fusion, soit ils les mettent à jour en fonction de la stratégie choisie. Bien que les
corrections UA et UD apparaissent globalement meilleures que RD (UA < UD < RD), une
meilleure flexibilité du schéma de correction pourrait améliorer leur robustesse.
La sortie du système, construite uniquement à partir des prédictions de boîtes, et non sur des
caractéristiques images, peut être imprécise, voire inexacte. Une mauvaise prédiction de boîte
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 172
introduit du bruit dans la sortie du système, servant à corriger les trackers. Suite à la phase
de correction, surtout si la réinitialisation a lieu, elle peut entraîner que des trackers corrigés
suivent une cible différente de celle initialement désignée. Pour éviter cela, il pourrait être utile
de revenir à l’image afin d’affiner la sortie système, par exemple en utilisant un algorithme de
« recentrage » tel que celui de [Gidaris et Komodakis, 2016].
Répertoire de trackers Le secret d’une fusion réussie est de trouver le bon équilibre entre la
complémentarité et la redondance des éléments fusionnés.
Dans cette étude, la complémentarité des trackers est définie par le paramètre global d’incom-
plétude. Cependant, les dérives de sous-ensembles de trackers sont souvent corrélées et causées
par un événement commun (changement d’éclairage, faible contraste, occultation, changement
d’aspect, etc.). Être capable de modéliser plus précisément ces scènes et événements perturbateurs
pourrait améliorer la stratégie de sélection en ligne d’ensembles de trackers : cette modélisa-
tion repose sur une phase d’estimation hors ligne d’apprentissage et donc sur la disponibilité
d’échantillons de données statistiquement pertinentes.
La fusion semble surtout intéressante lorsque les trackers sont de performances comparables
mais reposent sur des principes de conception différents. Dans cette étude, l’ensemble de trackers
modernes disponibles partageant ce principe était assez restreint (moins de 4 parmi les 8 testés).
Une plus grande distribution des trackers est nécessaire pour mesurer de manière fiable l’impact
du nombre de trackers dans la performance.
5.5 Conclusion
Les travaux décrits dans ce chapitre sont centrés sur la conception de bonnes stratégies
pour la fusion en ligne de trackers. L’accent était mis sur le contrôle de la robustesse globale
du suivi mesurée en nombre de dérives, à savoir le nombre de fois où la cible est perdue sur
une base donnée. Les trackers réussissent ou échouent face à des situations critiques différentes
(illumination, occultation, changements d’apparence) ; l’idée était d’exploiter leur complémentarité
en utilisant différentes stratégies de fusion.
La fusion peut fonctionner à deux niveaux : en sélectionnant l’ensemble approprié de bons
trackers et/ou en corrigeant leur sortie et/ou leur état interne. La prédiction de dérives basée sur
divers principes a été proposée et plus particulièrement étudiée comme un élément clé de l’étape
de sélection. Les stratégies globales de fusion ont donné lieu à 46 schémas différents qui ont été
largement évalués sur 3 bases (VOT2013+, VOT2015 et VOT-TIR2015) avec un répertoire de 8
trackers dont les codes sources sont disponibles (NCC, KLT, CT, STRUCK, DPM, DSST, MS,
ASMS).
Les résultats de l’expérience peuvent être résumés en une série de recommandations : quels
trackers utiliser ? que fusionner et comment ? lorsqu’on tente d’appliquer la fusion en ligne étant
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 173
donné une base d’objets ou un contexte d’application, et un ensemble de trackers avec leur
évaluation individuelle de robustesse sur la base.
1. La fusion est utile lorsqu’on fusionne des trackers avec des performances individuelles
de robustesse comparables. En revanche, la fusion de trackers très hétérogènes peut être
néfaste car les mauvais trackers peuvent affecter les autres trackers et donc, réduire les
performances de fusion.
2. Une étape de sélection est utile, un prédicteur de dérives individuel performant (DP Ideal)
donne les meilleures performances de fusion. Les méthodes les plus simples dont le rai-
sonnement se base sur des boîtes englobantes, filtrage temporel et consensus, conduisent
à des résultats comparables aux méthodes plus spécifiques qui cherchent à donner indé-
pendamment un indice du comportement individuel de chaque tracker (score ou carte de
vraisemblance).
3. Pour l’étape de correction, les fusions en boucle ouverte (sans correction) et fermée (avec
correction) donnent des résultats assez comparables, en dehors de la réinitialisation qui est
un paramètre très sensible et qui doit être utilisé avec précaution. Cependant, la fusion en
boucle fermée est aussi plus instable.
Les performances de fusion dépendent aussi de la complémentarité des trackers, outre leurs
performances individuelles. La mesure d’incomplétude définie dans le chapitre (chapitre 3) est
prédictive de la performance de fusion des combinaisons de 2 à 4 trackers avec une certaine
variance. Elle peut être utilisée pour choisir la combinaison de trackers qui atteindra la meilleure
robustesse sur une base donnée. La comparaison de notre approche de fusion avec une autre
approche de l’état de l’art assez similaire [Bailer et al., 2014], a montré des performances
supérieures.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 174
Conclusion
Bilan de l’étude
A ce jour, aucun tracker n’est véritablement capable de maîtriser toutes les situations
difficiles pouvant apparaître lors du suivi d’un objet : changements d’apparence, d’illumination,
occultations, mouvement de la caméra, etc. L’objectif de cette thèse n’était pas de concevoir
un nouveau tracker mais d’étudier dans quelle mesure il était possible de tirer avantage de la
complémentarité d’algorithmes existants en les fusionnant.
Les travaux réalisés dans le cadre de cette thèse sont centrés sur la conception de stratégies
de fusion en ligne de trackers pour améliorer la robustesse globale du suivi ; la robustesse étant
définie par le nombre total de dérives sur une base, i.e. le nombre de fois où le tracker perd la
cible sur la base. L’accent est mis sur le contrôle des dérives individuelles des trackers fusionnés.
Les huit trackers considérés dans ce travail sont un mélange de trackers standards et de trackers
plus récents, construits sur des concepts différents et produisant des performances très hétérogènes :
NCC [Lewis, 1995], KLT [Kalal et al., 2012], CT [Zhang et al., 2012], STRUCK [Hare et al., 2011],
DPM [Felzenszwalb et al., 2010, Kalman, 1960], DSST [Danelljan et al., 2014], MS [Bradski, 1998],
ASMS [Vojir et al., 2014]. Trois bases de vidéos ont servi à l’évaluation, VOT2013+ [Kristan
et al., 2013, Geiger et al., 2012], VOT2015 [Kristan et al., 2015a] et VOT-TIR2015 [Felsberg
et al., 2015]. Elles présentent des objets et des scènes variés soumis à différentes perturbations
(mouvement de la caméra, zoom, occultation, changements d’illumination, d’apparence rapides,
déformation, etc.) et contiennent des images RGB ou infra-rouge.
Les trackers réagissent différemment face aux différentes situations critiques, i.e. ils ne dérivent
pas aux mêmes instants. Une idée a été d’exploiter cette complémentarité. Dans une première
partie (chapitre 3), nous avons mesuré de manière empirique leur complémentarité en étudiant les
instants de dérives des différents trackers. Dans la plupart des séquences vidéo des bases étudiées,
cette complémentarité est assurée car à chaque instant, au moins un des trackers de l’ensemble
fonctionne correctement. Il est alors possible, en théorie, d’assurer une continuité du suivi en
combinant plusieurs trackers si on est capable d’anticiper les dérives individuelles de chacun
d’eux. Nous avons proposé une métrique, l’incomplétude, pour mesurer la complémentarité des
trackers au niveau des dérives individuelles. Elle renseigne sur la robustesse maximale pouvant
être atteinte lorsque ces trackers sont fusionnés.
175
CONCLUSION 176
Dans une deuxième partie (chapitre 4), nous avons développé des méthodes d’évaluation en
ligne du bon comportement des trackers, pouvant éventuellement anticiper leurs dérives.
La première approche a consisté à évaluer la qualité du modèle d’apparence des trackers
individuels en calculant des indicateurs de comportement à partir des informations intrinsèques
qu’il délivre (score de confiance, carte de scores ou autres scores exploitant des variables internes
du modèle). Ces indicateurs de comportement exploitent les variations spatiales et/ou temporelles
des scores pour détecter les changements de comportement du tracker. Cette approche a donné
lieu à différentes méthodes d’estimation du bon comportement des trackers à partir des indicateurs
calculés. La première méthode a consisté à estimer un seuil pour chaque indicateur en réalisant
une évaluation de performances sur des bases de test. Le réglage des seuils pour avoir un
prédicteur performant était délicat car un taux élevé de bonnes prédictions impliquait également
un taux important de fausses alarmes. Les deux méthodes suivantes ont utilisé des méthodes
de classification, l’une réalisant une classification SVM des indicateurs et l’autre utilisant un
mélange d’experts évaluant la qualité de chaque tracker à partir des indicateurs fournis en sortie.
Ces méthodes n’ont pas donné de résultats satisfaisants dû au nombre insuffisant d’exemples
d’apprentissage ne permettant pas de généraliser.
La deuxième approche a consisté à analyser la distribution spatiale des boîtes englobantes
prédites de manière individuelle par une filtrage temporelle, ou de manière collective par un
consensus afin d’éliminer les boîtes aberrantes.
Dans une troisième partie (chapitre 5), nous avons développé une chaîne générique de fusion
permettant d’intégrer de manière robuste un ensemble de trackers. Cette chaîne est composée
de deux étapes clés : une étape de sélection et une étape de correction. L’étape de sélection
a pour objectif de repérer les trackers fiables en évaluant en ligne leur bon fonctionnement
avant de la fusion de leurs sorties. Elle est assurée par les méthodes de prédiction en ligne de
dérives développées dans le chapitre 4. L’étape de correction (fusion en boucle fermée) permet
d’apporter une correction aux trackers ayant potentiellement dérivé en corrigeant les sorties
et/ou les états internes des trackers non sélectionnés par une mise à jour ou une réinitialisation
de leur modèle. Les stratégies globales de fusion ont donné lieu à 46 schémas de fusion différents
évalués sur les 3 bases. Nous montrons qu’une sélection performante des trackers améliore
nettement la robustesse de suivi ; et que les méthodes de sélection simples basées sur des boîtes
englobantes, conduisent à des résultats comparables aux méthodes plus spécifiques qui cherchent
à donner indépendamment un indicateur du comportement individuel à chaque tracker. Une
correction des trackers ayant dérivé est intéressante lorsque la sélection est bien maîtrisée ; une
mise à jour des modèles de trackers est préférable à une réinitialisation qui peut être critique
lorsqu’elle a lieu pendant des changements d’apparence importants ou pendant une occultation
de l’objet. Les configurations en boucle fermée ont montré des performances supérieures à celles
des configurations en boucle ouverte mais sont également plus instables. En évaluant la fusion sur
l’ensemble des combinaisons de trackers possibles, nous montrons que fusionner un grand nombre
CONCLUSION 177
de trackers n’est pas nécessairement une bonne stratégie mais qu’en revanche, fusionner des
trackers complémentaires et de performances homogènes apporte une meilleure robustesse. En
comparaison à une autre approche de fusion similaire [Bailer et al., 2014], notre approche a obtenu
de meilleures performances sur les 3 bases. Par ailleurs, la mesure d’incomplétude introduite
dans le chapitre 3, indépendante de l’approche de fusion, est prédictive de la performance de
fusion de 2 à 4 trackers avec une certaine variance et peut être utilisée pour choisir la meilleure
combinaison d’algorithmes sur une base donnée.
Discussion et Perspectives
Leang, I., Herbin, S., Girard, B., et Droulez, J. (2015, Juin). Prédiction sélective des traitements
pour le suivi d’objet. Dans Journées francophones des jeunes chercheurs en vision par ordinateur.
Leang, I., Herbin, S., Girard, B., and Droulez, J. (2015, October). Robust Fusion of Trackers
Using Online Drift Prediction. In International Conference on Advanced Concepts for Intelligent
Vision Systems (pp. 229-240). Springer International Publishing.
Leang, I., Herbin, S., Girard, B., and Droulez, J. On-line Fusion of Trackers for Single-Object
Tracking. Soumis le 21 Avril 2016 dans Pattern Recognition.
179
PRODUCTIONS SCIENTIFIQUES 180
Annexe A
Table A.1 – Robustesse des trackers pour chaque séquence de VOT2015. Le nom des séquences
est indiqué dans la colonne de gauche, le nombre d’images par séquence dans la colonne #img.
La robustesse par séquence mesure le nombre de dérives du tracker dans la séquence. La ligne
TOTAL indique le nombre total de dérives par tracker sur l’ensemble des séquences. Les séquences
considérées comme difficiles sont encadrées. La/les meilleures performances de robustesse par
séquence sont en gras et la/les moins bonnes sont surlignées.
181
ANNEXE A. PERFORMANCES DES TRACKERS SUR VOT2015 ET VOT-TIR2015 182
fish2 310 8 5 4 9 17 7 3 1
fish3 519 3 5 0 1 32 0 0 0
fish4 682 5 4 1 0 21 4 7 2
girl 1500 29 11 5 2 4 1 15 0
glove 120 3 2 3 3 7 3 5 2
godfather 366 4 2 2 0 21 0 0 2
graduate 844 22 10 16 3 6 9 24 7
gymnastics1 567 17 7 9 8 8 10 20 0
gymnastics2 240 8 4 4 2 3 4 8 0
gymnastics3 118 4 4 2 2 5 3 6 3
gymnastics4 465 9 4 3 2 15 5 25 2
hand 267 12 9 17 15 17 7 5 4
handball1 377 13 7 37 7 21 5 6 5
handball2 402 12 4 12 9 19 9 5 2
helicopter 708 4 1 2 0 18 0 6 1
iceskater1 661 43 11 5 7 3 4 19 0
iceskater2 707 25 4 5 3 10 3 41 0
leaves 63 5 3 4 4 6 4 4 0
marching 201 7 0 0 0 4 0 4 1
matrix 100 7 8 7 4 6 4 5 2
motocross1 164 5 1 4 3 1 5 7 2
motocross2 61 3 2 0 1 0 2 3 0
nature 999 6 5 2 4 27 4 7 3
octopus 291 1 0 1 1 0 1 5 1
pedestrian1 140 6 4 2 4 6 8 10 3
pedestrian2 713 6 5 8 0 4 1 29 1
rabbit 158 7 4 7 6 8 4 11 4
racing 156 5 1 0 0 0 0 4 1
road 558 7 16 4 0 11 0 45 5
shaking 365 5 1 1 1 10 0 16 11
sheep 251 0 2 1 0 6 0 3 1
singer1 351 4 2 0 0 3 0 7 1
singer2 366 10 17 2 3 0 1 5 1
singer3 131 3 1 1 0 3 1 2 1
soccer1 392 9 0 3 2 13 3 11 8
soccer2 129 3 2 4 1 14 12 16 3
soldier 138 2 1 0 0 7 1 3 2
sphere 201 0 3 0 0 9 3 2 0
ANNEXE A. PERFORMANCES DES TRACKERS SUR VOT2015 ET VOT-TIR2015 183
tiger 365 1 3 2 7 13 1 3 1
traffic 191 2 1 0 0 1 0 12 2
tunnel 312 0 1 0 0 4 0 13 5
wiper 341 0 8 4 2 18 0 14 7
TOTAL 21455 447 253 221 156 525 170 654 112
Table A.2 – Robustesse des trackers pour chaque séquence de VOT-TIR2015. Le nom des
séquences est indiqué dans la colonne de gauche, le nombre d’images par séquence dans la colonne
#img. La robustesse par séquence mesure le nombre de dérives du tracker dans la séquence.
La ligne TOTAL indique le nombre total de dérives par tracker sur l’ensemble des séquences.
Les séquences considérées comme difficiles sont encadrées. La/les meilleures performances de
robustesse par séquence sont en gras et la/les moins bonnes sont surlignées.
350 KLT−ASMS
CT−STRUCK
CT−DPM
CT−DSST
300 CT−MS
CT−ASMS
STRUCK−DPM
250 STRUCK−DSST
STRUCK−MS
STRUCK−ASMS
200 DPM−DSST
DPM−MS
DPM−ASMS
150 DSST−MS
DSST−ASMS
MS−ASMS
100
50
0 5 10 15 20 25 30
N combinaison
185
ANNEXE B. INCOMPLÉTUDE DES TRACKERS SUR VOT2015 ET VOT-TIR2015 186
NCC−KLT−CT NCC−KLT−STRUCK
NCC−KLT−DPM NCC−KLT−DSST
NCC−KLT−MS NCC−KLT−ASMS
Complementarite de 3 trackers, VOT2015 NCC−CT−STRUCK NCC−CT−DPM
140 NCC−CT−DSST NCC−CT−MS
NCC−CT−ASMS NCC−STRUCK−DPM
NCC−STRUCK−DSST NCC−STRUCK−MS
120 NCC−STRUCK−ASMS NCC−DPM−DSST
NCC−DPM−MS NCC−DPM−ASMS
NCC−DSST−MS NCC−DSST−ASMS
NCC−MS−ASMS KLT−CT−STRUCK
100 KLT−CT−DPM KLT−CT−DSST
KLT−CT−MS KLT−CT−ASMS
Incompletude
KLT−STRUCK−DPM KLT−STRUCK−DSST
KLT−STRUCK−MS KLT−STRUCK−ASMS
80 KLT−DPM−DSST KLT−DPM−MS
KLT−DPM−ASMS KLT−DSST−MS
KLT−DSST−ASMS KLT−MS−ASMS
60 CT−MS−ASMS CT−DSST−ASMS
CT−DSST−MS CT−DPM−ASMS
CT−DPM−MS CT−DPM−DSST
CT−STRUCK−ASMS CT−STRUCK−MS
40 CT−STRUCK−DSST CT−STRUCK−DPM
STRUCK−MS−ASMS STRUCK−DSST−ASMS
STRUCK−DSST−MS STRUCK−DPM−ASMS
STRUCK−DPM−MS STRUCK−DPM−DSST
20 DPM−DSST−MS DPM−DSST−ASMS
0 10 20 30 40 50 60
N combinaison DPM−MS−ASMS DSST−MS−ASMS
KLT−CT−DPM−ASMS KLT−CT−DPM−MS
KLT−CT−DPM−DSST KLT−CT−STRUCK−ASMS
KLT−CT−STRUCK−MS KLT−CT−STRUCK−DSST
40 KLT−CT−STRUCK−DPM NCC−DSST−MS−ASMS
NCC−DPM−MS−ASMS NCC−DPM−DSST−ASMS
NCC−DPM−DSST−MS NCC−STRUCK−MS−ASMS
NCC−STRUCK−DSST−ASMS NCC−STRUCK−DSST−MS
NCC−STRUCK−DPM−ASMS NCC−STRUCK−DPM−MS
30 NCC−STRUCK−DPM−DSST NCC−CT−MS−ASMS
NCC−CT−DSST−ASMS NCC−CT−DSST−MS
NCC−CT−DPM−ASMS NCC−CT−DPM−MS
NCC−CT−DPM−DSST NCC−CT−STRUCK−ASMS
NCC−CT−STRUCK−MS NCC−CT−STRUCK−DSST
20 NCC−CT−STRUCK−DPM NCC−KLT−MS−ASMS
NCC−KLT−DSST−ASMS NCC−KLT−DSST−MS
NCC−KLT−DPM−ASMS NCC−KLT−DPM−MS
NCC−KLT−DPM−DSST NCC−KLT−STRUCK−ASMS
NCC−KLT−STRUCK−MS NCC−KLT−STRUCK−DSST
10 NCC−KLT−STRUCK−DPM NCC−KLT−CT−ASMS
0 10 20 30 40 50 60 70 NCC−KLT−CT−MS NCC−KLT−CT−DSST
N combinaison NCC−KLT−CT−DPM NCC−KLT−CT−STRUCK
20 NCC−STRUCK−DSST−MS−ASMS NCC−STRUCK−DPM−MS−ASMS
NCC−STRUCK−DPM−DSST−ASMS NCC−STRUCK−DPM−DSST−MS
18 NCC−CT−DSST−MS−ASMS NCC−CT−DPM−MS−ASMS
NCC−CT−DPM−DSST−ASMS NCC−CT−DPM−DSST−MS
NCC−CT−STRUCK−MS−ASMS NCC−CT−STRUCK−DSST−ASMS
16 NCC−CT−STRUCK−DSST−MS NCC−CT−STRUCK−DPM−ASMS
NCC−CT−STRUCK−DPM−MS NCC−CT−STRUCK−DPM−DSST
14 NCC−KLT−DSST−MS−ASMS NCC−KLT−DPM−MS−ASMS
NCC−KLT−DPM−DSST−ASMS NCC−KLT−DPM−DSST−MS
NCC−KLT−STRUCK−MS−ASMS NCC−KLT−STRUCK−DSST−ASMS
12 NCC−KLT−STRUCK−DSST−MS NCC−KLT−STRUCK−DPM−ASMS
NCC−KLT−STRUCK−DPM−MS NCC−KLT−STRUCK−DPM−DSST
10 NCC−KLT−CT−MS−ASMS NCC−KLT−CT−DSST−ASMS
NCC−KLT−CT−DSST−MS NCC−KLT−CT−DPM−ASMS
NCC−KLT−CT−DPM−MS NCC−KLT−CT−DPM−DSST
8
0 10 20 30 40 50 60 NCC−KLT−CT−STRUCK−ASMS NCC−KLT−CT−STRUCK−MS
N combinaison NCC−KLT−CT−STRUCK−DSST NCC−KLT−CT−STRUCK−DPM
Incompletude
NCC−CT−STRUCK−DPM−DSST−MS
NCC−KLT−DPM−DSST−MS−ASMS
NCC−KLT−STRUCK−DSST−MS−ASMS
NCC−KLT−STRUCK−DPM−MS−ASMS
10 NCC−KLT−STRUCK−DPM−DSST−ASMS
NCC−KLT−STRUCK−DPM−DSST−MS
NCC−KLT−CT−DSST−MS−ASMS
NCC−KLT−CT−DPM−MS−ASMS
NCC−KLT−CT−DPM−DSST−ASMS
8 NCC−KLT−CT−DPM−DSST−MS
NCC−KLT−CT−STRUCK−MS−ASMS
NCC−KLT−CT−STRUCK−DSST−ASMS
NCC−KLT−CT−STRUCK−DSST−MS
NCC−KLT−CT−STRUCK−DPM−ASMS
6 NCC−KLT−CT−STRUCK−DPM−MS
NCC−KLT−CT−STRUCK−DPM−DSST
4
0 10 20 30
N combinaison
8.5
Incompletude
7.5
6.5
5.5
5
0 2 4 6 8
N combinaison
5.8
5.6
5.4
Incompletude
5.2
4.8
4.6
4.4
4.2
4
0 1 2
N combinaison
Figure B.1 – Incomplétude calculée pour les combinaisons de 2-8 trackers sur VOT2015. Chaque
combinaison est représentée par un symbole. L’abscisse correspond au no de la combinaison de la
liste (légende de droite), par exemple l’abscisse 1 fait référence à la 1ère combinaison de la liste.
L’ordonnée indique l’incomplétude (en nombre d’images) de la combinaison correspondante.
ANNEXE B. INCOMPLÉTUDE DES TRACKERS SUR VOT2015 ET VOT-TIR2015 188
0
0 5 10 15 20 25 30
N combinaison
NCC−KLT−CT NCC−KLT−STRUCK
NCC−KLT−DPM NCC−KLT−DSST
NCC−KLT−MS NCC−KLT−ASMS
Complementarite de 3 trackers, VOT−TIR2015 NCC−CT−STRUCK NCC−CT−DPM
100 NCC−CT−DSST NCC−CT−MS
NCC−CT−ASMS NCC−STRUCK−DPM
90 NCC−STRUCK−DSST NCC−STRUCK−MS
NCC−STRUCK−ASMS NCC−DPM−DSST
NCC−DPM−MS NCC−DPM−ASMS
80 NCC−DSST−MS NCC−DSST−ASMS
NCC−MS−ASMS KLT−CT−STRUCK
70 KLT−CT−DPM KLT−CT−DSST
KLT−CT−MS KLT−CT−ASMS
Incompletude
KLT−STRUCK−DPM KLT−STRUCK−DSST
60
KLT−STRUCK−MS KLT−STRUCK−ASMS
KLT−DPM−DSST KLT−DPM−MS
50 KLT−DPM−ASMS KLT−DSST−MS
KLT−DSST−ASMS KLT−MS−ASMS
40 CT−MS−ASMS CT−DSST−ASMS
CT−DSST−MS CT−DPM−ASMS
CT−DPM−MS CT−DPM−DSST
30 CT−STRUCK−ASMS CT−STRUCK−MS
CT−STRUCK−DSST CT−STRUCK−DPM
20 STRUCK−MS−ASMS STRUCK−DSST−ASMS
STRUCK−DSST−MS STRUCK−DPM−ASMS
STRUCK−DPM−MS STRUCK−DPM−DSST
10 DPM−DSST−MS DPM−DSST−ASMS
0 10 20 30 40 50 60
N combinaison DPM−MS−ASMS DSST−MS−ASMS
KLT−CT−DPM−ASMS KLT−CT−DPM−MS
25 KLT−CT−DPM−DSST KLT−CT−STRUCK−ASMS
KLT−CT−STRUCK−MS KLT−CT−STRUCK−DSST
KLT−CT−STRUCK−DPM NCC−DSST−MS−ASMS
NCC−DPM−MS−ASMS NCC−DPM−DSST−ASMS
20 NCC−DPM−DSST−MS NCC−STRUCK−MS−ASMS
NCC−STRUCK−DSST−ASMS NCC−STRUCK−DSST−MS
NCC−STRUCK−DPM−ASMS NCC−STRUCK−DPM−MS
NCC−STRUCK−DPM−DSST NCC−CT−MS−ASMS
NCC−CT−DSST−ASMS NCC−CT−DSST−MS
15 NCC−CT−DPM−ASMS NCC−CT−DPM−MS
NCC−CT−DPM−DSST NCC−CT−STRUCK−ASMS
NCC−CT−STRUCK−MS NCC−CT−STRUCK−DSST
NCC−CT−STRUCK−DPM NCC−KLT−MS−ASMS
10 NCC−KLT−DSST−ASMS NCC−KLT−DSST−MS
NCC−KLT−DPM−ASMS NCC−KLT−DPM−MS
NCC−KLT−DPM−DSST NCC−KLT−STRUCK−ASMS
NCC−KLT−STRUCK−MS NCC−KLT−STRUCK−DSST
5 NCC−KLT−STRUCK−DPM NCC−KLT−CT−ASMS
0 10 20 30 40 50 60 70 NCC−KLT−CT−MS NCC−KLT−CT−DSST
N combinaison NCC−KLT−CT−DPM NCC−KLT−CT−STRUCK
NCC−STRUCK−DSST−MS−ASMS NCC−STRUCK−DPM−MS−ASMS
12
NCC−STRUCK−DPM−DSST−ASMS NCC−STRUCK−DPM−DSST−MS
NCC−CT−DSST−MS−ASMS NCC−CT−DPM−MS−ASMS
NCC−CT−DPM−DSST−ASMS NCC−CT−DPM−DSST−MS
10 NCC−CT−STRUCK−MS−ASMS NCC−CT−STRUCK−DSST−ASMS
NCC−CT−STRUCK−DSST−MS NCC−CT−STRUCK−DPM−ASMS
NCC−CT−STRUCK−DPM−MS NCC−CT−STRUCK−DPM−DSST
NCC−KLT−DSST−MS−ASMS NCC−KLT−DPM−MS−ASMS
8
NCC−KLT−DPM−DSST−ASMS NCC−KLT−DPM−DSST−MS
NCC−KLT−STRUCK−MS−ASMS NCC−KLT−STRUCK−DSST−ASMS
NCC−KLT−STRUCK−DSST−MS NCC−KLT−STRUCK−DPM−ASMS
6 NCC−KLT−STRUCK−DPM−MS NCC−KLT−STRUCK−DPM−DSST
NCC−KLT−CT−MS−ASMS NCC−KLT−CT−DSST−ASMS
NCC−KLT−CT−DSST−MS NCC−KLT−CT−DPM−ASMS
NCC−KLT−CT−DPM−MS NCC−KLT−CT−DPM−DSST
4
0 10 20 30 40 50 60 NCC−KLT−CT−STRUCK−ASMS NCC−KLT−CT−STRUCK−MS
N combinaison NCC−KLT−CT−STRUCK−DSST NCC−KLT−CT−STRUCK−DPM
Incompletude
NCC−CT−STRUCK−DPM−DSST−MS
NCC−KLT−DPM−DSST−MS−ASMS
NCC−KLT−STRUCK−DSST−MS−ASMS
NCC−KLT−STRUCK−DPM−MS−ASMS
5 NCC−KLT−STRUCK−DPM−DSST−ASMS
NCC−KLT−STRUCK−DPM−DSST−MS
NCC−KLT−CT−DSST−MS−ASMS
NCC−KLT−CT−DPM−MS−ASMS
NCC−KLT−CT−DPM−DSST−ASMS
4 NCC−KLT−CT−DPM−DSST−MS
NCC−KLT−CT−STRUCK−MS−ASMS
NCC−KLT−CT−STRUCK−DSST−ASMS
NCC−KLT−CT−STRUCK−DSST−MS
NCC−KLT−CT−STRUCK−DPM−ASMS
3 NCC−KLT−CT−STRUCK−DPM−MS
NCC−KLT−CT−STRUCK−DPM−DSST
2
0 10 20 30
N combinaison
4
Incompletude
3.5
2.5
2
0 2 4 6 8
N combinaison
2.8
2.6
2.4
Incompletude
2.2
1.8
1.6
1.4
1.2
1
0 1 2
N combinaison
Figure B.2 – Incomplétude calculée pour les combinaisons de 2-8 trackers sur VOT-TIR2015.
Chaque combinaison est représentée par un symbole. L’abscisse correspond au no de la combinaison
de la liste (légende de droite), par exemple l’abscisse 1 fait référence à la 1ère combinaison de la
liste. L’ordonnée indique l’incomplétude (en nombre d’images) de la combinaison correspondante.
Bibliographie
[Achanta et al., 2012] Achanta, R., Shaji, A., Smith, K., Lucchi, A., Fua, P. et Süsstrunk,
S. (2012). Slic superpixels compared to state-of-the-art superpixel methods. IEEE transactions
on pattern analysis and machine intelligence, 34(11):2274–2282.
[Adam et al., 2006] Adam, A., Rivlin, E. et Shimshoni, I. (2006). Robust fragments-based
tracking using the integral histogram. In 2006 IEEE Computer Society Conference on Computer
Vision and Pattern Recognition (CVPR’06), volume 1, pages 798–805. IEEE.
[Ahonen et al., 2006] Ahonen, T., Hadid, A. et Pietikainen, M. (2006). Face description with
local binary patterns : Application to face recognition. IEEE transactions on pattern analysis
and machine intelligence, 28(12):2037–2041.
[Allen et al., 2004] Allen, J. G., Xu, R. Y. et Jin, J. S. (2004). Object tracking using camshift
algorithm and multiple quantized feature spaces. In Proceedings of the Pan-Sydney area
workshop on Visual information processing, pages 3–7. Australian Computer Society, Inc.
[Avidan, 2004] Avidan, S. (2004). Support vector tracking. IEEE transactions on pattern
analysis and machine intelligence, 26(8):1064–1072.
[Babenko et al., 2009] Babenko, B., Yang, M.-H. et Belongie, S. (2009). Visual tracking
with online multiple instance learning. In Computer Vision and Pattern Recognition, 2009.
CVPR 2009. IEEE Conference on, pages 983–990. IEEE.
[Bailer et al., 2014] Bailer, C., Pagani, A. et Stricker, D. (2014). A superior tracking
approach : Building a strong tracker through fusion. In Computer Vision–ECCV 2014, pages
170–185. Springer.
[Bailer et Stricker, 2015] Bailer, C. et Stricker, D. (2015). Tracker fusion on vot challenge :
How does it perform and what can we learn about single trackers ? In Proceedings of the IEEE
International Conference on Computer Vision Workshops, pages 67–75.
[Bar-Shalom et al., 2011] Bar-Shalom, Y., Willett, P. K. et Tian, X. (2011). Tracking and
data fusion : A Handbook of Algorithms. Yaakov Bar-Shalom.
191
BIBLIOGRAPHIE 192
[Bay et al., 2008] Bay, H., Ess, A., Tuytelaars, T. et Van Gool, L. (2008). Speeded-up
robust features (surf). Computer vision and image understanding, 110(3):346–359.
[Berg et al., 2015] Berg, A., Ahlberg, J. et Felsberg, M. (2015). A thermal object tracking
benchmark. In Advanced Video and Signal Based Surveillance (AVSS), 2015 12th IEEE
International Conference on, pages 1–6. IEEE.
[Blackman, 2004] Blackman, S. S. (2004). Multiple hypothesis tracking for multiple target
tracking. IEEE Aerospace and Electronic Systems Magazine, 19(1):5–18.
[Bolme et al., 2010] Bolme, D. S., Beveridge, J. R., Draper, B. A. et Lui, Y. M. (2010).
Visual object tracking using adaptive correlation filters. In Computer Vision and Pattern
Recognition (CVPR), 2010 IEEE Conference on, pages 2544–2550. IEEE.
[Bordes et al., 2007] Bordes, A., Bottou, L., Gallinari, P. et Weston, J. (2007). Solving
multiclass support vector machines with larank. In Proceedings of the 24th international
conference on Machine learning, pages 89–96. ACM.
[Bordes et al., 2008] Bordes, A., Usunier, N. et Bottou, L. (2008). Sequence labelling svms
trained in one pass. In Joint European Conference on Machine Learning and Knowledge
Discovery in Databases, pages 146–161. Springer.
[Bradski, 1998] Bradski, G. R. (1998). Real time face and object tracking as a component of a
perceptual user interface. In Applications of Computer Vision, 1998. WACV’98. Proceedings.,
Fourth IEEE Workshop on, pages 214–219. IEEE.
[Brasnett et al., 2007] Brasnett, P., Mihaylova, L., Bull, D. et Canagarajah, N. (2007).
Sequential monte carlo tracking by fusing multiple cues in video sequences. Image and Vision
Computing, 25(8):1217–1227.
[Breitenstein et al., 2011] Breitenstein, M. D., Reichlin, F., Leibe, B., Koller-Meier, E.
et Van Gool, L. (2011). Online multiperson tracking-by-detection from a single, uncalibrated
camera. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 33(9):1820–1833.
[Brox et Malik, 2010] Brox, T. et Malik, J. (2010). Object segmentation by long term analysis
of point trajectories. In European conference on computer vision, pages 282–295. Springer.
BIBLIOGRAPHIE 193
[Čehovin et al., 2011] Čehovin, L., Kristan, M. et Leonardis, A. (2011). An adaptive coupled-
layer visual model for robust visual tracking. In 2011 International Conference on Computer
Vision, pages 1363–1370. IEEE.
[Čehovin et al., 2014] Čehovin, L., Kristan, M. et Leonardis, A. (2014). Is my new tracker
really better than yours ? In IEEE Winter Conference on Applications of Computer Vision,
pages 540–547. IEEE.
[Chau et al., 2009] Chau, D. P., Bremond, F. et Thonnat, M. (2009). Online evaluation
of tracking algorithm performance. In Crime Detection and Prevention (ICDP 2009), 3rd
International Conference on, pages 1–6. IET.
[Collins et al., 2005] Collins, R., Zhou, X. et Teh, S. K. (2005). An open source tracking
testbed and evaluation web site. In IEEE International Workshop on Performance Evaluation
of Tracking and Surveillance, volume 35.
[Comaniciu et Meer, 2002] Comaniciu, D. et Meer, P. (2002). Mean shift : A robust approach
toward feature space analysis. Pattern Analysis and Machine Intelligence, IEEE Transactions
on, 24(5):603–619.
[Comaniciu et al., 2000] Comaniciu, D., Ramesh, V. et Meer, P. (2000). Real-time tracking
of non-rigid objects using mean shift. In Computer Vision and Pattern Recognition, 2000.
Proceedings. IEEE Conference on, volume 2, pages 142–149. IEEE.
[Dalal et Triggs, 2005] Dalal, N. et Triggs, B. (2005). Histograms of oriented gradients for
human detection. In 2005 IEEE Computer Society Conference on Computer Vision and
Pattern Recognition (CVPR’05), volume 1, pages 886–893. IEEE.
[Danelljan et al., 2014] Danelljan, M., Häger, G., Khan, F. et Felsberg, M. (2014). Ac-
curate scale estimation for robust visual tracking. In British Machine Vision Conference,
Nottingham, September 1-5, 2014. BMVA Press.
[Danelljan et al., 2015] Danelljan, M., Hager, G., Shahbaz Khan, F. et Felsberg, M.
(2015). Convolutional features for correlation filter based visual tracking. In Proceedings of
the IEEE International Conference on Computer Vision Workshops, pages 58–66.
[Di Stefano et al., 2005] Di Stefano, L., Mattoccia, S. et Tombari, F. (2005). Zncc-based
template matching using bounded partial correlation. Pattern recognition letters, 26(14):2129–
2134.
[Erdem et al., 2012] Erdem, E., Dubuisson, S. et Bloch, I. (2012). Visual tracking by fusing
multiple cues with context-sensitive reliabilities. Pattern Recognition, 45(5):1948 – 1959.
BIBLIOGRAPHIE 194
[Everingham et al., 2010] Everingham, M., Van Gool, L., Williams, C. K., Winn, J. et
Zisserman, A. (2010). The pascal visual object classes (voc) challenge. International journal
of computer vision, 88(2):303–338.
[Felsberg et al., 2015] Felsberg, M., Berg, A., Hager, G., Ahlberg, J., Kristan, M., Matas,
J., Leonardis, A., Cehovin, L., Fernandez, G., Vojir, T., Nebehay, G. et Pflugfelder,
R. (2015). The thermal infrared visual object tracking vot-tir2015 challenge results. In The
IEEE ICCV Workshops.
[Ferryman et Ellis, 2010] Ferryman, J. et Ellis, A. (2010). Pets2010 : Dataset and challenge.
In Advanced Video and Signal Based Surveillance (AVSS), 2010 Seventh IEEE International
Conference on, pages 143–150. IEEE.
[Freund et al., 1996] Freund, Y., Schapire, R. E. et al. (1996). Experiments with a new
boosting algorithm. In Icml, volume 96, pages 148–156.
[Geiger et al., 2012] Geiger, A., Lenz, P. et Urtasun, R. (2012). Are we ready for autonomous
driving ? the kitti vision benchmark suite. In CVPR, 2012 IEEE Conference on, pages
3354–3361. IEEE.
[Girshick et al., 2014] Girshick, R., Donahue, J., Darrell, T. et Malik, J. (2014). Rich
feature hierarchies for accurate object detection and semantic segmentation. In Computer
Vision and Pattern Recognition.
[Gordon et al., 1993] Gordon, N. J., Salmond, D. J. et Smith, A. F. (1993). Novel approach
to nonlinear/non-gaussian bayesian state estimation. In IEE Proceedings F-Radar and Signal
Processing, volume 140, pages 107–113. IET.
[Grabner et Bischof, 2006] Grabner, H. et Bischof, H. (2006). On-line boosting and vision.
In Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on,
volume 1, pages 260–267. IEEE.
[Grabner et al., 2006] Grabner, H., Grabner, M. et Bischof, H. (2006). Real-time tracking
via on-line boosting. In BMVC, volume 1, page 6.
BIBLIOGRAPHIE 195
[Hare et al., 2011] Hare, S., Saffari, A. et Torr, P. H. (2011). Struck : Structured output
tracking with kernels. In ICCV, 2011 IEEE International Conference on, pages 263–270.
IEEE.
[Harris et Stephens, 1988] Harris, C. et Stephens, M. (1988). A combined corner and edge
detector. In Alvey vision conference, volume 15, page 50. Citeseer.
[Henriques et al., 2012] Henriques, J. F., Caseiro, R., Martins, P. et Batista, J. (2012).
Exploiting the circulant structure of tracking-by-detection with kernels. In Computer Vision–
ECCV 2012, pages 702–715. Springer.
[Henriques et al., 2015] Henriques, J. F., Caseiro, R., Martins, P. et Batista, J. (2015).
High-speed tracking with kernelized correlation filters. Pattern Analysis and Machine Intelli-
gence, IEEE Transactions on, 37(3):583–596.
[Hong et al., 2015a] Hong, S., You, T., Kwak, S. et Han, B. (2015a). Online tracking by
learning discriminative saliency map with convolutional neural network. In Blei, D. et
Bach, F., éditeurs : Proceedings of the 32nd International Conference on Machine Learning
(ICML-15), pages 597–606. JMLR Workshop and Conference Proceedings.
[Hong et al., 2015b] Hong, Z., Chen, Z., Wang, C., Mei, X., Prokhorov, D. et Tao, D.
(2015b). Multi-store tracker (muster) : A cognitive psychology inspired approach to object
tracking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 749–758.
[Hua et al., 2015] Hua, Y., Alahari, K. et Schmid, C. (2015). Online object tracking with
proposal selection. In Proceedings of the IEEE International Conference on Computer Vision,
pages 3092–3100.
[Julier et Uhlmann, 1997] Julier, S. J. et Uhlmann, J. K. (1997). New extension of the kalman
filter to nonlinear systems. In AeroSense’97, pages 182–193. International Society for Optics
and Photonics.
[Kailath, 1967] Kailath, T. (1967). The divergence and bhattacharyya distance measures in
signal selection. IEEE transactions on communication technology, 15(1):52–60.
BIBLIOGRAPHIE 196
[Kalal et al., 2010a] Kalal, Z., Matas, J. et Mikolajczyk, K. (2010a). Pn learning : Bootstrap-
ping binary classifiers by structural constraints. In Computer Vision and Pattern Recognition
(CVPR), 2010 IEEE Conference on, pages 49–56. IEEE.
[Kalman, 1960] Kalman, R. E. (1960). A new approach to linear filtering and prediction
problems. Journal of Fluids Engineering, 82(1):35–45.
[Kim et al., 2008] Kim, M., Kumar, S., Pavlovic, V. et Rowley, H. (2008). Face tracking
and recognition with visual constraints in real-world videos. In Computer Vision and Pattern
Recognition, 2008. CVPR 2008. IEEE Conference on, pages 1–8. IEEE.
[Kitagawa, 1996] Kitagawa, G. (1996). Monte carlo filter and smoother for non-gaussian
nonlinear state space models. Journal of computational and graphical statistics, 5(1):1–25.
[Kristan et al., 2015a] Kristan, M., Matas, J., Leonardis, A., Felsberg, M., Cehovin, L.,
Fernandez, G., Vojir, T., Hager, G., Nebehay, G. et Pflugfelder, R. (2015a). The
visual object tracking vot2015 challenge results. In The IEEE ICCV Workshops.
[Kristan et al., 2015b] Kristan, M., Matas, J., Leonardis, A., Vojir, T., Pflugfelder, R.,
Fernandez, G., Nebehay, G., Porikli, F. et Cehovin, L. (2015b). A novel performance
evaluation methodology for single-target trackers.
[Kristan et al., 2014] Kristan, M., Pflugfelder, R., Leonardis, A., Matas, J., Čehovin,
L., Nebehay, G., Vojíř, T., Fernandez, G., Lukežič, A., Dimitriev, A. et al. (2014). The
visual object tracking vot2014 challenge results. In Computer Vision-ECCV 2014 Workshops,
pages 191–217. Springer.
[Kristan et al., 2013] Kristan, M., Pflugfelder, R., Leonardis, A., Matas, J., Porikli, F.,
Cehovin, L., Nebehay, G., Fernandez, G., Vojir, T., Gatt, A. et al. (2013). The visual
object tracking vot2013 challenge results. In ICCVW, 2013 IEEE International Conference
on, pages 98–111. IEEE.
[Kwon et Lee, 2010] Kwon, J. et Lee, K. M. (2010). Visual tracking decomposition. In Computer
Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 1269–1276. IEEE.
BIBLIOGRAPHIE 197
[Kwon et Lee, 2011] Kwon, J. et Lee, K. M. (2011). Tracking by sampling trackers. In Computer
Vision (ICCV), 2011 IEEE International Conference on, pages 1195–1202. IEEE.
[Kwon et Lee, 2013] Kwon, J. et Lee, K. M. (2013). Highly nonrigid object tracking via patch-
based dynamic appearance modeling. IEEE transactions on pattern analysis and machine
intelligence, 35(10):2427–2441.
[Leal-Taixé et al., 2015] Leal-Taixé, L., Milan, A., Reid, I., Roth, S. et Schindler, K.
(2015). Motchallenge 2015 : Towards a benchmark for multi-target tracking. arXiv preprint
arXiv :1504.01942.
[Lebeda et al., 2016] Lebeda, K., Hadfield, S., Matas, J. et Bowden, R. (2016). Texture-
independent long-term tracking using virtual corners. IEEE Transactions on Image Processing,
25(1):359–371.
[Lewis, 1995] Lewis, J. (1995). Fast normalized cross-correlation. In Vision interface, volume 10,
pages 120–123.
[Li et al., 2013] Li, X., Hu, W., Shen, C., Zhang, Z., Dick, A. et Hengel, A. V. D. (2013).
A survey of appearance models in visual object tracking. ACM transactions on Intelligent
Systems and Technology (TIST), 4(4):58.
[Li et al., 2015] Li, Y., Zhu, J. et Hoi, S. C. (2015). Reliable patch trackers : Robust visual
tracking by exploiting reliable patches. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pages 353–361.
[Lowe, 2004] Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints.
International journal of computer vision, 60(2):91–110.
[Lucas et al., 1981] Lucas, B. D., Kanade, T. et al. (1981). An iterative image registration
technique with an application to stereo vision. In IJCAI, volume 81, pages 674–679.
[Ma et al., 2015] Ma, C., Yang, X., Zhang, C. et Yang, M.-H. (2015). Long-term correlation
tracking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 5388–5396.
[Matas et Vojíř, 2011] Matas, J. et Vojíř, T. (2011). Robustifying the flock of trackers. In
16th Computer Vision Winter Workshop. Citeseer, page 91. Citeseer.
[Matthews et al., 2004] Matthews, I., Ishikawa, T., Baker, S. et al. (2004). The template
update problem. IEEE transactions on pattern analysis and machine intelligence, 26(6):810–
815.
[McKenna et al., 1999] McKenna, S. J., Raja, Y. et Gong, S. (1999). Tracking colour objects
using adaptive mixture models. Image and vision computing, 17(3):225–231.
[Mei et Ling, 2011] Mei, X. et Ling, H. (2011). Robust visual tracking and vehicle classification
via sparse representation. IEEE Transactions on Pattern Analysis and Machine Intelligence,
33(11):2259–2272.
BIBLIOGRAPHIE 198
[Mei et al., 2011] Mei, X., Ling, H., Wu, Y., Blasch, E. et Bai, L. (2011). Minimum error
bounded efficient l1 tracker with occlusion detection. In Computer Vision and Pattern
Recognition (CVPR), 2011 IEEE Conference on, pages 1257–1264. IEEE.
[Nam et al., 2016] Nam, H., Baek, M. et Han, B. (2016). Modeling and propagating cnns in a
tree structure for visual tracking. CoRR, abs/1608.07242.
[Nam et Han, 2015] Nam, H. et Han, B. (2015). Learning multi-domain convolutional neural
networks for visual tracking. arXiv preprint arXiv :1510.07945.
[Ozuysal et al., 2010] Ozuysal, M., Calonder, M., Lepetit, V. et Fua, P. (2010). Fast
keypoint recognition using random ferns. IEEE transactions on pattern analysis and machine
intelligence, 32(3):448–461.
[Penne et al., 2013] Penne, T., Tilmant, C., Chateau, T. et Barra, V. (2013). Markov chain
monte carlo modular ensemble tracking. Image and Vision Computing, 31(6):434–447.
[Phillips et al., 2000] Phillips, P. J., Moon, H., Rizvi, S. A. et Rauss, P. J. (2000). The
feret evaluation methodology for face-recognition algorithms. IEEE Transactions on pattern
analysis and machine intelligence, 22(10):1090–1104.
[Platt, 1999] Platt, J. C. (1999). Fast training of support vector machines using sequential
minimal optimization. Advances in kernel methods, pages 185–208.
[Qi et al., 2016] Qi, Y., Zhang, S., Qin, L., Yao, H., Huang, Q. et Yang, J. L. M.-H. (2016).
Hedged deep tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern
Recognition.
[Ross et al., 2008] Ross, D. A., Lim, J., Lin, R.-S. et Yang, M.-H. (2008). Incremental learning
for robust visual tracking. International Journal of Computer Vision, 77(1-3):125–141.
[Russakovsky et al., 2015] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S.,
Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A. C. et Fei-Fei,
BIBLIOGRAPHIE 199
[Salti et al., 2012] Salti, S., Cavallaro, A. et Di Stefano, L. (2012). Adaptive appearance
modeling for video tracking : Survey and evaluation. IEEE Transactions on Image Processing,
21(10):4334–4348.
[Santner et al., 2010] Santner, J., Leistner, C., Saffari, A., Pock, T. et Bischof, H. (2010).
Prost : Parallel robust online simple tracking. In Computer Vision and Pattern Recognition
(CVPR), 2010 IEEE Conference on, pages 723–730. IEEE.
[Shi et Tomasi, 1994] Shi, J. et Tomasi, C. (1994). Good features to track. In Computer
Vision and Pattern Recognition, 1994. Proceedings CVPR’94., 1994 IEEE Computer Society
Conference on, pages 593–600. IEEE.
[Simonyan et al., 2014] Simonyan, K., Vedaldi, A. et Zisserman, A. (2014). Deep inside convo-
lutional networks : Visualising image classification models and saliency maps. In Proceedings
of the International Conference on Learning Representations (ICLR).
[Smeulders et al., 2014] Smeulders, A. W., Chu, D. M., Cucchiara, R., Calderara, S.,
Dehghan, A. et Shah, M. (2014). Visual tracking : An experimental survey. Pattern Analysis
and Machine Intelligence, IEEE Transactions on, 36(7):1442–1468.
[Stenger et al., 2009] Stenger, B., Woodley, T. et Cipolla, R. (2009). Learning to track
with multiple observers. In Computer Vision and Pattern Recognition, 2009. CVPR 2009.
IEEE Conference on, pages 2647–2654. IEEE.
3(3):177–280.
BIBLIOGRAPHIE 200
[Vapnik, 1995] Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag
New York, Inc., New York, NY, USA.
[Viola et al., 2005] Viola, P., Jones, M. J. et Snow, D. (2005). Detecting pedestrians using
patterns of motion and appearance. International Journal of Computer Vision, 63(2):153–161.
[Vojíř et Matas, 2014] Vojíř, T. et Matas, J. (2014). The enhanced flock of trackers. In
Registration and Recognition in Images and Videos, pages 113–136. Springer.
[Vojir et al., 2015] Vojir, T., Matas, J. et Noskova, J. (2015). Online adaptive hidden markov
model for multi-tracker fusion. arXiv preprint arXiv :1504.06103.
[Vojir et al., 2013] Vojir, T., Noskova, J. et Matas, J. (2013). Robust scale-adaptive mean-
shift for tracking. In Scandinavian Conference on Image Analysis, pages 652–663. Springer.
[Vojir et al., 2014] Vojir, T., Noskova, J. et Matas, J. (2014). Robust scale-adaptive mean-
shift for tracking. Pattern Recognition Letters, 49:250 – 258.
[Wang et al., 2013] Wang, D., Lu, H. et Yang, M.-H. (2013). Online object tracking with
sparse prototypes. IEEE transactions on image processing, 22(1):314–325.
[Wang et al., 2015a] Wang, L., Ouyang, W., Wang, X. et Lu, H. (2015a). Visual tracking
with fully convolutional networks. In The IEEE International Conference on Computer Vision
(ICCV).
[Wang et al., 2016] Wang, L., Ouyang, W., Wang, X. et Lu, H. (2016). Stct : Sequentially
training convolutional networks for visual tracking. CVPR.
[Wang et al., 2015b] Wang, N., Shi, J., Yeung, D.-Y. et Jia, J. (2015b). Understanding and
diagnosing visual tracking systems. In Proceedings of the IEEE International Conference on
Computer Vision, pages 3101–3109.
[Wang et Yeung, 2013] Wang, N. et Yeung, D.-Y. (2013). Learning a deep compact image
representation for visual tracking. In Advances in neural information processing systems, pages
809–817.
[Wu et al., 2013] Wu, Y., Lim, J. et Yang, M.-H. (2013). Online object tracking : A benchmark.
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages
2411–2418.
[Xiao et al., 2015] Xiao, J., Stolkin, R. et Leonardis, A. (2015). Single target tracking using
adaptive clustered decision trees and dynamic multi-level appearance models. In Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4978–4987.
[Yang et al., 2011] Yang, H., Shao, L., Zheng, F., Wang, L. et Song, Z. (2011). Recent
advances and trends in visual tracking : A review. Neurocomputing, 74(18):3823–3831.
[Yilmaz, 2007] Yilmaz, A. (2007). Object tracking by asymmetric kernel mean shift with
automatic scale and orientation selection. In 2007 IEEE Conference on Computer Vision and
Pattern Recognition, pages 1–6. IEEE.
[Yilmaz et al., 2006] Yilmaz, A., Javed, O. et Shah, M. (2006). Object tracking : A survey.
Acm computing surveys (CSUR), 38(4):13.
[Yoon et al., 2012] Yoon, J. H., Kim, D. Y. et Yoon, K.-J. (2012). Visual tracking via adaptive
tracker selection with multiple features. In Computer Vision–ECCV 2012, pages 28–41.
Springer.
[Zass et Shashua, 2008] Zass, R. et Shashua, A. (2008). Probabilistic graph and hypergraph
matching. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference
on, pages 1–8. IEEE.
[Zhang et al., 2014a] Zhang, J., Ma, S. et Sclaroff, S. (2014a). Meem : Robust tracking via
multiple experts using entropy minimization. In Computer Vision–ECCV 2014, pages 188–203.
Springer.
[Zhang et al., 2012] Zhang, K., Zhang, L. et Yang, M.-H. (2012). Real-time compressive
tracking. In Computer Vision–ECCV 2012, pages 864–877. Springer.
[Zhang et al., 2014b] Zhang, P., Wang, J., Farhadi, A., Hebert, M. et Parikh, D. (2014b).
Predicting failures of vision systems. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pages 3566–3573.
[Zhong et al., 2014] Zhong, B., Yao, H., Chen, S., Ji, R., Chin, T.-J. et Wang, H. (2014).
Visual tracking via weakly supervised learning from multiple imperfect oracles. Pattern
Recognition, 47(3):1395 – 1410.
[Zhong et al., 2012] Zhong, W., Lu, H. et Yang, M.-H. (2012). Robust object tracking via
sparsity-based collaborative model. In Computer vision and pattern recognition (CVPR), 2012
IEEE Conference on, pages 1838–1845. IEEE.