Вы находитесь на странице: 1из 201

���������

����������������������
��������������������
�������� �����������������������������������������

� ��������

���������� �������� ������������������������ ��������

���� ������������

����������������������������������������

�� ���� ���������������������� �������!"�� �� ����#$!%

����������&��'��� ��� ����(�

������)*++*,� �#*�-��.��, /���������


��������/0�1,�� 2*��,3���-���������� �2��������,���� /���������
.��������40�� +*�%-���������� ���������������������� �5� �������
������6���/�7 * ��������������+��-������������ �5� �������
8��������/0�+�7 *�*/-���������� ���������������������� ������������������
�� ������4�/1*. ��*�-�0.�/, ���������
1���9��2*/,/� *�*/-���������� ���������������������� ���������
3
���������� �������� ������������������������ ��������
��������
� ����������� ������� �� ����� �������������� ����� �� ���������������������� ������������������� ���
����� �������������������� �������������� ���� ��������� ���������� ��� �������������� �� ���!���� �"
���� �� ��������� ����� �� ���������� �� �������� ������ ��#��$���� ������� �� ��������� ��������� �
������������������ ����������� ��� ��������� "������ �� �������� ��� ����� � ��� �� �� ������� ��
��� �������� �� ������� ��� �� ���������������� �� ����������������������������"������������"����� � ��
������ �� �������"�����$ � �������� ����
����� ���� �� �� �� ����� � ����� ������ � ��� �������� ������������� �� ��� �����$������ ��� ������"
%�����& ���'"� ����� ��������� ��������$� ��� �������� ����$� ������� ��� �� �������� ��$������� � ���
�� � ���!� � � � ������ � ������� � � � �������� � � ��� ������ � � � � � ����& �� � � ������ � ��������� ��� � � � ���
��������� � ��"� ������� ��� ��������� �� �� �� �������$ ����������������� ����$� �� ������ �������������
���� �������� ������������������ �� ���� �������(���� ���������� �������������� �������������
� ������ ��� �������!� "����������� �� �)*������$���������� ��������������� ���+����� ������,���� ���
����� �"������� ������� ������ �� ������ ����������������������������� ���� ������� �������� ��������
����������� � �� � �� � ������ �� � � � ������- � �� � ���� ����� � � � ��� � � ���� � �� � ��������� � � ��
�����������������-���� ��������������$ ���� ������� ������ ��������� �� �����& ���������� ����� �� ���
� �������� ������$�� ��������$���������� �-���������� �� �� �������������� ��������� �� �����& ��
���������� � ����� ��� �������������� "�� ������ �� ��� ���� ������ ������������������ �����& ��
������ � �������� �� ������������������

#��������������������� ������� ��-������� �� �� �������-�������� ��������� ������& ���-�������������


����� �-�����������������������-����� ������� ������ ��

��� ������������������� ������������������ ��������


.��������
/����� � ��� �� � ����&��$ � �� � �� � � � ������ ��������� �� � ������ � � ������� ���� � ��� � � � � �� � ���� �� � ��
��� ���������� ���0������� ����� ������ ������ ����������������� ��� ���������� ��� ���� ����� ������
�� �� ���� ������������� ����$ ��� ��$�����& ���0 ���� ��� ���� ������������� �������� �������
��� ����� ��������� ��������� ��� ���"���� ����� ������������ ������ �������������� �������� ��������
����� ������������� ��������������������������������������"����������"����� ����� � ��������� ��"
����$ ������� ����
1� � ��� ���� � �� � ���� � �� ��� � �� � ��� ������ � �� � ����� � ������� � �� � � � � � � �� � ����&��$ � ��$������� � ��
� � �����$���2��� ������������� $� �������� ������������$��� ��$ � ���������1� ������� ��������������
������������� � ����$��� �����& ����������������������$��������������$"���������$��� ��������������
���� ����$��� ���3�2��� ��������� ��������4�������� �������& �� � � �������� �� � ������� ��������
5 � ��� � � ����� � �� � ������ � � ��� � ��� � �� � � �� � �� � �����" � $����$ � ��� � �� � )* � ������� � ������
�����$��������� � 6������ � � �� � , � ������� �" � �� � ����� � ��$���$�� � � � � ��� � & � � ������$�� � �� ����
� � ������$� ����������� ��������� ��-�1� ����� ������������ ���� �������� ����������� ������ �������
� � �����"���&��$��������$��� � ���� ����� ��������7�����-�8�������� ��������$ ������������� ��������
���� � � �� � ����� � ����� � ����& �� � 4��� � ����$ � ��� � � �������� � � ���� � � � ���$ � ���� �- � 1�
������� ���������������������������� ���������& ���������� ��� ������� �������� � � ���� ���� "�4����
��& ������������ ����� � ����� ����������� ��������������������& ��������$�� ������������������ ���

9 �4����� � ������ � ��� �� � ����&��$- � ����&��$ � ������� ��- � ����& � � ����� � �������- � ����� � �� �������-
������������������-���� ������ ������
5
6
Remerciements

Je voudrais remercier un certain nombre de personnes sans qui cette thèse n’aurait pas été
possible. Merci à Philippe Bidaud qui a eu l’idée de cette collaboration entre l’ISIR et l’ONERA,
à Stéphane Herbin et à Benoît Girard qui ont monté ce projet de recherche, et à Jacques Droulez
qui en a accepté la direction.
Merci à Stéphane, Benoît et Jacques de m’avoir accompagnée, conseillée et encouragée tout
au long de ces trois années. Merci pour nos nombreuses discussions à l’ONERA et à l’ISIR.
Stéphane, merci de m’avoir transmis ton expérience et ton savoir, tu n’étais jamais à court
d’idées et ton habileté à trouver les mots justes pour les exprimer m’a toujours impressionnée.
Benoît, merci pour ton enthousiasme, ta spontanéité et ton optimisme, qui m’ont toujours
encouragée à continuer à aller de l’avant.
Jacques, merci pour ton expérience, ta sagesse et ton humilité, tes remarques étaient toujours
très pertinentes.
Il y a encore tellement de choses pour lesquelles je voudrais vous remercier mais les mots ne
suffiront pas à vous exprimer toute ma gratitude. Je n’oublierai pas ce que vous m’avez appris.
J’aimerais vous dire que vous formez un trio complémentaire, à l’image de mes tracteurs :)

Je voudrais également remercier les membres du jury : un grand merci à David Filliat et
à Michèle Rombaut d’avoir accepté, l’examen minutieux de ma thèse, à Patrick Pérez d’avoir
accepté de faire partie de mon jury malgré son emploi du temps très chargé, et enfin, à Nicolas
Thome d’avoir présidé ma soutenance.

Je voudrais remercier tout le laboratoire ISIR pour son accueil, Michèle Vié et Ludovic Billard
pour leur aide logistique.

Un grand merci à tout le département DTIM de l’ONERA pour son accueil et pour la bonne
ambiance qui règne dans les couloirs : Alain Michel, Gilles Foulon, Patrick Secchi, Fabrice Savignol,
Françoise Pradines, Elise Koeniguer, Fabrice Janez, Alexandre Alakian, Adrien Chan-Hon-Tong,
Alexandre Boulch, Benjamin Pannetier, Julien Moras, Robin Doumerc, Martial Sanfourche,
Alexandre Eudes, Anthelme Bernard-Brunel, Guy Le Besnerais, Frédéric Champagnat, Aurélien
Plyer, Kaouthar Benameur, Valentina Dragos, Eric Glemet, Olivier Poirel, Jerôme Besombes,

7
REMERCIEMENTS 8

Bertrand Le Saux, Annie Bastière, Pauline Trouvé, Philippe Cornic, Christian Musso, Jean
Dezert. Merci pour toutes ces belles rencontres et ces échanges, je ne vous oublierai pas.
Merci à tous les doctorants du DTIM pour toutes ces pauses conviviales et pour tous ces bons
moments : Thibaut Castings, Oana Alexandra Ciobanu, Cédric Le Barz, Hicham Randrianarivo,
Flora Weissgerber, Maxime Derome, Hélène Roggeman, Calum Burns, Joris Guerry, Guillaume
Brigot, David Caruso, Nicolas Audebert, Maxime Bucher, David Schwartz, Florent Bonnier,
Maxime Ferrera, Marcela Carvalho. Je n’oublie pas les apprentis : Sémi Mechaab, Elyse Cordeau.
Ainsi que les stagiaires : Thierry Dumas, Jonathan Lardy, Adrien Lagrange, Manuel Tanguy,
Oriane Simeoni, Martin Touzot.
Je remercie tout particulièrement mes co-bureaux, Thibaut, Maxime D. et Hicham, pour vos
blagues et vos encouragements.
J’ai apprécié chacun d’entre vous et vous souhaite le meilleur. Pardon à tous ceux que j’ai
oublié de citer.

Merci à David Picard et à Thomas Tang de m’avoir donné l’opportunité d’encadrer les TP à
l’ENSEA, ce fut très enrichissant.

Matthieu, mon petit fiancé, merci d’avoir été là dans les moments difficiles, tu m’as donné le
courage d’aller jusqu’au bout, merci pour ta joie et ta bonne humeur qui m’ont accompagnée
chaque jour. Papa, Maman, Tatou et Margue, merci pour votre soutien inconditionnel ! Vous
avez été formidables.

Bonne lecture !
Table des matières

Introduction 13

1 Bibliographie 17
1.1 Le suivi d’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.1 Modélisation de l’apparence de l’objet . . . . . . . . . . . . . . . . . . . . 21
1.1.2 Localisation de l’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.1.3 Mise à jour du modèle d’apparence . . . . . . . . . . . . . . . . . . . . . . 28
1.1.4 Évaluation qualitative des approches . . . . . . . . . . . . . . . . . . . . . 32
1.2 Évaluation des trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.2.1 Bases de vidéos pour le suivi d’objet . . . . . . . . . . . . . . . . . . . . . 35
1.2.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.2.3 Le benchmark VOT [Kristan et al., 2013] . . . . . . . . . . . . . . . . . . 42
1.3 Fusion en suivi d’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.3.1 Architectures de fusion, généralités . . . . . . . . . . . . . . . . . . . . . . 46
1.3.2 Fusion de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.3.3 Fusion de modules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2 Matériel et Méthodes 59
2.1 Méthodologie d’évaluation des trackers . . . . . . . . . . . . . . . . . . . . . . . . 59
2.1.1 Bases d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.1.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.1.3 Protocole d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2 Répertoire de trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.2.1 NCC (Normalized Cross Correlation) [Lewis, 1995] . . . . . . . . . . . . . 65
2.2.2 KLT (Kanade Lucas Tomasi Tracker) [Kalal et al., 2012] . . . . . . . . . . 66
2.2.3 CT (Compressive Tracking) [Zhang et al., 2012] . . . . . . . . . . . . . . . 67
2.2.4 STRUCK (Structured Output Tracking with Kernels) [Hare et al., 2011] . 69
2.2.5 Tracker basé DPM (Deformable Part Models) [Felzenszwalb et al., 2010,
Kalman, 1960] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.2.6 DSST (Discriminative Scale Space Tracker) [Danelljan et al., 2014] . . . . 73

9
TABLE DES MATIÈRES 10

2.2.7 MS (Meanshift) [Bradski, 1998] . . . . . . . . . . . . . . . . . . . . . . . . 75


2.2.8 ASMS (Adaptive Scale mean-shift) [Vojir et al., 2014] . . . . . . . . . . . 75
2.3 Développement de la plateforme C++ de fusion de trackers . . . . . . . . . . . . 76
2.3.1 Intégration des trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.3.2 Entrées/Sorties, paramètres de fusion . . . . . . . . . . . . . . . . . . . . 80

3 Étude de la complémentarité des trackers 85


3.1 Complémentarité de conception . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2 Mesure des performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2.1 Performances globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2.2 Performances locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.3 Étude des instants de dérive des trackers . . . . . . . . . . . . . . . . . . . . . . . 93
3.3.1 Instants de dérive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.3.2 Simuler une piste de suivi reconstituée . . . . . . . . . . . . . . . . . . . . 96
3.3.3 Proposition d’une métrique pour mesurer la complémentarité d’un ensemble
de trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.4 Discussion et travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

4 Prédiction en ligne des dérives des trackers 105


4.1 Indicateurs de bon comportement . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.1.1 Score de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.1.2 Carte de scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.1.3 Autres indicateurs spécifiques . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.2 Prédiction en ligne des dérives par apprentissage des indicateurs de comportement
(BI) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.2.1 Estimation des seuils des indicateurs de comportement . . . . . . . . . . . 115
4.2.2 Apprentissage SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2.3 Fusion de trackers par mélange d’experts à partir des indicateurs de com-
portement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3 Prédiction en ligne des dérives par une analyse de la distribution spatiale des
boîtes englobantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.3.1 Filtrage temporel de boîtes (BF) . . . . . . . . . . . . . . . . . . . . . . . 118
4.3.2 Consensus de boîtes (BC) . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.4 Évaluation des prédicteurs de dérives par apprentissage des indicateurs de com-
portement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.4.1 Recherche des indicateurs de comportement . . . . . . . . . . . . . . . . . 119
4.4.2 Estimation des seuils des indicateurs . . . . . . . . . . . . . . . . . . . . . 128
4.4.3 Apprentissage SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
TABLE DES MATIÈRES 11

4.4.4 Fusion de trackers par mélange d’experts . . . . . . . . . . . . . . . . . . 134


4.5 Discussion et travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

5 Conception de mécanismes de fusion de trackers 139


5.1 Différents schémas de fusion possibles . . . . . . . . . . . . . . . . . . . . . . . . 140
5.1.1 Fonctionnement général d’un tracker . . . . . . . . . . . . . . . . . . . . . 140
5.1.2 Fusion en boucle ouverte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.1.3 Fusion en boucle fermée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.2 Approche de fusion proposée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.2.1 Schéma générique de fusion . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.2.2 Sélection des trackers par prédiction en ligne des dérives . . . . . . . . . . 145
5.2.3 Fusion des boîtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.4 Correction de la position et/ou du modèle des trackers . . . . . . . . . . . 147
5.2.5 Une variété de configurations possibles de fusion . . . . . . . . . . . . . . 148
5.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.3.1 Évaluation des configurations de fusion . . . . . . . . . . . . . . . . . . . 149
5.3.2 Meilleure combinaison de trackers ? . . . . . . . . . . . . . . . . . . . . . . 153
5.4 Discussion et travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

Conclusion 175

Productions Scientifiques 179

A Performances des trackers sur VOT2015 et VOT-TIR2015 181

B Incomplétude des trackers sur VOT2015 et VOT-TIR2015 185

Bibliographie 191
TABLE DES MATIÈRES 12
Introduction

Le suivi visuel ou visual tracking en anglais, et plus communément appelé « poursuite visuelle »
en vision naturelle, est une fonction élémentaire d’analyse des signaux visuels, présente dans le
système visuel humain, et des primates supérieurs. Mais cette fonction est également essentielle
pour la conception des algorithmes de vision artificielle dès lors que l’on analyse des séquences
vidéo, car elle assure une cohérence et une stabilité spatio-temporelle des entités d’intérêt présentes
dans la scène, nécessaires à leur interprétation ou à une interaction. Ainsi, le suivi visuel a fait
l’objet de nombreux travaux dans le domaine de la vision par ordinateur, et cités dans un
certain nombre de revues : [Yilmaz et al., 2006, Yang et al., 2011, Salti et al., 2012, Wu et al.,
2013, Li et al., 2013, Smeulders et al., 2014]. On peut distinguer deux littératures sur ce sujet :
le « suivi visuel d’objet » et le « pistage multi-objets ». Le suivi visuel d’objet est une fonction
élémentaire de suivi d’un seul objet, tandis que le « pistage multi-objets » se rapporte à un
problème d’association de données temporelle, d’une image à la suivante, pour reconstituer les
pistes des objets présents dans la scène. Ces données sont par exemple des détections issues d’un
radar. Nous parlerons de VOT (Visual Object Tracking) et de MOT (Multiple Object Tracking)
pour les distinguer, et nous nous intéresserons essentiellement à VOT.
VOT est une fonction élémentaire, nécessaire à un grand nombre d’applications d’interpréta-
tion et d’exploitation de vidéos. C’est une brique de base utilisée par d’autres fonctionnalités
telles que MOT. Les algorithmes de VOT produits sont appelés trackers en anglais et c’est le
terme que nous utiliserons dans la suite. Ils consistent à estimer la position d’un objet mobile
dans un flux vidéo, pris par une caméra fixe ou embarquée, avec comme seules informations sa
position et ses caractéristiques images à l’instant initial.
Le problème qui nous intéresse en particulier dans VOT est le phénomène de dérive. La
dérive est une mauvaise estimation de la position de l’entité suivie pendant un certain intervalle
temporel et qui aboutit à la perte définitive de l’entité. Elle renseigne sur la robustesse de suivi
d’un tracker, définie comme étant le nombre de fois où le tracker perd la cible sur une base de
vidéos. Différentes perturbations visuelles sont à l’origine des dérives telles que les changements
d’apparence de l’objet, les changements d’illumination de la scène, le contraste dans l’image, les
mouvements de caméra, les occultations, etc.
Les approches proposées pour répondre à ces difficultés sont nombreuses. Tous les ans,
de nouvelles approches sont publiées, toujours plus performantes que les précédentes, voir les

13
INTRODUCTION 14

résultats des challenges VOT2013 [Kristan et al., 2013], VOT2014 [Kristan et al., 2014] et
VOT2015 [Kristan et al., 2015a]. Une récente étude de [Kristan et al., 2015b] a analysé plus
finement les performances des trackers du challenge VOT2014 [Kristan et al., 2014] par rapport
à différents types de perturbations visuelles (illumination, occultation, mouvement de camera,
forte variation d’apparence). Les principales conclusions de cette étude sont les suivantes : les
trackers se spécialisent soit en précision de localisation, soit en robustesse ; aucun tracker ne
surpasse tous les autres sur tous les critères de performance (précision, robustesse) et pour toutes
les perturbations visuelles. Enfin, les trackers qui réussissent les mieux, sont de conception variée
(représentation globale ou par parties, apprentissage discriminant, segmentation).
Étant donné les limites des trackers individuels et le nombre important de solutions proposées,
une idée naturelle est d’étudier dans quelle mesure leur fusion permet d’améliorer globalement les
performances de suivi. Il existe des travaux s’intéressant à la fusion en suivi d’objet mais peu se
rapportent à la fusion de trackers individuels. Les quelques travaux réalisant la fusion de trackers
améliorent les performances globales de suivi par rapport aux performances individuelles des
trackers mais limitent le type d’objet suivi [Stenger et al., 2009], le nombre de trackers étudiés
[Kalal et al., 2012, Vojir et al., 2015] ou le type de trackers [Moujtahid et al., 2015b], combinent
spécifiquement les entrées et sorties des trackers [Santner et al., 2010], ou limitent les interactions
possibles entre les trackers dans la chaîne de fusion [Bailer et al., 2014]. Chacun de ces travaux
présente donc des limites.

C’est dans ce contexte que notre étude a été développée. L’objectif de l’étude est de proposer
une fusion en ligne de trackers la plus générique possible permettant d’améliorer la robustesse
du suivi : un schéma générique de fusion qui n’est pas limité par le type d’objet suivi, le type
de trackers et qui autorise un certain niveau d’interaction entre les trackers dans la chaîne de
fusion. L’intérêt de l’approche proposée est de pouvoir fusionner des trackers très hétérogènes en
performance et en structure algorithmique. Une démarche expérimentale approfondie a permis
d’identifier la meilleure stratégie de fusion parmi un large répertoire de configurations de fusion
possibles. Le manuscrit est organisé comme suit :
Dans le chapitre 1, nous réalisons un état de l’art sur le suivi d’objet, afin de montrer la
diversité de conception des approches développées mais aussi leur complémentarité pour résoudre
un certain nombre de difficultés, incitant à développer une approche de fusion. Nous présentons
les principales bases, ainsi que les métriques et protocoles d’évaluation, en particulier ceux du
challenge VOT [Kristan et al., 2013] utilisés en suivi d’objet pour l’évaluation des trackers
individuels. Enfin, nous proposons un état de l’art sur la fusion en suivi d’objet en distinguant la
fusion de modèles de la fusion de modules.
Dans le chapitre 2, nous précisons les bases, les métriques et le protocole d’évaluation utilisés
pour réaliser l’évaluation de notre système de fusion de trackers. Nous décrivons ensuite le
fonctionnement de chacun des trackers du répertoire utilisé. Enfin, nous donnons quelques détails
INTRODUCTION 15

d’implémentation sur la plateforme C++ que nous avons développée pour intégrer les trackers du
répertoire et réaliser leur fusion, et pour évaluer leurs performances individuelles ou fusionnées.
La démarche a consisté dans un premier temps à démontrer l’intérêt de la fusion pour
améliorer la robustesse de suivi, décrite dans le chapitre 3. Nous étudions en particulier les
instants de dérives des trackers sur les séquences de la base pour révéler une complémentarité
locale des comportements, et pour vérifier qu’il est possible de reconstituer une piste continue de
suivi. Nous proposons une métrique mesurant la complémentarité d’un ensemble de trackers en
termes de robustesse atteignable lorsqu’ils sont fusionnés. Cependant, la reconstitution d’une
piste continue n’est qu’une simulation. Dans une situation réelle de fusion en ligne de trackers,
les instants de dérive ne sont pas connus.
Le chapitre 4 a donc consisté à développer des méthodes d’estimation en ligne du bon fonc-
tionnement d’un tracker pour pouvoir prédire ses éventuelles dérives. Plusieurs méthodes ont été
étudiées : des méthodes exploitant le comportement individuel des trackers à partir d’informations
intrinsèques au modèle d’apparence ou d’informations de localisation des prédictions, et des
méthodes exploitant le comportement collectif des trackers à partir de la distribution spatiale
des prédictions. Une évaluation des performances de prédiction de certaines de ces méthodes
a pu être réalisée. Cependant, les méthodes n’étant pas intégrées dans une chaîne de fusion en
ligne des trackers, l’évaluation réalisée ne permet pas de dire si ces méthodes sont performantes
et améliorent la robustesse de fusion.
C’est l’objet du chapitre 5 de décrire une chaîne de fusion générique de trackers disposant
d’une étape de sélection et d’une étape de correction des trackers. Les méthodes de prédiction en
ligne des dérives dans la chaîne de fusion développées dans le chapitre 4, servent à sélectionner
les bons trackers à fusionner à chaque instant. Des méthodes permettant de les combiner et
éventuellement les corriger ont été développées. A partir de cette chaîne de fusion, nous avons
expérimenté différentes stratégies de fusion pour identifier les stratégies de fusion permettant
de renforcer la robustesse de suivi. L’idée est d’optimiser chaque niveau de la fusion : choisir
les trackers à combiner, la méthode de sélection des trackers, la méthode de fusion des boîtes,
et la méthode de correction (boucle ouverte ou fermée, mise à jour ou réinitialisation). Au
total, 46 configurations de fusion ont été évaluées sur 105 séquences vidéo et ont abouti aux
principales conclusions suivantes : la sélection performante des trackers améliore considérablement
les performances de suivi. La correction des trackers ayant dérivé est utile lorsque la sélection
est bien maîtrisée. La fusion d’un grand nombre de trackers n’est pas nécessairement une bonne
stratégie mais en revanche, fusionner des trackers complémentaires et homogènes en performance
apporte une meilleure robustesse.
INTRODUCTION 16
Chapitre 1

Bibliographie

Sommaire
1.1 Le suivi d’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.1.1 Modélisation de l’apparence de l’objet . . . . . . . . . . . . . . . . . . . 21
1.1.2 Localisation de l’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.1.3 Mise à jour du modèle d’apparence . . . . . . . . . . . . . . . . . . . . . 28
1.1.4 Évaluation qualitative des approches . . . . . . . . . . . . . . . . . . . . 32
1.2 Évaluation des trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.2.1 Bases de vidéos pour le suivi d’objet . . . . . . . . . . . . . . . . . . . . 35
1.2.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.2.3 Le benchmark VOT [Kristan et al., 2013] . . . . . . . . . . . . . . . . . 42
1.3 Fusion en suivi d’objet . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.3.1 Architectures de fusion, généralités . . . . . . . . . . . . . . . . . . . . . 46
1.3.2 Fusion de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
1.3.3 Fusion de modules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1.3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Ce chapitre a pour objectif de présenter dans un premier temps, un état de l’art sur le suivi
d’objet visant à montrer la diversité des approches proposées mais aussi leur complémentarité
pour résoudre un certain nombre de difficultés en suivi dans la section 1.1. Nous présenterons
dans un deuxième temps, les principaux benchmarks, bases de vidéos et métriques utilisés pour
évaluer les performances de trackers individuels dans la section 1.2. Enfin, nous présenterons un
état de l’art sur la fusion en suivi d’objet dans la section 1.3.

1.1 Le suivi d’objet

Le suivi visuel d’objet est l’un des sujets de recherche les plus explorés en vision par ordinateur
avec à la clé de nombreuses applications : sécurité, vidéo-surveillance, contrôle du trafic, production
industrielle, interaction homme-machine, etc. Les thèmes de recherche vont du suivi mono-cible
(Challenge VOT [Kristan et al., 2013]) au suivi multi-cibles (Workshop PETS [Ferryman et Ellis,

17
CHAPITRE 1. BIBLIOGRAPHIE 18

Figure 1.1 – Représentations de l’objet. (a) un point, (b) une boîte englobante rectangulaire,
(c) une boîte englobante rectangulaire orientée, (d) un quadrilatère, (e) un contour.

2010], Challenge MOT [Leal-Taixé et al., 2015]), du suivi d’objets catégorisés (visages, piétons,
véhicules) au suivi d’objets arbitraires, désignés manuellement par l’utilisateur. Dès lors, des
avancées majeures ont contribué à améliorer le suivi sur différents aspects comme une meilleure
caractérisation de l’apparence de l’objet par des caractéristiques images de meilleure capacité
descriptive et, l’intégration des variations d’apparence temporelles par des modèles d’apparence
plus sophistiqués inspirés des techniques d’apprentissage automatique (machine learning).

Objectif du suivi

Le suivi mono-objet consiste à estimer la position d’un objet dans une vidéo (séquence
d’images successives) connaissant sa position dans la première image I0 .
Il existe différentes manières de repérer la position d’un objet dans une image, comme illustrées
dans la figure 1.1. La représentation la plus approximative est un point (figure 1.1a) et la plus
précise est un contour (figure 1.1e). La représentation la plus fréquemment utilisée est une boîte
englobante rectangulaire (figure 1.1b) car c’est une représentation minimale, et aussi parce que
l’on suppose que des algorithmes de segmentation pourront l’isoler de l’arrière-plan. C’est la
représentation que nous utiliserons dans la suite.
Notons B̂0 = (x0 , y0 , w0 , h0 ) la boîte englobante rectangulaire de l’objet dans l’image I0 à
l’instant t = 0, (x0 , y0 ) correspondant aux coordonnées du coin supérieur gauche de la boîte,
w0 à la largeur et h0 à la hauteur. Cette position est connue, c’est la vérité terrain de l’objet à
t = 0. Un algorithme de suivi ou tracker en anglais, a alors pour objectif d’estimer précisément la
position (xt , yt ) et la taille (wt , ht ) de la boîte englobante de l’objet B̂t = (xt , yt , wt , ht ) à chaque
instant t > 0.
CHAPITRE 1. BIBLIOGRAPHIE 19

(a) apparence initiale (b) illumination (c) occultations

(d) variations d’apparence

Figure 1.2 – Difficultés rencontrées lors du suivi d’une camionnette de la base KITTI [Geiger
et al., 2012] à partir de son apparence initiale (a) : illumination (b), occultations (c) et variations
d’apparence (d).

Figure 1.3 – Suivi d’objet quelconque : un sac plastique, un ballon, un poisson, un papillon,
un lapin, un oiseau, un motocycliste et un hélicoptère, provenant de la base VOT2015 [Kristan
et al., 2015a].

Difficultés du suivi

Un certain nombre de facteurs rendent le suivi difficile. Ces facteurs sont liés à :

— l’acquisition : la qualité des images acquises (bruit, résolution, flou), les mouvements de
caméra et les changements d’illumination ;

— la scène : le bruit de contexte (objet mobile, décor changeant, environnement complexe,


contraste faible), les occultations partielles ou totales et les variations d’apparence de
l’objet (réflectance, déformation, changement d’échelle ou de point de vue). Certaines de
ces difficultés sont illustrées dans la figure 1.2.

Une autre difficulté de la tâche de suivi est la nature des objets suivis, ils peuvent être très
variés comme ceux présents dans la figure 1.3. Un bon tracker doit donc être capable de suivre
l’objet quelles que soient les perturbations rencontrées à partir de sa seule apparence initiale
connue.

Formalisation du problème

Pour résoudre le problème du suivi, les trackers exploitent l’apparence de l’objet de manière
dynamique. Le schéma générique de fonctionnement est le suivant (figure 1.4) :
CHAPITRE 1. BIBLIOGRAPHIE 20

𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑖𝑖
𝑖𝑖 𝑖𝑖
𝐵𝐵�𝑡𝑡𝑖𝑖 , 𝑐𝑐𝑡𝑡𝑖𝑖
Tracker i (𝑀𝑀𝑡𝑡−1 , 𝑊𝑊𝑡𝑡−1 )

MAJ modèle et fenêtre


MAJ position

Figure 1.4 – Schéma générique de fonctionnement d’un tracker. Le Tracker i prédit la position
de la cible B̂ti dans l’image It , à l’instant t, à partir de sa position à l’instant précédent B̂t−1
i ,

d’une fenêtre de recherche Wt−1i i


définie par B̂t−1 et de son modèle d’apparence calculé à l’instant
précédent Mt−1 . Un score de confiance ct est associé à la prédiction B̂ti . La position de l’objet,
i i

la fenêtre de recherche et le modèle d’apparence sont mis à jour (MAJ) en utilisant la nouvelle
position.

— Initialisation : le Tracker i construit un modèle d’apparence de l’objet M0i à partir de sa


position B0 à la première image I0 .

— Prédiction : il prédit la position de l’objet B̂ti dans la nouvelle image It à partir de sa


i , d’une fenêtre de recherche W i
position B̂t−1 i
t−1 et du modèle d’apparence Mt−1 construit à

l’instant précédent. Un score de confiance cit qualifiant la qualité de la prédiction B̂ti est
calculé par le modèle.
i
— Mise à jour : il met à jour son modèle Mt−1 → Mti à partir de la nouvelle prédiction B̂ti
pour intégrer les changements d’apparence de l’objet dans le temps.

Les étapes de prédiction et de mise à jour sont répétées dans chaque nouvelle image.

Revues de l’état de l’art

La littérature sur ce sujet est importante pour répondre aux difficultés du suivi. Plusieurs
revues de l’état de l’art ont été publiées et rendent compte des approches de suivi proposées
(catégorisation, comparaison, évaluation).
Pour les citer chronologiquement, [Yilmaz et al., 2006] proposent une classification des
méthodes de suivi en fonction de la représentation d’objet utilisée (correspondance de points,
modèles géométriques et modèles d’évolution de contours) et présentent les méthodes de détection
d’objet existantes. Une discussion est réalisée sur les représentations d’objet, les modèles de
mouvement, l’estimation des paramètres et les avantages et inconvénients des différentes approches
de manière qualitative. [Yang et al., 2011] réalisent un état de l’art sur les différents composants
d’un tracker : descripteurs de caractéristiques, méthodes d’apprentissage en ligne, prise en compte
de l’information de contexte et méthodes d’échantillonnage de Monte-Carlo. [Salti et al., 2012]
focalisent l’étude sur les modèles d’apparence adaptatifs et leur fonctionnement (échantillonnage
et labellisation des exemples d’apprentissage, extraction de caractéristiques, estimation du modèle
et sa mise à jour), et évaluent quantitativement plusieurs d’entre eux. [Wu et al., 2013] évaluent
quantitativement 29 trackers de l’état de l’art sur une base de 50 vidéos. [Li et al., 2013] fournissent
une description très détaillée de tous les modèles d’apparence existant en suivi et discutent de leur
composition (représentation visuelle et modélisation statistique de l’apparence). [Smeulders et al.,
2014] analysent les différents composants principaux d’un tracker (région d’objet, représentation
CHAPITRE 1. BIBLIOGRAPHIE 21

de l’apparence et du mouvement, méthode de localisation de l’objet et mise à jour du modèle) et


réalisent une étude expérimentale sur 19 trackers connus, conçus sur des approches différentes,
en les évaluant sur une base de 315 vidéos (ALOV++).

Grille de lecture proposée L’objectif de notre analyse bibliographique n’est pas de faire
une synthèse des approches de suivi existantes mais d’analyser les spécificités de chacune d’elles
pour les combiner dans un algorithme de fusion. Elle est organisée en trois parties décrivant les
trois principales étapes de fonctionnement d’un tracker générique : modélisation de l’apparence
de l’objet, prédiction de la localisation et mise à jour du modèle. Pour chacune des étapes,
nous exposons et discutons des forces et faiblesses des approches proposées, ce qui va permettre
de cerner les domaines d’emploi des trackers vis à vis des perturbations rencontrées dans les
séquences.
Notre voulons ainsi montrer la diversité des approches mais aussi leur complémentarité pour
résoudre un certain nombre de difficultés.

1.1.1 Modélisation de l’apparence de l’objet

L’apparence de l’objet est la principale information exploitée par les trackers ; sa modélisation
est donc une étape importante pour réussir à suivre l’objet correctement. Il existe une diversité
de représentations d’un objet, chacune étant adaptée à un type de difficulté rencontré en suivi
(nature de l’objet, nature de la scène, qualité d’image, etc.). Nous présentons les principales
représentations utilisées et examinons les avantages et inconvénients de chacune d’elle.

Template Les techniques de mise en correspondance de templates ou recalage d’images [Lucas


et al., 1981] ont trouvé leur application dans de nombreux problèmes de vision, notamment
en suivi d’objet. Le template ou patch rectangulaire contenant les pixels de l’objet (intensité
brute) mais aussi quelques pixels du fond est l’une des représentations les plus utilisées en suivi.
Un nombre important de métriques ont été introduites pour mesurer la similarité entre deux
templates telles que la SSD (somme des différences au carré), la SAD (somme des différences
absolues), la corrélation croisée normalisée NCC [Lewis, 1995] ou sa version centrée ZNCC
[Di Stefano et al., 2005] plus robuste aux changements de luminosité, ou encore l’information
mutuelle. L’intérêt de cette représentation est qu’elle conserve l’information spatiale. Cependant,
elle est peu robuste aux changements d’apparence ou de point de vue puisqu’elle ne représente
qu’une seule vue ou apparence de l’objet, qui de plus est de taille fixe.

Points Une des techniques répandues est le suivi de points d’intérêt extraits de l’objet : points
de Harris [Harris et Stephens, 1988], SIFT [Lowe, 2004], SURF [Bay et al., 2008], etc. Cette
représentation par points hérite des techniques de recalage de la même façon que l’approche
par template. Les points d’intérêt sont invariants à certaines transformations géométriques ou
radiométriques, ce qui rend leur suivi plus robuste. Ils sont répertoriés et discutés dans [Tuytelaars
CHAPITRE 1. BIBLIOGRAPHIE 22

et Mikolajczyk, 2008]. La mise en correspondance des points entre deux images utilise soit une
mesure de similarité des descripteurs locaux de texture (SSD, SAD), soit un flot optique [Shi
et Tomasi, 1994]. Cette représentation par points d’intérêt est adaptée aux objets non rigides
(articulés ou déformables) et texturés en tolérant un certain nombre de déformations de l’objet
dans le plan mais est peu robuste aux occultations, changements d’illumination et variations
importantes de l’apparence de l’objet.
Au lieu de restreindre le suivi aux points d’intérêt, des méthodes réalisent le suivi de tous
les points, par flot optique dense [Lucas et al., 1981], mais présentent les mêmes problèmes
que le suivi de points d’intérêt. Pour répondre à ces difficultés, des contraintes d’apparence
ou de mouvement sont utilisées. [Kalal et al., 2010b] filtrent les mauvaises correspondances de
points en calculant l’erreur de flot optique aller-retour de chaque point ou en calculant un score
de corrélation NCC (proche voisinage) pour chaque paire de points appariés. Le tracker FoT
[Matas et Vojíř, 2011, Vojíř et Matas, 2014] (amélioration de [Kalal et al., 2010b]) impose des
contraintes de mouvement en utilisant une grille de cellules de points pour renforcer la robustesse
de l’estimation de mouvement de l’objet. Pour gérer les occultations et réapparitions de l’objet
dans l’image, [Brox et Malik, 2010] exploitent les trajectoires long-terme des points par flot
optique dense pour permettre un suivi long-terme de l’objet dans la vidéo.
Une autre méthode très utilisée consiste à estimer la meilleure transformation géométrique
(translation, affine, similitude, homographie) de l’ensemble de points entre deux images, par
un algorithme appelé RANSAC (Random Sample Consensus) [Fischler et Bolles, 1981]. Les
paires de points n’observant pas cette transformation sont rejetées. Cependant, ces contraintes
de mouvement empêchent de modéliser les déformations de l’objet. Pour pouvoir modéliser ces
déformations, [Zass et Shashua, 2008] utilisent des hypergraphes pour représenter les relations
géométriques complexes entre les points. CMT [Nebehay et Pflugfelder, 2015] modélise la
déformation de l’ensemble de points par une mesure de dissimilarité géométrique pour classer les
correspondances de points, permettant par ailleurs d’estimer la rotation de l’objet.

Contour et silhouette La représentation de l’objet par son contour et la région interne au


contour appelée « silhouette », est adaptée aux objets déformables. Elle est utilisée en imagerie
médicale, en suivi d’objet ou de membres [Isard et Blake, 1998, Lebeda et al., 2016]. Nous ne
l’exploitons pas dans la suite.

Parties d’objet Une autre approche classique est la représentation par parties [Li et al.,
2015, Xiao et al., 2015]. Cette représentation surpasse la représentation par points car elle exploite
l’apparence de chacune des parties, ainsi que leur configuration géométrique. Un avantage de
la modélisation locale de l’apparence de l’objet est qu’elle est plus précise que la modélisation
globale. Au lieu de calculer un histogramme global, [Adam et al., 2006] fragmentent l’objet en un
ensemble de cellules réparties uniformément dans une grille, chaque cellule étant représentée par
un histogramme.
CHAPITRE 1. BIBLIOGRAPHIE 23

Une des possibilités de la représentation par parties est la sélection des parties d’objet
intéressantes pour le suivi. Dans le cadre de la détection d’objets, [Felzenszwalb et al., 2010]
entraînent des modèles à parties déformables pour différentes catégories d’objet, les parties
correspondent à des régions discriminantes de l’objet (faciles à détecter). [Kwon et Lee, 2013]
disposent d’un ensemble de parties prises aléatoirement sur l’objet et proposent une méthode de
mise à jour de cet ensemble (ajout et suppression de parties) en mesurant la robustesse de chaque
partie définie par son apparence. RPT [Li et al., 2015] exploite un ensemble de parties fiables en
utilisant une métrique construite sur la réponse du tracker pour mesurer cette fiabilité. [Xiao
et al., 2015] segmentent l’objet en « superpixels », régions homogènes et stables, par l’algorithme
de segmentation SLIC [Achanta et al., 2012], pour ne suivre que des régions d’objet et non de
fond.

Représentation éparse Pour pouvoir gérer les occultations de l’objet, [Mei et Ling, 2011]
modélisent l’apparence de l’objet par un ensemble de templates dans lesquels différentes régions
sont masquées afin de simuler les occultations partielles de l’apparence, pouvant survenir lors du
suivi. Cette représentation a été largement utilisée [Mei et al., 2011, Wang et al., 2013].

Histogrammes (Densité de probabilité) L’information contenue dans le template objet


peut être transformée en une densité de probabilité (histogramme, modèle de mélanges) de
certaines caractéristiques locales. A la différence de la représentation par template, cette modélisa-
tion permet d’intégrer plusieurs vues ou apparences de l’objet dans un espace de dimension faible,
plus facile d’exploitation mais ne permet pas la conservation de l’information spatiale. [McKenna
et al., 1999] estiment un modèle paramétrique de mélange de gaussiennes pour représenter la
distribution des couleurs de l’objet dans l’espace HS (teinte-saturation). [Zhang et al., 2012] mo-
délisent les distributions de caractéristiques de Haar appartenant à l’objet et à l’arrière-plan par
des modèles gaussiens. L’intérêt de ces modèles est la possibilité de mettre à jour les paramètres
des distributions dans le temps et donc d’adapter les modèles aux variations d’apparence de
l’objet. [Comaniciu et al., 2000, Allen et al., 2004, Vojir et al., 2014] représentent la distribution
de couleurs de l’objet par un histogramme de couleurs et construisent une métrique basée sur la
distance de Bhattacharyya ρ [Kailath, 1967] pour mesurer la similarité entre deux histogrammes

p et q : ρ(p, q) = m ième
P
u=1 pu qu où pu et qu sont les probabilités de la u classe des histogrammes
p et q. Par ailleurs, une estimation des variations de taille de l’objet est réalisée.

Sous-espace de représentation Certains ont recours à un sous-espace de représentation


de l’objet de dimension plus faible qu’un template et dans l’objectif de représenter plusieurs
vues ou apparences de l’objet. [Black et Jepson, 1998] représentent l’objet dans un espace
propre (eigenspace) à partir d’un ensemble de vues de l’objet. [Ross et al., 2008] utilisent
comme sous-espace de représentation une décomposition en composantes principales (PCA) des
caractéristiques extraites de l’objet pour représenter plusieurs points de vue de l’objet.
CHAPITRE 1. BIBLIOGRAPHIE 24

Caractéristiques visuelles Habituellement extraites d’un template objet, d’une partie d’objet
ou du voisinage d’un point (descripteurs locaux), les caractéristiques visuelles ont été largement
exploitées par les trackers. Elles fournissent une description plus robuste de l’apparence de l’objet
par rapport à l’information d’intensité des pixels. Cette dernière étant sensible à la plupart
des perturbations de l’image (bruit, illumination, réflectance). La plupart des caractéristiques
visuelles sont construites « à la main » et présentées sous forme de vecteur. [Dalal et Triggs,
2005] proposent un histogramme de gradients orientés (HOG) pour caractériser la forme globale
des objets pour la détection de piétons. [Henriques et al., 2015] intègrent ces caractéristiques
dans un filtre de corrélation discriminant. [Viola et al., 2005, Zhang et al., 2012, Hare et al.,
2011, Ahonen et al., 2006] utilisent des caractéristiques de texture telles que les caractéristiques
de Haar ou les motifs binaires locaux (LBP). [Klaser et al., 2008, Zhao et Pietikainen, 2007]
exploitent des caractéristiques spatio-temporelles telles que les HOG3D et DLBP.
Les propriétés recherchées des caractéristiques sont multiples : robustesse face aux changements
d’apparence de l’objet (réflectance, transformation géométrique, déformation, point de vue,
occultation) quel que soit le type d’objet (rigide, déformable, texturé ou peu texturé, etc.), aux
dégradations de l’image (bruit, illumination, floue, mauvaise résolution) et au bruit de contexte
(contraste, similarité entre objet et fond, objets similaires). Cependant, certaines caractéristiques
le sont plus ou moins : les caractéristiques de forme sont moins sensibles aux changements de
luminosité et aux dégradations de l’image, tandis que les caractéristiques de couleur sont moins
sensibles aux transformations géométriques. La plupart des trackers n’utilisent qu’un seul type de
caractéristiques alors qu’elles peuvent être complémentaires, c’est comme cela que [Wang et al.,
2015b] montrent une amélioration des performances de suivi de l’ordre de 20% en combinant des
HOG et des couleurs. La combinaison de caractéristiques offre donc de nombreux avantages mais
toutes les caractéristiques ne sont pas discriminantes. [Grabner et Bischof, 2006] proposent alors
de sélectionner les caractéristiques discriminantes parmi un large répertoire de caractéristiques
simples en utilisant du Boosting, une technique d’apprentissage automatique. [Kwon et Lee,
2013] sélectionnent la caractéristique la plus discriminante pour modéliser l’apparence des parties
d’objet en comparant à la vraisemblance de leur arrière-plan.

Deep features Récemment, l’utilisation des caractéristiques calculées par des réseaux profonds,
appelées deep features, est devenue très populaire. Connus pour leur grande capacité de représen-
tation des objets, les réseaux profonds issus de « l’apprentissage profond » (Deep learning) sont
utilisés comme fournisseurs de caractéristiques pour le suivi d’objet [Wang et Yeung, 2013, Hong
et al., 2015a, Danelljan et al., 2015]. Le réseau est tout d’abord pré-entraîné sur une grande base
d’images, par exemple ImageNet [Russakovsky et al., 2015] (plusieurs millions d’images), puis
utilisé en tant que boîte noire pour fournir les cartes de caractéristiques des images passées en
entrée du réseau. C’est le cas du tracker Deep-SRDCF [Danelljan et al., 2015], deuxième au
classement du challenge VOT2015 (Visual Objet Tracking) [Kristan et al., 2015b], qui exploite les
deep features pour les combiner avec un filtre de corrélation. [Hong et al., 2015a] utilisent le réseau
CHAPITRE 1. BIBLIOGRAPHIE 25

R-CNN [Girshick et al., 2014] pré-entraîné sur la base ImageNet dont l’avant dernière couche
(fully-connected) sert d’extracteur de deep features. Ces caractéristiques alimentent un classifieur
SVM (en anglais Support Vector Machine) en ligne (dernière couche du réseau remplacée par
un SVM) dont l’objectif est d’apprendre les caractéristiques spécifiques à la cible permettant
de discriminer la cible du fond. Cependant, l’information spatiale de localisation de la cible
n’est pas conservée par les deep features à cause des opérations de pooling (groupements de
neurones) qui ont lieu dans différentes couches du réseau. Par conséquent, pour avoir accès à la
localisation spatiale de la cible, l’idée est de générer des cartes de saillance spécifiques à la cible
en rétro-propageant les caractéristiques spécifiques à la cible classées par SVM dans le réseau
jusqu’à la première couche. Cette méthode est inspirée de [Simonyan et al., 2014] qui génèrent
des cartes de saillance spécifiques à une classe d’objet donnée, permettant d’identifier les régions
de l’image saillantes pour cette classe.
Les caractéristiques exploitées dans les réseaux proviennent habituellement des couches
supérieures, et ne sont pas directement adaptées au suivi d’objet car leur fonction est de
renseigner sur la sémantique des objets de l’image. Ils ne permettent donc pas de discriminer
un objet en particulier parmi d’autres objets similaires. Pour remédier à ce problème, [Wang
et al., 2015a, Qi et al., 2016] cherchent à exploiter les caractéristiques des couches intermédiaires
pour le suivi d’objet. [Wang et al., 2015a] utilisent le réseau VGG à 16 couches de [Simonyan et
Zisserman, 2014] pré-entraîné sur ImageNet et exploitent les propriétés complémentaires d’une
couche profonde et d’une couche moins profonde du réseau pour localiser la position de l’objet.
La plus profonde fournit des caractéristiques sémantiques (objets de même classe) tandis que
la moins profonde fournit des caractéristiques plus précises de la cible pour la discriminer des
objets de même classe. Par ailleurs, ils observent que toutes les cartes de caractéristiques ne sont
pas utiles pour discriminer l’objet, une méthode de sélection des cartes sur ces deux couches est
proposée. [Qi et al., 2016] exploitent les cartes de caractéristiques de différentes couches du réseau
pré-entraîné VGG [Simonyan et Zisserman, 2014], chaque carte étant utilisée pour apprendre un
filtre de corrélation. La cible est localisée en réalisant une somme pondérées des réponses des
filtres.

Classifieur/modèle discriminant L’idée est d’exploiter directement un classifieur fond/forme


capable de discriminer l’objet du fond. Le fond doit donc être caractérisé. Le classifieur est obtenu
en utilisant des techniques d’apprentissage automatique telles que le Boosting [Grabner et al.,
2006, Babenko et al., 2009], les forêts aléatoires [Ozuysal et al., 2010, Kalal et al., 2012], les
machines à vecteurs de support (SVM) [Avidan, 2004, Hare et al., 2011], les filtres de corrélation
discriminants [Bolme et al., 2010, Danelljan et al., 2014, Henriques et al., 2015] ou les réseaux de
neurones [Nam et Han, 2015], mais avec une dimension « en ligne », c’est-à-dire avec une mise à
jour du classifieur à chaque instant.
L’approche de suivi par classifieur a été largement adoptée par la communauté ces dernières
années grâce aux avancées des travaux en apprentissage automatique. Souvent apparentée à de
CHAPITRE 1. BIBLIOGRAPHIE 26

la détection d’objets dans une image par fenêtre glissante, elle est appelée Track-by-detection.
La première image sert à initialiser le classifieur en prenant comme exemple positif la position
de l’objet et comme exemples négatifs les positions contenant du fond. Les images suivantes
servent à entraîner le classifieur en ligne. L’intérêt de cette approche est d’améliorer la robustesse
de suivi en intégrant à la fois les apparences de l’objet et les informations de contexte dans le
modèle, de manière dynamique. Plusieurs problèmes se posent : la construction d’un détecteur
objet-fond, la mise à jour incrémentale du modèle et la gestion des exemples positifs et négatifs
dans le modèle du fait qu’ils sont bruités.

Combinaison de plusieurs représentations En fonction de la nature de l’objet (déformable


ou rigide), du contexte (fort ou faible contraste) et des perturbations de l’image (niveau de bruit),
certaines représentations d’apparence sont plus adaptées que d’autres. Les trackers suivants
cherchent à exploiter leur complémentarité. LGT [Čehovin et al., 2011] combine un modèle
d’apparence globale et des modèles d’apparence locale de parties d’objet pour une représentation
plus robuste. [Xiao et al., 2015] construisent un tracker robuste aux déformations de l’objet et
aux occultations en exploitant trois niveaux de représentation de l’objet (pixel, partie et boîte).
Les parties d’objet sont formées de superpixels de l’objet contenant uniquement l’objet, sans le
fond. Leur regroupement est réalisé par un arbre de décision adaptatif qui sert ensuite à suivre les
parties d’une image à l’autre. A chaque partie est associée un histogramme de caractéristiques de
couleurs et de mouvement. L’apparence globale de l’objet est modélisée par deux histogrammes
de caractéristiques de couleurs et de mouvement, l’un pour l’objet et l’autre pour l’arrière-plan.
Le dernier niveau de représentation associe à chaque pixel individuel son intensité RBG et une
vraisemblance calculée à partir de l’apparence globale.

1.1.2 Localisation de l’objet

Estimer la meilleure localisation de l’objet dans chaque image (position, taille et parfois, angle
et pose), soulève le problème du coût de calcul nécessaire pour le réaliser. Pour cela, différentes
approches ont été utilisées pour estimer la position ou l’état de l’objet.

Méthodes d’optimisation Le problème de suivi est formulé sous la forme d’une optimisation
de fonction différentiable par rapport à la variable position et où l’estimation de position de
l’objet est résolue par une descente de gradient, comme c’est le cas du flot optique [Lucas et al.,
1981] ou de l’algorithme Meanshift [Comaniciu et al., 2000]. Le flot optique estime le déplacement
2D d’un pixel d’une image à l’autre en imposant une contrainte de conservation d’intensité
de celui-ci. Cette estimation peut être rendue plus robuste éventuellement par des contraintes
supplémentaires d’intensité ou géométriques de déplacement [Kalal et al., 2010b, Matas et Vojíř,
2011].
Le Meanshift [Comaniciu et al., 2000] est une procédure itérative de recherche du maximum
d’une densité de probabilité où la position estimée de l’objet est déplacée vers un centre de
CHAPITRE 1. BIBLIOGRAPHIE 27

gravité local jusqu’à convergence. CamShift (Continuously Adaptive Mean Shift) [Allen et al.,
2004] est une extension du Meanshift avec une adaptation de taille de la fenêtre. Cependant,
un des risques classiques présents dans ces méthodes d’optimisation est la convergence vers un
minimum local qui ne soit pas la position réelle de l’objet, i.e. minimum le plus proche de la
position initiale. Ces méthodes ne sont donc pas adaptées aux grands déplacements de l’objet.

Filtrage de Kalman Une autre stratégie de recherche est d’utiliser un modèle de mouvement
pour restreindre l’espace de recherche de l’objet, notamment un filtre de Kalman [Kalman, 1960].
Celui-ci réalise la prédiction d’état de l’objet (localisation) en supposant que l’état de l’objet est
normalement distribué (gaussien) et le modèle de mouvement linéaire (par exemple, un modèle à
vitesse constante [Čehovin et al., 2011]). Cette prédiction est réalisée en deux temps : une étape
de prédiction puis de correction de l’état. L’étape de prédiction est assurée par le modèle de
mouvement linéaire calculé à l’instant précédent Mt−1 . L’étape de correction corrige la prédiction
d’état en utilisant l’écart entre l’observation prédite (modèle) et l’observation courante (par
exemple issue de la détection). A l’origine conçu pour le suivi de points (radar), le filtre de Kalman
linéaire est peu adapté au suivi d’objets dans des vidéos. En effet, ces derniers suivent difficilement
un modèle de mouvement linéaire (changement brusque de direction, mouvement de caméra).
Des modèles de mouvement plus complexes ont été développés mais l’apparence de l’objet y
est peu exploitée : EKF (Extended Kalman Filter) [Julier et Uhlmann, 2004], UKF (Unscented
Kalman Filter) [Julier et Uhlmann, 1997], IMM (Interacting Multiple Model) [Bar-Shalom et al.,
2004], etc.

Échantillonnage stochastique Le filtrage particulaire (ou méthodes de Monte-Carlo séquen-


tielles) [Gordon et al., 1993, Kitagawa, 1996] est une solution aux limitations du filtre de Kalman.
La variable d’état n’est plus décrite par une gaussienne et le modèle de mouvement utilisé est
non linéaire (plus de contraintes). Un modèle d’apparence de l’objet est exploité. L’objectif
est d’approximer la distribution de filtrage de l’état à partir de N particules échantillonnées
aléatoirement dans l’espace d’état. Chaque particule simule une trajectoire possible de l’objet,
l’importance de chacune d’elle dépend de la vraisemblance observée (relative au modèle d’appa-
rence). Le filtrage particulaire est largement utilisé en suivi mono-objet et multi-objets [Ross
et al., 2008, Kwon et Lee, 2011, Penne et al., 2013]. Son coût de calcul dépend du nombre de
particules utilisées. Il est adapté aux trajectoires complexes des objets et aux occultations, par
exemple deux piétons se croisant.

Échantillonnage dense La plupart des trackers contemporains n’utilisent pas de modèle de


mouvement, afin de pouvoir considérer tous les déplacements possibles de l’objet. Ils recherchent
l’objet par l’apparence en tenant compte de la variabilité de celle-ci en maximisant un score
de confiance ou de prédiction calculé par le modèle dans l’espace de recherche échantillonné de
manière dense : corrélation [Lewis, 1995], vraisemblance [Zhang et al., 2012], classification [Hare
CHAPITRE 1. BIBLIOGRAPHIE 28

et al., 2011], détection [Kalal et al., 2012], etc. C’est le cas des approches de suivi basées sur la
correspondance de template ou de type Track-by-detection. Cet espace de recherche peut être
toute l’image (recherche exhaustive), ce qui implique un coût de calcul élevé mais s’avère utile
lorsque la cible effectue de grands déplacements dans l’image. Il répond aussi à des problématiques
de ré-identification de la cible lorsqu’elle est perdue pendant plusieurs images et que l’on cherche
à le ré-identifier dans les images suivantes. Le détecteur du TLD remplit cette fonction [Kalal
et al., 2012].
Pour réduire le coût de calcul, la plupart des trackers font l’hypothèse que les déplacements
de l’objet sont faibles d’une image à l’autre et recherchent l’objet dans une fenêtre locale
(recherche locale) de manière uniforme ou gaussienne autour de la position précédente de l’objet.
Pour une localisation plus précise, la recherche multi-échelles permet d’adapter les variations
de taille de l’objet. C’est le cas par exemple des filtres de corrélation discriminants [Danelljan
et al., 2014, Henriques et al., 2015]. Ceux-ci ont connu une forte popularité ces dernières années
pour répondre aux problématiques du suivi d’objet, en modélisant l’apparence de l’objet par
un filtre de caractéristiques dans le domaine des fréquences spatiales. Ils permettent de calculer
facilement les corrélations pour une population de déplacements (fenêtres candidates), de l’ordre
de la centaine d’images par seconde. Nous présenterons en détails un algorithme de cette famille,
le tracker DSST [Danelljan et al., 2014] dans la section 2.2.6.
D’autres paramètres peuvent être intégrés dans la recherche telle que l’orientation de l’objet
[Yilmaz, 2007, Hua et al., 2015].

1.1.3 Mise à jour du modèle d’apparence

Un des points centraux du suivi d’objet est la capacité des trackers à s’adapter aux variations
d’apparence de l’objet en mettant à jour leur modèle d’apparence. Évidemment, la façon dont
cette mise à jour est réalisée est cruciale et peut entraîner la dérive du tracker lorsque de mauvaises
mises à jour sont introduites dans le modèle. Deux problématiques s’articulent donc autour de ce
sujet :

— Comment mettre à jour le modèle ? (techniques de mise à jour en ligne, choix des exemples
d’apprentissage, labellisation)

— Quand effectuer la mise à jour ? A quelle fréquence ? Comment décider qu’une mise à jour
est bonne ou mauvaise ?

Les trackers élémentaires réalisant la correspondance de template [Lewis, 1995] ou d’histo-


grammes [Comaniciu et al., 2000, Vojir et al., 2013] ne disposent pas de mise à jour de leur
modèle, leur modèle est dit « statique » :

Mt = Mt−1 (1.1)
CHAPITRE 1. BIBLIOGRAPHIE 29

où Mt est le modèle d’apparence de l’objet à l’instant t et est construit uniquement à partir de


l’apparence initiale de l’objet. La constance du modèle évite les mauvaises mises à jour, cependant
le suivi long-terme de l’objet ne peut être assuré dès lors que l’apparence change de manière très
importante. La plupart des trackers modernes disposent donc d’une politique d’adaptation de
leur modèle d’apparence.

Mécanisme de mise à jour

Processus dynamiques d’ordre 1 Une manière naïve de réaliser cette mise à jour est de
remplacer le modèle précédent par le modèle courant :

Mt−1 ← Mt (1.2)

C’est le cas du suivi de points par flot optique dans [Kalal et al., 2010b] où à chaque instant la
grille de points est réinitialisée à partir de la nouvelle prédiction.
[Matthews et al., 2004] proposent une alternative à la méthode naïve pour l’adaptation du
modèle par correspondance de template incorporant le template original T1 :

Mt = f (Tt , T1 ) (1.3)

où Tt est le template issu de la prédiction courante.


Une autre stratégie de mise à jour consiste à contrôler la vitesse d’adaptation de leur modèle
par un pas d’apprentissage λ. A chaque instant t, le nouveau modèle Mt est obtenu par une
somme pondérée de la nouvelle apparence At et du modèle passé Mt−1 :

Mt = λAt + (1 − λ)Mt−1 (1.4)

C’est le cas du tracker IVT [Ross et al., 2008], qui réalise l’apprentissage incrémental d’un
sous-espace de représentation de l’objet (PCA) et adapte le modèle en intégrant la nouvelle
apparence de l’objet avec un facteur d’oubli sur les apparences passées de l’objet. L’inconvénient
d’une telle approche est que la nouvelle apparence est intégrée au modèle sans contrôle, ce qui
peut facilement conduire à une dérive du modèle. De plus, un aspect important de la mise à jour
concerne le choix des exemples utilisés dans la mise à jour et leur labellisation. Pour ces trois
derniers trackers [Kalal et al., 2010b, Matthews et al., 2004, Ross et al., 2008], la localisation
de l’objet est le seul exemple positif utilisé pour la mise à jour de leur modèle. Cette méthode
est clairement peu robuste en particulier lorsque la localisation de l’objet est imprécise. Pour
éviter ce problème, [Kim et al., 2008] réalisent le suivi de visages en ajoutant des contraintes de
variations d’apparence du visage (pose, alignement) pour empêcher l’adaptation du modèle à des
apparences candidates qui ne sont pas des visages. Ces contraintes sont apprises hors ligne à
partir de connaissances a priori. Les apparences candidates sont pondérées en fonction de leur
CHAPITRE 1. BIBLIOGRAPHIE 30

pose et de leur alignement, ce qui permet de rejeter les candidates mal-alignées par exemple.
Toutefois, ce procédé ne peut s’appliquer au suivi d’objet quelconque.

Apprentissage en ligne du contexte par un processus d’ordre 1 D’autres trackers


exploitent l’information de contexte pour être plus robustes à la dérive, par exemple en construisant
un modèle de fond [Zhang et al., 2012] ou un modèle discriminant [Henriques et al., 2015, Danelljan
et al., 2014, Ma et al., 2015]. Leur mécanisme de mise à jour s’apparente à celui de [Ross et al.,
2008], i.e. en utilisant un pas d’apprentissage λ. [Zhang et al., 2012] génèrent des exemples positifs
et négatifs à partir de la prédiction (position de l’objet) pour mettre à jour les modèles d’objet
et de fond respectivement. Les exemples positifs labellisés à 1 sont sélectionnés dans un rayon
faible α autour de la prédiction, et les exemples négatifs labellisés à −1 sont sélectionnés sur une
couronne externe α < c < β. Cette labellisation binaire des exemples {−1, 1} permet d’intégrer
une variation de l’apparence de l’objet autour de la position prédite (plusieurs instances labellisées
à 1) mais conduit souvent à une confusion du modèle et une mauvaise discrimination de l’objet
par rapport à son contexte. En revanche, les filtres de corrélation discriminants sont plus précis
[Henriques et al., 2015, Danelljan et al., 2014, Ma et al., 2015] en utilisant une régression : les
exemples sont labellisés entre [0, 1]. Les exemples d’entraînement sont présentés sous la forme
d’une matrice circulante [Henriques et al., 2012], centrée sur la position de l’objet : les exemples
d’entraînement sont générés par translation dense autour de cette position et labellisés avec les
valeurs d’une gaussienne centrée sur cette position. De plus, [Danelljan et al., 2014, Ma et al.,
2015] comportent une étape d’estimation d’échelle permettant une localisation précise de l’objet
et donc permettent une meilleure robustesse à la dérive.

Classifieurs appris en ligne Les trackers inspirés des techniques d’apprentissage automatique
(Boosting, forêts aléatoires, SVM, réseaux de neurones) adaptent les classifieurs hors ligne en
classifieurs en ligne. [Grabner et al., 2006] présentent un version en ligne de l’algorithme AdaBoost
(Adaptive Boosting) [Grabner et Bischof, 2006] pour le suivi d’objet. [Hare et al., 2011] utilisent
une méthode d’optimisation [Platt, 1999, Bordes et al., 2007, Bordes et al., 2008] pour entraîner
en ligne un classifieur SVM sur des données à labels structurés. Cette méthode permet la mise
à jour des vecteurs de support tenant compte des nouveaux exemples d’apprentissage sans
avoir à ré-entraîner le classifieur sur tous les exemples existants. Dans beaucoup de cas, les
classifieurs sont utilisés à la fois pour prédire la position de l’objet et pour générer les exemples
d’entraînement, une imprécision du classifieur peut alors entraîner des erreurs de labellisation
des exemples.

Labellisation robuste des exemples d’apprentissage Pour rendre les classifieurs plus
robustes aux erreurs de labellisation, différentes approches de labellisation ont été développées.
Au lieu de suivre un apprentissage classique avec un label par exemple d’apprentissage, [Babenko
et al., 2009] entraînent leur classifieur sur des ensembles d’exemples labellisés positifs lorsqu’ils
CHAPITRE 1. BIBLIOGRAPHIE 31

contiennent au moins un exemple positif sinon négatif. [Grabner et al., 2008] utilisent un a priori
(externe) pour mettre à jour leur classifieur en ligne. [Kalal et al., 2012] utilisent des contraintes
spatiales pour labelliser les exemples d’apprentissage destinés à mettre à jour le détecteur d’objet
[Kalal et al., 2010a] : à chaque image, le détecteur produit un certain nombre de détections, or une
seule contient l’objet, toutes les autres sont des fausses détections. Un évaluateur externe (expert
P-N) détermine les exemples mal-classés du détecteur (fausses détections) par des contraintes
spatiales (position de l’objet), qui sont alors utilisés pour entraîner le détecteur.

Gestion en ligne des exemples d’apprentissage Les techniques d’apprentissage automa-


tique soulèvent également un problème de gestion des exemples d’apprentissage présents dans le
modèle qui peuvent impacter sur la précision du classifieur et la rapidité de calcul. Pour résoudre
ce problème, [Hare et al., 2011] incorporent un budget limité dans l’apprentissage en ligne d’un
classifieur SVM et proposent une approche pour gérer l’ajout et la suppression des vecteurs de
support du classifieur.

Deep Learning L’apprentissage en ligne des réseaux profonds avec ou sans pré-entraînement
sur une autre base est confronté au phénomène de surapprentissage (overfitting), dû au faible
nombre d’exemples d’apprentissage rencontrés au cours du suivi de l’objet. Pour adapter un réseau
pré-entraîné à un nouveau problème de vision, une technique très employée est d’ajouter des
couches d’adaptation en sortie du réseau pré-appris d’extraction de caractéristiques et prenant en
entrée les caractéristiques du réseau. Seules les couches d’adaptation sont entraînées en ligne. Pour
éviter le surapprentissage de cette nouvelle structure, [Wang et al., 2016] entraînent un réseau
convolutif (CNN) par une méthode d’apprentissage séquentiel. [Nam et Han, 2015] proposent le
réseau MDNet (Multi-Domain) basé sur l’apprentissage de représentations multi-domaines pour
le suivi d’objet (un domaine correspond à une séquence vidéo). Le réseau est pré-entraîné sur une
large base de vidéos de suivi, les dernières couches (fully-connected) et des couches spécifiques au
domaine sont entraînées en ligne afin de s’adapter au nouveau domaine.

Mécanisme de censure

Les trackers suivants mettent en place un mécanisme de censure qui empêche la mise à jour
de leur modèle lorsque certaines conditions ne sont pas satisfaites. Ces conditions sont pour la
plupart basées sur des hypothèses de mouvement ou de changement d’apparence. [Supancic et
Ramanan, 2013] sélectionnent les bonnes images à apprendre parmi les images précédentes pour
faire l’apprentissage de leur modèle. Cette sélection est utile notamment lors d’occultations. [Mei
et al., 2011] détectent une occultation à partir de l’erreur de reconstruction de l’observation par
rapport au modèle, cette erreur est basée sur une minimisation `1 . Le modèle n’est pas mis à
jour pendant les 5 prochaines images suivant la détection d’occultation. De la même manière,
[Zhong et al., 2012] calculent une carte d’occultation de l’image basée sur une mesure d’erreur de
reconstruction par rapport au modèle et décident la mise à jour du modèle lorsque les occultations
CHAPITRE 1. BIBLIOGRAPHIE 32

présentes sur la carte sont faibles. [Kalal et al., 2012] autorisent l’apprentissage du détecteur
lorsque celui-ci fournit une réponse fiable, déterminée par un évaluateur extérieur construit sur
un modèle d’apparence différent de celui du détecteur.

Combinaison stabilité-adaptabilité

L’adaptation pose un problème en suivi, appelé « dilemme de la stabilité-plasticité » [Grossberg,


1987] à cause de l’instabilité du modèle due à l’adaptation. Pour assurer à la fois une stabilité et
une plasticité du modèle, PROST [Santner et al., 2010] combine trois trackers à différents degrés
d’adaptabilité. TLD [Kalal et al., 2012] utilise une fonction de redétection long-terme combinée
à une fonction de suivi à très court-terme. MEEM [Zhang et al., 2014a] conserve les modèles
d’apparence des instants précédents pour permettre de revenir en arrière lorsqu’une mauvaise
mise à jour a été effectuée. MUSTer [Hong et al., 2015b] est un tracker bio-inspiré à deux modèles,
l’un a une mémoire à court-terme et l’autre une mémoire à long-terme. La mémoire à long-terme
s’assure de la stabilité de l’information délivrée par la mémoire à court-terme (par exemple
répétition) avant de la stocker. LGT [Čehovin et al., 2011] utilise un modèle à deux couches
couplées, une couche globale (modèle d’apparence globale de l’objet) et une locale (ensemble de
parties visuelles de l’objet), l’adaptation de la couche globale est contrainte par la stabilité de la
couche locale.

1.1.4 Évaluation qualitative des approches

Nous avons évalué qualitativement 34 approches de suivi suivant différentes perturbations


visuelles à partir d’une analyse de leur composition structurelle. Les résultats de cette évaluation
sont présentés dans le tableau 1.1. Les approches ont été examinées sous plusieurs aspects :
la représentation de l’apparence de l’objet (Représentation), la méthode utilisée pour localiser
l’objet (Méthode), la stratégie de recherche utilisée (Rech), la mise à jour du modèle (Maj),
l’estimation d’échelle (Ech) ou de rotation (Rot) de l’objet. Les cinq perturbations visuelles
traitées sont les suivantes : changements d’apparence de l’objet (App), bruit lié au contexte
(Cont), mouvements de l’objet ou de la caméra (Mvt), illumination (Ill) et occultations de l’objet
(Occ). La composition structurelle des approches donnent des informations sur leur capacité à
gérer ces perturbations.

Composition des approches de suivi

Pour les différentes approches, nous indiquons les différentes représentations d’apparence,
méthodes de comparaison et de recherche de l’objet utilisées. Nous indiquons aussi la présence
(3) ou l’absence (7) de mise à jour du modèle, d’estimation d’échelle et de rotation.

Représentation de l’apparence Les approches étudiées utilisent diverses manières de repré-


senter l’apparence de l’objet, par un template (Templ), un ensemble de points (Points) ou de
CHAPITRE 1. BIBLIOGRAPHIE 33

points d’intérêt (KeyPoints), des patchs locaux (Patch) ou encore des superpixels (Superpixels).
Certaines approches calculent un histogramme global sur la boîte englobante (HistoG) ou des
histogrammes locaux sur des patchs de l’objet (HistoL), d’autres combinent des histogrammes
globaux et locaux (HistoGL). Les histogrammes mesurent différentes quantités (intensité, cou-
leurs, orientation). L’apparence peut être représentée dans un sous-espace de représentation
(espace propre, PCA). Certains exploitent seulement l’intensité brute des pixels (Int). Plusieurs
espaces de couleurs ont été exploités : RGB, HSV (en anglais Hue Saturation Value), HS (Hue
Saturation) ou Lab. D’autres calculent des caractéristiques plus complexes de l’image telles que
les caractéristiques de texture (Haar, LBP) ou de forme (HOG, PCA-HOG [Felzenszwalb et al.,
2010]), ou encore les caractéristiques des réseaux convolutifs (DeepF). Les approches utilisent soit
un modèle génératif (MG), soit un modèle discriminant (MD) ou combinent les deux modèles
(MGD). Les approches à modèle génératif cherchent à calculer une vraisemblance ou probabilité
a posteriori à partir de l’apparence et localisent l’objet en maximisant cette vraisemblance.

Méthode Il existe différentes méthodes pour déterminer si une région de l’image contient
l’objet. Une première série de méthodes cherchent à comparer la région au modèle d’apparence de
l’objet en utilisant des mesures de similarité (Simil) telles que la corrélation (Corr), une somme
des différences au carré (SSD), ou une dissimilarité géométrique (Géom). Les modèles génératifs
utilisent une vraisemblance (L). Les autres approches utilisent des techniques d’apprentissage
automatique telles qu’un arbre de décision (Arbre), des forêts aléatoires ou variantes de même
type (FA), du Boosting (Boost), un SVM linéaire ou structuré (SVM, SVM str), un filtre de
corrélation (FC) ou des réseaux convolutifs (CNN).

Stratégie de recherche La plupart des approches recherchent l’objet en réalisant un échan-


tillonnage dense de la zone de recherche (Ds). Certaines utilisent des techniques d’optimisation
telles que le flot optique (Fl), le Meanshift (Ms) ou d’autres plus spécifiques (Opt). D’autres
utilisent un modèle de mouvement linéaire associé à un bruit gaussien (Linéaire), un filtre de
Kalman (FK), un filtre particulaire (FP) ou des méthodes de Monte-Carlo par chaînes de Markov
(MCMC).

Perturbations visuelles

Les approches sont notées par des (+) en fonction de leur capacité à gérer les changements
d’apparence. (+++) signifie une grande capacité de gestion des changements d’apparence. Pour
les perturbations liées au contexte, au mouvement, à l’illumination et aux occultations, nous
indiquons pour les différentes approches la prise en compte de ces perturbations (3ou 7).

Changements d’apparence Les changements d’apparence de l’objet sont nombreux (défor-


mation, changement d’échelle, de point de vue, etc.). Certains trackers sont capables de gérer
les déformations de l’objet (D). Les approches disposant d’un mécanisme de mise à jour de leur
CHAPITRE 1. BIBLIOGRAPHIE 34

modèle (Maj) sont capables de s’adapter aux variations d’apparence de l’objet, contrairement aux
approches à modèle statique. La représentation de l’apparence de l’objet joue également un rôle
important, certaines représentations sont plus robustes que d’autres pour certains changements
d’apparence (caractéristiques plus robustes qu’un template). Les réseaux de neurones offrent une
grande capacité de représentation des objets via les deep features, pouvant décrire les différents
types de changement d’apparence ayant eu lieu.

Contexte L’information de contexte est prise en compte dans les trackers à modèle discriminant.
Pour les trackers à modèle génératif, certains modélisent le contexte en complément de la
modélisation objet.

Mouvement de l’objet et de la caméra La capacité à estimer les déplacements importants


de l’objet dans l’image dépend en grande partie de la stratégie de recherche utilisée. Les méthodes
exploitant les champs de mouvement (flot optique, Meanshift) conviennent aux déplacements
faibles (F). La recherche de l’objet dans l’image entière permet de gérer les grands mouvements
(3). Cependant, pour beaucoup de trackers, la capacité à gérer des déplacements grands dépend
de l’espace de recherche ou de la taille de la fenêtre de recherche de l’objet (R) comme c’est le
cas des méthodes à échantillonnage dense ou à filtre particulaire.

Illumination Une représentation de l’apparence adaptée permet d’être robuste vis à vis des
changements d’intensité importants dans l’image. Par exemple en utilisant des caractéristiques
invariantes aux changements d’intensité telles que les caractéristiques de forme moins sensibles.
Les deep features ont également l’avantage de présenter un très large choix de caractéristiques
parmi lesquelles certaines sont invariantes à l’illumination.

Occultations La capacité à localiser un objet après une occultation dépend de plusieurs para-
mètres : la fenêtre de recherche utilisée et le mécanisme de mise à jour du modèle. Tout d’abord,
lorsque l’objet réapparaît après une occultation en s’étant déplacé, la fenêtre de recherche doit
être suffisamment large pour pouvoir le capturer. Certains trackers traitent l’image entière pour
pouvoir redétecter l’objet après une occultation totale (3), par exemple en faisant passer un
détecteur sur toute l’image, ou en calculant des deep features sur l’image entière. Les trackers
disposant d’un mécanisme de mise à jour incrémental (à toutes les images) sont capables de
détecter l’objet lors d’une occultation partielle (P), mais introduisent des erreurs lors de l’appren-
tissage, ce qui peut mener à une dérive du modèle. Les trackers disposant d’un mécanisme de
censure de la mise à jour ou contrôlant les exemples d’apprentissage sont davantage robustes aux
occultations partielles ou totales (3). Les trackers combinant plusieurs niveaux de représentation
de l’apparence (pixels, superpixels, patchs locaux, apparence globale) tolèrent les occultations en
filtrant les régions occultées.
CHAPITRE 1. BIBLIOGRAPHIE 35

Globalement, plusieurs trackers se démarquent : TLD [Kalal et al., 2012] est robuste aux
grands mouvements de caméra ou de l’objet. DSST [Danelljan et al., 2014] est robuste aux
changements d’échelle de l’objet. Les trackers utilisant des deep features tels que Deep-SRDCF
[Danelljan et al., 2015], [Hong et al., 2015a] et MDNet [Nam et Han, 2015] possèdent les propriétés
leur permettant d’être robuste à l’ensemble des perturbations. Les trackers capables de modéliser
les déformations de l’objet LGT [Čehovin et al., 2011] et [Xiao et al., 2015], ont une forte capacité
d’adaptation aux changements d’apparence et à l’environnement.
Nous pouvons espérer une complémentarité des trackers pour les différentes perturbations en
combinant leurs points forts.

1.2 Évaluation des trackers

Le suivi d’objet produit chaque année un nombre considérable d’études, souvent accompagnées
de nouveaux benchmarks et métriques d’évaluation, comme l’étude menée par [Smeulders et al.,
2014] sur la base ALOV++ réalisant l’évaluation de 19 trackers sur 315 vidéos, ou encore le
benchmark The Online Object Tracking Benchmark (OTB) de [Wu et al., 2013] évaluant 29
trackers sur 50 vidéos.
Un benchmark de suivi d’objet constitue sa propre base de vidéos d’objets à suivre, des
métriques de performance sur lesquels les trackers sont évalués, et un protocole d’évaluation des
trackers qui décrit précisément les expériences auxquelles les trackers sont soumis, évalués et
classés. Une des actions récentes d’envergure est le challenge VOT 1 (Visual Object Tracking),
organisé en conjonction avec ICCV/ECCV tous les ans depuis 2013 et dont nous nous intéresserons
de plus près dans cette partie.

1.2.1 Bases de vidéos pour le suivi d’objet

Jusque dans les années 2010, un tracker était expérimentalement évalué sur un nombre
restreint de vidéos (5 ∼ 10 vidéos choisies par l’auteur) et selon des métriques d’évaluation
propres à l’auteur. Une telle évaluation est insuffisante pour mesurer les forces et faiblesses de
chacun des trackers pour les nombreux phénomènes existants en suivi d’objet (illumination,
occultation, variations d’apparence, etc.).
Il existe plusieurs bases connues, créées dans le cadre de la vidéo-surveillance et de la détection
d’événements telles que VIVID 2 [Collins et al., 2005], CAVIAR 3 et PETS [Ferryman et Ellis,
2010] mais les catégories d’objets d’intérêt sont assez restreintes (piétons, véhicules) et l’arrière-
plan est statique. CVBASE 4 est destinée à l’analyse d’événements sportifs et FERET 5 [Phillips
1. http://www.votchallenge.net/
2. http://vision.cse.psu.edu/data/vividEval/datasets/datasets.html
3. http://homepages.inf.ed.ac.uk/rbf/CAVIAR/
4. http://vision.fe.uni-lj.si/cvbase06/
5. http://www.itl.nist.gov/iad/humanid/feret/feret_master.html
Composition Perturbations
Représentation Méthode Rech Maj Ech Rot App Cont Mvt Ill Occ
NCC [Lewis, 1995] Templ,Int Corr Ds 7 7 7 + 7 3 7 7
[Matthews et al., 2004] Templ,Int SSD Ds 3 7 7 + 7 3 7 7
KLT [Kalal et al., 2010b] Points,Int Fl 3 3 7 + 7 F 7 7
TLD [Kalal et al., 2012] Points,Templ,Int,LBP FA Fl,Ds 3 3 7 +++ 3 3 7 3
FoT [Matas et Vojíř, 2011] Points,Int Fl 3 3 7 + 7 F 7 7
[Zass et Shashua, 2008] Points,Hypergraphes Opt 7 3 3 D++ 7 3 7 7
CMT [Nebehay et Pflugfelder, 2015] KeyPoints Géom Fl 3 3 3 D++ 7 F 7 P
[Mei et Ling, 2011] Templ épars,MG FP,Opt 3 3 3 D+ 7 R 7 P
[Mei et al., 2011] Templ L FP,Opt 3 7 7 + 7 R 7 3
[Supancic et Ramanan, 2013] Templ HOG,MGD SVM Ds 3 7 7 ++ 3 R 3 3
MST [Comaniciu et al., 2000] HistoG RGB Ms 7 7 7 + 7 F 7 7
CHAPITRE 1. BIBLIOGRAPHIE

Camshift [Allen et al., 2004] HistoG RGB Ms 7 3 7 ++ 7 F 7 7


ASMS [Vojir et al., 2014] HistoG RGB Ms 7 3 7 ++ 3 F 7 7
IVT [Ross et al., 2008] PCA global,MG L FP 3 3 3 ++ 7 R 3 P
EigenTrack [Black et Jepson, 1998] Templ,Espace propre,MG Fl,Opt 3 3 3 ++ 7 F 7 7
CT [Zhang et al., 2012] Haar,MG L Ds 3 7 7 ++ 3 R 7 P
STRUCK [Hare et al., 2011] Haar,MD SVM str Ds 3 7 7 +++ 3 R 7 3
Boosting [Grabner et al., 2006] Haar,LBP,Orientation,MD Boost Ds 3 7 7 +++ 3 R 3 P
MILTrack [Babenko et al., 2009] Haar,MD Boost Ds 3 7 7 +++ 3 R 7 3
KCF [Henriques et al., 2015] PCA-HOG,MD FC Ds 3 7 7 +++ 3 R 3 P
DSST [Danelljan et al., 2014] PCA-HOG,MD FC Ds 3 3 7 +++ 3 R 3 P
Deep-SRDCF [Danelljan et al., 2015] DeepF,MD FC Ds 3 3 7 ++++ 3 R 3 3
[Hong et al., 2015a] DeepF,Cartes de saillance SVM,L Linéaire 3 7 7 ++++ 3 3 3 3
MDNet [Nam et Han, 2015] DeepF,MD CNN 3 3 7 ++++ 3 3 3 3
FRT [Adam et al., 2006] HistoL Int Simil Ds 7 3 7 ++ 7 3 7 P
RPT [Li et al., 2015] Patch L FP 3 3 7 ++ 7 R 7 P
LGT [Čehovin et al., 2011] Patch,HistoGL,HSV,Forme L Fl,FK 3 3 3 D++ 3 R 3 3
[Xiao et al., 2015] Points,Superpixels,HistoG Arbre Ds 3 3 3 D+++ 3 3 7 3
PROST [Santner et al., 2010] Templ,Points Corr,FA Ds,Fl,Ms 3 7 7 ++ 7 R 7 3
MEEM [Zhang et al., 2014a] Lab,Sous-espace SVM Ds 3 7 7 ++ 3 R 7 3
MUSTer [Hong et al., 2015b] PCA-HOG,KeyPoints,MD FC,Simil Ds 3 3 7 +++ 3 R 3 3
Table 1.1 – Composition des approches de suivi et leurs domaines d’emploi.

VTS [Kwon et Lee, 2011] Templ,HS,Int,Contour,MG MCMC 3 7 7 ++ 7 R 3 3


[Penne et al., 2013] RGB,LBP,HOG,MD Boost FP 3 7 7 +++ 3 R 3 3
[Zhong et al., 2012] Templ,Patch,HistoGL,MGD Simil Ds 3 7 7 ++ 3 R 7 3
36
CHAPITRE 1. BIBLIOGRAPHIE 37

Figure 1.5 – Séquences de la base OTB [Wu et al., 2013]. Les images correspondent à la première
image de chaque séquence avec l’objet d’intérêt détouré par une boîte englobante rouge. Les
séquences sont classées du plus difficile en haut à gauche au plus facile en bas à droite. [Wu et al.,
2013].

et al., 2000] à la reconnaissance de visages pour des applications de sécurité. Cependant, ces
bases ne sont pas suffisamment génériques (catégories d’objet peu variées) et représentatives des
difficultés qu’il est possible de rencontrer en suivi d’objet.
Les bases récentes sont celles collectées par [Wu et al., 2013] (base OTB) et [Smeulders et al.,
2014] (base ALOV++) visant à couvrir un grand nombre de situations possibles.

La base OTB [Wu et al., 2013] comprend 50 séquences annotées suivant 11 difficultés
(illumination, variation d’échelle, occultation, déformation, flou de bouger, etc.), ces séquences
font partie de celles habituellement utilisées en suivi d’objet, voir la figure 1.5.

La base ALOV++ [Smeulders et al., 2014] contient 315 vidéos réparties dans 13 catégories
de difficulté (illumination, transparence, spécularité, confusion avec des objets similaires, bruit
de fond, occultation, zoom, déformation importante, faible contraste, mouvement, etc.). Ces
situations sont discutées dans [Chu et Smeulders, 2010]. Cette base est constituée à partir de
séquences de la base PETS (65 vidéos), de séquences habituellement utilisées dans les articles
récents de suivi d’objet et de 250 nouvelles séquences. Ces séquences proviennent principalement
de YouTube (vidéos d’amateurs) et couvrent 64 catégories d’objet (visage, personne, ballon, sac
plastique, pieuvre, verre, oiseau, poisson, etc.).

La base VOT [Kristan et al., 2013] Le benchmark VOT créé en 2013 est devenu la référence
en suivi d’objet. C’est sur ce dernier que les trackers actuels s’évaluent et se comparent. Depuis,
une nouvelle édition est organisée chaque année [Kristan et al., 2014, Kristan et al., 2015a] et
s’étend au suivi d’objet dans des images infra-rouge [Felsberg et al., 2015] (VOT-TIR2015). Il
sera décrit plus en détails dans la section 1.2.3.
CHAPITRE 1. BIBLIOGRAPHIE 38

Figure 1.6 – Séquences de la base VOT2015. [Kristan et al., 2015a].

Les bases d’évaluation de VOT2013 (16 vidéos) et VOT2014 (25 vidéos) se composent
de séquences sélectionnées parmi OTB et ALOV++ de manière semi-automatique selon les
phénomènes présents (occultation, changement d’illumination, changement de taille, mouvement
objet, mouvement caméra). Tandis que VOT2015 sélectionne automatiquement 60 séquences
parmi OTB, ALOV++, PTR [Vojir et al., 2013] et 30 autres séquences annotées selon 11 attributs
globaux (figure 1.6). Les 11 attributs globaux utilisés pour annoter les vidéos sont les suivants :
changement d’illumination, changement de taille de l’objet, mouvement de l’objet, bruit de
contexte, mouvement de la caméra, flou, changement de rapport largeur-hauteur de l’objet,
changement de couleur de l’objet, déformation, complexité de la scène, mouvement absolu de
l’objet dans l’image. VOT2016 est constitué des mêmes vidéos de VOT2015 mais avec une
vérité terrain plus précise (annotation de la position de l’objet). VOT-TIR2015 utilise la base de
vidéos infra-rouge LTIR [Berg et al., 2015] (20 vidéos) provenant de sources diverses (industrie,
universités) et utilisant jusqu’à 8 capteurs différents dans des conditions variées (intérieur,
extérieur), voir la figure 1.7. VOT-TIR2016 se compose de nouvelles séquences.
Le benckmark VOT vise à composer des bases avec les objets les plus divers (personnes,
animaux, véhicules, objets quotidiens, etc.), les scènes les plus variées (scène d’intérieur, d’exté-
rieur, fort contraste, changement de luminosité, occultation, etc.) provenant de sources diverses
CHAPITRE 1. BIBLIOGRAPHIE 39

Figure 1.7 – Séquences de la base VOT-TIR2015. [Felsberg et al., 2015].

(YouTube, films, vidéos réalisées en laboratoire, dans des lieux publics ou privés, etc.), ce qui a
un impact sur la qualité des images, très variable d’une séquence à l’autre (résolution, flou, bruit).
La figure 1.8 montre quelques séquences difficiles de VOT2015 [Kristan et al., 2015a] combinant
plusieurs phénomènes : occultation, changement d’apparence (déformation, taille), contexte
(texture, contraste, objets similaires), mouvement (objet, caméra) et changement d’illumination.

1.2.2 Métriques de performance

Il existe de nombreuses métriques de performance en suivi d’objet détaillées dans [Wu et al.,
2013, Smeulders et al., 2014, Čehovin et al., 2014]. Les principales utilisées sont les suivantes :

Erreur de localisation du centre L’erreur de localisation du centre [Babenko et al., 2009,


Kwon et Lee, 2010] est une mesure courante consistant à mesurer la distance moyenne entre
1 PM
les centres des boîtes prédites {pi }M M
i=1 et de la vérité terrain {gi }i=1 : M i=1 kpi − gi k. Cette
mesure ne rend pas compte de la précision en taille des boîtes prédites.

Précision selon un seuil sur l’erreur de localisation Une autre mesure très utilisée est
la précision selon un seuil sur l’erreur de localisation [Wu et al., 2013, Bailer et al., 2014]. Elle
mesure la proportion d’images, entre [0, 1], pour lesquelles la distance entre les centres de la
boîte prédite et de la vérité terrain est inférieure à un seuil en nombre de pixels. Une courbe de
proportion d’images en fonction du seuil sur l’erreur de localisation peut être calculée, voir la
CHAPITRE 1. BIBLIOGRAPHIE 40

(a) rabbit : déformations et changements de taille importants, contexte difficile, occultation

(b) fish1 : déformations, environnement complexe, occultation

(c) basketball : scène complexe, confusion avec des objets similaires, occultation, variations d’apparence,
déplacements importants

(d) graduate : zoom et dézoom de la caméra, fortes variations de taille, objet peu texturé, confusion
avec l’arrière-plan

(e) soccer2 : résolution faible, objet de petite taille, flou de bouger, mouvements brusques de caméra

(f) matrix : changements d’illumination importants, bruit (pluie), zoom de caméra

Figure 1.8 – Exemples de séquences difficiles de VOT2015 [Kristan et al., 2015a].


CHAPITRE 1. BIBLIOGRAPHIE 41

(a) Erreur de localisation (b) Taux de recouvrement

Figure 1.9 – Métriques d’évaluation. (a) Courbe de proportion d’images en fonction du seuil
sur l’erreur de localisation pour différents trackers. La valeur indiquée à côté de chaque tracker
correspond au seuil de 20 pixels. (b) Courbe de proportion d’images en fonction du seuil sur
le taux de recouvrement pour différents trackers. La valeur indiquée à côté de chaque tracker
correspond à l’aire sous la courbe. [Wu et al., 2013]

figure 1.9a. Le seuil habituellement utilisé pour comparer la précision entre différents trackers est
de 20 pixels.

Taux de recouvrement moyen Le taux de recouvrement entre la boîte prédite B et la vérité


terrain B 0 est défini comme étant le rapport des aires d’intersection et d’union des boîtes :

|B ∩ B 0 |
IoU (B, B 0 ) = (1.5)
|B ∪ B 0 |

IoU , illustré dans la figure 1.10a, est une mesure d’erreur plus précise que l’erreur de localisation
du centre puisqu’il tient compte de la taille des boîtes. Le taux de recouvrement moyen consiste
alors à moyenner IoU sur l’ensemble des images de la base [Zhang et al., 2012].

Précision selon un seuil sur le taux de recouvrement Une autre mesure largement uti-
lisée par les trackers actuels trace une courbe de proportion d’images en fonction du seuil sur le
taux de recouvrement compris entre [0, 1] [Wu et al., 2013, Bailer et al., 2014]. Chaque valeur
du taux de recouvrement correspond à la proportion d’images de la séquence ayant un taux de
recouvrement avec la vérité terrain, inférieur à cette valeur. De cette courbe, on tire une valeur
représentative du comportement du tracker qui est l’aire sous la courbe (Area Under Curve),
voir la figure 1.9b. Cette métrique est souvent utilisée conjointement avec la précision selon un
seuil sur l’erreur de localisation.

Selon l’étude de [Čehovin et al., 2014], la plupart des métriques sont corrélées et ne reflètent
pas les différents aspects de la performance de suivi. Pour le benchmark VOT [Kristan et al.,
CHAPITRE 1. BIBLIOGRAPHIE 42

2013], deux métriques considérées comme étant mieux décorrélées ont été choisies pour évaluer
les trackers : la précision et la robustesse définies ci-dessous.
Avant de les définir, décrivons le protocole d’évaluation de VOT. Selon ce protocole, un
tracker a 3 régimes de fonctionnement : suivi, dérive et réinitialisation, comme illustré dans la
figure 1.10c. Pour savoir dans quel régime est un tracker, entre suivi et dérive, l’IoU est calculé à
chaque instant :

— Suivi : dans un premier temps, le tracker suit correctement l’objet, un fonctionnement


correct du tracker étant défini par un IoU non nul (figure 1.10a).

— Dérive : ensuite, il dérive. Une dérive étant mesurée par un IoU de valeur nulle (figure
1.10b). C’est le seuil critique choisi pour déterminer qu’un tracker a dérivé de l’objet. Passé
ce seuil, le tracker a peu de chance de retrouver l’objet.

— Réinitialisation : puis, il est réinitialisé (position et modèle) avec la vérité terrain, 5 images
après que la dérive est détectée. Pendant ces 5 images, le tracker est arrêté.

Puis on recommence un nouveau cycle de 3 régimes jusqu’à atteindre la fin de la séquence.

Robustesse La robustesse est le nombre total de dérives du tracker sur une séquence ou sur
une base de vidéos. Plus un tracker compte de dérives, moins il est robuste.

Précision La précision est définie comme étant la moyenne du taux de recouvrement mesuré
entre le tracker et la vérité terrain sur une séquence ou sur une base de vidéos. Les 10 premières
boîtes suivant une initialisation ou réinitialisation du tracker sont éliminées du calcul de la
précision car elles introduisent un biais. En effet, la précision y est élevée dans les premières
images due à l’initialisation ou la réinitialisation par la vérité terrain. Réinitialiser le tracker est
utile car une fois qu’il a dérivé, le taux de recouvrement mesuré sera toujours nul.

Dans le protocole d’évaluation de VOT, la précision et la robustesse sont calculées non pas
sur toutes les images de la base mais sur des sous-ensembles d’images annotées par un même
attribut visuel, voir la description détaillée dans la section 1.2.3.

1.2.3 Le benchmark VOT [Kristan et al., 2013]

Malgré les nombreuses bases de vidéos accessibles et un nombre important de métriques


d’évaluation, l’existence de bases communes et de protocoles standards d’évaluation permettant
d’analyser le comportement des algorithmes plus finement reste insuffisante. C’est dans ce
contexte que le benchmark VOT a été créé. Le benchmark met l’accent sur l’évaluation du suivi
mono-objet court-terme et sans modèle pré-appris, i.e. cible non connue d’avance, en utilisant
deux métriques d’évaluation : la robustesse à la dérive et la précision de localisation, décrites
dans la section 1.2.2. Le suivi long-terme se différencie du suivi court-terme par la capacité des
CHAPITRE 1. BIBLIOGRAPHIE 43

(a) Taux de recouvrement (b) Dérive du tracker


des boîtes prédite (rouge)
et de vérité terrain (vert)

(c) Réinitialisation du tracker 5 images après chaque dérive

Figure 1.10 – Fonctionnement d’un tracker dans VOT [Kristan et al., 2013]. (a) Mesure du
taux de recouvrement entre la prédiction et la vérité terrain. (b) Le tracker est considéré comme
ayant dérivé lorsque ce taux est nul. (c) Réinitialisation du tracker après chaque dérive détectée.
[Kristan et al., 2013]
CHAPITRE 1. BIBLIOGRAPHIE 44

algorithmes à redétecter la cible lorsque celle-ci vient à disparaître du champ de recherche, la


plupart des algorithmes ne sont pas dotés de cette fonction de redétection.

Kit d’évaluation Matlab

Le challenge comprend un kit d’évaluation Matlab permettant à chacun d’évaluer son tracker
quel que soit son langage de programmation (C/C++, Matlab, Python) selon la méthodologie
d’évaluation définie par le challenge. L’intégration des trackers se réalise de manière générique
en utilisant un protocole standard de communication des entrées et sorties du tracker avec le
kit dont l’intérêt est de simplifier l’interaction du tracker avec le kit. La spécificité du toolkit
est de pouvoir communiquer avec le tracker à chaque instant de la vidéo, comme par exemple
réinitialiser le tracker au milieu de la vidéo, ce qui n’était pas possible avec les toolkits précédents.

Annotations des images

Dans chaque image, l’objet est annoté manuellement par une boîte englobante, traditionnelle-
ment un rectangle dans VOT2013, puis un quadrilatère à partir de VOT2014 (4 coordonnées x
et 4 coordonnées y), pour un marquage plus précis de l’objet permettant de prendre en compte
les déformations géométriques de l’objet et autres transformations du plan (rotation).
De plus, chaque image est annotée manuellement ou semi-manuellement selon 5 attributs
visuels A = {A1 , ..., A5 } pour rendre compte des principaux phénomènes visuels, sources de
difficultés : occultation, changement d’illumination, changement de mouvement, changement de
taille et mouvement de caméra. Ces annotations sont utilisées pour évaluer les trackers selon
chaque phénomène visuel.

Protocole d’évaluation

Expériences Tous les trackers doivent se soumettre à 3 expériences indépendantes :

— Expérience 1 : le tracker réalise le suivi sur toutes les vidéos de la base et est initialisé avec
la vérité terrain.

— Expérience 2 : consiste à réaliser l’expérience 1 mais en bruitant la vérité terrain lors de


l’initialisation, la perturbation est de l’ordre de 10% de la taille de la boîte.

— Expérience 3 : consiste à réaliser l’expérience 1 mais les images couleurs sont converties en
niveaux de gris.

Pour les trackers qui fonctionnent en niveaux de gris, seule l’expérience 3 est effectuée.
Chaque expérience est réalisée 15 fois pour des trackers stochastiques, sinon 3 fois lorsqu’ils sont
déterministes. Chaque tracker est évalué sur chacune des expériences.

Évaluation Chaque tracker est tout d’abord évalué sur des sous-ensembles d’images corres-
pondant au même attribut visuel, ce qui donne une valeur de précision pAi et de robustesse rAi
CHAPITRE 1. BIBLIOGRAPHIE 45

Figure 1.11 – Classement de performance des trackers de VOT2013 selon les métriques de
précision (en ordonnée) et de robustesse (en abscisse) pour les 3 expériences du protocole. Le
meilleur tracker en précision et en robustesse se trouve en haut à droite. [Kristan et al., 2013].

par attribut Ai . La précision P et la robustesse R d’un tracker sont obtenues en moyennant


1
les précisions {pAi }i et robustesses {rAi }i sur l’ensemble des attributs : P =
P
Card(A) i p Ai ,
1 P
R= Card(A) i rAi .

Classement Une fois les précisions {pAi }i et robustesses {rAi }i calculées, on peut procéder
à un classement de performance des trackers, l’idée est de calculer un rang c(j) par tracker j
reflétant à la fois les performances mesurées sur les deux métriques. Tout d’abord, on considère
les métriques de précision et de robustesse séparément. Pour chaque métrique, on calcule un rang
par tracker sur chaque attribut séparément, ce qui donne c(j, p, Ai ) et c(j, r, Ai ) pour le tracker j,
où p désigne la précision et r la robustesse. Ensuite, pour chaque tracker j sur chaque métrique,
1 P
on moyenne le rang sur l’ensemble des attributs, ce qui donne c(j, p) = Card(A) i c(j, p, Ai ) et
1 P
c(j, r) = Card(A) i c(j, r, Ai ). La précision et la robustesse ont le même poids dans le calcul
du rang final c(j) du tracker j qui est donc une moyenne du rang sur les deux métriques :
c(j,p)+c(j,r)
c(j) = 2 .
La figure 1.11 montre le classement de performance des trackers de VOT2013 [Kristan et al.,
2013] pour les 3 expériences du protocole. Ces 3 expériences permettent d’estimer la variance
des performances des trackers liée aux conditions initiales. On remarque que les métriques de
précision et de robustesse sont peu corrélées, le nuage de points étant assez isotrope.

1.3 Fusion en suivi d’objet

La diversité de conception des trackers (modèle d’apparence, stratégie de recherche, stratégie


de mise à jour du modèle) incite à chercher à les fusionner. Le vocabulaire de la fusion vient
des applications de pistage de plots ou de réseaux de capteurs. Nous présenterons donc dans un
premier temps, quelques concepts classiques en fusion de l’information pour analyser la littérature
sur la fusion en suivi d’objet.
CHAPITRE 1. BIBLIOGRAPHIE 46

1.3.1 Architectures de fusion, généralités

Il existe différents types d’architectures de fusion.

Architecture centralisée ou décentralisée Le domaine de la fusion de l’information dis-


tingue deux types d’architectures de fonctionnement : centralisées et décentralisées [Xiong et
Svensson, 2002, Salahshoor et al., 2008], voir la figure 1.12.
Dans une architecture centralisée, une série de capteurs réalisent en parallèle des mesures sur
une image It , chaque capteur i renvoyant une mesure Yti à l’instant t. Une mesure correspondrait
par exemple à un type de caractéristiques extraites de l’image (histogramme de couleurs, HOG,
caractéristiques de Haar). Ces mesures sont envoyées vers une unité de fusion qui exploite les
corrélations entre ces mesures et estime la position de l’objet X̂t , voir la figure 1.12a.
Dans une architecture décentralisée, chaque mesure est envoyée vers un estimateur local qui
estime la position de l’objet X̂ti . Ces estimations de position sont ensuite envoyées vers une unité
de fusion pour être combinées et donner une estimation améliorée de la position de l’objet X̂t ,
voir la figure 1.12b. Les estimations sont parfois accompagnées d’un indicateur de qualité ou de
confiance les caractérisant.
On peut faire l’analogie entre les domaines de la fusion de l’information et de la fusion en
suivi d’objet. La fusion en suivi d’objet a été traitée dans la littérature, soit comme le contrôle et
la sélection de modèles (apparence, mouvement) dans la chaîne de traitements, soit comme la
combinaison des entrées et sorties de différents modules de traitement (trackers ou détecteurs
d’objet). Ce qui joue le rôle d’un capteur est un extracteur de caractéristiques images, qui de plus
est contrôlable. Une architecture centralisée en fusion de l’information correspondrait à une fusion
de modèles en suivi d’objet (section 1.3.2) où chaque modèle est un capteur différent mesurant
l’environnement. Une architecture décentralisée correspondrait à une fusion de traitements ou
modules (section 1.3.3), où chaque module (par exemple un tracker) réalise à la fois l’extraction
de caractéristiques et l’estimation de position de l’objet.

Architecture parallèle ou en cascade Dans une fusion de modèles (fusion centralisée),


la question d’exécuter les modèles simultanément ou séquentiellement ne se pose pas : il faut
seulement que les mesures {Yti }i soient conjointement traitées par l’unité de fusion.
Mais dans une fusion de modules (fusion décentralisée), cette perspective peut être abordée :
les traitements peuvent être exécutés selon deux types d’architectures fonctionnelles, en parallèle
ou en cascade (séquentiel). Prenons comme exemple les schémas de fusion proposés par [Stenger
et al., 2009] (figure 1.13). Le schéma de fusion parallèle de la figure 1.13a est un schéma classique
où n trackers sont exécutés en parallèle et le tracker ayant l’erreur de prédiction estimée la plus
faible est sélectionné. Dans ce cas précis, les trackers fournissent à la fois une estimation de
position mais aussi une évaluation de confiance binaire (0 ou 1). Dans la fusion en cascade de
la figure 1.13b, les trackers sont exécutés successivement, le tracker suivant n’est exécuté que
CHAPITRE 1. BIBLIOGRAPHIE 47

𝑌𝑌𝑡𝑡1
Capteur 1

𝐼𝐼𝑡𝑡 𝑌𝑌𝑡𝑡2 𝑋𝑋�𝑡𝑡


Capteur 2 Fusion

𝑌𝑌𝑡𝑡𝑁𝑁
Capteur N

(a) Architecture centralisée


𝑌𝑌𝑡𝑡1 𝑋𝑋�𝑡𝑡1
Capteur 1 Estimateur 1

𝐼𝐼𝑡𝑡 𝑌𝑌𝑡𝑡2 𝑋𝑋�𝑡𝑡2 𝑋𝑋�𝑡𝑡


Capteur 2 Estimateur 2 Fusion

𝑌𝑌𝑡𝑡𝑁𝑁 𝑋𝑋�𝑡𝑡𝑁𝑁
Capteur N Estimateur N

(b) Architecture décentralisée

Figure 1.12 – Architecture de fusion centralisée (a) et décentralisée (b). Une série de N capteurs
parallèles réalisent un ensemble de mesures {Yti }N i=1 à partir de l’image d’entrée It à l’instant
t. (a) Dans l’architecture centralisée, les mesures sont envoyées vers une unité de fusion pour
estimer directement la position de l’objet X̂t . (b) Dans l’architecture décentralisée, les mesures
sont envoyées vers des estimateurs qui estiment la position de l’objet {X̂ti }N i=1 . Une unité de
fusion combine ces estimations pour estimer une seule position de l’objet X̂t .
CHAPITRE 1. BIBLIOGRAPHIE 48

(a) Architecture parallèle

(b) Architecture en cascade

Figure 1.13 – Schémas de fusion décentralisée de [Stenger et al., 2009] combinant n trackers
et un détecteur de mains et de visages, entraîné hors ligne. (a) Les n trackers sont exécutés en
parallèle. L’état de la cible, position x̂kt , à l’instant t, est la prédiction du tracker dont l’erreur
de prédiction estimée est la plus faible. (b) Les n trackers sont exécutés en cascade. Le tracker
suivant n’est exécuté que lorsque l’erreur de prédiction estimée du tracker courant est supérieure
à un certain seuil. Le détecteur sert à réinitialiser les trackers lorsque leur erreur de prédiction
estimée est trop importante. [Stenger et al., 2009]

lorsque le tracker courant n’est pas en mesure de fournir une prédiction correcte (une erreur
de prédiction est estimée). La position de l’objet correspond alors à la prédiction réalisée par
le dernier tracker exécuté. L’avantage d’une telle architecture est de pouvoir réduire les coûts
de calculs en exécutant le moins de trackers possible. En revanche, ce type d’architecture est
souvent difficile à configurer et est de plus, sensible aux échecs individuels des trackers de par
leur dépendance en chaîne.

Fusion en boucle ouverte ou fermée Un aspect particulier de la fusion de modules concerne


l’interaction entre les traitements. On distingue deux approches que nous avons appelées, fusion en
boucle ouverte et fusion en boucle fermée. [Bailer et al., 2014] parlent également de fusion passive
et de fusion active. Dans une fusion « en boucle ouverte », les traitements (trackers, détecteurs)
ont leur propre mécanisme de mise à jour de leur modèle et fonctionnent indépendamment les
uns des autres, i.e. ils n’interagissent pas entre eux. La fusion est alors simplement la combinaison
de leurs prédictions individuelles. Lorsqu’un tracker dérive, il ne peut récupérer la cible ou alors,
seulement par hasard, en croisant la trajectoire de la cible. En effet, la récupération de la cible
est difficile, d’une part, parce qu’elle est en dehors de la fenêtre de recherche utilisée pour les
prédictions futures, et d’autre part, parce que le modèle a dérivé et donc n’est plus capable de
reconnaître correctement la cible du fond. Par conséquent, la fusion doit identifier les prédictions
CHAPITRE 1. BIBLIOGRAPHIE 49

incorrectes pour les éliminer avant de les combiner. Puisqu’aucune interaction n’a lieu, un tracker
ayant dérivé ne peut être corrigé (en position et en modèle) par un autre tracker ou détecteur
fonctionnel afin de lui permettre de se raccrocher à la cible.
La deuxième approche, fusion « en boucle fermée », favorise l’interaction entre les trackers et
détecteurs. Une des motivations est de pouvoir corriger les dérives des trackers en s’appuyant sur
les autres trackers ou détecteurs, par exemple en contrôlant la mise à jour et la réinitialisation
des modèles ou en contrôlant la fenêtre de recherche.
Dans les deux approches, un étape clé est d’identifier les bonnes prédictions des mauvaises
pour pouvoir les sélectionner avant fusion et/ou d’identifier les mauvais trackers des bons pour
pouvoir les corriger. Il est nécessaire alors de concevoir un mécanisme d’évaluation capable
d’évaluer le bon fonctionnement de chacun des traitements.

Sélection en ligne des modèles ou modules Comme abordé précédemment, lorsqu’un


système met en compétition plusieurs modèles ou modules, trouver des méthodes pour évaluer
en ligne et sélectionner les modèles ou modules qui conviennent le mieux à un instant donné
est nécessaire. La plupart des approches de fusion disposent d’une telle capacité comme nous
pourrons le voir dans les sections 1.3.2 et 1.3.3.

1.3.2 Fusion de modèles

Les algorithmes de suivi combinent en général deux types de modèles : des modèles de
mouvement et des modèles d’apparence.

Fusion de modèles de mouvement

Historiquement, les premières études de fusion de modèles se sont intéressées à la fusion de


modèles de mouvement pour le pistage de points dont le problème est le suivant : un capteur (radar,
laser, etc.) détecte des cibles potentielles représentées par des points (positions). A chaque instant,
des points sont détectés mais non identifiés comme appartenant à l’une des cibles existantes.
Le pistage des cibles consiste alors à associer la bonne séquence de points à chacune des cibles
(problème d’association de points). Pour cela, les études cherchent à modéliser le mouvement de
chacune des cibles à partir de détections passées, pour permettre l’association des détections
futures aux pistes existantes. Puis, afin d’avoir un modèle le plus fidèle possible à la piste, le
modèle est corrigé en intégrant la nouvelle détection à chaque instant. Ces études ont donné
naissance aux méthodes de modèles de mouvements indépendants et de suivi multi-hypothèses
(Multiple Hypothesis Tracking) pour le suivi multi-cibles [Blackman, 2004]. Elles ont ensuite été
étendues aux méthodes MCMC (Markov Chain Monte Carlo) telles que le filtrage particulaire
[Bar-Shalom et al., 2011] où chaque cible possède plusieurs modèles de mouvement, le nombre de
modèles étant déterminé par le nombre de particules utilisées pour représenter l’espace d’état.
Certaines de ces techniques ont été exploitées dans le pistage vidéo mais il s’agit de pistage
CHAPITRE 1. BIBLIOGRAPHIE 50

multi-objets, pas de suivi. Pour le suivi multi-personnes dans des vidéos, [Breitenstein et al.,
2011] combinent des filtres particulaires, un détecteur générique de personnes et des classifieurs
spécifiques appris en ligne, proposés par [Grabner et Bischof, 2006] : le détecteur génère des
détections de personnes, qui servent d’une part à initialiser les pistes de suivi, et d’autre part,
comme exemples d’apprentissage pour entraîner des classifieurs spécifiques à chaque personne afin
de pouvoir discriminer les personnes entre elles par l’apparence. [Khan et al., 2014] améliorent
la recherche de l’objet en ajoutant une échelle/région variable dans le modèle de mouvement,
et disposent ainsi d’un ensemble de modèles de mouvement à échelles différentes ou régions
variables permettant de couvrir des espaces plus grands. Parmi cet ensemble, un seul modèle
de mouvement est sélectionné à chaque instant, et correspond à celui dont la prédiction d’état
maximise la vraisemblance des observations. Cette dernière est calculée à partir d’un modèle
d’observation basé sur un histogramme de couleurs HSV.

Fusion de modèles d’apparence

Les efforts majeurs dans le suivi vidéo ont porté sur le modèle d’apparence, en particulier sur
la fusion de modèles d’apparence différents et la sélection des modèles, adaptés aux situations.

Conservation de l’historique du modèle d’apparence L’une des raisons qui expliquent


l’échec de suivi d’un tracker est la dérive de son modèle d’apparence causée par de mauvaises
mises à jour. [Zhang et al., 2014a] (tracker MEEM) résolvent ce problème de dérive en conservant
un historique du modèle d’apparence pris à des instants différents {Mt }Tt=0 , chaque modèle
d’apparence constitue alors un expert (ou tracker). Lorsque les experts ne votent pas pour la
même position d’objet (prédictions dissociées des uns des autres), une sélection du meilleur
expert est nécessaire. La qualité de chaque expert est évaluée par une mesure d’entropie des
réponses (probabilité a posteriori) de l’expert sur un ensemble de positions possibles de la cible.
Un expert qui donne une probabilité a posteriori élevée pour toutes les positions de cet ensemble
va générer une entropie élevée alors qu’un expert qui donne une probabilité a posteriori élevée
pour une seule position et une probabilité faible pour toutes les autres va générer une entropie
faible. Le meilleur expert est donc celui qui génère la plus faible entropie.

Utilisation d’un répertoire varié de caractéristiques Les trackers suivants exploitent un


répertoire varié de caractéristiques (couleur, texture, gradient, spatio-temporel). Une possibilité
consisterait à « fusionner des vecteurs de caractéristiques de types différents », mais augmenterait
alors la dimensionnalité de l’espace de représentation et rendrait son exploitation coûteuse et
complexe à maîtriser (« curse of dimensionality »). Cette approche est peu utilisée.
Une autre manière est de « mettre en compétition des modèles d’apparence basés sur des
caractéristiques différentes en pondérant les modèles » en fonction de la situation (nature de la
scène, type de difficulté, etc.). C’est le cas du Boosting en ligne [Grabner et al., 2006] (Ensemble
Tracking) : les classifieurs sont pondérés en fonction de leur capacité à bien classer les exemples
CHAPITRE 1. BIBLIOGRAPHIE 51

d’apprentissage. [Brasnett et al., 2007] combinent un ensemble de modèles d’apparence basés


sur des caractéristiques hétérogènes (couleurs, textures, contours) dans un filtre particulaire et
montrent une amélioration du suivi par rapport à l’utilisation d’un seul modèle d’apparence. La
fonction de vraisemblance globale correspond au produit des vraisemblances de chaque modèle,
pondérées par un coefficient. Chaque coefficient mesure une distance entre l’apparence initiale
et l’apparence de la prédiction fonction du modèle utilisé et est mis à jour en ligne. [Erdem
et al., 2012] fusionnent 3 types de caractéristiques (couleur, mouvement et lumière infrarouge)
dans un filtre particulaire et proposent une méthode d’estimation en ligne de la fiabilité de
chaque caractéristique basée sur la vraisemblance courante mais aussi passée. [Penne et al., 2013]
proposent une combinaison linéaire d’un ensemble de « modules » boostés en ligne selon un
algorithme de type Adaboost [Freund et al., 1996], chaque module étant pondéré en fonction de
sa capacité à discriminer l’objet de son contexte avoisinant (similitude entre objet et voisinage
proche). Chaque module est composé d’un classifieur basé sur une caractéristique visuelle simple
et produit à chaque instant, une carte de confiance sur la localisation de l’objet (réponse du
module en chaque point de l’image). Les poids des modules ainsi que les cartes de confiance
(données d’observation) sont combinés dans un filtre particulaire pour déterminer la position de
l’objet.
Plutôt que de pondérer les modèles, [Yoon et al., 2012] « sélectionnent le modèle le plus
adapté à chaque instant ». Ils proposent un formalisme bayésien combinant N trackers à filtrage
particulaire, chacun utilisant un modèle d’apparence construit sur une caractéristique différente
(HOG, caractéristiques de Haar et intensité). A chaque instant t, la fiabilité de chaque tracker
est évaluée et quantifiée par une probabilité appelée « probabilité du tracker ». Le tracker ayant
la probabilité la plus élevée parmi les N trackers est sélectionné : Ttbest = argmax L(Tti ), où Tti
i
est le ième tracker et L est une fonction de vraisemblance construite sur deux autres modèles
d’apparence (apparence récente moyennée sur les images précédentes et dictionnaire d’apparences
vues au cours du temps). L’état de la cible X̂t est l’estimation qui maximise la probabilité
a posteriori de ce tracker : X̂t = argmax p(Xt |Ttbest , Y1:t ), où Y1:t désigne les observations des
Xt
instants 1 à t.

Fusion de différents types de modèles

Une solution fusionnant des trackers à différents niveaux est le VTS (Tracking by Sampling
Trackers) de [Kwon et Lee, 2011] qui utilise un ensemble de N trackers échantillonnés dans
l’espace des modèles d’apparence, modèles de mouvement, types de représentation d’état et types
d’observation. Similaire à l’étude précédente [Yoon et al., 2012], le suivi d’objet est formulé sous
la forme d’un filtrage bayésien. La probabilité a posteriori est estimée par une somme pondérée
des probabilités a posteriori conditionnelles aux trackers :

N
X
p(Xt |Y1:t ) ' p(Xt |Tt , Y1:t ) = p(Tti |Y1:t )p(Xt |Tti , Y1:t ) (1.6)
i=1
CHAPITRE 1. BIBLIOGRAPHIE 52

où p(Xt |Tti , Y1:t ) est la probabilité a posteriori conditionnelle au ième tracker Tti à l’instant t,
et p(Tti |Y1:t ) le poids correspondant. Tt désigne l’ensemble des trackers à l’instant t et Y1:t les
observations des instants 1 à t. L’état de la cible X̂t maximise cette probabilité a posteriori
conditionnellement à l’ensemble des trackers Tt : X̂t = argmax p(Xt |Tt , Y1:t ), où Y1:t désigne les
Xt
observations des instants 1 à t.

Cependant, parmi ces approches, deux seulement utilisent des contraintes spatiales pour
évaluer la qualité des modèles d’observation [Zhang et al., 2014a, Penne et al., 2013]. Pour toutes
les autres approches, la qualité des modèles d’observation n’est pas évaluée en ligne, rendant la
performance dépendante de la fiabilité des vraisemblances.

1.3.3 Fusion de modules

Une autre manière d’aborder la problématique de fusion est de combiner les entrées et sorties
de différents modules de traitements. La littérature en vision par ordinateur offre divers types
de modules de traitements qui peuvent être combinés spécifiquement ou génériquement afin
d’obtenir un tracker performant, notamment en associant des détecteurs génériques ou spécifiques,
et des trackers à faible dimension d’espace d’état. La sortie du système de fusion correspond
généralement à la combinaison d’un sous-ensemble de sorties des modules. Pour décider quel
sous-ensemble fusionner, la plupart des systèmes disposent d’une fonction capable d’évaluer
individuellement chaque traitement afin de sélectionner les meilleures sorties à fusionner.

Évaluation en ligne d’un traitement

De nombreux indicateurs ont été considérés pour juger de la qualité des traitements. [Chau
et al., 2009] évaluent la performance en ligne des trackers (confiance des trajectoires, précision des
trackers) à partir d’un ensemble de caractéristiques comportementales génériques du tracker et
dont les seuils ont été fixés empiriquement : longueur de trajectoires avant perte de la cible, zones
de dérive, rapport largeur/hauteur de la boîte au cours du temps, aire de la boîte, vitesse de la
cible, histogramme de couleurs et sens de déplacement de la cible. Cette approche ne permet pas
de généraliser étant donné que le comportement observé d’un tracker dépend de la difficulté de
la séquence.
[SanMiguel et al., 2012, Biresaw et al., 2014a] recherchent des caractéristiques plus spécifiques,
en analysant le comportement du modèle d’observation. [SanMiguel et al., 2012] mesurent
l’incertitude d’un tracker à filtrage particulaire par l’incertitude spatiale des N particules, en
analysant les valeurs propres de la matrice de covariance. [Biresaw et al., 2014a] utilisent un
ensemble de trackers par point, chaque point est associé à un filtre de Kalman, la qualité de
prédiction de chaque tracker est mesurée en observant les valeurs de la matrice de covariance
du filtre de Kalman. Cette qualité classe les trackers dans deux catégories : les trackers faibles
et les trackers forts. Une correction des trackers faibles est effectuée par les trackers forts en
CHAPITRE 1. BIBLIOGRAPHIE 53

utilisant une régression par PLS (Partial Least Square). Cependant, ces indicateurs sont difficiles
à produire et demandent une bonne compréhension du fonctionnement des trackers.
Dans une approche plus générique par apprentissage et pour des systèmes de vision variés
(segmentation sémantique, estimation de point de fuite, estimation de paramètres caméra, etc.),
[Zhang et al., 2014b] entraînent une fonction d’alerte de mauvais fonctionnement des systèmes
à partir des sorties (mesure d’erreur ou de précision) couplées aux entrées par SVM. Les
entrées sont soit des images, soit des caractéristiques extraites (SIFT, couleurs, textures, HOG,
histogrammes de lignes, LBP, similarités). Ils proposent ensuite deux métriques d’évaluation des
alertes générées par la fonction apprise. Cependant, l’approche est mono-image alors que le suivi
d’objet nécessite d’exploiter un signal temporel, elle ne peut donc pas prendre en compte cette
dimension temporelle.
Dans la plupart des systèmes de fusion de trackers rencontrés [Santner et al., 2010, Stenger
et al., 2009, Kalal et al., 2012, Vojir et al., 2015], le score de confiance correspondant à la boîte
englobante prédite est utilisé comme critère d’évaluation de bon fonctionnement du tracker.

Fusion de modules

Il existe différents types de schémas de fusion, des schémas spécifiques et des schémas
génériques.

Schéma spécifique de fusion [Siebel et Maybank, 2002, Santner et al., 2010] proposent
des schémas de fusion qui combinent de manière spécifique un certain nombre de traitements.
Pour répondre au problème du suivi de personnes, [Siebel et Maybank, 2002] combinent les
informations provenant de différents modules séquentiels réalisant chacun une fonction différente
dans la chaîne de traitements : un détecteur de mouvement pour détecter les zones de mouvement
de l’image, un tracker de région pour suivre une zone de mouvement, un détecteur de visages
pour détecter des personnes, et un tracker basé forme pour suivre spécifiquement une personne.
Les sorties des modules sont combinées dans un ordre précis pour produire une boîte englobante
pour chaque personne présente dans la scène. [Santner et al., 2010] exploitent les spécificités de
3 trackers basés sur des concepts différents, notamment en jouant sur la stabilité-plasticité de
leurs modèles. Les trackers en question, du plus stable au plus adaptatif, sont : une corrélation
de template NCC, un détecteur en ligne basé sur des forêts aléatoires ORF et un flot optique
FLOW. Ils sont combinés en cascade selon les règles de fonctionnement suivantes : FLOW est
choisi comme tracker principal pour gérer les variations rapides d’apparence. Étant de nature
moins stable, il peut être invalidé par son prédécesseur dans la cascade. Si les boîtes englobantes
de FLOW et ORF ont un recouvrement nul et que le score de confiance de FLOW est inférieur à
un certain seuil, alors ORF prédomine par rapport à FLOW qui est corrigé par ORF (FLOW
prend comme entrée la sortie de ORF). ORF est mis à jour uniquement lorsque sa boîte recouvre
CHAPITRE 1. BIBLIOGRAPHIE 54

celle de NCC ou de FLOW sinon il est corrigé par NCC. Lorsqu’un tracker dérive, il est corrigé
par son prédécesseur dans la cascade, dont le modèle est plus stable.

Schéma générique de fusion Les trackers suivants conçoivent des schémas génériques de
fusion. Un traitement de la chaîne peut être remplacé par un autre du même type à condition de
renvoyer le même type de sortie, le schéma reste alors valable indépendamment du traitement
choisi dans la chaîne. Une première série d’études combine un détecteur et des trackers [Stenger
et al., 2009, Kalal et al., 2012, Vojir et al., 2015]. Pour le suivi de mains et de visages, [Stenger
et al., 2009] proposent deux schémas de fusion : un schéma parallèle et un schéma en cascade,
combinant un détecteur spécifique de mains ou de visages et plusieurs trackers. Chaque tracker
de la chaîne (cascade ou parallèle) est évalué à partir du score de confiance associé à la boîte
prédite, ce score renvoie à une erreur de précision de prédiction issue d’un apprentissage hors
ligne. Si l’erreur est supérieure à un certain seuil, le tracker est identifié comme étant en échec. Le
détecteur spécifique appris hors ligne sert à réinitialiser les trackers lorsque ces derniers échouent.
Dans le schéma parallèle, le tracker d’erreur estimée la plus faible et inférieure à un certain seuil,
est sélectionné à chaque instant. Si tous les trackers ont une erreur supérieure à ce seuil, alors ils
sont réinitialisés par le détecteur. Dans le schéma séquentiel, les trackers sont évalués à la chaîne,
le premier tracker d’erreur estimée inférieure au seuil est sélectionné. Si tous les trackers ont une
erreur supérieure au seuil, alors ils sont réinitialisés par le détecteur.
[Kalal et al., 2012] décrivent le TLD comme la coopération d’un tracker basé flot optique et
d’un détecteur appris en ligne, leur combinaison et mise à jour sont gérées par un autre modèle
construit à partir de templates basse résolution de l’objet qui évalue la qualité de chaque estimée.
Lorsque le tracker échoue, il est corrigé par le détecteur. Le détecteur est mis à jour lorsque le
tracker et lui-même sont validés par le 3ième modèle. Une version récente assez similaire au TLD
est le HMMTxD [Vojir et al., 2015]. Il décrit les états d’un ensemble de trackers sous la forme
d’un modèle de Markov caché (HMM), chaque tracker ayant deux états possibles s = {0, 1}, 1
pour un état correct et 0 sinon. Le HMM détermine les états des trackers à partir de couples
d’observables (boîte, score de confiance) produits par chacun des trackers à chaque instant. Un
détecteur hors ligne très précis (zéro taux de faux positifs et 30% de rappel) est utilisé pour
l’apprentissage en ligne des paramètres du HMM et également pour réinitialiser les trackers
lorsque c’est nécessaire. Lorsque le détecteur ne génère pas de détection, le HMM estime l’état
le plus probable du système (état de chaque tracker) et produit une boîte de fusion qui est la
moyenne des boîtes des trackers aux états corrects. Un vote majoritaire des trackers est utilisé
pour vérifier l’exactitude de la détection, auquel cas une mauvaise détection ne sera pas utilisée
pour réinitialiser les trackers.
Les trackers suivants réalisent la fusion de trackers sans détecteur. [Biresaw et al., 2014b]
mettent en compétition 2 trackers à filtre particulaire dont la qualité de chaque prédiction est
évaluée selon un critère d’incertitude spatiale des particules. [Zhong et al., 2014] proposent une
fusion « en boucle ouverte » des sorties de trackers en utilisant un apprentissage faiblement
CHAPITRE 1. BIBLIOGRAPHIE 55

supervisé sur des labels imparfaits générés par des « oracles » (trackers) pour estimer en ligne
leur précision et sélectionner l’oracle le plus précis à chaque instant. [Moujtahid et al., 2015b]
combinent un ensemble de trackers de type AdaBoost en ligne [Grabner et Bischof, 2006] basés
sur des caractéristiques hétérogènes (couleur, texture, forme) et fonctionnant indépendamment.
A chaque instant, le meilleur tracker est sélectionné à partir de son score de confiance normalisé
et d’une mesure de cohérence spatio-temporelle. Seul le tracker sélectionné réalise la mise à
jour de son modèle utilisant sa sortie. Dans une version plus récente, [Moujtahid et al., 2015a]
réalisent la sélection du tracker le plus adapté à la scène à partir d’un classifieur (perceptron
multi-couches) de contexte de scènes. Ce classifieur apprend le tracker le plus adapté (taux de
recouvrement avec la vérité terrain) à partir des caractéristiques extraites de la scène, des scores
de confiance des trackers et des trackers sélectionnés dans les trois images précédentes.
Une dernière approche plus générique est d’élaborer des stratégies de fusion de boîtes
englobantes (sorties de trackers), exploitant peu de connaissances sur les trackers [Bailer et al.,
2014]. Ces derniers proposent la fusion en « boucle ouverte » de boîtes produites par 29 trackers
issus de [Wu et al., 2013] en maximisant une fonction d’attraction de boîtes et en lissant la
trajectoire finale. Les boîtes peuvent être pondérées par la performance hors ligne des trackers.
La fusion des trackers réalise de meilleures performances de précision que le meilleur tracker sur
chaque séquence de la base.
Le tableau 1.2 résume les principales approches de fusion en précisant le type de fusion
(parallèle ou en cascade), les attributs jugeant de la qualité des prédictions et le contrôle de la
mise à jour ou de la réinitialisation des trackers et détecteurs.

1.3.4 Conclusion

La fusion de modèles ou de modules a pour objectif d’améliorer le suivi d’objet en précision


et en robustesse, en combinant différents modèles d’apparence et/ou de modèles de mouvement.
Diversifier les modèles d’apparence en combinant des caractéristiques de couleur, de forme ou de
texture, augmente la représentativité des apparences des objets et du contexte, permettant de
mieux gérer les variations d’apparence rencontrées au cours du suivi. Cette perspective améliore
la robustesse de suivi. De la même manière, disposer de différents modèles de mouvement permet
une description plus fine du mouvement des objets et donc une localisation plus précise de la
cible. Un autre intérêt de cette fusion est de permettre de mieux gérer les différentes variations de
mouvement possibles des objets pour éviter leur perte (trajectoire complexe, espace de recherche
plus large). Dans les deux types de fusion, modèles et modules, l’évaluation des modèles ou
modules est une composante importante de la fusion permettant de sélectionner les modèles
discriminants ou modules fonctionnels.
La fusion de modèles s’intéresse à estimer une vraisemblance ou une probabilité a posteriori
globale à partir des vraisemblances ou probabilités a posteriori conditionnelles aux modèles
d’observation. L’état estimé de la cible est souvent l’état qui maximise cette vraisemblance
CHAPITRE 1. BIBLIOGRAPHIE 56

Table 1.2 – Tableau résumé des approches de fusion décentralisée. Ces approches combinent des
trackers et parfois des détecteurs. k et ⊥ indiquent respectivement une fusion parallèle ou en
cascade des trackers. La colonne Évaluation indique les critères utilisés pour juger de la qualité
des prédictions, les principaux étant le score de confiance, le taux de recouvrement (overlap),
la position des prédictions, une incertitude spatiale des particules et un poids d’attraction. La
colonne Contrôle indique si les approches contrôlent la mise à jour ou la réinitialisation des
trackers et détecteurs. Une mise à jour marquée par un 7, signifie que les trackers et détecteurs
suivent leur propre mécanisme de mise à jour du modèle. Lorsque la mise à jour est marquée par
un 3, la mise à jour d’un ou plusieurs trackers et/ou détecteurs est contrôlée (sélection, censure
de mise à jour). Lorsque la réinitialisation est marquée par un 3, les trackers sont réinitialisés
par un détecteur hors ligne (HL) ou en ligne (EL) lorsque c’est nécessaire. Lorsque mise à jour et
réinitialisation sont marquées par un 7, alors il s’agit d’une fusion en boucle ouverte.

k ou ⊥ Évaluation Contrôle
Mise à jour Réinitialisation
[Santner et al., 2010] ⊥ confiance, overlap 3 7
[Stenger et al., 2009] k et ⊥ confiance 7 3détecteur HL
[Kalal et al., 2012] k confiance, overlap 3 3détecteur EL
[Vojir et al., 2015] k confiance, position 7 3détecteur HL
[Biresaw et al., 2014b] k incertitude spatiale 3 7
[Zhong et al., 2012] k position 3 7
[Moujtahid et al., 2015b] k confiance, position 3 7
[Bailer et al., 2014] k poids d’attraction 7 7

ou cette probabilité a posteriori. Les modèles sont pondérés en fonction de leur réponse à la
situation (vraisemblance, probabilité a posteriori, probabilité du tracker, résultat de classification).
Cependant, cette approche ne permet pas de contrôler la qualité des modèles d’observation. Une
autre approche cherche à évaluer la qualité des modèles d’observation, par exemple en utilisant
des contraintes spatiales, mais elle est peu explorée. Une des limites rencontrées dans la fusion
de modèles d’apparence est que les modèles utilisés ne présentent aucune différence structurelle
mis à part le type de caractéristiques utilisées.
La fusion de modules combine les entrées et sorties de différents traitements ou fonctions,
le plus souvent des trackers et des détecteurs. L’intérêt de combiner des traitements différents
est la possibilité d’exploiter des schémas de fonctionnement variés, non seulement les modèles
d’apparence peuvent être différents mais aussi les stratégies de recherche et de localisation, et les
mécanismes de mise à jour des modèles. Une des possibilités est de pouvoir tirer avantage de la
stabilité ou de la plasticité des modèles de certains traitements. Par exemple, un des schémas
de fusion répandu est l’association détecteur-tracker. Cette combinaison exploite la stabilité du
modèle du détecteur pour évaluer la qualité des trackers et les réinitialiser lorsqu’ils sont en échec.
Cette approche n’est pas la seule utilisée pour évaluer l’état des trackers, d’autres modèles plus
fiables peuvent être mis à contribution pour évaluer la qualité des prédictions. Une autre méthode
utilise des caractéristiques (vraisemblance, etc.) pour évaluer la qualité a priori des prédictions,
cependant elle repose souvent sur des seuils déterminés de manière empirique. Lorsque l’état des
CHAPITRE 1. BIBLIOGRAPHIE 57

trackers n’est pas évalué, la fusion peut exploiter des contraintes de continuité spatio-temporelle
des pistes de trackers et des connaissances a priori sur les trackers (performances globales).

Plan des travaux de la thèse

L’approche de fusion que nous proposons est la fusion de modules, l’objectif étant de combiner
un répertoire de trackers hétérogènes, de performances et coûts variables, et autorisant un niveau
d’interaction générique entre eux. Nous démontrons par une étude de complémentarité, l’intérêt
d’une telle fusion pour améliorer la robustesse globale de suivi. Les dynamiques globales de
sélection, agrégation et correction d’un ensemble de trackers sont gouvernées par une évaluation
en ligne du bon comportement de chaque tracker. Cette évaluation repose essentiellement sur
l’utilisation d’a priori spatio-temporels construits à partir de données intrinsèques aux modèles
ou sorties de trackers (scores, cartes de scores, variable interne) pour détecter un mauvais
fonctionnement. Nous montrons que la simple fusion de sorties de trackers a des avantages et
que ces sorties peuvent être facilement utilisées pour écarter les trackers en échec.
CHAPITRE 1. BIBLIOGRAPHIE 58
Chapitre 2

Matériel et Méthodes

Sommaire
2.1 Méthodologie d’évaluation des trackers . . . . . . . . . . . . . . . . . 59
2.1.1 Bases d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.1.2 Métriques de performance . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.1.3 Protocole d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.2 Répertoire de trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.2.1 NCC (Normalized Cross Correlation) [Lewis, 1995] . . . . . . . . . . . . 65
2.2.2 KLT (Kanade Lucas Tomasi Tracker) [Kalal et al., 2012] . . . . . . . . . 66
2.2.3 CT (Compressive Tracking) [Zhang et al., 2012] . . . . . . . . . . . . . . 67
2.2.4 STRUCK (Structured Output Tracking with Kernels) [Hare et al., 2011] 69
2.2.5 Tracker basé DPM (Deformable Part Models) [Felzenszwalb et al., 2010,
Kalman, 1960] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.2.6 DSST (Discriminative Scale Space Tracker) [Danelljan et al., 2014] . . . 73
2.2.7 MS (Meanshift) [Bradski, 1998] . . . . . . . . . . . . . . . . . . . . . . . 75
2.2.8 ASMS (Adaptive Scale mean-shift) [Vojir et al., 2014] . . . . . . . . . . 75
2.3 Développement de la plateforme C++ de fusion de trackers . . . . 76
2.3.1 Intégration des trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
2.3.2 Entrées/Sorties, paramètres de fusion . . . . . . . . . . . . . . . . . . . 80

Ce chapitre a pour objectif de présenter le matériel utilisé pour la fusion de trackers et


l’évaluation des performances. Dans un premier temps, nous décrirons la méthodologie d’évaluation
suivie pour évaluer les performances des trackers individuels et leur fusion 2.1. Nous décrirons
précisément le répertoire de trackers utilisé dans la section 2.2. Nous décrirons ensuite la plateforme
C++ développée pour réaliser leur fusion et évaluer leur performance dans la section 2.3.

2.1 Méthodologie d’évaluation des trackers

Nous présentons les bases, les métriques de performance et le protocole d’évaluation utilisés
pour évaluer les trackers individuels et la fusion.

59
CHAPITRE 2. MATÉRIEL ET MÉTHODES 60

2.1.1 Bases d’évaluation

Pour évaluer les performances de suivi des trackers et de leur fusion, nous avons utilisé 3
bases de vidéos présentant des objets et des scènes variés soumis à différentes perturbations
(mouvement de caméra, zoom, changements d’illumination, occultations, objets déformables,
changements d’apparence rapides, mouvements d’objet, etc.) :

— VOT2013+ contient 12 vidéos tirées de VOT2013 [Kristan et al., 2013], complétées avec
1 vidéo du benchmark KITTI [Geiger et al., 2012], et 5 autres vidéos provenant de notre
base de vidéos GoPro. La base contient au total 25 objets (6525 images).

— VOT2015 [Kristan et al., 2015a] contient 60 vidéos (21455 images).

— VOT-TIR2015 [Felsberg et al., 2015] contient 20 vidéos infra-rouge (11269 images).

Les bases VOT2015 et VOT-TIR2015 utilisent les bases complètes du challenge VOT.
La base du challenge VOT2013 contient 16 séquences mais pour constituer VOT2013+, nous
n’avons sélectionné que les 12 séquences contenant des objets de la base Pascal VOC (voiture,
personne, bus, moto) [Everingham et al., 2010]. Hormis les bases présentes dans le challenge VOT,
nous avons utilisé des vidéos provenant d’autres bases, KITTI et GoPro présentées ci-dessous.
Elles se situent dans le cadre de l’analyse de scène observée depuis un véhicule en déplacement.

KITTI Vision Benchmark Suite

Dans un objectif de faire avancer la recherche en conduite autonome, le benchmark KITTI


[Geiger et al., 2012] a développé un environnement permettant l’évaluation d’algorithmes à partir
de vidéos prises dans les conditions réelles dans la ville de Karlsruhe (zones urbaines, rurales,
autoroutes). Les thématiques de vision par ordinateur abordées par le benchmark sont très
larges : stéréo vision, calcul de flot optique, odométrie visuelle, détection et suivi d’objets 3D.
Pour cela, une paire de caméras stéréo couleur et une paire de caméras stéréo en niveaux de
gris sont embarquées sur un véhicule afin de réaliser les vidéos. La vérité terrain est obtenue à
l’aide d’un scanner laser et d’un GPS installés sur le toit du véhicule. Une grande variété de
vidéos urbaines sont réalisées avec comme objets d’intérêt des voitures, des camionnettes, des
camions, des piétons, des cyclistes, des tramways, et d’autres objets divers. Pour le suivi, nous
avons sélectionné une scène parmi les vidéos disponibles, de taille 1242x375 et illustrée dans la
figure 2.1. Cette scène présente deux objets à suivre, un cycliste et une camionnette, dans des
conditions difficiles de changement de luminosité, d’occultations, de changements d’apparence
importants (point de vue, taille) et de mouvement de caméra.

Base de vidéos GoPro

Nous avons réalisé 5 vidéos contenant 11 objets, à l’aide d’une caméra GoPro Hero3+ Black
Edition embarquée sur un véhicule aux alentours de la gare de Massy-Palaiseau. L’objectif était
CHAPITRE 2. MATÉRIEL ET MÉTHODES 61

Figure 2.1 – Séquence de la base KITTI [Geiger et al., 2012].


CHAPITRE 2. MATÉRIEL ET MÉTHODES 62

de constituer une base de vidéos à haute résolution prises en conditions réelles : 2.7K à 30 ips
(2704x1440) et 4K à 15 ips (3840x2160). Les vidéos ont été réalisées le même jour à un même
moment de la journée afin de garantir une homogénéité de la base. Les situations rencontrées
sont des scènes de trafic urbain comme des ronds-points et des carrefours où les changements
d’apparence et d’échelle des objets sont importants. La majorité des cibles sont des voitures, des
bus et des motos. Quelques exemples de scènes filmées sont illustrés dans la figure 2.2. Afin de
constituer la vérité terrain des objets, nous avons annoté les vidéos à l’aide de l’outil d’annotation
d’objets VATIC (Video Annotation Tool from Irvine, California) [Vondrick et al., 2013]. Pour le
suivi, les images ont été redimensionnées à 676x360 ou 640x360.

2.1.2 Métriques de performance

Deux métriques ont été utilisées pour évaluer les trackers : la robustesse et la précision,
définies par VOT [Kristan et al., 2013] dans la section 1.2.2. Rappelons leur définition exacte.

Robustesse La robustesse est définie par le nombre de dérives sur la base d’évaluation. Une
dérive du tracker est détectée par un taux de recouvrement IoU = 0, IoU étant défini dans la
section 1.2.2. Une réinitialisation du tracker a lieu 5 images après chaque dérive détectée.

Précision La précision est la moyenne du taux de recouvrement IoU sur l’ensemble des images
de la base où le tracker a un fonctionnement correct (IoU > 0) et en éliminant tous les IoU des
10 premières images après une initialisation ou une réinitialisation.

Notre étude se concentre sur le contrôle de la dérive, qui est plus naturellement mesurée par
la robustesse. Toutefois, la réalisation d’une bonne précision peut être critique dans plusieurs
applications nécessitant une précision géométrique (saisie, interaction homme-machine). Les
trackers individuels sont évalués selon ces deux métriques mais pour comparer la performance de
la fusion à celle des trackers individuels, seule la robustesse nous intéresse.

2.1.3 Protocole d’évaluation

Le protocole d’évaluation utilisé pour évaluer les trackers individuels et la fusion n’est pas
celui de VOT décrit dans la section 1.2.3 mais s’en rapproche. En effet, une particularité qui
nous intéresse dans VOT est de pouvoir mesurer les instants de dérive des trackers à travers la
métrique de robustesse (suivi, dérive, réinitialisation du tracker). Nous nous y intéressons puisque
l’objectif principal est de réduire le nombre de dérives ; ils seront étudiés plus précisément dans
le chapitre 3.
Notre évaluation diffère de celle de VOT sur différents aspects : au niveau des annotations des
images, de l’expérience utilisée, de l’évaluation des performances et du classement des trackers.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 63

Figure 2.2 – Séquences de la base de vidéos GoPro.


CHAPITRE 2. MATÉRIEL ET MÉTHODES 64

Annotations des images Comme nous l’avons évoqué dans la section 1.2.3, la vérité terrain
des objets est annotée par des boîtes de forme quadrilatérale et non rectangulaire dans VOT2015
et VOT-TIR2015. Le protocole de VOT utilise ces annotations pour évaluer la précision du
tracker. Notre évaluation est différente : les quadrilatères ont été redimensionnés en rectangles
pour le calcul de la précision et la robustesse. Ainsi, la vérité terrain de l’ensemble des bases
utilisées VOT2013+, VOT2015 et VOT-TIR2015 est une boîte rectangulaire et IoU est le taux
de recouvrement entre deux rectangles.
L’utilisation des quadrilatères peut être utile lorsque le tracker estime un repérage précis
de l’objet (contours), or les trackers utilisés dans nos travaux et présentés dans la section 2.2
n’estiment que des boîtes rectangulaires. De plus, puisque la précision n’est pas celle qui nous
intéresse en premier, il n’est pas nécessaire d’en avoir un calcul précis avec des quadrilatères.

Expérience Les trackers sont soumis uniquement à l’expérience 1 du protocole d’évaluation


de VOT (voir la section 1.2.3) : le tracker effectue le suivi sur toutes les vidéos de la base et est
initialisé avec la vérité terrain. L’objectif n’est pas d’obtenir une évaluation complète des trackers
sur tous les aspects mais de mesurer si la fusion améliore la robustesse des trackers individuels,
l’expérience de base suffit pour cela.

Évaluation La différence avec VOT est que la précision et la robustesse ne sont pas calculées
sur les mêmes sous-ensembles d’images que VOT. En effet, VOT moyenne la précision et la
robustesse sur des sous-ensembles d’images annotées par un même attribut visuel (section 1.2.3)
tandis que dans notre évaluation, la précision et la robustesse sont calculées sur toutes les
images de la base sans tenir compte des annotations d’attributs visuels. Nous n’avons donc
pas évalués la précision et la robustesse des trackers selon chaque phénomène visuel. L’une des
raisons est que les attributs visuels étant annoté manuellement ou semi-manuellement pour
chaque image de VOT (section 1.2.3), cela soulève un problème de constance et de fiabilité
des annotations. Nous avons par exemple déjà remarqué des annotations manquantes dans une
image pour laquelle une perturbation visuelle est présente, ou une annotation présente pour
une perturbation pratiquement inexistante (occultation très faible de l’objet). Quel que soit le
niveau de difficulté de la perturbation, l’image est annotée de la même manière. De plus, nous ne
possédons pas les annotations des vidéos de KITTI et GoPro nouvellement introduites dans la
base VOT2013+ (section 2.1.1).

Classement Le classement des performances des trackers dans VOT ne sert que si l’on a la
précision et la robustesse des trackers par attribut visuel, or nous n’utilisons pas les attributs.
Donc, nous ne réalisons pas de classement.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 65

2.2 Répertoire de trackers

Les trackers considérés dans ce travail consistent en un mélange de trackers standards et de


trackers plus récents, basés sur des caractéristiques et des modèles d’objet différents :

— NCC 1 (Normalized Cross Correlation) [Lewis, 1995]

— KLT 2 (Lucas Kanade Tomasi Tracker) [Kalal et al., 2012]

— CT 3 (Compressive Tracking) [Zhang et al., 2012]

— STRUCK 4 (Structured Output Tracking with Kernels) [Hare et al., 2011]

— Tracker basé DPM 5 (Deformable Part Models) [Felzenszwalb et al., 2010, Kalman, 1960]

— DSST 6 (Discriminative Scale Space Tracker) [Danelljan et al., 2014]

— MS 7 (Meanshift) [Bradski, 1998]

— ASMS 8 (Adaptive Scale mean-shift) [Vojir et al., 2014]

Les codes sources C++ ou composantes de ces trackers sont disponibles aux adresses indiquées.
Des modifications ont été réalisées à partir de ces codes de manière à ce que chaque tracker
fournisse un score ou une carte de scores à chaque instant (chapitre 4). Pour certains trackers,
un score particulier a dû être construit (section 4.4.1).
Nous décrivons le fonctionnement des 8 trackers ci-dessous.

2.2.1 NCC (Normalized Cross Correlation) [Lewis, 1995]

Le modèle d’apparence de l’objet est représenté par le template T de l’objet, en niveaux de


gris et de taille (w, h), défini par sa boîte englobante à la première image I0 à l’instant initial
t = 0. Pour prédire la position de l’objet dans l’image It avec t > 0, le tracker effectue une
recherche dense dans une fenêtre de recherche F de It , centrée sur la position de l’objet à l’image
précédente It−1 , de taille fixe égale à (2 ∗ max(w, h) − w, 2 ∗ max(w, h) − h).
La prédiction correspond à la position (x, y) dans It (position également contenue dans la
fenêtre de recherche F ) qui maximise le score de corrélation croisée normalisée centrée s défini
comme suit :

0 0 − T̄ ] ∗ [It (x + x0 , y + y 0 ) − I¯t ]
P
x0 ,y 0 [T (x , y )
s(x, y) = qP (2.1)
[T (x0 , y 0 ) − T̄ ]2 ∗ [It (x + x0 , y + y 0 ) − I¯t ]2
P
x0 ,y 0 x0 ,y 0

1. https://github.com/votchallenge/vot-toolkit
2. https://github.com/gnebehay/OpenTLD
3. http://www4.comp.polyu.edu.hk/~cslzhang/CT/CT.htm
4. https://github.com/samhare/struck
5. https://github.com/fanxu/ffld, http://docs.opencv.org/master/dd/d6a/classcv_1_1KalmanFilter.
html
6. https://github.com/klahaag/cf_tracking
7. http://docs.opencv.org/2.4/modules/video/doc/motion_analysis_and_object_tracking.html
8. https://github.com/vojirt/asms
CHAPITRE 2. MATÉRIEL ET MÉTHODES 66

où (x0 , y 0 ) parcourt tous les pixels dans T , T̄ est la moyenne des intensités de T et I¯t la moyenne
des intensités de la région centrée en (x, y) de taille (w, h) dans l’image It .
Le tracker NCC est le plus simple et le plus rapide de ceux étudiés.

2.2.2 KLT (Kanade Lucas Tomasi Tracker) [Kalal et al., 2012]

KLT est une implémentation d’un algorithme basé flot optique épars [Kalal et al., 2012].
L’objet est représenté par un ensemble E = {(xi , yi )}M
i=1 de M points. A l’instant initial t = 0,

les points sont générés à partir d’une grille régulière de M points, notons E0 cet ensemble.
L’algorithme fonctionne comme suit :

— Pour chaque point (xt−1 t−1


i , yi ) ∈ Et−1 , on calcule le flot optique dans l’image It , ce qui
donne le vecteur de translation (ui , vi ). A la fin de cette étape, on obtient l’ensemble Et .

— Afin d’éliminer les mauvaises correspondances de points obtenues précédemment par flot,
deux filtrages sont appliqués sur ces points :

— Le filtrage NCC (Normalized Cross Correlation) compare l’apparence locale de chaque


paire de points appariés de Et−1 dans Et . Pour chaque point (xt−1 t−1
i , yi ) ∈ Et−1 , un
score de corrélation si est calculé entre le patch de taille (5, 5) centré en (xt−1 t−1
i , yi )
dans It−1 et le patch de taille (5, 5) centré en (xti , yit ) dans It . On obtient alors
l’ensemble s = {si }M
i=1 . Le médian des scores est noté median(s). Le filtrage consiste

à éliminer tous les points de Et dont le score de corrélation associé est inférieur à
median(s).

— Le filtrage par l’erreur de flot optique aller-retour (en anglais forward backward error)
f orward
[Kalal et al., 2010b]. Le flot optique aller a été calculé précédemment Et−1 = Et−1 .
Le flot optique retour est calculé pour chaque point (xti , yit ) ∈ Et de l’image It dans
backward . Pour chaque point i ∈ E f orward ,
l’image It−1 , on obtient alors l’ensemble Et−1 t−1
backward . On
on mesure l’erreur ei (distance euclidienne) avec son homologue dans Et−1
obtient alors e = {ei }M
i=1 . Le médian des erreurs est noté median(e). Le filtrage consiste

à éliminer tous les points de Et dont l’erreur associée est supérieure à median(e).

— les points restants dans Et permettent d’estimer une translation médian des points, déter-
minant la nouvelle position de l’objet.

— afin de conserver un nombre de points constant à suivre, Et est complété par de nouveaux
points tirés aléatoirement à partir de la nouvelle position de l’objet de manière à obtenir
Card(Et ) = M .

Dans la version originale de [Kalal et al., 2012], KLT réalise une estimation d’échelle (de
taille) de l’objet mais dans la version que nous utilisons, l’estimation d’échelle est absente.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 67

2.2.3 CT (Compressive Tracking) [Zhang et al., 2012]

CT repose sur l’apprentissage en ligne de M classifieurs objet-fond {c1 , ..., cM }, basés sur des
caractéristiques de type fenêtre de Haar.
Chaque classifieur ci , i ∈ [1, M ], comprend ni fenêtres de Haar, avec ni < N où N est le
nombre maximal de fenêtres autorisé. Le classifieur ci dispose donc d’un jeu de fenêtres de Haar
{fij }nj=1
i
, où j parcourt les ni fenêtres du classifieur. Pour chaque classifieur, le jeu de fenêtres de
Haar est généré aléatoirement lors de l’initialisation et conservé au cours du temps.
Une fenêtre de Haar est définie par sa position (x, y), sa largeur l et sa hauteur L, de taille
inférieure à l’objet. Chaque fenêtre fij est affectée d’un coefficient multiplicateur αij = {1, −1}
tiré aléatoirement lors de l’initialisation. Calculer la valeur vij d’une caractéristique fenêtre de
Haar fij sur un exemple donné, consiste à sommer l’intensité I de tous les pixels contenus dans
cette fenêtre puis à multiplier cette somme par le coefficient αij propre à cette fenêtre :

X
vij = αij Ik (2.2)
k∈fij

Pour un classifieur ci donné, calculer la valeur vi du jeu de fenêtres {fij }nj=1


i
sur un exemple
donné, consiste à sommer les valeurs de toutes les caractéristiques de ce classifieur :

ni
X
vi = vij (2.3)
j=1

Initialisation des M classifieurs :

La position définie par la boîte englobante de référence X 0 est utilisée pour générer des
exemples positifs (voisinage proche de X 0 ) et négatifs (voisinage lointain de X 0 ), servant à
initialiser les M classifieurs.
L’initialisation consiste à :

— extraire les caractéristiques des exemples positifs et négatifs, c’est à dire calculer les valeurs
de v = {v1 , v2 , ...vM } pour chacun des exemples, où M est le nombre de classifieurs.

— pour chaque classifieur i = 1..M , on a une distribution des vi+ pour les exemples positifs et
une distribution des vi− pour les exemples négatifs.

— pour chaque classifieur i = 1..M , on modélise les deux distributions par des modèles

gaussiens. La distribution des vi+ suit une loi normale N (µ+ +
i , σi ). La distribution des vi
suit une loi normale N (µ− −
i , σi ).

Score de classification :

Les modèles gaussiens sont des estimateurs des distributions des observations ou vraisem-
blances. A partir de ces modèles, on calcule un score de classification sur une région d’image z.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 68

Ce score de classification est un rapport de vraisemblance objet-fond :

M
QM !
i=1 p(vi |y = 1)p(y = 1) p(vi |y = 1)
X
H(v(z)) = log QM = (2.4)
i=1 p(vi |y = 0)p(y = 0) i=1
p(vi |y = 0)

avec v = {v1 , v2 , ...vM } calculé sur l’échantillon z, y représente le label, 1 pour le positif et 0
pour le négatif.
Le score de classification est finalement le cumul des scores de classification des M classifieurs
sur l’échantillon pris indépendamment. La cible se trouve à la position pour laquelle le score de
classification est maximal. Pour cela, on explore les échantillons dans une zone de recherche définie
par un rayon γ autour de la position précédente de la cible notée lt−1 = (xt−1 , y t−1 ). Notons z
les échantillons de la zone de recherche tel que ||l(z) − lt−1 || < γ. On extrait les caractéristiques
et on calcule le score de classification de tous les échantillons. On définit la nouvelle position de
la cible lt = l(z) tel que z = argmax H(v(z)).
z

Mise à jour des M classifieurs :

On met à jour les M classifieurs par des exemples positifs et négatifs générés à partir de la
nouvelle position trouvée lt . Ces exemples sont de nouvelles observations qui vont servir à mettre
à jour les modèles statistiques des classifieurs de l’état précédent t − 1. Les exemples positifs
sont les z + ∈ Z + tels que ||l(z + ) − lt || < α. Les exemples négatifs sont les z − ∈ Z − tels que
ξ < ||l(z − ) − lt || < β avec 0 < α < ξ < β.
Pour tout z + ∈ Z + , on calcule v(z + ) = {v1 (z + ), v2 (z + )...vM (z + )}. De même, pour tout
z − ∈ Z − , on calcule v(z − ) = {v1 (z − ), v2 (z − )...vM (z − )}.
Pour chaque classifieur ci , les distributions vi (z + ) et vi (z − ) permettent d’estimer une loi
normale pour la classe positive N (µdata+
i , σidata+ ) et une loi normale pour la classe négative
N (µdata−
i , σidata− ) :
1
µdata+,t
X
i = vi (z + ) (2.5)
|Z + | + +
z ∈Z
v
u 1
u
σidata+,t (vi (z + ) − µ+,t−1
X
=t + i )2 (2.6)
|Z |
z + ∈Z +

A l’instant t, on met à jour les paramètres de chaque classifieur par un modèle dynamique
d’ordre 1 :
µti = λµt−1
i + (1 − λ)µdata,t
i (2.7)
q
σit = λ(σit−1 )2 + (1 − λ)(σidata,t )2 + λ(1 − λ)(µt−1
i − µdata,t
i )2 (2.8)

La mise à jour fait converger les moyennes du modèle µt−1


i vers les moyennes des observations
µdata,t
i . Plus λ est proche de 0, plus la convergence est rapide. Plus λ est proche de 1, moins le
modèle évolue, ce qui le rend plus robuste aux changements brusques.
A t = 0, les moyennes µ0i et variances σi0 sont initialisées à 0 et 1 respectivement.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 69

2.2.4 STRUCK (Structured Output Tracking with Kernels) [Hare et al.,


2011]

STRUCK résout le problème du suivi d’objet par l’apprentissage en ligne d’un modèle SVM (en
anglais Support Vector Machine) [Vapnik, 1995] à sorties structurées. Plutôt que d’apprendre un
classifieur binaire (labels ±1) permettant de séparer les caractéristiques objet des caractéristiques
du fond, on apprend une fonction de prédiction f : X → Y permettant de prédire directement
la transformation 2D de l’objet, notée Y (translation) à partir des caractéristiques X extraites
p
d’un patch. Soit pt−1 la position de l’objet à l’instant t − 1 et xt t−1 les caractéristiques extraites
à la position pt−1 à l’instant t. L’objectif de f est de prédire la transformation de l’objet yt à
l’instant t relative à pt−1 . Pour cela, on introduit une fonction discriminante F : X × Y → R
permettant de prédire la transformation :

p p
yt = f (xt t−1 ) = argmax F (xt t−1 , y) (2.9)
y∈Y

où Y = {(u, v)|u2 + v 2 < r2 } est la zone de recherche de l’objet définie dans un rayon r = 30
pixels autour de la position pt−1 .
Les caractéristiques utilisées sont 192 caractéristiques de Haar (6 types de caractéristiques de
Haar différents, arrangés sur une grille 4 ∗ 4 à 2 échelles). Le vecteur de caractéristiques x en
entrée de f est la concaténation des réponses des 192 caractéristiques calculées sur le patch.
F intègre simultanément les informations d’apparence (caractéristiques) et de position dans
un voisinage proche de la position de l’objet, configuration qui ne peut être réalisée qu’avec un
SVM structuré. Les exemples d’apprentissage sont des couples de caractéristiques et de vecteurs
de translation {(x1 , y1 ), ..., (xn , yn )}, pris dans un rayon de 60 pixels autour de la position prédite
de l’objet pt = pt−1 ◦ yt . Ils sont échantillonnés sur une grille polaire de 5 rayons et 16 divisions
angulaires, réalisant au total 81 positions.
L’objectif de F est de fournir un score élevé pour des couples (x, y) qui se correspondent. F
est définie comme suit : F (x, y) = hw, Φ(x, y)i, où Φ est une fonction noyau. L’apprentissage de
F passe par une fonction de coût :

∆(y, ȳ) = 1 − s0pt (y, ȳ) (2.10)

où s0pt (y, ȳ) est la mesure de recouvrement entre les boîtes définies aux positions y (sortie prédite)
et ȳ (sortie désirée).
On ne sait pas résoudre F dans l’espace primal, i.e. estimer directement les w. Le problème
est résolu dans l’espace dual avec une optimisation en ligne par l’étape SMO (en anglais
Sequential Minimal Optimization) développée par [Platt, 1999] selon une approche classique
du formalisme SVM. Dans l’espace dual, la fonction discriminante prend la forme suivante :
βiȳ hΦ(xi , ȳ), Φ(x, y)i, où le produit scalaire est défini par une fonction noyau
P
F (x, y) = i,ȳ

gaussien k(x, y, x̄, ȳ) = hΦ(x, y), Φ(x̄, ȳ)i = exp(−σkx − x̄k2 ). Les couples d’exemples (xi , y) pour
CHAPITRE 2. MATÉRIEL ET MÉTHODES 70

lesquels le βiy 6= 0 sont les vecteurs de supports que l’on recherche, les xi associés sont appelés
patterns de support.
Les étapes principales de l’algorithme de suivi sont alors :

Initialisation : dans un premier temps, F est entraîné à partir d’exemples labellisés de la


première image (vérité terrain de la cible), les vecteurs de support sont estimés (xi , y) et les
coefficients βiy calculés, à chaque pattern de support xi correspond un coefficient βiy . Notons S0
l’ensemble des vecteurs de support à l’instant t = 0.

Prédiction : la prédiction de la transformation de la cible yt dans la nouvelle image à l’instant


t permet de déterminer sa nouvelle position pt = pt−1 ◦ yt , fonction de la position de la cible pt−1
(recherche dans un rayon de 30 pixels autour de pt−1 ) et de l’ensemble des vecteurs de support
St−1 à l’instant t − 1.

Mise à jour du modèle : la nouvelle position prédite pt est utilisée pour mettre à jour St−1 ,
avec comme nouvel exemple positif ou vecteur de support positif, le couple (xpt t , y0 ) où y0 indique
la transformation nulle. Les exemples négatifs (81 positions) sont pris autour d’un rayon de
60 pixels autour de l’exemple positif (Y est l’ensemble des transformations possibles), comme
mentionné précédemment. Plusieurs stratégies sont mises en place afin de trouver les vecteurs
de support négatifs correspondants. Pour cela, l’étape d’optimisation définit deux directions de
recherche du gradient pour un vecteur de support donné (xi , y) :

βjȳ hΦ(xi , y), Φ(xj , ȳ)i = −∆(y, yi ) − F (xi , y)


X
gi (y) = −∆(y, yi ) − (2.11)
j,ȳ

où généralement, l’exemple négatif ou vecteur de support négatif choisi correspond au couple


(xi , y− ) où y− = argminy∈Y gi (y).
Pour chaque couple (xi , y) ∈ St−1 , les coefficients βiy et les gradients gi (y) sont sauvegardés,
puis mis à jour durant l’étape d’optimisation SMO. Cette étape d’optimisation est répétée
plusieurs fois de suite, permettant d’ajouter de nouveaux vecteurs de support négatifs parmi
les patterns de support existants et à la fois de réajuster les coefficients β correspondants.
L’optimisation en ligne permet de ré-estimer les vecteurs de support définis par des couples de
patterns de support et leurs coefficients respectifs (xi , βiy 6= 0) de manière itérative, sans avoir
besoin de ré-entraîner tous les exemples depuis le début.
Par ailleurs, afin de limiter les coûts de calcul, le nombre de vecteurs de support utilisés
est budgétisé. Si le budget est épuisé et qu’un nouveau vecteur de support doit être ajouté au
modèle, un vecteur de support du modèle doit être supprimé. C’est celui qui entraîne le moins de
changement sur le vecteur de poids qui est supprimé. A l’issu de cette étape, le nouvel ensemble
de vecteurs de support St est obtenu.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 71

2.2.5 Tracker basé DPM (Deformable Part Models) [Felzenszwalb et al.,


2010, Kalman, 1960]

Le tracker basé DPM combine un détecteur générique d’objets basé sur des modèles à parties
déformables pré-entraînés [Felzenszwalb et al., 2010] et un filtre de Kalman [Kalman, 1960].
L’idée est de réaliser l’étape de prédiction par une détection sémantique.
Le filtre de Kalman utilisé est celui d’OpenCV [Bradski, 2000]. Le détecteur utilisé reprend
l’implémentation de [Dubout et Fleuret, 2012], plus rapide que celui de [Felzenszwalb et al.,
2010], grâce à une optimisation des calculs dans l’espace de Fourier. Les modèles d’objet utilisés
correspondent aux modèles pré-entraînés sur la base Pascal VOC [Everingham et al., 2010]
comptant 20 classes d’objet différentes :

— personne : personne

— animal : oiseau, chat, vache, chien, cheval, mouton

— véhicule : avion, vélo, bateau, bus, voiture, moto, train

— intérieur : bouteille, chaise, table à manger, plante en pot, canapé, téléviseur/écran

L’idée des modèles à parties déformables est de représenter un objet déformable sous forme
d’un ensemble de parties à configuration déformable. Plutôt que de représenter une personne
par un modèle rigide englobant le tout, le modèle est décomposé en sous-parties (tête, buste,
bras, jambes). Un objet peut avoir plusieurs modèles à parties déformables, lorsqu’il peut être
présenté sous différents angles de vue, par exemple un modèle pour représenter une personne de
profil et un modèle de face.
Un modèle consiste alors en un filtre global qui est la base commune contenant l’objet entier
et de plusieurs modèles de « partie » pour les parties d’objet relatives à la base commune. Un
modèle de partie définit un positionnement spatial de la partie par rapport à la base commune
et un filtre de partie représentant la partie. Les filtres sont des PCA-HOG, caractéristiques
améliorées des HOG, calculées à des résolutions différentes de l’image suivant la nature du
filtre : les filtres de partie sont deux fois plus résolus que le filtre global, ils capturent ainsi des
caractéristiques plus fines permettant une représentation plus détaillée des parties tandis que le
filtre global moins résolu capture la forme approximative mais globale de l’objet.
Un modèle à n parties est donc défini par le filtre global F0 et un ensemble de modèles de
partie (P1 , ..., Pn ) où P = (Fi , vi , si , ai , bi ). Fi est le filtre de la partie i, vi est la position relative
de la partie i par rapport au filtre global F0 , si est la taille du filtre et (ai , bi ) sont les coefficients
d’une fonction quadratique mesurant un score pour chaque position possible de la partie i. Le
positionnement d’un modèle sur une pyramide HOG notée H est défini par z = (p0 , ..., pn ) où
pi = (xi , yi , li ) avec (xi , yi ) la position du filtre i et li le niveau de la pyramide.
Le score de détection obtenu par un filtre F appliqué sur la pyramide HOG notée H à la
position p (coin supérieur gauche) est F · φ(H, p) où φ(H, p) le vecteur obtenu par concaténation
CHAPITRE 2. MATÉRIEL ET MÉTHODES 72

des caractéristiques HOG dans la pyramide H à partir de la position p sur une fenêtre de même
taille que le filtre F .
Le score de détection du modèle est alors la somme des scores de détection des filtres dont on
ajoute un score de positionnement des parties relatif au filtre global :

n
X n
X
Fi · φ(H, pi ) + ai · (x̃i , ỹi ) + bi · (x̃2i , ỹi2 ) (2.12)
i=0 i=1

où (x̃i , ỹi ) = ((xi , yi ) − 2(x0 , y0 ) + vi )/si est la position de la partie i relativement au filtre global.
L’apprentissage d’un modèle à parties déformables consiste à apprendre le vecteur de
paramètres du modèle β = (F0 , ..., Fn , a1 , ..., an ) à partir d’une base d’apprentissage D =
({x1 , y1 }, ..., {xn , yn }) où xi est l’exemple i et yi le label correspondant, valant −1 pour un
exemple négatif et 1 pour un exemple positif. Pour chaque exemple xi , on dispose de sa pyramide
HOG, H(xi ) et d’un ensemble de positionnements possibles Z(xi ) du filtre global et des filtres
de partie.
Cela passe par l’apprentissage d’un modèle SVM latent où l’exact positionnement du filtre
global et des filtres de partie, notée z est considérée comme une variable latente. Chaque exemple
x doit maximiser un score de détection généré par une fonction de la forme :

fβ(x) = maxz∈Z(x) β · φ(x, z) (2.13)

où z est un positionnement possible des filtres, β = (F0 , ..., Fn , a1 , ..., an ) les paramètres du
modèle à déterminer, et φ(x, z) = (φ(H, p0 ), ..., φ(H, pn ), x̃1 , ỹ1 , x̃21 , ỹ12 , ..., x̃n , ỹn , x̃2n , ỹn2 ).
Pour déterminer β à partir de la base d’apprentissage D, la fonction à optimiser est :

n
β ∗ (D) = argminβ (λ k β k2 +
X
max(0, 1 − yi fβ (xi ))) (2.14)
i=1

Les exemples positifs sont toutes les boîtes englobantes contenant l’objet, tandis que les
exemples négatifs sont toutes celles qui ne contiennent pas l’objet. Afin de limiter le nombre
d’exemples négatifs d’entraînement par rapport aux exemples positifs en minorité, une sélection
est réalisée afin de n’entraîner le modèle qu’avec des exemples négatifs difficiles, situés proches
de la marge.

Le tracker basé DPM dont nous décrivons le fonctionnement exploite les détections générées
par le détecteur générique d’objet pré-entraîné sur la base Pascal VOC. Une détection d’objet
correspond donc à l’une des 20 classes apprises sur cette base. Voici les étapes de fonctionnement
du tracker :

Initialisation du DPM : dans un premier temps, on va chercher à identifier la classe de la


cible à partir de la première image, faisant potentiellement partie de l’une des 20 classes du
CHAPITRE 2. MATÉRIEL ET MÉTHODES 73

détecteur générique d’objet. L’objectif est qu’à l’issu de cette étape, le détecteur ne renvoie que
les détections correspondantes à la classe de la cible. Pour cela, on va tester les 20 modèles
à notre disposition sur la première image à la position de la boîte englobante et sélectionner
le modèle qui renvoie le score de détection le plus élevé par rapport aux autres modèles et en
même temps est supérieur à un certain seuil de détection afin de garantir une bonne détection.
Pour exploiter pleinement le DPM dans le tracker, la cible doit faire partie d’un des modèles
pré-entraînés à disposition.

Prédiction/détection : à chaque nouvelle image, filtre de Kalman et détecteur fonctionnent


indépendamment. Le filtre de Kalman prédit la localisation de la cible. Le détecteur renvoie
des détections dans une zone de recherche définie à partir de la position précédente de la cible,
la meilleure détection est sélectionnée comme mesure pour mettre à jour le filtre de Kalman.
La meilleure détection correspond à la détection ayant le score de détection maximal et un
recouvrement > 0, 3 avec la position précédente de la cible. Lorsqu’aucune détection ne satisfait
ces deux conditions, on est en mode prédiction : la nouvelle position de la cible est celle prédite
par le filtre de Kalman. Si cette détection existe, elle est utilisée pour mettre à jour le filtre et à
ré-estimer la nouvelle position de la cible.

2.2.6 DSST (Discriminative Scale Space Tracker) [Danelljan et al., 2014]

DSST modélise la cible par un filtre de corrélation discriminant espace-échelle basé sur des
caractéristiques PCA-HOG [Felzenszwalb et al., 2010] extraites de la cible. La particularité du
DSST par rapport à d’autres filtres de corrélation comme MOSSE [Bolme et al., 2010] et KCF
[Henriques et al., 2015] est la capacité à s’adapter aux variations de taille de la cible par une
estimation précise de l’échelle.

Filtre de corrélation discriminant classique Pour construire un filtre de corrélation dis-


criminant classique :

— on dispose d’exemples d’apprentissage qui sont des patchs en niveaux de gris f1 , .., fn de
l’apparence cible.

— ils sont labellisés par des scores de corrélation qui sont les sorties désirées du filtre, g1 , .., gn .
Ces scores sont générés à partir d’une gaussienne centrée sur la position de la cible.

Le filtre de corrélation optimal ht à l’instant t minimise une erreur :

n n
X 1 X
= k ht ∗ fj − gj k2 = k Ht Fj − Gj k2 (2.15)
j=1
M N j=1

où ht , fj et gj sont de taille M N , ht ∗fj désigne la corrélation de ht et fj , Ht Fj est la multiplication


élément par élément du conjugué complexe de Ht et de Fj . Ht , Fj et Gj sont les transformées de
Fourier de ht , fj et gj respectivement.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 74

Le filtre Ht minimisant l’erreur  peut être calculé exactement comme suit :


Pn
j=1 Gj Fj At
Ht = Pn = (2.16)
j=1 Fj Fj Bt

DSST, filtre de corrélation discriminant espace-échelle Pour avoir une estimation


d’échelle précise de l’objet, le DSST utilise deux filtres de corrélation appris séparément :
un filtre de translation htrans est d’abord appliqué pour estimer la position pt de la cible, suivi
d’un filtre d’échelle hscale pour estimer l’échelle st .
Estimation du filtre de translation htrans :
— on considère un exemple d’apprentissage à chaque instant, noté f . f est de dimension d,
correspondant aux caractéristiques PCA-HOG extraites du patch rectangulaire de taille
M N à la position estimée de la cible pt−1 à l’instant précédent. f l correspond à la dimension
l ∈ {1, ..., d} de f .
— f est labellisé par une gaussienne 2D g centrée sur la position estimée de la cible (sortie
désirée du filtre).
— le filtre de translation htrans recherché, de taille M N , est aussi de dimension d, chaque
dimension correspondant à une caractéristique PCA-HOG. Pour chaque dimension l ∈
{1, ..., d}, on calcule le filtre hltrans suivant :

l GF l Alt
Htrans = Pd = (2.17)
k=1 F
kF k +λ Bt

où λ est le terme de régularisation.


Le numérateur Alt et dénominateur Bt du filtre à l’instant t sont mis à jour séparément
avec un pas d’apprentissage η selon :

Alt = (1 − η)Alt−1 + ηGt Ftl (2.18)


d
X
Bt = (1 − η)Bt−1 + η Ftk Ftk (2.19)
k=1

— pour localiser la cible dans l’image It , on applique le filtre sur lePpatch rectangulaire z à
d
Al Z l
la position pt−1 , ce qui donne une carte de corrélation y = F −1 ( k=1 B+λ ) où F −1 est la
transformée de Fourier inverse. La nouvelle position estimée de la cible pt est la position
où le score de corrélation est maximal.

Estimation du filtre d’échelle hscale :


— on dispose d’un exemple d’apprentissage f qui est le résultat de caractéristiques extraites à
différentes échelles du patch à la position estimée de la cible pt par le filtre de translation
htrans . Notons f (n) les caractéristiques extraites à l’échelle n, f (n) est de dimension d.
— f est labellisé par une gaussienne 1D g dont le maximum correspond à l’échelle du patch.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 75

— le filtre d’échelle hscale est mis à jour de la même manière que le filtre de translation htrans .

— l’estimation de la nouvelle échelle st doit aussi maximiser un score de corrélation de la


même manière que pt .

Séparer l’estimation de la translation et de l’échelle permet de diminuer les coûts de calculs,


comparé à une recherche exhaustive des deux simultanément.

2.2.7 MS (Meanshift) [Bradski, 1998]

MS représente l’apparence de l’objet par un histogramme 3D dans l’espace de couleurs HSV


(en anglais Hue Saturation Value), calculé sur la première image. Le modèle est statique puisque
seule l’apparence initiale de l’objet est utilisée pour le suivi de l’objet tout au long de la séquence.
Chaque dimension de l’histogramme est divisée en 16 classes de largeur égale. MS recherche
la cible dans l’image suivante en réalisant un mean-shift sur la carte de rétro-projection de
l’histogramme sur l’image.
La recherche de la cible dans une image repose sur la procédure itérative mean-shift [Comaniciu
et Meer, 2002] de recherche du maximum d’une densité de probabilité. Considérons la rétro-
projection de l’histogramme sur l’image dans laquelle l’objet est recherché : on lit pour chaque
pixel de l’image, la probabilité associée à sa classe dans l’histogramme. La carte de rétro-
projection est donc une carte de probabilité de l’image. La position de l’objet m(x) correspond
alors au maximum de densité de probabilité de cette carte dans une fenêtre de taille h, et calculé
itérativement par mean-shift. On met à jour itérativement la position de l’objet m(x) connaissant
sa position précédente x, x ← m(x), jusqu’à ce que cette position converge :

− xi )xi
P
x ∈N (x) K(x
m(x) = Pi (2.20)
xi ∈N (x) K(x − xi )

avec K(x − xi ) la probabilité en x − xi (carte de rétro-projection), N (x) le voisinage de x (fenêtre


de taille h centrée sur x).

2.2.8 ASMS (Adaptive Scale mean-shift) [Vojir et al., 2014]

ASMS propose deux améliorations par rapport au tracker mean-shift classique :

— prendre en compte l’apparence du fond dans la modélisation de l’apparence de la cible pour


aider à mieux la discriminer du fond.

— estimer l’échelle de la cible par une vérification aller-retour (forward-backward consistency


check).

Dans le tracker mean-shift classique, la cible est modélisée par un histogramme de couleurs
q = {qu }u=1..m de m classes, calculé sur la première image. Pour localiser la cible dans une image,
CHAPITRE 2. MATÉRIEL ET MÉTHODES 76

on cherche à minimiser la distance de Hellinger entre l’histogramme connu de la cible q et un


histogramme calculé sur un patch candidat p = {pu }u=1..m :

q
H(p, q) = 1 − ρ(p, q) (2.21)

Pm √
où ρ(p, q) = u=1 pu qu est le coefficient de Bhattacharyya.
Minimiser H(p, q) revient à maximiser ρ(p, q).
Dans ASMS, au lieu de maximiser ρ(p, q), on va chercher à maximiser un ratio cible/fond :

ρ(p, q)
R= (2.22)
ρ(p, bg)

où bg = {bgu }u=1..m est l’histogramme du fond calculé dans un voisinage proche de la cible à la
première image.
Les estimations de position y et d’échelle h de la cible sont calculées simultanément et
itérativement par mean-shift en les déplaçant dans la direction du gradient ∇ρ(p(y, h), q).
Une vérification aller-retour de l’échelle estimée h est effectuée : elle consiste à comparer le
changement d’échelle h de l’image It−1 à It , et le changement d’échelle hback dans le sens inverse
de It à It−1 afin de vérifier la cohérence du résultat.

2.3 Développement de la plateforme C++ de fusion de trackers

Nous avons développé une plateforme C++ permettant de réaliser la fusion de plusieurs
trackers C++. Les besoins de cette plateforme sont multiples :

— tout d’abord, nous avons besoin d’évaluer des trackers individuels sur une base de vidéos
commune utilisant le même protocole d’évaluation et les mêmes critères de performance. Un
tel outil existe, c’est la plateforme Matlab de VOT 9 permettant l’intégration de trackers
en Python, C/C++, Matlab. Nous avons commencé nos travaux avec cette plateforme
mais nous avons vite constaté ses limites. Sa structure peu flexible ne permettait pas
les modifications nécessaires à la fusion des trackers. Il a fallu développer notre propre
plateforme, en s’inspirant de VOT.

— le deuxième besoin est la fusion de plusieurs trackers à différents niveaux d’interaction, au


niveau des entrées/sorties des trackers (fusion, mise à jour, réinitialisation) ou du modèle
d’objet (variable interne).

2.3.1 Intégration des trackers

Les codes C++ des trackers dont nous disposons possèdent la même structure fonctionnelle.
Ils initialisent leur modèle à la première image, prédisent la position de l’objet dans l’image
suivante et corrigent leur modèle à partir de la position prédite. Mais les fonctions développées
9. https://github.com/votchallenge/vot-toolkit
CHAPITRE 2. MATÉRIEL ET MÉTHODES 77

ne prennent pas les mêmes entrées et ne produisent pas les mêmes sorties. Afin d’uniformiser les
entrées et sorties des fonctions de trackers, nous définissons une classe mère GenericTracker
décrivant un tracker générique avec des méthodes virtuelles. Un tracker correspondrait alors à
une classe dérivée de la classe mère.

Tracker générique Un tracker générique comprend trois méthodes principales :

— virtual void Initialize(string imgName, cv::Rect& box) :

initialise le tracker à partir d’une boîte englobante définie dans une image d’entrée, cette
fonction est généralement appelée au début de la séquence.

— virtual void Track(string imgName, cv::Rect& box) = 0;

réalise la prédiction dans l’image courante utilisant la boîte prédite dans l’image précédente.
L’historique des prédictions est stocké dans l’attribut vector<cv::Rect> bbox.

— virtual void Update(string imgName, cv::Rect& box) = 0;

réalise la mise à jour du modèle utilisant la prédiction de la fonction précédente. Cette


étape de correction est présente dans les trackers à modèle dynamique.

Nous définissons deux autres méthodes virtuelles dans le but de prédire les dérives des trackers
à partir d’indicateurs de comportement :

— virtual void ExtractMapFeatures() :

l’objectif de cette fonction est d’extraire des indices de comportement principalement à


partir de la carte de scores générée par le tracker et de stoker ces indices dans l’attribut
vector<vector<double> > mapfeatures. Les indices propres à chaque tracker sont définis
dans cette fonction.

— virtual bool FeaturesDriftPredictionFunction() :

cette fonction prédit la dérive ou non du tracker à partir des valeurs des indices de com-
portement en renvoyant un booléen qui vaut true pour une dérive et false pour un bon
fonctionnement du tracker. Les prédictions de dérive pour toutes les images sont stockées
dans l’attribut vector<int> drift.

Extrait de la classe GenericTracker :

#ifndef DEF_GENERICTRACKER
#define DEF_GENERICTRACKER

#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <opencv2/imgproc/imgproc.hpp>
CHAPITRE 2. MATÉRIEL ET MÉTHODES 78

#include <iostream>
#include <string>
#include <vector>

using namespace cv;


using namespace std;

// classe mère
class GenericTracker
{
public:
GenericTracker();
~GenericTracker(){};

// méthodes virtuelles à redéfinir dans les classes dérivées


virtual void Initialize(string imgName, cv::Rect& box) = 0;
virtual void Track(string imgName, cv::Rect& box) = 0;
virtual void Update(string imgName, cv::Rect& box) = 0;
virtual void ExtractMapFeatures() = 0;
virtual bool FeaturesDriftPredictionFunction() = 0;

// calcul des performances


double Precision(vector<cv::Rect> groundtruthBox, bool ReinitFlag);
int Robustness();
double AvgExecTime();
double Speed();

// sauvegarde des résultats dans des fichiers de sortie


void WriteResultFile(char* trackletPath);
void WriteTimeFile(char* timePath);
void WriteFeaturesFile(char* featuresPath);
void WriteDriftPredictionFile(char* driftPredictionPath);

protected:
// historique du suivi
vector<cv::Rect> bbox; // boîtes englobantes prédites
vector<vector<double> > mapfeatures; // indices de comportement calculés
vector<int> drift; // prédictions de dérive
};

#endif

Tracker fusion La fusion de trackers est définie dans la classe FusionTracker, qui dérive de la
classe GenericTracker. Un tracker fusion contient une liste de trackers vector<GenericTracker*>
trackerList. Les trackers de la liste sont initialisés via la fonction d’initialisation virtual void
Initialize(). La fonction de traitement est réalisée par void FusionProcess() où les trackers
sont exécutés en parallèle, les dérives prédites dans vector<bool> adrift, les sorties des trackers
fusionnées (fonctions cv::Rect average_box() et cv::Rect centerofgravity_box()) et les
CHAPITRE 2. MATÉRIEL ET MÉTHODES 79

entrées corrigées selon un ensemble de paramètres de fusion à définir dans la fonction void
SetFusionParameters().
Les paramètres de fusion correspondant à différentes méthodes de fusion (sélection, fusion,
correction) seront précisés dans le chapitre 5.

Extrait de la classe FusionTracker :

#ifndef DEF_FUSIONTRACKER
#define DEF_FUSIONTRACKER

#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>

#include <iostream>
#include <string>
#include <vector>

#include "GenericTracker.h"

using namespace cv;


using namespace std;

typedef struct cluster{


cv::Rect center;
vector<cv::Rect> elements; // éléments du cluster
vector<int> trackers; // trackers appartenant au cluster
}CLUSTER;

class FUSIONTracker : public GenericTracker


{
public:
FUSIONTracker();
~FUSIONTracker(){};
virtual void Initialize(string imgName, cv::Rect& box);
...

public:
vector<GenericTracker*> trackerList; // liste des trackers à fusionner
vector<bool> adrift; // prédiction de dérive de chaque tracker de la liste
,→ à un instant donné

// paramètres de fusion à renseigner


void SetFusionParameters(string DriftPredictionMethod, string
,→ CheckBoxesSpatialCoherenceMethod, string BoxesFusionMethod, string
,→ ReinitTrackerMethod, bool ReinitModelObject, bool
,→ ReinitFusionVOTprocedure);

// remplace la méthode virtual void Process(string imgName, cv::Rect&


,→ box)
CHAPITRE 2. MATÉRIEL ET MÉTHODES 80

void FusionProcess(int numImage, string imgName, cv::Rect& fusion_box,


,→ cv::Rect groundtruth_box, double bb_overlap, vector<cv::Rect>
,→ reinit_boxes);

// méthodes de sélection des trackers


double distance_boxes(cv::Rect box1, cv::Rect box2);
vector<CLUSTER> clustering_boxes(vector<cv::Rect> output_boxes,
,→ vector<bool> driftpred, double overlapthr);

// méthodes de fusion des boîtes


cv::Rect average_box(vector<cv::Rect> boxes);
cv::Rect centerofgravity_box(vector<cv::Rect> boxes);

private:
// paramètres de fusion
string DriftPredictionMethod;
string CheckBoxesSpatialCoherenceMethod;
string BoxesFusionMethod;
string ReinitTrackerMethod;
};

#endif

Architecture logicielle L’architecture globale du code est présentée dans la figure 2.3. Les
trackers sont reliés à la version 3.0 de la librairie OpenCV.

Machine Tous les calculs ont été réalisé sur un Intel Xeon 4 core 2.80 GHz CPU 8 GB RAM,
sans utilisation du GPU.

2.3.2 Entrées/Sorties, paramètres de fusion

Plusieurs paramètres d’entrées et de sorties sont à spécifier au lancement du tracker fusion.

En entrée :

— base de vidéos : spécifier le chemin du dossier contenant toutes les séquences, par exemple
/sequences et la liste des noms des séquences dans un fichier .txt, list.txt. Chaque
séquence correspond à un sous-dossier, par exemple le sous-dossier /sequences/bag est
créé pour la séquence bag. Chaque sous-dossier contient l’ensemble des images au format
%08.jpg et un fichier vérité terrain groundtruth.txt.

— paramètres de fusion : spécifier le chemin du fichier .txt contenant les paramètres de fusion
correspondant à une configuration possible de fusion.

— liste des trackers : spécifier le chemin du fichier .txt contenant la liste des noms des trackers
à fusionner, un nom par ligne. Les noms possibles sont : NCC, KLT, CT, STRUCK, DPM,
CHAPITRE 2. MATÉRIEL ET MÉTHODES 81

Codes sources
NCC KLT CT STRUCK …
des trackers

Librairies libncc.a libklt.a libct.a libstruck.a …

NCCTracker KLTTracker CTTracker STRUCKTracker …

GenericTracker

vector<GenericTracker*> trackerList FusionTracker

int main()

MultiTracker.exe

Figure 2.3 – Architecture logicielle. Les classes sont représentées en jaune. On génère
une librairie à partir de chaque code source de trackers. Pour chaque tracker, on crée une
classe dérivée de la classe GenericTracker. Chaque classe est reliée à la librairie corres-
pondante. La fonction principale appelle une instance de la classe FusionTracker dérivant
aussi de la classe GenericTracker et qui réalise la fusion de plusieurs trackers spécifiés dans
vector<GenericTracker*> trackerList.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 82

DSST, MS, ASMS.

En sortie :

— performances sur la base : spécifier le chemin du fichier .txt dans lequel seront stockées les
performances, par exemple performance.txt.

— autres résultats : d’autres fichiers de résultats sont automatiquement générés dans un


dossier temporaire /FusionResults comme les prédictions de boîtes, les prédictions
de dérives, les indices de comportement et les temps d’exécution pour chaque image
de chaque séquence de la base. Par exemple, pour la séquence bag, le fichier des pré-
dictions de boîtes créé est fusion_bag_box.txt, le fichier des prédictions de dérives
fusion_bag_driftprediction.txt, le fichier des indices de comportement fusion_bag_features.txt
et le fichier des temps d’exécution fusion_bag_time.txt.

Paramètres de fusion Un exemple de fichier .txt spécifiant les paramètres de fusion est
présenté dans le listing 1. Les valeurs prises par chaque paramètre sont récapitulées dans la table
2.1.
DriftPredictionMethod spécifie l’emploi de la méthode de prédiction de dérives par des
indicateurs de comportement scoremapfeatures (BI) ou par la simulation d’une prédiction
idéale par vérité terrain groundtruth (Ideal) ou aucune des deux méthodes, dans ce cas, le
membre de droite ne contient aucune valeur (∅). Ces méthodes sont décrites dans les sections 4.2
et 5.2.2.
CheckBoxesSpatialCoherenceMethod spécifie l’emploi d’une prédiction de dérives par boîtes
englobantes distance (BF) ou clustering (BC). Lorsqu’aucune méthode n’est employée, le
membre de droite ne contient aucune valeur. Les méthodes sont précisées dans les sections 4.3 et
5.2.2.
BoxesFusionMethod spécifie une méthode de fusion des boîtes average (Avg) ou centerofgravity
(Grav). Les méthodes sont détaillées dans la section 5.2.3.
ReinitTrackerMethod décide de la mise à jour/réinitialisation de tous les trackers quel que
soit l’état prédit alltrackers, des trackers dont l’état prédit est une dérive onlydriftedtrackers
ou aucun tracker n’est mis à jour/réinitialisé quel que soit l’état prédit, dans ce cas, le membre
de droite ne contient aucune valeur. Les méthodes sont détaillées dans la section 5.2.4.
ReinitModelObject = true active la réinitialisation des trackers pour lesquels une dérive a
été prédite. ReinitModelObject = false n’autorise que des mises à jour des trackers, pas de
réinitialisations. Les méthodes sont détaillées dans la section 5.2.4.
ReinitFusionVOTprocedure = true active la réinitialisation du tracker après chaque dérive
mesurée comme décrite dans le protocole d’évaluation du chapitre 2, sinon le tracker n’est jamais
réinitialisé.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 83

DriftPredictionMethod = groundtruth
CheckBoxesSpatialCoherenceMethod = distance
BoxesFusionMethod = average
ReinitTrackerMethod = onlydriftedtrackers
ReinitModelObject = false
ReinitFusionVOTprocedure = true

Listing 1 – Exemple de fichier .txt spécifiant les paramètres de fusion. Le nom des paramètres
est à gauche et la valeur à droite.

Table 2.1 – Tableau récapitulatif des valeurs prises par les différents paramètres de fusion.

Paramètres Valeurs possibles <>


DriftPredictionMethod <>, <groundtruth>, <scoremapfeatures>
CheckBoxesSpatialCoherenceMethod <>, <distance>, <clustering>
BoxesFusionMethod <average>, <centerofgravity>
ReinitTrackerMethod <>, <onlydriftedtrackers>, <alltrackers>
ReinitModelObject <false>, <true>
ReinitFusionVOTprocedure <false>, <true>

Performances sur une base Un exemple de fichier .txt de performances est présenté dans le
listing 2.
CHAPITRE 2. MATÉRIEL ET MÉTHODES 84

sequence precision errorLoc robustness avgtimeexc speed


bicycle 0.536665 1.000000 0 0.004284 233.440226
bolt 0.770663 0.997085 1 0.004347 230.035069
car 0.433362 0.641873 0 0.005716 174.962123
david 0.677520 0.628088 0 0.005990 166.938095
diving 0.404644 0.540000 5 0.004795 208.541005
face 0.872517 1.000000 0 0.006017 166.202851
gymnastics 0.537384 0.664773 5 0.004415 226.476084
iceskater 0.584917 0.765531 0 0.004643 215.363766
jump 0.692960 1.000000 0 0.007693 129.995968
singer 0.830334 1.000000 0 0.003588 278.691044
sunshade 0.676823 1.000000 0 0.005491 182.100675
woman 0.680696 0.982877 2 0.004373 228.679100
gopr0008_car1 0.494229 0.413408 0 0.005937 168.426520
gopr0008_car2 0.603073 0.640411 1 0.006386 156.581882
gopr0009_car1 0.472979 0.730964 1 0.004879 204.962592
gopr0009_car2 0.585944 0.878049 0 0.005028 198.890096
gopr0009_car3 0.596200 0.844961 0 0.004707 212.448849
gopr0011_bus 0.799268 0.944444 0 0.004482 223.132461
gopr0013_car1 0.712814 0.977012 0 0.005831 171.492813
gopr0013_car2 0.806923 0.893519 0 0.007554 132.376139
gopr0013_car3 0.393317 0.423077 1 0.005500 181.825811
gopr0013_car4 0.347475 0.444444 1 0.005778 173.066938
gopr0020_moto 0.754837 1.000000 0 0.005035 198.619868
kitti_cyclist 0.411927 0.588235 0 0.006944 144.008539
kitti_van 0.672122 0.612245 1 0.006985 143.167966
MOYENNE/TOTAL 0.613984 0.784440 18 0.005456 190.017059

Listing 2 – Exemple de fichier .txt des performances du DSST [Danelljan et al., 2014] obtenues
sur un ensemble de séquences spécifiées dans la colonne de gauche. Les colonnes suivantes
correspondent à différentes mesures de performance : la précision, l’erreur de localisation à
20 pixels, la robustesse, le temps moyen d’exécution par image en secondes et la vitesse en
nombre d’images traitées par seconde. La dernière ligne indique les performances sur la base,
correspondant à une moyenne sur l’ensemble des séquences pour presque toutes les mesures sauf
pour la robustesse qui est une somme.
Chapitre 3

Étude de la complémentarité des


trackers

Sommaire
3.1 Complémentarité de conception . . . . . . . . . . . . . . . . . . . . . . 85
3.2 Mesure des performances . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2.1 Performances globales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2.2 Performances locales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.3 Étude des instants de dérive des trackers . . . . . . . . . . . . . . . . 93
3.3.1 Instants de dérive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.3.2 Simuler une piste de suivi reconstituée . . . . . . . . . . . . . . . . . . . 96
3.3.3 Proposition d’une métrique pour mesurer la complémentarité d’un en-
semble de trackers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
3.4 Discussion et travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . 103
3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

L’objectif principal des travaux consiste à développer une fusion robuste d’un ensemble de
trackers. Ce chapitre a plus particulièrement pour objectif de déterminer si leur fusion a un intérêt,
c’est à dire améliore la robustesse globale de suivi en réduisant le nombre de dérives sur une
base d’évaluation. La complémentarité des trackers a été observée à différents niveaux, d’abord
au niveau de leur conception, puis au niveau des performances (globales et locales), et enfin au
niveau de leurs instants de dérives individuels. Nous nous intéresserons plus particulièrement à
ce dernier niveau pour démontrer et évaluer l’intérêt de la fusion.

3.1 Complémentarité de conception

Les trackers réagissent différemment vis à vis des perturbations visuelles (apparence, contexte,
mouvement, illumination, occultation). Ces différences de comportement sont liées à leur com-
position structurelle comme nous avons pu le voir dans l’étude bibliographique (section 1.1.4).
L’idée est alors de tirer avantage des spécificités (représentation, modèle, mise à jour) de chacun

85
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 86

des trackers du répertoire pour assurer une complémentarité des comportements au niveau de
l’ensemble des perturbations existantes. Rappelons que ces trackers au nombre de 8, ont été
décrits en détails dans le chapitre 2 :

— NCC (Normalized Cross Correlation) [Lewis, 1995],

— KLT (Lucas Kanade Tomasi Tracker) [Kalal et al., 2012],

— CT (Compressive Tracking) [Zhang et al., 2012],

— STRUCK (Structured Output Tracking with Kernels) [Hare et al., 2011],

— DPM (Deformable Part Model) [Felzenszwalb et al., 2010, Kalman, 1960],

— DSST (Discriminative Scale Space Tracker) [Danelljan et al., 2014],

— MS (Meanshift) [Bradski, 1998],

— ASMS (Adaptive Scale mean-shift) [Vojir et al., 2014].

Dans cette partie, nous justifions le choix des trackers utilisés tout au long de l’étude, dont
les caractéristiques semblent présenter une éventuelle complémentarité des comportements.

Type de trackers La complexité des trackers du répertoire est très hétérogène. NCC, KLT
et MS forment les trackers les plus simples (représentation, modèle, fonctionnement) et les
plus standards de la littérature. Ils n’utilisent qu’une seule vue de l’objet pour le suivi, soit
l’apparence initiale de l’objet, soit l’apparence courante de l’objet. ASMS, version améliorée de
MS, dispose d’un modèle statique construit sur l’apparence initiale de l’objet. Les autres trackers
(CT, STRUCK, DSST) ont des modèles d’apparence plus complexes (exemples d’apprentissage,
mise à jour du modèle). DPM, combinaison d’un détecteur d’objet entraîné hors ligne et d’un filtre
de Kalman, ajoute une information sémantique (notion d’objet). Cette information sémantique
apporte une précision supplémentaire par rapport aux autres trackers. En effet, en connaissant le
type d’objet suivi et en étant capable de détecter l’objet précisément, la dérive du tracker vers
l’arrière-plan peut être évitée. Ce qui n’est pas le cas de KLT, qui peut facilement dériver lorsque
des points de l’arrière-plan sont introduits dans son modèle.

Représentation de l’apparence NCC représente l’objet par un template en niveau de gris,


KLT par des points en niveau de gris, MS et ASMS calculent un histogramme HSV ou RBG. CT
et STRUCK utilisent des caractéristiques de texture (caractéristiques de Haar), DPM et DSST des
caractéristiques de forme (PCA-HOG). Ces représentations de l’apparence sont complémentaires
(couleur, forme, texture).

Mise à jour NCC, DPM, MS et ASMS ont un modèle d’apparence statique. L’avantage des
modèles statiques est qu’ils ne peuvent introduire de bruit dans leur modèle, lié à une absence de
mise à jour. Mais l’inconvénient est qu’ils ne sont pas robustes aux changements d’apparence. Les
autres trackers du répertoire disposent de mécanismes de mise à jour : KLT ré-échantillonne de
nouveaux points à partir de la nouvelle apparence de l’objet pour remplacer les points non fiables
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 87

du modèle. CT et DSST contrôlent la vitesse d’adaptation du modèle aux nouvelles apparences


de l’objet par un pas d’apprentissage fixe. Une des difficultés est de régler correctement ce pas
d’apprentissage car une adaptation trop lente du modèle ne permet pas de suivre les variations
d’apparence rapides de l’objet, et une adaptation trop rapide du modèle lorsque la prédiction est
imprécise entraîne une dérive du tracker. Le modèle de STRUCK est un condensé des vues de
l’objet observées au cours du temps, les plus représentatives/différentes possibles.
L’intérêt de combiner ces différents mécanismes de mise à jour est de pouvoir jongler entre la
stabilité de certains modèles et l’adaptabilité d’autres pour résoudre différentes situations en
suivi.

Contexte NCC, KLT et MS construisent leur modèle à partir des informations provenant
de l’objet uniquement. Les autres trackers intègrent des informations de contexte dans leur
modèle (CT, STRUCK, DPM, DSST, ASMS). CT et ASMS modélisent le fond (modèle gaussien,
histogramme) pour pouvoir mesurer l’écart entre la similarité à l’objet et la similarité au fond. En
effet, pour localiser l’objet, ils cherchent à maximiser un rapport de vraisemblance ou de similarité
objet-fond. STRUCK, DPM et DSST utilisent des modèles discriminants par l’apprentissage
d’exemples positifs et négatifs. Cependant, DPM est différent de STRUCK et de DSST car il
n’adapte pas son modèle dans le temps. Son modèle est discriminant non par rapport au contexte
dans lequel l’objet se trouve mais par rapport aux exemples négatifs de sa base d’apprentissage.
CT, ASMS, STRUCK et DSST peuvent compenser l’absence de prise en compte du contexte des
autres trackers.

Recherche de l’objet Les stratégies de recherche utilisées sont variées : modèle de mouvement
linéaire (DPM), flot optique (KLT), meanshift (MS, ASMS), détection dense dans une fenêtre
de recherche locale centrée sur la position précédente de l’objet (NCC, CT, STRUCK, DPM,
DSST). Les avantages et inconvénients de ces méthodes ont d’ores et déjà été évoqués dans
l’étude bibliographique de la section 1.1.2. La plupart des trackers fonctionnent à échelle fixe
sauf DPM, DSST et ASMS qui réalisent une estimation d’échelle de l’objet à chaque instant.
Leur utilisation permet d’améliorer la précision de suivi.

Le tableau 3.1 récapitule la composition et les domaines d’emploi des 8 trackers, similairement
à l’étude bibliographique de la section 1.1.4. En additionnant les domaines d’emploi des 8 trackers,
l’ensemble des perturbations visuelles semble pouvoir être maîtrisé.
La figure 3.1 illustre différents comportements de dérive de 6 trackers (NCC, KLT, CT,
STRUCK, DPM, MS) face à différentes perturbations (occultation, illumination, flou, bruit de
contexte, échelle, apparence). Dans (a), DPM et CT arrivent à gérer l’occultation partielle du
cycliste par un poteau entre l’image 174 et 176 (milieu et droite). DPM détecte le vélo lorsque la
cycliste est occultée. Dans (b), les trackers KLT, CT et STRUCK dérivent en même temps à
l’image 70 (milieu) car ils ne sont pas capables d’estimer l’échelle de la moto. Dans (c), la plupart
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 88

des trackers dérivent à l’image 84 (milieu) à cause du flou et du manque de contraste entre le
dinosaure et l’arrière-plan. Dans (d), le poisson se déforme et présente des couleurs très similaires
à l’arrière-plan. La plupart des trackers perdent le poisson à cause des variations importantes
d’apparence et du manque de contraste de la scène, image 150 (droite). Dans (e), la moto réalise
une pirouette avec d’importantes variations de luminosité et du flou. Grâce à l’adaptation du
modèle et la prise en compte du contexte, CT et STRUCK parviennent à suivre la moto jusqu’à
l’image 79 (droite). Dans (f), la difficulté des images infra-rouge est l’absence de texture dans les
objets qui les rendent peu distinguables. Aucun tracker n’est capable de détecter le drone dans
l’image 177 (droite).
Table 3.1 – Composition des 8 trackers et leurs domaines d’emploi. Ceux-ci utilisent plusieurs représentations de l’apparence : template en niveaux de gris
(Templ), points en niveaux de gris (Points, Int), caractéristiques de Haar, PCA-HOG, histogramme global (HistoG) dans les espaces de couleurs HSV ou
RGB. Les modèles sont soit génératifs (MG), soit discriminants (MD). Les méthodes utilisées sont la corrélation (Corr), la log-vraisemblance (L), des SVM
structuré (str) ou latent (lat) et un filtre de corrélation (FC). La recherche de l’objet utilise soit une fenêtre de recherche dense (Ds) en indiquant sa taille,
un flot optique (Fl), un filtre de Kalman (FK) ou un Meanshift (Ms). (w0 , h0 ) = (2 ∗ max(w, h) + 1, 2 ∗ max(w, h) + 1) où (w, h) est la taille de l’objet.
1 ,h1 )
r = 30 indique un rayon de recherche de 30 pixels. (w0 , h0 ) = (w + delta, h + delta) où delta = 2 ∗ min(w, h). (w2 , h2 ) = (w
2∗scale où (w1 , h1 ) = 2.6 ∗ (w, h) et
scale = 0.01 ∗ max(w1 , h1 ). Les colonnes Maj, Ech et Rot indiquent si une mise à jour du modèle, une estimation d’échelle ou de rotation sont effectuées
par ces trackers (présence 3, absence 7). Les perturbations comprennent les variations d’apparence (App), la prise en compte du contexte (Cont), les
variations de mouvement (Mvt), l’illumination (Ill) et les occultations (Occ). App classe les trackers avec des + en fonction de leur capacité à faire face aux
variations d’apparence relativement les uns par rapport aux autres. Certains trackers ne peuvent traiter que des mouvements faibles de l’objet (F), les
autres dépendent de la fenêtre de recherche utilisée (R). Plusieurs types d’occultations sont prises en compte, partielles (P) ou totales (3). La dernière
ligne TOTAL prend la meilleure réponse parmi les 8 trackers pour chaque type de perturbations.

Composition Perturbations
Représentation Méthode Recherche Maj Ech Rot App Cont Mvt Ill Occ
NCC Templ,Int Corr Ds : (w0 , h0 ) 7 7 7 + 7 R 7 7
KLT Points,Int Fl 3 7 7 + 7 F 7 7
CT Haar,MG L Ds : (41, 41) 3 7 7 ++ 3 R 7 P
STRUCK Haar,MD SVM str Ds : r = 30 3 7 7 +++ 3 R 7 3
DPM PCA-HOG,MD SVM lat Ds : (w0 , h0 ), FK 7 3 7 ++ 7 R 3 P
DSST PCA-HOG,MD FC Ds : (w2 , h2 ) 3 3 7 +++ 3 R 3 P
MS HistoG HSV Ms 7 7 7 + 7 F 7 7
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS

ASMS HistoG RGB Ms 7 3 7 ++ 3 F 7 7


TOTAL +++ 3 R 3 3
89
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 90

3.2 Mesure des performances

L’analyse des trackers pour les différentes perturbations dans la section précédente 3.1 n’est
pas suffisante pour garantir le succès ou l’échec d’un suivi. Une évaluation de performances des
trackers est donc nécessaire, non seulement pour mesurer quantitativement leur succès mais aussi
pour pouvoir les comparer entre eux. L’évaluation standard calcule généralement une ou plusieurs
métriques de performance sur une base de vidéos en suivant un protocole d’évaluation bien défini.
Notre évaluation présentée dans cette partie, utilise le protocole défini dans le chapitre 2 et donne
lieu à des performances globales de suivi.

3.2.1 Performances globales

Les performances globales d’un tracker sur une base de vidéos sont représentées par une
précision et une robustesse. La précision est la précision moyenne sur l’ensemble des vidéos de la
base, et la robustesse le nombre total de dérives sur la base. Nous nous intéressons davantage à
la robustesse, mesure de la dérive.
Les performances des 8 trackers ont été estimées sur les 3 bases d’évaluation (VOT2013+,
VOT2015, VOT-TIR2015), ainsi que leur vitesse moyenne d’exécution (en nombre d’images
traitées par seconde), et sont indiquées dans le tableau 3.2.
Précision et robustesse sont deux métriques décorrélées : une meilleure précision n’implique
pas nécessairement une meilleure robustesse. C’est par exemple le cas de NCC qui réalise les
meilleures précisions mais les moins bonnes robustesses.
En fait, ces chiffres peuvent être interprétés comme des indicateurs de la manière dont les
trackers dérivent. NCC dérive rapidement toutes les fois qu’il dérive, c’est pourquoi il garde une
bonne précision même s’il dérive souvent. MS n’est ni précis en localisation ni robuste mais il
est rapide. KLT et CT dérivent lentement, la précision étant moins bonne. DSST a une bonne
précision, en partie due à l’estimation d’échelle. ASMS est robuste mais moins précis malgré
l’estimation d’échelle, l’une des raisons est qu’il se sert du contexte pour bien localiser l’objet. Le
détecteur d’objet du tracker basé DPM n’est pas très performant globalement sur l’ensemble
des séquences, notamment sur les bases VOT2015 et VOT-TIR2015 où une partie des objets
à suivre ne font pas partie des classes d’objet connues du détecteur. Il faudrait lui substituer
d’autres détecteurs d’objet plus récents, exploitant des deep features par exemple. La précision du
détecteur dépend des classes apprises : la classe visage n’existe pas, donc lorsqu’on lui demande de
suivre un visage, il va détecter plutôt des bustes ou des personnes (classe personne). Le filtre de
Kalman sert à faire l’association temporelle entre deux images en filtrant les mauvaises détections
lorsqu’elles sont multiples à partir d’un modèle de mouvement. Il manque un apprentissage en
ligne de l’apparence de l’objet. STRUCK fait partie de la gamme des trackers intermédiaires
mais est plutôt lent. Les meilleures performances sont obtenues pour les trackers DSST et ASMS.
Cette évaluation des performances de suivi est globale et ne permet pas d’analyser et de
comparer la capacité des trackers à faire face à une diversité de phénomènes nuisibles. Notamment,
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 91

#170/271 #174/271 #176/271

NCC NCC
KLT KLT
CT CT CT
(a) STRUCK
DPM DPM DPM
MS

#8/145 #70/145 #75/145

NCC NCC NCC


KLT KLT
(b) CT CT
STRUCK STRUCK
DPM DPM DPM
MS MS

#50/326 #84/326 #90/326

NCC NCC
KLT KLT
CT CT
(c) STRUCK STRUCK STRUCK
DPM DPM
MS MS MS

#110/366 #145/366 #150/366

KLT KLT KLT


CT CT
STRUCK STRUCK
DPM
(d) MS MS MS

#55/164 #73/164 #79/164

NCC NCC
KLT KLT KLT
(e) CT CT CT
STRUCK STRUCK STRUCK
DPM DPM DPM
MS

#160/178 #173/178 #177/178

NCC NCC
KLT
CT CT
STRUCK STRUCK
(f) DPM
MS MS

Figure 3.1 – Comportement de dérives de 6 trackers (NCC, KLT, CT, STRUCK, DPM, MS)
pour différentes perturbations telles que l’occultation (a), l’illumination (e,f), le flou (c,e), le
bruit de contexte (c,d,f), les changements d’échelle (b) et les changements d’apparence (d,e,f) sur
6 vidéos de VOT2013+ (a,b), de VOT2015 (c,d,e) et de VOT-TIR2015 (f), utilisant le protocole
défini dans le chapitre 2. Les trackers actifs sont affichés, chaque tracker fournit une boîte de
couleur différente.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 92

Table 3.2 – Performances individuelles des trackers sur les bases VOT2013+, VOT2015 et
VOT-TIR2015. Le nombre de séquences et d’images de chaque base est indiqué entre parenthèse.
R indique la robustesse (nombre total de dérives), P la précision (recouvrement moyen) et V, la
vitesse d’exécution en nombre d’images par seconde. Les meilleurs scores de robustesse, précision
et vitesse par base sont indiqués en rouge, les deuxièmes meilleurs en bleu.

VOT2013+ VOT2015 VOT-TIR2015


(25, 6525) (60, 21455) (20, 11269 )
R P V R P V R P V
NCC 131 0.59 612 447 0.54 1046 149 0.66 1310
KLT 69 0.44 58 253 0.41 57 123 0.34 103
CT 36 0.44 28 221 0.42 22 144 0.51 31
STRUCK 38 0.49 23 156 0.46 19 140 0.54 20
DPM 57 0.47 24 525 0.4 49 186 0.49 48
DSST 18 0.61 190 170 0.54 177 47 0.64 209
MS 194 0.27 606 654 0.32 434 297 0.24 422
ASMS 30 0.44 290 112 0.5 236 89 0.53 610

ces chiffres ne donnent aucune indication sur une quelconque complémentarité des comportements
des trackers. D’où le besoin d’une étude de performance plus locale.

3.2.2 Performances locales

Nous nous intéressons à la robustesse des trackers par séquence, plus informative que la
robustesse globale. Prenons comme exemple, les résultats sur VOT2013+ présentés dans le
tableau 3.3. Les performances des bases VOT2015 et VOT-TIR2015 sont dans l’annexe A.
La robustesse par séquence est un indicateur de difficulté d’une séquence. Les séquences faciles
sont celles qui réalisent le moins de dérives, voire une robustesse maximale (face). Tandis que les
séquences difficiles cumulent le plus de dérives. La base présente des difficultés hétérogènes d’une
séquence à l’autre.
Les performances locales d’un tracker sont également très hétérogènes, il n’existe pas de
meilleur tracker pour toutes les séquences malgré les bonnes performances de DSST et ASMS.
Des trackers considérés comme « mauvais » lors de l’évaluation globale (section précédente)
peuvent être bons sur certaines séquences. Par exemple, KLT et MS ne dérivent pas dans les
séquences diving et gopr0013_car4 alors que d’autres trackers plus complexes dérivent. CT
et DPM ne dérivent pas dans la séquence gopr0008_car2 tandis que tous les autres dérivent.
Dans la séquence gymnastics, DPM est le deuxième meilleur tracker après ASMS avec une seule
dérive. Il est équivalent au DSST sur la séquence kitti_van avec une seule dérive. STRUCK est le
meilleur tracker sur la séquence woman avec 0 dérives. Il est aussi meilleur tracker avec MS sur
la séquence gopr0013_car3 avec 0 dérives. Nous en tirons les mêmes conclusions sur VOT2015
et VOT-TIR2015.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 93

Il existe donc une certaine complémentarité locale des trackers qui peut être exploitée,
dépendant des séquences. Une fusion possible des trackers serait alors de sélectionner le meilleur
tracker par séquence.
Cette évaluation est intéressante puisqu’elle démontre une certaine complémentarité des
trackers et donc un intérêt à les fusionner. Cependant, elle ne permet pas de caractériser et
quantifier précisément la complémentarité des trackers lors des dérives. D’où le besoin d’étudier
les instants de dérive.

3.3 Étude des instants de dérive des trackers

A présent, nous allons regarder plus finement ce qui se passe au niveau d’une séquence,
c’est-à-dire les instants de dérive des trackers, plutôt que de considérer uniquement la robustesse.
En effet, les instants de dérive des trackers renseignent sur une certaine complémentarité
locale des dérives, plus précisément sur la capacité des trackers à s’auto-relayer lorsque l’un
d’entre eux dérive. Cette complémentarité locale peut être exploitée pour la fusion.

3.3.1 Instants de dérive

Pour observer cette complémentarité locale, nous analysons les instants de dérive des trackers
dans une même séquence, en appliquant le protocole défini dans le chapitre 2. Le protocole permet
d’obtenir des pistes de suivi discontinues dont les interruptions correspondent aux instants de
dérive (voir la figure 3.2). Chaque graphe indique les instants de dérive des 8 trackers sur une
séquence différente de VOT2013+. On remarque tout d’abord l’hétérogénéité des comportements
de dérive des trackers d’une séquence à l’autre. Par exemple, les dérives sont beaucoup plus
nombreuses pour CT et DPM dans handball1 que dans les autres séquences.
On observe également des corrélations de dérive où plusieurs trackers dérivent au même
moment. C’est le cas par exemple de la séquence gymnastics à l’image 100, la plupart des trackers
dérivent pour des variations d’apparence et de mouvement importantes du gymnaste. Hormis les
corrélations de dérive, il existe aussi des comportements complémentaires où certains trackers ne
dérivent pas lorsque d’autres dérivent. C’est le cas de ASMS dans gymnastics à l’image 100, qui
est complémentaire des autres trackers puisqu’il est le seul à ne pas dériver. De la même façon,
DSST et ASMS sont complémentaires dans bolt aux images 10 et 170.
Cependant, l’usage de plusieurs trackers implique de nombreuses redondances. La plupart
des trackers fonctionnent correctement dans gymnastics de l’image 1 à 100, il n’est donc pas
nécessaire de tous les utiliser puisqu’il y a un coût à les faire fonctionner. Un bon système de
fusion devrait être en mesure de trouver un bon équilibre entre complémentarité et redondance
de comportements des trackers.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 94

Table 3.3 – Robustesse des trackers pour chaque séquence de VOT2013+. Le nom des séquences
est indiqué dans la colonne de gauche, le nombre d’images par séquence dans la colonne #img.
La robustesse par séquence mesure le nombre de dérives du tracker dans la séquence. La ligne
TOTAL indique le nombre total de dérives par tracker sur l’ensemble des séquences. Les séquences
considérées comme difficiles sont encadrées. La/les meilleures performances de robustesse par
séquence sont en gras et la/les moins bonnes sont surlignées.

VOT2013+ #img Robustesse par séquence (#dérives)


NCC KLT CT STRUCK DPM DSST MS ASMS
bicycle 271 5 4 0 0 0 0 9 0
bolt 350 24 19 9 6 5 1 37 1
car 374 2 4 0 0 1 0 2 1
david 770 5 0 0 2 1 0 3 2
diving 231 9 0 3 1 5 5 0 0
face 415 0 0 0 0 0 0 0 0
gymnastics 207 8 3 3 5 1 5 8 0
iceskater 500 8 0 0 0 2 0 29 0
jump 228 4 2 0 0 7 0 14 0
singer 351 3 2 0 0 3 0 5 1
sunshade 172 0 2 2 0 0 0 6 0
woman 597 16 5 6 0 7 2 21 2
gopr0008_car1 180 3 3 1 0 2 0 6 1
gopr0008_car2 299 5 2 0 1 0 1 9 1
gopr0009_car1 204 6 3 1 10 7 1 6 4
gopr0009_car2 247 6 4 2 6 9 0 6 6
gopr0009_car3 131 4 3 0 1 0 0 2 0
gopr0011_bus 71 4 1 0 0 0 0 0 0
gopr0013_car1 190 0 1 0 0 0 0 1 0
gopr0013_car2 217 1 1 0 0 0 0 3 0
gopr0013_car3 33 1 1 2 0 1 1 0 1
gopr0013_car4 34 2 0 1 1 1 1 0 0
gopr0020_moto 145 4 3 2 1 2 0 11 2
kitti_cyclist 154 7 4 1 1 2 0 6 6
kitti_van 154 4 2 3 3 1 1 10 2
TOTAL 6525 131 69 36 38 57 18 194 30
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 95

bolt

NCC
KLT
CT
STRUCK
DPM
DSST
MS
ASMS
50 100 150 200 250 300 350
time
(a) bolt, VOT2013+
gymnastics
NCC
KLT
CT
STRUCK
DPM
DSST
MS
ASMS
50 100 150 200
time
(b) gymnastics, VOT2013+
handball1

NCC
KLT
CT
STRUCK
DPM
DSST
MS
ASMS
50 100 150 200 250 300 350
time
(c) handball1, VOT2015

Figure 3.2 – Instants de dérive des 8 trackers (NCC, KLT, CT, STRUCK, DPM, DSST, MS,
ASMS) sur des séquences difficiles de VOT2013+ (bolt, gymnastics) et de VOT2015 (handball1 ).
L’abscisse représente le numéro d’image dans la séquence. Les points indiquent les instants de
dérive des trackers dans la séquence.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 96

3.3.2 Simuler une piste de suivi reconstituée

Nous voulons savoir s’il est possible de reconstituer une piste continue de suivi à partir de
plusieurs trackers fonctionnant individuellement. L’hypothèse est que si les trackers ne dérivent
pas tous aux mêmes moments, il est possible d’assurer une continuité du suivi.
L’idée est de regarder si les instants de dérive individuels des trackers, obtenus dans la section
3.3.1, se complètent. Considérons qu’un tracker est actif à un instant donné s’il ne dérive pas.
Pour chaque image d’une séquence, nous comptons le nombre de trackers actifs et vérifions qu’il
y a au moins un tracker actif. Le nombre de trackers actifs correspond alors à la somme des
trackers ne dérivant pas. La figure 3.3 montre le nombre de trackers actifs dans la séquence bolt,
ce nombre est supérieur ou égal à 4 tout au long de la séquence.
Nous avons regardé les séquences pour lesquelles le nombre de trackers actifs peut être ≤ 2 sur
VOT2013+, VOT2015 et VOT-TIR2015, voir la figure 3.4. Pour ces séquences, nous indiquons le
nombre de fois (images) où le nombre de trackers actifs est ≤ 2, ≤ 1, voire égal à 0 (tous les
trackers dérivent au même moment). Sur VOT2013+, il existe au moins 2 trackers actifs par
image et par séquence, les trackers se complètent bien au niveau des dérives individuelles. De
plus, les images pour lesquels il n’y a que 2 trackers actifs sont peu nombreuses, 1 image dans la
séquence gymnastics et 2 dans la séquence kitti_van (courbe verte). VOT2015 et VOT-TIR2015
présentent peu de séquences pour lesquelles le nombre de trackers actifs est égal à 0 (glove,
pedestrian1, quadrocopter). VOT2015 compte le plus de séquences difficiles, 12 séquences ont un
nombre de trackers actifs ≤ 2 (ball1, ball2, birds1, book, fish1, etc.). VOT-TIR2015 compte une
séquence difficile, quadracopter2 pour laquelle 27 images ont au plus 2 trackers actifs.
Finalement, les trackers montrent une assez bonne complémentarité locale des dérives avec
peu d’images présentant 0 trackers actifs. Puisque pour la plupart des séquences, il existe au
moins un tracker actif à chaque instant, il est possible de reconstituer une piste continue de suivi
dans l’hypothèse que l’on dispose d’un mécanisme de sélection du bon tracker.

3.3.3 Proposition d’une métrique pour mesurer la complémentarité d’un en-


semble de trackers

Nous voulons évaluer le degré de complémentarité des trackers. En effet, mesurer la complé-
mentarité d’un ensemble de trackers permet de juger de l’intérêt de fusionner cet ensemble, et
plus particulièrement de déterminer la combinaison de trackers la plus efficace. Nous voulons
savoir jusqu’où nous pouvons espérer gagner en performance en exploitant correctement la
complémentarité des trackers (instants de dérive). L’étude précédente utilise tous les trackers
pour reconstituer une piste continue de suivi (section 3.3.2). Cependant, elle n’indique pas les
sous-ensembles de trackers les plus efficaces, et notamment si le nombre de trackers combinés a
un impact sur la performance espérée.
[Bailer et Stricker, 2015] introduisent le concept de « fusibilité », qui mesure l’impact d’un
tracker lorsqu’il est ajouté ou retiré de la fusion (impact positif et négatif, gain, etc.). Cependant,
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 97

bolt
NCC
KLT
CT
STR
DPM
DSST
MS
ASMS
50 100 150 200 250 300 350
10
#trackers

0
50 100 150 200 250 300 350
time
Figure 3.3 – Nombre de trackers actifs par image dans la séquence bolt de VOT2013+ utilisant
les 8 trackers. Le premier graphe indique les instants de dérives individuels des trackers sur cette
séquence. Le second graphe indique le nombre de trackers actifs en fonction du temps.

cette mesure de fusibilité est dépendante de la méthode de fusion puisqu’elle est calculée à partir
du résultat de la fusion.
Nous proposons à la place une métrique mesurant la complémentarité d’un ensemble de
trackers pour une base de vidéos donnée, appelée « incomplétude », indépendante de la méthode de
fusion. Elle ne nécessite que les dérives individuelles des trackers, voir la figure 3.2. Contrairement
à [Bailer et Stricker, 2015], elle ne mesure pas la contribution positive ou négative d’un tracker
relativement à un groupe de trackers, mais la complémentarité de l’ensemble.

Incomplétude L’incomplétude traduit l’incapacité d’un ensemble de M trackers à se compléter


mutuellement pendant les dérives, en comptant le nombre de fois où tous les trackers dérivent
au même moment. À chaque instant t, nous définissons une variable dit pour chaque tracker Ti ,
i ∈ [1, M ] indiquant s’il dérive.
Nous définissons l’incomplétude I de cet ensemble de trackers sur une base de vidéos de N
images comme suit :
N Y
X M
I= dit (3.1)
t=1 i=1

Rappelons que, dans le protocole d’évaluation défini dans le chapitre 2 et hérité du challenge
VOT, la réinitialisation d’un tracker a lieu 5 images après qu’une dérive est détectée. Cet intervalle
neutre peut être interprété comme une incertitude sur l’instant de dérive.
L’incomplétude I donne une évaluation de la robustesse maximale que l’on peut attendre
avec une fusion basée sur la vérité terrain. Elle devrait être comparée à la robustesse maximale
nb images correspondant a N trackers actifs nb images correspondant a N trackers actifs nb images correspondant a N trackers actifs

0
1
2

0
1
2
3
4
5
6
7
8
9

10
15
20
25
30

0
5
ba
bi
g
cy
ba
ll
cl
bi ba ba 1 e
rd sk ll2
s et
b bo
bi all
rd lt
bi s1
rd
ca bl s2
r an ca
ke
cr
os bm t
r
si bo x
da
lt vi
cr ng bo 1
lt
d
b 2
ou di
ch bu oo vi
tte k
de i ng rfl
y
ng
ca
pt r1 gy fa
hw cr cr car2
is ow os m ce
di sin na
e_ d no g
cr fe sa
rn ur
s
an ic tics
d
os es
si fis o
ng h ka
fis 1 te
h2 r
ga fis
rd h ju
fis 3 m
en h4
gi
p
r si
hi go glo l n
d df ve
in a su ge
g gy gra the
m du r ns r
gy na ate ha
m sti
ho gy na cs1 d
rs m sti go w e
e gy na cs2
m m stic
na s
pr
0
om
ix ja st 3
ic
ed s4 go 008 an
_d ck ha ha pr _c
is e nd nd
ha ba 0 a
tra t n ll1 go 008 r1
he dba
qu ct l ll pr _
ic icop 2

(b) VOT2015
or es te 00 ca
ad s
(a) VOT2013+

ic kat r
ro es er go 09 r2

(c) VOT-TIR2015
c ka 1
qu te pr _c
ad
op
m av
le r2 0 a
te ar es
rh ro r ch
go 009 r1
in m m ing
co pr _c
ot a
Activite des trackers sur VOT2015

o_ 00
Activite des trackers sur VOT2013+

pt m ocr trix
ar
be er ot os go 09 2
2 oc s1

Activite des trackers sur VOT−TIR2015


ro
s
hi pr _c
nd na s2 0 a
ru _t tu go 01 r3
re pe oct re
nn de op pr 1_
in e pe st us
de ria 0 b

nombre de trackers actifs N est ≤ 2, ≤ 1 et égal à 0 respectivement.


g_ st n1
ria go 013 us
rh n _c
ra 2
i pr
b 0 a
sa no ra bit
ci go 013 r1
tu ng
ra r pr _c
sh oad 0 a
te ak
d in
sh g go 013 r2
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS

si eep pr _c
se ng 0
lm si er1
ng go 01 ar3
a si er2
ng pr 3_
so er3 00 ca
so c 20 r4
cc so cer1
er cc
e
_
so r2
ld ki mo
sp ier tti
st he _c to
re re yc
tig
et e l
tra r
f ki ist
tu fic

N≤1
N≤2
tti

N=0
N≤1
N≤2

nn
N=0

e
N≤1
N≤2

tre
N=0

_v
w l
es ip an
er

courbes verte, rouge et bleue indiquent le nombre d’images de chaque séquence pour lesquelles le
de trackers actifs N peut être ≤ 2. L’abscisse correspond aux séquences de chaque base. Les
Figure 3.4 – Séquences de VOT2013+, VOT2015 et VOT-TIR2015 pour lesquelles le nombre
98
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 99

du meilleur tracker de l’ensemble étudié rmax . Si I est inférieure à rmax , alors cela signifie qu’il
y a bien une complémentarité des trackers de l’ensemble. Plus l’écart rmax − I est important,
meilleure est la complémentarité.

Nous avons calculé l’incomplétude pour toutes les combinaisons de 2-8 trackers du répertoire
sur les 3 bases. Les résultats de VOT2013+ sont présentés dans la figure 3.5, ceux de VOT2015
et VOT-TIR2015 sont dans l’annexe B (figures B.1 et B.2). Intéressons-nous aux résultats sur
VOT2013+. Nous observons que l’incomplétude diminue avec le nombre de trackers fusionnés, ce
qui est intuitivement attendu. L’incomplétude minimale est atteinte pour les combinaisons de
3-4-5 trackers. Elle est nulle pour la plupart des combinaisons de 5 trackers. Il n’est donc pas
utile de combiner les 8 trackers.
Les valeurs d’incomplétude sont assez hétérogènes en fonction des combinaisons, variant
de 3 (DSST-ASMS) à 140 (NCC-MS) parmi les combinaisons de 2 trackers. Il est de même
difficile de trouver une règle indiquant les meilleures combinaisons puisque cela dépend des
perturbations dans les séquences et de la capacité des trackers à faire face à ces perturbations.
La meilleure combinaison de 2 trackers n’est pas la même pour les 3 bases : DSST-ASMS
sur VOT2013+ et VOT-TIR2015 (figure B.2), STRUCK-ASMS sur VOT2015 (figure B.1).
Ces combinaisons semblent être formées par les deux meilleurs trackers de la base, voir le
tableau 3.2 des performances individuelles des trackers. Cependant, d’autres combinaisons sont
assez compétitives et pourtant formées par des trackers moins bons, par exemple KLT-DSST
et CT-ASMS qui arrivent en 2ème et 3ème position parmi les combinaisons de 2 trackers sur
VOT2013+. De même pour les combinaisons de 3 trackers, l’incomplétude minimale est obtenue
pour trois combinaisons NCC-DSST-ASMS, KLT-DSST-ASMS, CT-DSST-ASMS sur VOT2013+,
et pourtant NCC et KLT font partie des trackers les moins robustes.
L’étude sur l’incomplétude permet donc de classer les combinaisons de trackers selon leur
capacité à se compléter mutuellement lors des dérives individuelles de chacun. Elle donne
également une idée des combinaisons de trackers les plus prometteuses en termes de robustesse
de fusion espérée lorsque leur complémentarité est bien exploitée.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 100

Complementarite de 2 trackers, VOT2013+


140 NCC−KLT
NCC−CT
NCC−STRUCK
NCC−DPM
120 NCC−DSST
NCC−MS
NCC−ASMS
KLT−CT
KLT−STRUCK
100 KLT−DPM
KLT−DSST
KLT−MS
Incompletude KLT−ASMS
80 CT−STRUCK
CT−DPM
CT−DSST
CT−MS
CT−ASMS
60 STRUCK−DPM
STRUCK−DSST
STRUCK−MS
STRUCK−ASMS
40 DPM−DSST
DPM−MS
DPM−ASMS
DSST−MS
DSST−ASMS
20 MS−ASMS

0
0 5 10 15 20 25 30
N combinaison

(a) Combinaisons de 2 trackers


CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 101

NCC−KLT−CT NCC−KLT−STRUCK
NCC−KLT−DPM NCC−KLT−DSST
Complementarite de 3 trackers, VOT2013+ NCC−KLT−MS NCC−KLT−ASMS
35 NCC−CT−STRUCK NCC−CT−DPM
NCC−CT−DSST NCC−CT−MS
NCC−CT−ASMS NCC−STRUCK−DPM
NCC−STRUCK−DSST NCC−STRUCK−MS
30
NCC−STRUCK−ASMS NCC−DPM−DSST
NCC−DPM−MS NCC−DPM−ASMS
NCC−DSST−MS NCC−DSST−ASMS
25 NCC−MS−ASMS KLT−CT−STRUCK
KLT−CT−DPM KLT−CT−DSST
Incompletude

KLT−CT−MS KLT−CT−ASMS
20 KLT−STRUCK−DPM KLT−STRUCK−DSST
KLT−STRUCK−MS KLT−STRUCK−ASMS
KLT−DPM−DSST KLT−DPM−MS
15 KLT−DPM−ASMS KLT−DSST−MS
KLT−DSST−ASMS KLT−MS−ASMS
CT−MS−ASMS CT−DSST−ASMS
10 CT−DSST−MS CT−DPM−ASMS
CT−DPM−MS CT−DPM−DSST
CT−STRUCK−ASMS CT−STRUCK−MS
CT−STRUCK−DSST CT−STRUCK−DPM
5
STRUCK−MS−ASMS STRUCK−DSST−ASMS
STRUCK−DSST−MS STRUCK−DPM−ASMS
STRUCK−DPM−MS STRUCK−DPM−DSST
0 DPM−DSST−MS DPM−DSST−ASMS
0 10 20 30 40 50 60
N combinaison DPM−MS−ASMS DSST−MS−ASMS

(b) Combinaisons de 3 trackers


Complementarite de 4 trackers, VOT2013+ DPM−DSST−MS−ASMS STRUCK−DSST−MS−ASMS
STRUCK−DPM−MS−ASMS STRUCK−DPM−DSST−ASMS
8 STRUCK−DPM−DSST−MS CT−DSST−MS−ASMS
CT−DPM−MS−ASMS CT−DPM−DSST−ASMS
CT−DPM−DSST−MS CT−STRUCK−MS−ASMS
CT−STRUCK−DSST−ASMS CT−STRUCK−DSST−MS
7 CT−STRUCK−DPM−ASMS CT−STRUCK−DPM−MS
CT−STRUCK−DPM−DSST KLT−DSST−MS−ASMS
KLT−DPM−MS−ASMS KLT−DPM−DSST−ASMS
6 KLT−DPM−DSST−MS KLT−STRUCK−MS−ASMS
KLT−STRUCK−DSST−ASMS KLT−STRUCK−DSST−MS
KLT−STRUCK−DPM−ASMS KLT−STRUCK−DPM−MS
KLT−STRUCK−DPM−DSST KLT−CT−MS−ASMS
5 KLT−CT−DSST−ASMS KLT−CT−DSST−MS
Incompletude

KLT−CT−DPM−ASMS KLT−CT−DPM−MS
KLT−CT−DPM−DSST KLT−CT−STRUCK−ASMS
KLT−CT−STRUCK−MS KLT−CT−STRUCK−DSST
4 KLT−CT−STRUCK−DPM NCC−DSST−MS−ASMS
NCC−DPM−MS−ASMS NCC−DPM−DSST−ASMS
NCC−DPM−DSST−MS NCC−STRUCK−MS−ASMS
NCC−STRUCK−DSST−ASMS NCC−STRUCK−DSST−MS
3 NCC−STRUCK−DPM−ASMS NCC−STRUCK−DPM−MS
NCC−STRUCK−DPM−DSST NCC−CT−MS−ASMS
NCC−CT−DSST−ASMS NCC−CT−DSST−MS
NCC−CT−DPM−ASMS NCC−CT−DPM−MS
2 NCC−CT−DPM−DSST NCC−CT−STRUCK−ASMS
NCC−CT−STRUCK−MS NCC−CT−STRUCK−DSST
NCC−CT−STRUCK−DPM NCC−KLT−MS−ASMS
1 NCC−KLT−DSST−ASMS NCC−KLT−DSST−MS
NCC−KLT−DPM−ASMS NCC−KLT−DPM−MS
NCC−KLT−DPM−DSST NCC−KLT−STRUCK−ASMS
NCC−KLT−STRUCK−MS NCC−KLT−STRUCK−DSST
0 NCC−KLT−STRUCK−DPM NCC−KLT−CT−ASMS
0 10 20 30 40 50 60 70 NCC−KLT−CT−MS NCC−KLT−CT−DSST
N combinaison NCC−KLT−CT−DPM NCC−KLT−CT−STRUCK

(c) Combinaisons de 4 trackers


Complementarite de 5 trackers, VOT2013+
STRUCK−DPM−DSST−MS−ASMS CT−DPM−DSST−MS−ASMS
6
CT−STRUCK−DSST−MS−ASMS CT−STRUCK−DPM−MS−ASMS
CT−STRUCK−DPM−DSST−ASMS CT−STRUCK−DPM−DSST−MS
KLT−DPM−DSST−MS−ASMS KLT−STRUCK−DSST−MS−ASMS
KLT−STRUCK−DPM−MS−ASMS KLT−STRUCK−DPM−DSST−ASMS
5 KLT−STRUCK−DPM−DSST−MS KLT−CT−DSST−MS−ASMS
KLT−CT−DPM−MS−ASMS KLT−CT−DPM−DSST−ASMS
KLT−CT−DPM−DSST−MS KLT−CT−STRUCK−MS−ASMS
KLT−CT−STRUCK−DSST−ASMS KLT−CT−STRUCK−DSST−MS
4 KLT−CT−STRUCK−DPM−ASMS KLT−CT−STRUCK−DPM−MS
Incompletude

KLT−CT−STRUCK−DPM−DSST NCC−DPM−DSST−MS−ASMS
NCC−STRUCK−DSST−MS−ASMS NCC−STRUCK−DPM−MS−ASMS
NCC−STRUCK−DPM−DSST−ASMS NCC−STRUCK−DPM−DSST−MS
3 NCC−CT−DSST−MS−ASMS NCC−CT−DPM−MS−ASMS
NCC−CT−DPM−DSST−ASMS NCC−CT−DPM−DSST−MS
NCC−CT−STRUCK−MS−ASMS NCC−CT−STRUCK−DSST−ASMS
NCC−CT−STRUCK−DSST−MS NCC−CT−STRUCK−DPM−ASMS
2 NCC−CT−STRUCK−DPM−MS NCC−CT−STRUCK−DPM−DSST
NCC−KLT−DSST−MS−ASMS NCC−KLT−DPM−MS−ASMS
NCC−KLT−DPM−DSST−ASMS NCC−KLT−DPM−DSST−MS
NCC−KLT−STRUCK−MS−ASMS NCC−KLT−STRUCK−DSST−ASMS
1 NCC−KLT−STRUCK−DSST−MS NCC−KLT−STRUCK−DPM−ASMS
NCC−KLT−STRUCK−DPM−MS NCC−KLT−STRUCK−DPM−DSST
NCC−KLT−CT−MS−ASMS NCC−KLT−CT−DSST−ASMS
NCC−KLT−CT−DSST−MS NCC−KLT−CT−DPM−ASMS
NCC−KLT−CT−DPM−MS NCC−KLT−CT−DPM−DSST
0
0 10 20 30 40 50 60 NCC−KLT−CT−STRUCK−ASMS NCC−KLT−CT−STRUCK−MS
N combinaison NCC−KLT−CT−STRUCK−DSST NCC−KLT−CT−STRUCK−DPM

(d) Combinaisons de 5 trackers


CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 102

Complementarite de 6 trackers, VOT2013+


2 CT−STRUCK−DPM−DSST−MS−ASMS
KLT−STRUCK−DPM−DSST−MS−ASMS
KLT−CT−DPM−DSST−MS−ASMS
1.8 KLT−CT−STRUCK−DSST−MS−ASMS
KLT−CT−STRUCK−DPM−MS−ASMS
KLT−CT−STRUCK−DPM−DSST−ASMS
1.6 KLT−CT−STRUCK−DPM−DSST−MS
NCC−STRUCK−DPM−DSST−MS−ASMS
NCC−CT−DPM−DSST−MS−ASMS
1.4 NCC−CT−STRUCK−DSST−MS−ASMS
NCC−CT−STRUCK−DPM−MS−ASMS
NCC−CT−STRUCK−DPM−DSST−ASMS

Incompletude
1.2 NCC−CT−STRUCK−DPM−DSST−MS
NCC−KLT−DPM−DSST−MS−ASMS
NCC−KLT−STRUCK−DSST−MS−ASMS
NCC−KLT−STRUCK−DPM−MS−ASMS
1 NCC−KLT−STRUCK−DPM−DSST−ASMS
NCC−KLT−STRUCK−DPM−DSST−MS
NCC−KLT−CT−DSST−MS−ASMS
0.8 NCC−KLT−CT−DPM−MS−ASMS
NCC−KLT−CT−DPM−DSST−ASMS
NCC−KLT−CT−DPM−DSST−MS
0.6 NCC−KLT−CT−STRUCK−MS−ASMS
NCC−KLT−CT−STRUCK−DSST−ASMS
NCC−KLT−CT−STRUCK−DSST−MS
0.4 NCC−KLT−CT−STRUCK−DPM−ASMS
NCC−KLT−CT−STRUCK−DPM−MS
NCC−KLT−CT−STRUCK−DPM−DSST
0.2

0
0 10 20 30
N combinaison

(e) Combinaisons de 6 trackers


Complementarite de 7 trackers, VOT2013+
1 NCC−KLT−CT−STRUCK−DPM−DSST−MS
NCC−KLT−CT−STRUCK−DPM−DSST−ASMS
NCC−KLT−CT−STRUCK−DPM−MS−ASMS
0.8 NCC−KLT−CT−STRUCK−DSST−MS−ASMS
NCC−KLT−CT−DPM−DSST−MS−ASMS
NCC−KLT−STRUCK−DPM−DSST−MS−ASMS
0.6 NCC−CT−STRUCK−DPM−DSST−MS−ASMS
KLT−CT−STRUCK−DPM−DSST−MS−ASMS

0.4
Incompletude

0.2

−0.2

−0.4

−0.6

−0.8

−1
0 2 4 6 8
N combinaison

(f) Combinaisons de 7 trackers


Complementarite de 8 trackers, VOT2013+
1 NCC−KLT−CT−STRUCK−DPM−DSST−MS−ASMS

0.8

0.6

0.4
Incompletude

0.2

−0.2

−0.4

−0.6

−0.8

−1
0 1 2
N combinaison

(g) Combinaison de 8 trackers

Figure 3.5 – Incomplétude calculée pour les combinaisons de 2-8 trackers sur VOT2013+. Chaque
combinaison est représentée par un symbole. L’abscisse correspond au no de la combinaison de la
liste (légende de droite), par exemple l’abscisse 1 fait référence à la 1ère combinaison de la liste.
L’ordonnée indique l’incomplétude (en nombre d’images) de la combinaison correspondante.
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 103

3.4 Discussion et travaux futurs

L’étude a consisté à analyser la complémentarité des trackers en matière de robustesse à la


dérive. Cette section discute des limites de cette étude concernant l’évaluation de performances
réalisée dans la section 3.2 et l’étude des instants de dérive dans la section 3.3.

Évaluation de performances Il est difficile d’obtenir une évaluation de performances équi-


table pour le DPM, limité en modèles d’objet. Son évaluation sur des vidéos présentant des
objets qui lui sont inconnus engendre de mauvaises performances. Une amélioration envisagée
serait d’augmenter les modèles d’objet à sa disposition, soit en entraînant le DPM sur une base
comportant plus de classes d’objet comme ImageNet (1000 classes) [Russakovsky et al., 2015],
soit en utilisant des modèles pré-entraînés sur cette base.
L’évaluation de performances globales et locales révèle une importante hétérogénéité des
performances de suivi parmi les trackers du répertoire. Une des limitations de cette évaluation
est qu’elle ne permet pas de mesurer plus finement le comportement des trackers en fonction des
perturbations (occultation, illumination, mouvement, échelle, caméra). Cette dernière permettrait
d’identifier les perturbations pour lesquelles les trackers sont robustes et celles pour lesquelles ils
ne le sont pas. Une possibilité serait de mesurer la robustesse des trackers selon ces différentes
perturbations en se servant des annotations par image de VOT comme cela a été fait dans [Kristan
et al., 2015b]. Cependant, cette performance reste individuelle (par tracker), et par conséquent,
ne renseigne pas sur la complémentarité des trackers en fonction du type de perturbations.

Étude des instants de dérive Nous avons montré la possibilité de reconstituer une piste
continue de suivi à partir des pistes individuelles des trackers pour la plupart des séquences de
la base. Cependant, cette reconstitution présente des limites car elle se base sur les instants de
dérive et dépend donc de la manière dont ils ont été obtenus. Dans notre expérience, le protocole
utilisé autorise peu de manœuvres : une dérive est définie par un taux de recouvrement nul
et chaque dérive est suivie automatiquement par une réinitialisation utilisant la vérité terrain.
Plusieurs paramètres pourraient être étudiés de plus près comme le moment d’initialisation de la
piste de suivi. L’idée serait de regarder si on obtient les mêmes instants de dérive d’un tracker s’il
est initialisé à différents instants de la séquence au lieu de la première image. L’autre paramètre
intéressant à étudier concerne la boîte de vérité terrain utilisée pour initialiser ou réinitialiser les
trackers. Sachant que les trackers sont plutôt sensibles à l’initialisation, une possibilité serait
d’ajouter un bruit spatial sur la boîte d’initialisation (position et taille) pour voir si les mêmes
instants de dérive des trackers sont conservés.
La mesure d’incomplétude est de même calibrée par les instants de dérive. Une possibilité
serait d’ajouter une incertitude sur les instants de dérive par exemple en augmentant le seuil de
dérive et en augmentant la plage d’inactivité du tracker pour regarder comment l’incomplétude
CHAPITRE 3. ÉTUDE DE LA COMPLÉMENTARITÉ DES TRACKERS 104

se dégrade. Pour l’instant, cette plage d’inactivité est de 5 images entre le moment où la dérive
est détectée et la réinitialisation de la piste.

3.5 Conclusion

L’objectif de ce chapitre est de montrer une complémentarité possible des trackers pour la
fusion. Cette complémentarité a été étudiée à plusieurs niveaux : composition, performances et
instants de dérive. 8 trackers ont été choisis pour l’étude, construits sur des principes différents
afin qu’ils n’échouent pas pour les mêmes perturbations mais manifestent des comportements de
dérive complémentaires.
L’étude de performance a montré une complémentarité des performances des trackers au
niveau des séquences. En effet, la performance globale ne détermine pas le succès ou l’échec d’un
tracker sur une séquence donnée puisque celui-ci dépend de la capacité du tracker à surmonter la
difficulté présente dans la séquence.
L’intérêt s’est donc porté sur l’étude des instants de dérive des trackers à l’intérieur des
séquences. Nous avons montré la possibilité de reconstituer une piste de suivi avec peu ou pas
de dérives, à partir des pistes individuelles des trackers comportant des dérives. Ce qui montre
un réel intérêt à la fusion. Nous avons proposé une métrique, l’incomplétude, permettant de
mesurer quantitativement la complémentarité d’un ensemble de trackers à partir de leurs instants
de dérive. L’incomplétude renseigne sur la robustesse maximale pouvant être atteinte par une
combinaison de trackers lorsque la complémentarité des instants de dérive est bien exploitée.
Cependant, les résultats de cette étude reposent sur des instants de dérive préalablement
connus grâce à la vérité terrain. Lors de la fusion en ligne de trackers, ces instants ne sont pas
connus. Ainsi, pour pouvoir exploiter la complémentarité des instants de dérive des différents
trackers et fusionner leurs pistes, il faut pouvoir détecter tous leurs instants de dérive. La
prochaine étape est alors de construire un prédicteur de dérives, capable de prédire en ligne les
dérives des trackers. Cela fait l’objet du chapitre suivant.
Chapitre 4

Prédiction en ligne des dérives des


trackers

Sommaire
4.1 Indicateurs de bon comportement . . . . . . . . . . . . . . . . . . . . 106
4.1.1 Score de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.1.2 Carte de scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.1.3 Autres indicateurs spécifiques . . . . . . . . . . . . . . . . . . . . . . . . 110
4.2 Prédiction en ligne des dérives par apprentissage des indicateurs
de comportement (BI) . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.2.1 Estimation des seuils des indicateurs de comportement . . . . . . . . . . 115
4.2.2 Apprentissage SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.2.3 Fusion de trackers par mélange d’experts à partir des indicateurs de
comportement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3 Prédiction en ligne des dérives par une analyse de la distribution
spatiale des boîtes englobantes . . . . . . . . . . . . . . . . . . . . . . 117
4.3.1 Filtrage temporel de boîtes (BF) . . . . . . . . . . . . . . . . . . . . . . 118
4.3.2 Consensus de boîtes (BC) . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.4 Évaluation des prédicteurs de dérives par apprentissage des indica-
teurs de comportement . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.4.1 Recherche des indicateurs de comportement . . . . . . . . . . . . . . . . 119
4.4.2 Estimation des seuils des indicateurs . . . . . . . . . . . . . . . . . . . . 128
4.4.3 Apprentissage SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.4.4 Fusion de trackers par mélange d’experts . . . . . . . . . . . . . . . . . 134
4.5 Discussion et travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . 137
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

Une caractéristique décisive pour toute stratégie de fusion de trackers multiples est une
capacité d’estimation en ligne de la qualité des résultats produits. En effet, la fusion n’est
performante que si les informations incertaines ou bruitées sont filtrées. L’objectif de ce chapitre

105
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 106

𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑖𝑖
𝑖𝑖 𝑖𝑖
𝐵𝐵�𝑡𝑡𝑖𝑖 , 𝑐𝑐𝑡𝑡𝑖𝑖
Tracker i (𝑀𝑀𝑡𝑡−1 , 𝑊𝑊𝑡𝑡−1 )

MAJ modèle et fenêtre


MAJ position

Figure 4.1 – Schéma générique de fonctionnement d’un tracker. Le Tracker i prédit la position
de la cible B̂ti dans l’image It à l’instant t à partir de sa position à l’instant précédent B̂t−1
i ,
i
d’une fenêtre de recherche Wt−1 i
définie par B̂t−1 et de son modèle d’apparence calculé à l’instant
i i
précédent Mt−1 . Un score de confiance ct est associé à la prédiction. La position de l’objet, la
fenêtre de recherche et le modèle d’apparence sont mis à jour en utilisant la nouvelle position.

est de développer des méthodes génériques capables d’évaluer en ligne le bon fonctionnement
d’un tracker, et plus spécifiquement prédire ses dérives. La première idée a consisté à prédire
les dérives d’un tracker en évaluant la qualité de son modèle d’apparence par des indicateurs
de comportement décrits dans la section 4.1. Les méthodes développées seront présentées dans
la section 4.2. La deuxième idée a consisté à déterminer une anomalie de comportement en
exploitant l’information spatiale des prédictions (boîtes englobantes) des trackers de manière
individuelle ou collective. Ces méthodes seront décrites dans la section 4.3. Enfin, les résultats de
ces méthodes seront présentés dans la section 4.4.

4.1 Indicateurs de bon comportement

Comme nous avons pu le voir dans l’état de l’art du suivi d’objet (section 1.1), la modélisation
de l’apparence de l’objet joue un rôle capital dans la gestion des différents types de perturbations
(variations d’apparence, occultation, mouvement, etc.) à l’origine des dérives du tracker. Une
représentation d’apparence limitée des objets (type d’objet), une mauvaise prise en compte du
contexte (type de scène) et une adaptation du modèle inexistante ou bruitée (accumulation
d’erreurs liées à l’imprécision de localisation) provoquent la dérive du tracker.
Puisque le point de départ est le modèle d’apparence, nous allons chercher à évaluer son
bon fonctionnement à partir des informations intrinsèques qu’il délivre. Rappelons la structure
fonctionnelle d’un tracker, représentée dans la figure 4.1. Pour prédire la position de l’objet B̂ti
dans la nouvelle It , le Tracker i estime la valeur des prédictions possibles à partir du modèle
i , chaque prédiction possible étant une position dans la fenêtre de recherche
d’apparence Mt−1
i
Wt−1 i . Puis, la prédiction qui maximise l’ensemble des valeurs des prédictions est
définie par B̂t−1
choisie comme nouvelle position de l’objet. La valeur cit associée à la prédiction B̂ti et qualifiée de
« score de confiance », peut être utilisée comme indicateur de la qualité de la prédiction.
Le score de confiance est un exemple d’information intrinsèque du modèle pouvant servir
à caractériser le bon comportement d’un tracker. Dans cette section, nous présentons 3 types
d’indicateurs de bon comportement pouvant s’adapter de manière générique à la plupart des
trackers : score de confiance, carte de scores et autres indicateurs spécifiques.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 107

4.1.1 Score de confiance

Résultant de la structure fonctionnelle d’un tracker générique, un indicateur de qualité du


comportement assez naturel est le score de confiance associé à la prédiction courante. Il peut
être interprété comme un indicateur de bon ou mauvais fonctionnement du tracker, un score
faible indiquant une prédiction peu fiable. En fonction de la constitution du tracker, ce score
de confiance est d’origine différente : score de corrélation, vraisemblance, score de classification,
score de détection, etc. Ce score peut mesurer une similarité par rapport au modèle objet (score
de corrélation, vraisemblance) et/ou une dissemblance par rapport au modèle fond (score de
détection) lorsque le modèle d’apparence utilisé discrimine fond/forme. Les trackers du répertoire
décrits dans la section 2.2 utilisent différents types de scores, pour NCC [Lewis, 1995], KLT
[Kalal et al., 2012] et DSST [Danelljan et al., 2014] il s’agit d’un score de corrélation, pour CT
[Zhang et al., 2012] un rapport de log-vraisemblance, pour STRUCK [Hare et al., 2011] un score
de classification, pour le tracker basé DPM [Felzenszwalb et al., 2010, Kalman, 1960] un score de
détection, MS [Bradski, 1998] et ASMS [Vojir et al., 2014] un score de similarité.
Rappelons que le taux de recouvrement IoU correspond à l’intersection sur l’union des
boîtes prédites et de la vérité terrain, défini dans la section 1.2.2. Nous avons tracé le taux
de recouvrement IoU (courbe rouge) et le score de confiance (courbe bleue) en fonction du
temps pour les trackers NCC et DPM dans plusieurs séquences de VOT2013+ (figure 4.2).
Nous indiquons les moments de dérive de chacun des trackers par des bandes grises, obtenus
en appliquant le protocole défini dans le chapitre 2. Le score de confiance est élevé après une
initialisation ou réinitialisation du tracker, puis diminue au cours du temps. Une valeur faible
du score de confiance semble indiquer une dérive du tracker. C’est le cas de NCC dans la
séquence bicycle (figure 4.2a), les dérives ont lieu pour des valeurs du score inférieures à 0.4
(t = 50, 120, 150, 170, 255). Cependant, une même valeur instantanée du score ne produit pas
toujours une dérive. Dans la séquence car, le score de confiance de NCC est inférieur à 0.4 à
partir de t = 30 mais le tracker ne dérive qu’à t = 200 et pour des valeurs proches de 0.2 (figure
4.2b). De même pour DPM car (figure 4.2c), le score de détection est inférieur à −0.8 à t = 185
et t = 320 mais le tracker ne dérive qu’à t = 320. Dans gymnastics (figure 4.2d), DPM dérive
pour un score de -0.5 à t = 95 mais ne dérive pas pour des valeurs de score proche de -1 entre
t = 140 et t = 210.
L’utilisation d’un seuil fixe pour décider qu’un tracker dérive lorsque le score produit est
inférieur à ce seuil est donc peu adaptée. Pourtant, cette approche a été largement exploitée
[Stenger et al., 2009, Santner et al., 2010, Kalal et al., 2012], le seuil de dérive étant estimé par
exemple au cours d’un apprentissage supervisé. Une limite de cette approche est que seule la
valeur instantanée est exploitée. La dimension temporelle du signal pourtant importante en suivi
d’objet (modèle avec mémoire) n’est pas prise en compte.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 108

NCC bicycle NCC car


1 1
0.8 0.8
overlap

overlap
0.6 0.6
0.4 0.4
0.2 0.2
0 0
50 100 150 200 250 50 100 150 200 250 300 350
time time
1 1
confidence score

confidence score
0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2
50 100 150 200 250 50 100 150 200 250 300 350
time time
(a) NCC bicycle (b) NCC car
DPM car DPM gymnastics
1 1

0.8 0.8
overlap
overlap

0.6 0.6

0.4 0.4

0.2 0.2

0 0
50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 200
time time

1 2
confidence score
confidence score

0.5 1

0 0

−0.5 −1

−1 −2
50 100 150 200 250 300 350 20 40 60 80 100 120 140 160 180 200
time time
(c) DPM car (d) DPM gymnastics

Figure 4.2 – Évolution du score de corrélation du tracker NCC (a,b) et du score de détection
du tracker basé DPM (c,d) en fonction du temps dans plusieurs séquences de VOT2013+. La
courbe rouge indique le recouvrement de la boîte englobante prédite avec la vérité terrain et la
courbe bleue, le score de corrélation ou détection associé à la boîte. Les bandes grises indiquent
les moments de dérive du tracker ; après chaque dérive, le tracker est réinitialisé avec la vérité
terrain.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 109

#2/271 250

0.8
5 10

10 0.6 200
20

15
0.4 30
20 150

y
25 40

y
0.2
30
50 100

35 0

60
40
−0.2 50
45 70

10 20 30 40 50 60 70 80
0
x 10 20 30 40
x
50 60 70 80

(a) bicycle (b) (c)


1 5 0.4
5 −60

0.8
−80 10 0.35
10 10
0.6
−100 15 0.3
15
0.4
20
−120 20 0.25
20
0.2

30 −140 25

y
y
25
y

0 0.2

−0.2 −160 30
30
40
0.15
−0.4 −180
35 35
0.1
50 −0.6
−200
40 40
−0.8 0.05
−220
60 45 45
−1
10 20 30 40 50 60 0
−240
x 5 10 15 50
5 10 15
x
x
(d) (e) (f)

Figure 4.3 – Carte de scores de 5 trackers. (a) image 2 de la séquence bicycle dans VOT2013
[Kristan et al., 2013], la boîte bleue indique la vérité terrain de la cible. (b), (c), (d), (e) et (f) sont
les cartes de scores respectives des trackers NCC, KLT, STRUCK, CT et DSST, correspondant à
l’image (a). L’échelle de valeurs indique rouge pour des valeurs de score élevées et bleu pour des
valeurs de score faibles. La distribution des scores (intensité, maxima locaux, etc.) donne des
informations sur l’état de fonctionnement des trackers. Nous nous basons sur ces informations
pour prédire l’état des trackers dans la section 4.2.

4.1.2 Carte de scores

Plutôt que d’utiliser seulement le score maximal associé à la prédiction courante, notre idée
est d’exploiter la distribution spatiale des scores de confiance sur l’image entière ou sur une
fenêtre locale. Cette distribution est appelée « carte de scores » et notée Ct , calculée sur une
fenêtre (xf , yf , wf , hf ) à l’instant t. Ct = {ct (i, j)|xf ≤ i ≤ xf + wf , yf ≤ j ≤ yf + hf }, où ct (i, j)
est le score calculé à la position (i, j) de l’image à l’instant t. Les cartes de scores révèlent la
manière dont les trackers « voient » les images brutes, quelle interprétation ils leur donnent. La
distribution spatiale des scores peut renseigner sur la précision de la localisation, par exemple
la présence de deux maxima locaux indiquerait deux positions possibles de la cible pouvant
entraîner une erreur de localisation.
La figure 4.3 montre les cartes de scores d’une même image, calculées par 5 trackers différents.
La taille des cartes et la nature des scores est différente d’un tracker à l’autre. Nous supposons
que les changements de comportement du tracker peuvent être détectés en observant l’évolution
spatio-temporelle de cette carte. Pour différents trackers, nous montrons le comportement des
cartes à différents instants d’une même séquence dans les figures 4.4, 4.5, 4.6 et 4.7. Ces cartes
ont des allures très différentes selon les trackers et les séquences. Les cartes qui semblent traduire
un bon comportement du tracker sont encadrées en vert, celles qui semblent traduire une dérive
en rouge. Les cartes encadrées en bleu présentent un comportement ambigu où elles semblent
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 110

indiquer un mauvais fonctionnement du tracker (mêmes allures que lors d’une dérive du tracker)
alors que ce n’est pas le cas.
Pour NCC (figure 4.4), un bon comportement du tracker est observé pour des cartes présentant
une intensité locale élevée, renseignant sur la précision de localisation du tracker (encadré vert).
En revanche, une dérive est observée pour des régions homogènes de scores faibles ou de même
intensité, indiquant une localisation imprécise de l’objet (encadré rouge). Cependant, dans
certains cas, NCC ne dérive pas alors que la carte semble indiquer le contraire (encadré bleu).
Pour KLT (figure 4.5), un bon fonctionnement du tracker est observé lorsque les cartes
présentent des régions compactes d’intensité élevée (encadré vert). Un mauvais comportement
correspondrait à une déformation importante de cette région par rapport à sa forme initiale
(encadré rouge).
Pour CT (figure 4.6), un bon fonctionnement du tracker est observé lorsque les scores
d’intensité élevée sont localisées, celles-ci rendent compte de la précision de localisation (encadré
vert). Un mauvais comportement est observé lorsque les cartes présentent une région étendue
d’intensité homogène, rendant compte d’une mauvaise précision de localisation (encadré rouge).
Les cartes indiquant une dérive du tracker alors que celui-ci fonctionne correctement (encadré
bleu) sont présentes en début de séquence lorsque le modèle commence tout juste à apprendre
l’objet.
Pour STRUCK (figure 4.7), un bon comportement du tracker est observé pour des cartes
présentant un seul maximum local (foyer), indiquant une seule localisation possible de l’objet
(encadré vert). Tandis que les cartes ayant plusieurs maxima locaux (foyers) sont souvent
accompagnées d’une dérive du tracker (encadré rouge) car la localisation est imprécise. Cependant,
des cas ambigus existent où la carte présente plusieurs maxima locaux mais où le tracker localise
correctement la cible (encadré bleu). L’interprétation des cartes n’est donc pas toujours évidente.
Toutes les informations contenues dans la carte ne sont pas utiles pour caractériser l’état de
fonctionnement d’un tracker. Nous cherchons donc à extraire de ces cartes des indicateurs spatio-
temporels simples, traduisant les changements de comportement observés lorsque le tracker passe
d’un état de bon fonctionnement à une dérive. Une autre raison à la construction d’indicateurs
simples est que l’on dispose peu de données (cartes) et que si ces données sont de grande
dimension, alors il est difficile voire impossible de faire de l’apprentissage. Nous allons donc
construire des indicateurs de comportement exploitant la variation spatiale et temporelle de la
distribution des scores. Par la suite, ces indicateurs ont été déterminés empiriquement par une
analyse plus approfondie de cette distribution en choisissant ceux qui décrivent le mieux son
évolution. Les indicateurs précis sont détaillés dans la partie 4.4.1.

4.1.3 Autres indicateurs spécifiques

Pour les trackers complexes ou ceux pour lesquels le calcul de la carte de scores est peu
fiable ou non réalisable en raison de leur structure algorithmique, c’est par exemple le cas du
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 111

#2/271 #85/271 #174/271

NCC NCC NCC

NCC − bicycle − #2 NCC − bicycle − #85 NCC − bicycle − #174


1
1 1
5 0.8
5 0.8 0.8
10 10
10 0.6 0.6
0.6
15
15 0.4 0.4 20 0.4
20
20 0.2 0.2 0.2
25
30
y 0
y

y
25 0 0
30
30 −0.2 35
−0.2 40 −0.2

35 −0.4 40 −0.4 −0.4


50
40 −0.6 45 −0.6 −0.6

45 −0.8 50 −0.8 60 −0.8

−1 55 −1 −1
10 20 30 40 50 60 70 10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80 90 100

x x x

#2/350 #121/350 #340/350


NCC NCC NCC

NCC − bolt − #2 NCC − bolt − #121 NCC − bolt − #340


1 1 1

0.8 0.8 0.8


10 10 10
0.6 0.6 0.6

20 0.4 20 0.4 20 0.4

0.2 0.2 0.2

30 30 30
y

0 0 0

−0.2 −0.2 −0.2


40 40 40
−0.4 −0.4 −0.4

50 −0.6 50 −0.6 50 −0.6

−0.8 −0.8 −0.8


60 60 60
−1 −1 −1
10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90 10 20 30 40 50 60 70 80 90
x x x

#60/597 #139/597 #227/597

NCC NCC NCC

NCC woman #60 NCC woman #139


1 1

10 10 0.8
NCC woman #227
0.8 1
20 0.6 20 0.6 10
30 0.4 0.4
30 20 0.5
40 0.2 0.2
40 30
50
y
y

0 0 0
50 40
60
0.2 0.2
60 50
70
0.4 0.4 0.5
80 70 60
0.6 0.6
90 80 70
0.8 0.8 1
20 40 60 80 100 120 140
100 90
20 40 60 80 100 120 140 160
1
20 40 60 80 100 120 140
1 x
x x

Figure 4.4 – Carte de scores de NCC à différents instants des séquences bicycle (t = 2, 85, 174),
bolt (t = 2, 121, 340) et woman (t = 60, 139, 227) de la base VOT2013+ (de haut en bas). Les
images encadrées en vert indiquent un bon comportement du tracker, en rouge une dérive et
en bleu un comportement ambigu de la carte de scores. Une intensité locale élevée sur la carte
semble indiquer un bon fonctionnement du tracker tandis qu’une intensité étendue faible ou de
même valeur semble indiquer une dérive.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 112

#2/271 #190/271

KLT KLT

KLT − bicycle − #2 KLT − bicycle − #190


250 250

10 10

200 200
20 20

30 30
150 150

40 40
y

y
50 100 50 100

60 60

50 50
70 70

80 80
0 0
10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80
x x

#2/350 #243/350
KLT KLT

KLT − bolt − #2 KLT − bolt − #243


250 250

10 10

200 200
20 20

30 30
150 150

40 40
y

50 100 50 100

60 60

50 50
70 70

80 80
0 0
10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80
x x

#2/597 #190/597

KLT KLT

KLT − woman − #2 KLT − woman − #190


250 250

10 10

200 200
20 20

30 30
150 150

40 40
y

50 100 50 100

60 60

50 50
70 70

80 80
0 0
10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80
x x

Figure 4.5 – Carte de scores de KLT à différents instants des séquences bicycle (t = 2, 190), bolt
(t = 2, 243) et woman (t = 2, 190) de la base VOT2013+ (de haut en bas). Les images encadrées
en vert indiquent un bon comportement du tracker et en rouge une dérive. Une déformation
importante de la région d’intensité élevée par rapport à sa forme de départ semble indiquer un
mauvais fonctionnement du tracker.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 113

#2/350 #120/350 #160/350


CT CT CT

CT − bolt − #2 CT − bolt − #120 CT − bolt − #160


100 100 100

50 50 50
10 10 10
0 0 0

−50 −50 −50


20 20 20

−100 −100 −100

30 30 30
y

y
−150 −150 −150

−200 −200 −200


40 40 40
−250 −250 −250

50 −300 50 −300 50 −300

−350 −350 −350

60 60 60
−400 −400 −400
5 10 15 20 25 5 10 15 20 25 5 10 15 20 25
x x x

#10/207 #50/207 #190/207

CT CT CT

CT − gymnastics − #10 CT − gymnastics − #50


100 100

50 50
20 20
0 0 CT − gymnastics − #190
100

40 −50 40 −50 5
10 0
−100 −100 15
60 60 20
−100
y

y
−150 −150
25
−200
30
−200 −200
80 80
35
−300
−250 −250 40
45
100 100 10 20 30 40 50 60 70 80 90
−400
−300 −300
x
−350 −350
120 120

−400 −400
10 20 30 10 20 30
x x

#2/597 #90/597 #120/597

CT CT CT

CT − woman − #2 CT − woman − #90 CT − woman − #120


100 100 100

10 50 10 50 10 50

20 0 20 0 20 0

30 −50 30 −50 30 −50

40 40 40
−100 −100 −100

50 50 50
y

−150 −150 −150

60 60 60
−200 −200 −200

70 70 70
−250 −250 −250

80 80 80
−300 −300 −300

90 90 90
−350 −350 −350

100 100 100


−400 −400 −400
5 10 15 20 25 5 10 15 20 25 5 10 15 20 25
x x x

Figure 4.6 – Carte de scores de CT à différents instants des séquences bolt (t = 2, 120, 160),
gymnastics (t = 10, 50, 190) et woman (t = 2, 90, 120) de la base VOT2013+ (de haut en bas).
Les images encadrées en vert indiquent un bon comportement du tracker, en rouge une dérive et
en bleu un comportement ambigu de la carte de scores. Une région étendue d’intensité faibles ou
de mêmes valeurs semble indiquer une mauvaise localisation de la cible.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 114

#2/350 #103/350 #165/350


STRUCK STRUCK STRUCK

STRUCK − bolt − #2 STRUCK − bolt − #103 STRUCK − bolt − #165


1 1 1

0.8 0.8 0.8


10 10 10
0.6 0.6 0.6

0.4 0.4 0.4


20 20 20

0.2 0.2 0.2

30 30 30
y

y
0 0 0

−0.2 −0.2 −0.2


40 40 40
−0.4 −0.4 −0.4

50 −0.6 50 −0.6 50 −0.6

−0.8 −0.8 −0.8

60 60 60
−1 −1 −1
10 20 30 40 50 60 10 20 30 40 50 60 10 20 30 40 50 60
x x x

#2/207 #92/207 #185/207

STRUCK STRUCK STRUCK

STRUCK − gymnastics − #2 STRUCK − gymnastics − #92 STRUCK − gymnastics − #185


1 1 1

0.8 0.8 0.8


10 10 10
0.6 0.6 0.6

0.4 0.4 0.4


20 20 20

0.2 0.2 0.2

30 30 30
y

0 0 0

−0.2 −0.2 −0.2


40 40 40
−0.4 −0.4 −0.4

50 −0.6 50 −0.6 50 −0.6

−0.8 −0.8 −0.8

60 60 60
−1 −1 −1
10 20 30 40 50 60 10 20 30 40 50 60 10 20 30 40 50 60
x x x

#5/204 #20/204 #65/204


STRUCK STRUCK STRUCK

STRUCK − gopr0009_car1 − #5 STRUCK − gopr0009_car1 − #20 STRUCK − gopr0009_car1 − #65


1 1 1

0.8 0.8 0.8


10 10 10
0.6 0.6 0.6

0.4 0.4 0.4


20 20 20

0.2 0.2 0.2

30 30 30
y

0 0 0

−0.2 −0.2 −0.2


40 40 40
−0.4 −0.4 −0.4

50 −0.6 50 −0.6 50 −0.6

−0.8 −0.8 −0.8

60 60 60
−1 −1 −1
10 20 30 40 50 60 10 20 30 40 50 60 10 20 30 40 50 60
x x x

Figure 4.7 – Carte de scores de STRUCK à différents instants des séquences bolt (t = 2, 103, 165),
gymnastics (t = 2, 92, 185) et gopr0009_car1 (t = 5, 20, 65) de la base VOT2013+ (de haut
en bas). Les images encadrées en vert indiquent un bon comportement du tracker, en rouge
une dérive et en bleu un comportement ambigu de la carte de scores. La présence de plusieurs
foyers d’intensité élevée semble indiquer plusieurs localisations possibles pour la cible et donc
potentiellement un mauvais fonctionnement du tracker.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 115

tracker basé DPM renvoyant des détections rares et non une carte de détections denses. D’autres
indicateurs peuvent être calculés par exemple en exploitant des variables internes du modèle
d’apparence ou en construisant d’autres métriques. Leur définition exacte est détaillée dans la
partie 4.4.1.

4.2 Prédiction en ligne des dérives par apprentissage des indi-


cateurs de comportement (BI)

Cette partie explique comment construire un prédicteur de dérives, capable d’évaluer la


qualité de prédiction à partir d’indicateurs de bon comportement. L’objectif final de la prédiction
de dérives est de l’utiliser en tant que fonction de sélection de trackers dans un système de fusion
de trackers multiples.

Fonction de prédiction

Pour chaque tracker Ti , i ∈ [1, M ], nous cherchons une fonction DPi capable de prédire son
état sit en fonction de ses indicateurs de comportement φit = {φi,1 i,2 i,K
t , φt ..., φt } à chaque instant

t:
DPi : φit → sit (4.1)

où sit ∈ {0, 1}, 1 indiquant un état valide et 0 un état de dérive.

Pour construire cette fonction de prédiction, la première méthode consiste à estimer un seuil
pour chaque indicateur de comportement séparant les valeurs d’indicateurs indiquant une dérive
des valeurs indiquant un bon fonctionnement du tracker. Cette méthode est décrite dans la
section 4.2.1.
Les deux autres méthodes utilisent des techniques d’apprentissage. La première consiste à
apprendre une classification binaire des valeurs d’indicateurs par apprentissage SVM et détaillée
dans la section 4.2.2. La deuxième consiste à apprendre une pondération des trackers en fonction
de la valeur des indicateurs par un mélange d’experts et détaillée dans la section 4.2.3. La piste de
l’apprentissage a été considérée afin d’automatiser le réglage des seuils mais non la recherche des
indicateurs dans une carte de scores. En effet, apprendre directement sur les cartes nécessiterait
une base considérable de données d’apprentissage vu la dimensionnalité du problème, ce que nous
n’avons pas. L’apprentissage n’a donc pu se faire qu’avec des indicateurs déjà extraits des cartes.

4.2.1 Estimation des seuils des indicateurs de comportement

La prédiction de dérives est réalisée à partir d’un seuil sur chaque indicateur de comportement.
Toute la difficulté consiste à choisir les bons seuils permettant de séparer correctement les valeurs
correspondant à un bon fonctionnement du tracker des valeurs correspondant à un mauvais
fonctionnement.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 116

L’estimation des seuils des indicateurs individuels passe par une évaluation hors ligne des
performances de prédiction de dérives des prédicteurs en fonction des seuils choisis. Plusieurs
valeurs de seuil sont testées en suivant un protocole d’évaluation permettant de mesurer la
capacité de prédiction du prédicteur selon ces valeurs. Les critères de dérive et les valeurs de seuil
choisies sont détaillés dans la partie 4.4.1. Finalement, ces dernières sont choisies de manière
à ne pas dépasser un certain nombre de fausses alarmes, i.e. fausses prédictions de dérives. Un
compromis entre fausses alarmes et bonnes détections est nécessaire, il sera discuté dans la section
4.4.2.

4.2.2 Apprentissage SVM

Une méthode plus automatique consiste à apprendre directement une fonction de classification
de valeurs d’indicateurs de comportement capable de séparer les valeurs d’indicateurs correspon-
dant à une dérive du tracker et celles correspondant à un bon fonctionnement. Pour chaque tracker,
l’apprentissage SVM utilise un ensemble d’exemples d’apprentissage : (φ1 , l1 ), (φ2 , l2 ), ...(φn , ln ),
où φj est un vecteur d’indicateurs de comportement concaténant les m indicateurs du tracker
calculés à un instant donné, et lj ∈ {0, 1} le label correspondant.

 0 si IoU (B̂j , Bj∗ ) < η
lj =
 1 si IoU (B̂j , Bj∗ ) ≥ η

où B̂j est la boîte prédite par le tracker correspondant à (φj , lj ), Bj∗ la vérité terrain et IoU
(Intersection over Union) le taux de recouvrement entre les boîtes. La constante η est le seuil
délimitant les exemples positifs des exemples négatifs.
Les résultats d’apprentissage seront présentés dans la section 4.4.3.

4.2.3 Fusion de trackers par mélange d’experts à partir des indicateurs de


comportement

L’approche par un mélange d’experts ne cherche pas à prédire les dérives des trackers mais à
apprendre une pondération des sorties des trackers (boîtes englobantes) en fonction des valeurs
des indicateurs des trackers. Le problème de fusion de trackers est formulé sous la forme d’un
mélange d’experts : au lieu de considérer des prédicteurs de dérives binaires de trackers, on
considère des experts évaluant la qualité de chaque tracker dans un intervalle de valeurs ∈ [0, 1].
On dispose d’un ensemble de M trackers T = {T1 , T2 , ...TM }. A chaque instant t, chaque
tracker Ti prédit la position de la cible sous forme d’une boîte Ẑit . Leur fusion consiste à calculer
à chaque instant t, une boîte de fusion Ẑ t née de la combinaison des boîtes {Ẑit }M
i=1 , en pondérant

chaque boîte par un poids reflétant la qualité de la prédiction du tracker (précision de la


CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 117

localisation). Formulée sous la forme d’un mélange d’experts, la fusion des boîtes donne :

M
X
Ẑ t = gi (φti ) ∗ Ẑit (4.2)
i=1

où φti désigne le vecteur d’indicateurs de comportement du tracker Ti à l’instant t. Les fonctions gi


avec i = {1, 2, ...M } sont appelées les « gating functions » des M experts et satisfont la condition :
PM t
i=1 gi (φi ) = 1. Les fonctions gi utilisées sont des softmax :

exp(wi > φti )


gi (φti ) = PM (4.3)
> t
j=1 exp(wj φj )

où les vecteurs {wi }M


i=1 sont à estimer.

On a fait l’hypothèse que les fonctions gi ne dépendaient que des indicateurs du trackers Ti :
gi (φti ). Mais on pourrait aussi avoir gi (φt ), où φt est la concaténation des vecteurs d’indicateurs
des différents trackers à l’instant t.
L’estimation des {wi }M
i=1 se ramène à un problème de minimisation d’erreur quadratique sur

une base d’apprentissage :


E =k Ẑ t − Z ∗t k2 (4.4)

où Ẑ t est le résultat de la fusion et Z ∗t la localisation exacte de la cible (vérité terrain) à l’instant


t. On cherche à optimiser le suivi d’objet, de telle sorte que la trajectoire de fusion soit proche
de la vérité terrain.
On résout l’équation (4.4) par descente de gradient, avec un pas d’apprentissage λ :

∂E
wit+1 = wit + λ (4.5)
∂wit
= wit − λ(Ẑ t − Z ∗t )φti gi (φti )(Ẑit − Ẑ t ) (4.6)

Une solution alternative à l’optimisation par descente de gradient est une optimisation globale,
comme celle développée dans Sferes2 1 [Mouret et Doncieux, 2010].
Les résultats d’apprentissage seront présentés dans la section 4.4.4.

4.3 Prédiction en ligne des dérives par une analyse de la distri-


bution spatiale des boîtes englobantes

Une autre manière de détecter un comportement aberrant des trackers est d’exploiter l’infor-
mation spatiale des boîtes englobantes prédites, de manière individuelle ou collective. Les deux
méthodes développées utilisent deux informations :

— La prédiction de chacun des M trackers à l’instant t : B̂t = (B̂t1 , B̂t2 , ...B̂tM ).


1. https://github.com/sferes2/sferes2
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 118

B4
B2
B1 B1

Bf B3 Cluster 2
d

Cluster 1
(a) Filtrage temporel (b) Consensus

Figure 4.8 – Analyse de la distribution spatiale des boîtes englobantes utilisant (a) un filtrage
temporel ou (b) un consensus de boîtes.

f usion
— Une position de référence passée. Prenons comme exemple, la prédiction B̂t−1 à l’instant
t − 1 produite par un système de fusion combinant les boîtes des trackers individuels B̂t−1 .

4.3.1 Filtrage temporel de boîtes (BF)

Le principe consiste à prédire une dérive (sit = 0) lorsque la position estimée par le tracker Ti
f usion
à l’instant t, B̂ti , est éloignée de la position estimée par le système à l’instant précédent B̂t−1
et illustré dans la figure 4.8a :

f usion f usion
 0 si dist(B̂t−1 , B̂ti ) > width(B̂t−1 )
sit =
 1 sinon

f usion f usion
où width(B̂t−1 ) est la largeur de la boîte B̂t−1 . La distance dist utilisée est la distance
euclidienne entre les centres des boîtes. Contrairement à la mesure de recouvrement IoU définie
en section 1.2.2, dist ne pénalise pas une boîte B̂ti lorsqu’elle est bien centrée sur la cible et
f usion
différente en taille de B̂t−1 .
Cette méthode est utile lorsque les mouvements de la caméra sont lisses (pas de brusque
changement de ligne de visée) et que les déplacements de la cible sont faibles d’une image à
l’autre. Elle permet donc de filtrer les déplacements aberrants mais ne prévient pas en cas de
mouvements importants de la caméra ou de déplacements importants de cible liés à une cadence
vidéo faible. Par ailleurs, le seuil choisi pour définir la validité d’une prédiction (taille de la boîte)
est assez large, ce qui peut rendre l’estimation de position de la cible imprécise.

4.3.2 Consensus de boîtes (BC)

Le principe est d’utiliser les prédictions produites par d’autres trackers pour estimer la qualité
de la prédiction actuelle, l’évaluation des trackers se fait de manière collective comme illustrée
dans la figure 4.8b. La règle de décision utilisée est simple :
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 119

— On procède par une analyse de la répartition spatiale des boîtes englobantes produites par
les trackers B̂t , en regroupant les boîtes « connexes », c’est-à-dire proches spatialement, et
en définissant un seuil de similarité : les boîtes dont le taux de recouvrement IoU > 0.5
sont placées dans un même cluster. Pour chaque cluster formé, on calcule un centre, qui
correspond à la boîte moyenne des boîtes du cluster.

— On sélectionne le cluster dont le centre est le plus proche de la position estimée précé-
f usion
dente B̂t−1 (distance centre à centre). Les boîtes de ce cluster sont considérées comme
fonctionnelles et on leur attribue la valeur sit = 1.

— Les boîtes ne faisant pas partie du cluster sélectionné sont déclarées invalides (sit = 0).

Cette détection de boîtes aberrantes semble suffisante dans nos expériences compte tenu de
la taille de la collection de trackers utilisés. L’intérêt de cette méthode est d’éliminer des groupes
de trackers aux comportements différents (prédictions éparses). La taille des clusters n’est pas
utilisée comme critère de sélection car il n’est pas exclu que plusieurs trackers dérivent en votant
pour une même position.

Limites des méthodes BF et BC Ces règles simples en soi ne permettent pas d’évaluer la
qualité intrinsèque des prédictions produites. Un cas d’utilisation possible serait de les combiner
à une autre méthode de prédiction basée sur des critères plus pertinents, par exemple la méthode
BI (indicateurs de comportement). L’évaluation complète de ces deux méthodes se fera dans le
f usion
chapitre 5 car elles nécessitent le résultat de la fusion B̂t−1 .

4.4 Évaluation des prédicteurs de dérives par apprentissage des


indicateurs de comportement

Cette partie décrit plus précisément la construction et l’évaluation de performance des


prédicteurs de dérives suivant l’approche « Prédiction en ligne des dérives par apprentissage des
indicateurs de comportement » (BI), décrite dans la section 4.2. Dans un premier temps, nous
détaillerons les indicateurs de comportement utilisés pour prédire les dérives, dans la section
4.4.1. Puis dans un second temps, nous évaluerons les méthodes développées dans les sections
4.4.2, 4.4.3 et 4.4.4.

4.4.1 Recherche des indicateurs de comportement

Nous cherchons à extraire des indicateurs de comportement à partir des cartes de scores des
trackers. Pour la plupart des trackers du répertoire, cette manœuvre est possible. Nous modifions
les trackers afin de pouvoir accéder à cette carte de scores lorsque leur structure algorithmique le
permet. NCC, CT, STRUCK, DSST et MS disposent naturellement d’une telle carte. Celle-ci
est de forme rectangulaire ou circulaire, de taille fixe ou fonction des dimensions de l’objet suivi
(w, h). Cependant pour NCC, les indicateurs extraits de la carte n’ayant pas donné de résultats
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 120

satisfaisants, nous avons utilisé d’autres indicateurs. Les trackers restants KLT, DPM et ASMS ne
disposent pas naturellement d’une carte de scores. Pour KLT, nous avons pu déduire facilement
une carte de scores à partir de son fonctionnement. DPM ne fournit pas de cartes de détection
denses puisque seules les détections dont le score est supérieur à un certain seuil de détection
sont retenues, nous avons donc calculé des indicateurs à partir des détections éparses. Du fait de
la complexité de fonctionnement d’ASMS intégrant une recherche d’échelle, nous avons calculé
des indicateurs simples.
Nous distinguons donc deux catégories de trackers :

— KLT, CT, STRUCK, DSST et MS calculant des indicateurs de comportement à partir de


leur carte de scores,

— NCC, DPM et ASMS utilisant d’autres indicateurs.

Les indicateurs de comportement calculés pour chaque tracker sont détaillés ci-dessous et leurs
évolutions sur certaines séquences de VOT2013+ sont illustrées dans la figure 4.9 :

NCC A chaque instant t, la localisation de l’objet par NCC correspond à un score maximal
sur la carte. Notons max(t) sa valeur et (xmax (t), ymax (t)) ses coordonnées.
Trois indicateurs sont utilisés :

— Les écarts de position entre t et t − 1, normalisés respectivement par la largeur w et la


hauteur h de l’objet :

|xmax (t) − xmax (t − 1)| |ymax (t) − ymax (t − 1)|


∆xmax = , ∆ymax =
w h

— L’écart de score relatif entre t et t − 1 :

max(t) − max(t − 1)
∆max = −
max(t − 1)

Une diminution importante du taux de recouvrement IoU correspond à des valeurs élevées de
∆xmax ou ∆ymax ou ∆max comme illustré dans la figure 4.9a aux instants t = 100, 150, 220, 270.
Cependant, la première dérive a lieu brusquement à t = 40 mais aucun des indicateurs n’indique
une quelconque dérive. De même pour le taux de recouvrement qui est resté constant de t = 0−40.

KLT KLT effectue le suivi d’un ensemble de points de l’image I(t − 1) à l’image I(t). La
carte de scores calculée est une carte locale de taille (81, 81), centrée sur la position de l’objet
à t − 1. Pour chaque position (x, y) de la carte, nous définissons une fenêtre locale de même
dimension que l’objet et comptons le nombre de points appariés issus du suivi dans cette fenêtre.
La position comptant le maximum de points appariés correspond à la position actuelle de l’objet.
Les valeurs de la carte sont ensuite normalisées à 255. L’ensemble des scores de la carte est noté
C = {c(x, y)}. Définissons la région R200 = {(x, y) ∈ C | c(x, y) > 200}. Notons (xc (t), yc (t)), le
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 121

centre de R200 , obtenu en moyennant les positions de R200 à l’instant t. Définissons également la
région R0 = {(x, y) ∈ C | c(x, y) > 0}.
Trois indicateurs sont calculés à partir de la carte :

— Les écarts de position entre t et t − 1, normalisés respectivement par la largeur w et la


hauteur h de l’objet :

xc (t) − xc (t − 1) yc (t) − yc (t − 1)
∆xc = , ∆yc =
w h

— La variation de taille de R200 entre l’instant t et l’instant initial t0 (première image ou


réinitialisation) :
∆spotsize = spotsize(t) − spotsize(t0 )

Card(R200 (t))
où spotsize(t) = Card(R0 (t)) et Card est le cardinal de l’ensemble.

Une valeur importante de l’un des indicateurs semble indiquer un mauvais fonctionnement
du tracker, comme illustré dans la figure 4.9b : KLT dérive pour des valeurs élevées de ∆xc et
∆yc à t = 200, et pour des valeurs élevées de ∆xc et ∆spotsize à t = 330 et t = 510. Cependant,
ce n’est pas toujours systématique, par exemple à t = 230, KLT dérive pour des valeurs faibles
d’indicateurs.

CT La carte de scores correspondante est une carte locale de même dimension que l’objet (w, h)
dont les valeurs sont des sommes de rapports de log-vraisemblance objet-fond. L’ensemble des
scores de la carte est noté C = {c(x, y)} où (x, y) parcourt les positions de la carte. Notons max(t)
et min(t) les valeurs maximale et minimale de la carte à l’instant t, pouvant être négatives. Notons
l’ensemble A(t) = {(x, y) ∈ C | c(x, y) > thr(t)} où thr(t) = max(t) − 0.1 ∗ (max(t) − min(t)).
A est constituée de scores élevés regroupés autour de la position de l’objet.
Un seul indicateur est utilisé à partir de cette carte, et mesure la variation en taille de A
entre les instants t − 1 et t :

Card(A(t)) − Card(A(t − 1))


∆area =
Card(A(t − 1))

Une anomalie de comportement est détectée lorsqu’une variation temporelle de la taille


de la région A (représentée par ∆area) est importante comme illustré sur la figure 4.9c. Une
diminution ou augmentation du taux de recouvrement (courbe rouge) est souvent accompagnée
d’un pic de ∆area : t = 50, 110, 200, 240, 410. Ces pics ne correspondent pas exactement aux
moments de dérive mais ont lieu quelques temps avant (quelques images à une dizaine d’image).
Il existe des cas où un pic de ∆area ne produit pas de dérive, par exemple à t = 140, 360.

STRUCK STRUCK calcule une carte de scores locale centrée sur la prédiction précédente,
de rayon r = 30 pixels. Les scores sont des scores de classification par SVM dont les valeurs
varient autour de -1 et 1. Notons (xmax (t), ymax (t)) les coordonnées du score maximal de la carte
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 122

à l’instant t. Notons Z l’ensemble constitué des 10 premiers maxima de la carte de scores de


coordonnées en (X, Y ). X est le vecteur des coordonnées en x des 10 premiers maxima de la
carte et Y est le vecteur de coordonnées en y.
Deux indicateurs ont été utilisés pour détecter les changements de comportement de la carte :

— La variance spatiale des 10 premiers maxima de la carte à l’instant t normalisée par le


minimum de (w, h) : p
V ar(X)2 + V ar(Y )2
var10 =
min(w, h)
où V ar est la variance.

— L’amplitude de déplacement du score maximale entre les instants t et t − 1 normalisée par


le minimum de (w, h) :
q
(xmax (t) − xmax (t − 1))2 + (ymax (t) − ymax (t − 1))2
d=
min(w, h)

Les dérives aux variations importantes du taux de recouvrement (courbe rouge) correspondent
à des valeurs élevées de l’un des indicateurs var10 ou d comme le montre la figure 4.9d aux
instants t = 5, 20, 30, 125, 135. Cependant, une valeur élevée ne correspond pas toujours à une
dérive comme c’est le cas à t = 245 Entre t = 50 − 100 et t = 150 − 250, on remarque beaucoup de
pics de var10 et/ou de d. Ces pics ne correspondant pas à des dérives réelles du tracker peuvent
alors être considérés comme des fausses alarmes.

DPM DPM fournit des détections éparses dont les scores dépassent un seuil minimal défini
par le modèle d’objet issu d’un pré-entraînement.
A partir de ces détections, deux indicateurs sont calculés :

— La différence de scores entre les deux meilleures détections best1 et best2 :

dbest = score(best1) − score(best2)

où best1 est la détection de score maximal et dont le recouvrement avec la localisation de


la cible à l’instant t − 1 est supérieur à 0.3, best2 est la détection ayant le meilleur score
après best1.

— La valeur de recouvrement IoU (intersection sur l’union) entre ces deux meilleures détec-
tions :
obest = IoU (best1, best2)

DSST La carte de scores correspond à la réponse du filtre calculé sur une fenêtre de taille
(w1,h1)
(w2 , h2 ) centrée sur la position de l’objet à l’instant précédent t − 1, où (w2, h2) = 2∗scale ,
(w1, h1) = 2.6 ∗ (w, h) et scale = max(w1, h1)/100.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 123

Un indicateur de dérive est calculé sur cette carte, il consiste à mesurer l’intensité du signal
par rapport au bruit et appelé « Peak to Sidelobe Ratio (PSR) » [Bolme et al., 2010] :

P eak − µφ
P SR =
σφ

où P eak est l’intensité maximale de la carte, µφ et σφ sont la moyenne et l’écart-type des


intensités calculées sur la couronne extérieure à une fenêtre (3, 3) autour du maximum.
Les dérives semblent correspondre à des valeurs faibles de PSR (inférieures à 10), visibles aux
instants t = 50, 130 de la figure 4.9e, sauf exception à t = 95 où il n’y a pas de dérive.

MS MS génère une carte de rétroprojection de l’histogramme de l’image et dont les valeurs


sont comprises entre [0, 255].
Un indicateur calculé est :
maxF − µB
ratioF B =
σB
où maxF est le score maximal de la région de taille (w, h) centrée sur la prédiction actuelle.
Autour de cette première région-cible, on définit une région d’arrière-plan proche, externe à la
première, de taille 3 ∗ (w, h) et on calcule sa moyenne µB et son écart-type σB .

ASMS Deux indicateurs sont calculés correspondant aux coefficients de Bhattacharyya [Kailath,
1967], notés ρ(m, f ) et ρ(m, b) :

p
X p p
X
p
ρ(m, f ) = mu ∗ fu , ρ(m, b) = mu ∗ bu
u=1 u=1

où ρ(m, f ) correspond au coefficient de Bhattacharyya de m et f , et ρ(m, b) à celui de m et b.


m = {mu }pu=1 est l’histogramme à p classes du modèle d’objet correspondant à la vérité terrain
à la première image. f = {fu }pu=1 est l’histogramme de la prédiction à l’instant t. b = {bu }pu=1
est l’histogramme de l’arrière-plan au voisinage proche de la prédiction à l’instant t.
Les dérives correspondent à des valeurs faibles de ρ(m, f ) ou ρ(m, b), comme c’est le cas aux
instants t = 80, 140 de la figure 4.9f. A t = 140, ρ(m, f ) présente une valeur élevée tandis que
ρ(m, b) une valeur faible. Ces deux indicateurs sont complémentaires et décorrélés.

La prédiction de dérive à partir des indicateurs construits est donc possible mais présente
tout de même des difficultés comme nous avons pu le voir (figure 4.9). Premièrement, la valeur
de recouvrement mesurée IoU et les indicateurs ne sont pas directement corrélés bien qu’ils
soient liés. En effet, le comportement du modèle est complexe d’interprétation et ne peut donc se
résumer à la simple valeur de recouvrement. C’est pourquoi, il peut se passer un laps de temps
plus ou moins long entre le changement de comportement d’un indicateur (pic d’intensité) et la
dérive absolue du tracker (par exemple, à t = 100 dans la figure 4.9a).
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 124

Deuxièmement, les indicateurs de comportement ne sont pas toujours faciles d’interprétation,


des ruptures de comportement (pics d’intensité) peuvent avoir lieu sans pour autant aboutir à
une dérive, il s’agit alors de fausses alarmes (figure 4.9d entre t = 150 − 250). De même, des
non-détections peuvent avoir lieu, ce qui peut s’expliquer de deux manières : soit les indicateurs
trouvés ne décrivent pas suffisamment bien le comportement du modèle, soit les scores de
prédiction sur lesquels sont basés les indicateurs ne sont pas suffisants pour décrire l’état du
tracker.
Enfin, la capacité des indicateurs à bien prédire les dérives dépend des seuils choisis. Il est
donc nécessaire d’évaluer leur performance sur une base pour pouvoir les régler. C’est l’objet de
la section suivante.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 125

NCC bicycle
1

0.5

0
50 100 150 200 250
time
1

0.5

0
50 100 150 200 250
time
0.5

0
50 100 150 200 250
time
0.5

−0.5
50 100 150 200 250
time

(a) NCC bicycle


KLT woman
1

0.5

0
50 100 150 200 250 300 350 400 450 500 550
time
1

0.5

0
50 100 150 200 250 300 350 400 450 500 550
time
0.4

0.2

0
50 100 150 200 250 300 350 400 450 500 550
time
4

0
50 100 150 200 250 300 350 400 450 500 550
time

(b) KLT woman


CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 126

CT woman
1

0.8

0.6

0.4

0.2

0
50 100 150 200 250 300 350 400 450 500 550
time

1.5

0.5

−0.5

−1
50 100 150 200 250 300 350 400 450 500 550
time

(c) CT woman
STRUCK bolt
1

0.5

0
50 100 150 200 250 300 350
time
1

0.5

0
50 100 150 200 250 300 350
time
2

1.5

0.5

0
50 100 150 200 250 300 350
time

(d) STRUCK bolt


CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 127

DSST kitti_cyclist
1

0.8

0.6

0.4

0.2

0
20 40 60 80 100 120 140
time

60

50

40

30

20

10

0
20 40 60 80 100 120 140
time

(e) DSST kitti_cyclist


ASMS woman
1

0.5

0
50 100 150 200 250 300 350 400 450 500 550
time
1

0.5

0
50 100 150 200 250 300 350 400 450 500 550
time
1

0.5

0
50 100 150 200 250 300 350 400 450 500 550
time

(f) ASMS woman

Figure 4.9 – Évolution des indicateurs de comportements des trackers NCC (a), KLT (b), CT
(c), STRUCK (d), DSST (e) et ASMS (f) dans différentes séquences de VOT2013+.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 128

4.4.2 Estimation des seuils des indicateurs

Par observation de l’évolution des indicateurs de comportement (figure 4.9), une dérive
est généré pour des valeurs élevées ou des valeurs faibles d’indicateurs. La construction des
prédicteurs de dérives à partir des indicateurs de comportement consiste à estimer les seuils
adéquats permettant de déterminer si une dérive a lieu pour une valeur d’indicateur donnée.

Prédicteurs de dérives

Les indicateurs sont considérés pour la plupart comme indépendants : un tracker dérive lorsque
l’un des indicateurs est inférieur ou supérieur à un seuil donné. Après analyse de l’évolution des
indicateurs dans la section 4.4.1, une dérive a potentiellement lieu pour les conditions suivantes
où ∨ indique l’opération logique OU et ∧ l’opération logique ET :

NCC (∆xmax > α1 ) ∨ (∆ymax > α2 ) ∨ (∆max > α3 ), où α1 , α2 et α3 sont les seuils respectifs
des indicateurs.

KLT (∆xc > β1 ) ∨ (∆yc > β2 ) ∨ (∆spotsize > β3 ), où β1 , β2 et β3 sont les seuils respectifs des
indicateurs.

CT (∆area > γ1 ), où γ1 est le seuil de l’indicateur.

STRUCK (var10 > δ1 ) ∨ (d > δ2 ), où δ1 et δ2 sont les seuils respectifs des indicateurs.

DPM (dbest < ε1 ) ∧ (obest < ε2 ), où ε1 et ε2 sont les seuils respectifs des indicateurs.

DSST (P SR < ζ1 ), où ζ1 est le seuil de l’indicateur.

MS (ratioF B < η1 ), où η1 est le seuil de l’indicateur.

ASMS (ρ(m, f ) < θ1 ) ∨ (ρ(m, b) < θ2 ), où θ1 et θ2 sont les seuils respectifs des indicateurs.

Ce que nous cherchons à estimer, ce sont les seuils de chacun des indicateurs. Nous procédons à
une évaluation de performance de prédiction des indicateurs individuels ou combinés (prédicteurs)
en fonction des seuils choisis, en mesurant la précision et le rappel sur une base d’évaluation.
Rappelons que les mesures de performance classiques de précision rappel sont définies comme
suit :
BP
P recision = (4.7)
BP + F A
BP
Rappel = (4.8)
D
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 129

où BP est le nombre de bonnes prédictions de dérives, F A le nombre de fausses alarmes et D le


nombre de dérives réelles (vérité terrain).
Cette évaluation a pour objectif d’obtenir une courbe de précision rappel de chacun des
indicateurs ou prédicteurs en fonction des seuils. On pourra par la suite régler les seuils des
indicateurs selon le taux de précision rappel souhaité.

Protocole d’évaluation

Pour mesurer le nombre de dérives réelles D, le nombre de bonnes prédictions de dérives BP


et de fausses alarmes F A d’un prédicteur de dérives sur une base d’évaluation, nous procédons
comme ceci :

— Le nombre de dérives réelles du tracker D sur la base d’évaluation est obtenu en appliquant
le protocole d’évaluation défini dans le chapitre 2 : les dérives réelles du tracker sont
détectées avec la vérité terrain et le trackers est réinitialisé après chaque dérive sur la base.

— Pour chaque image de la base, le tracker réalise la prédiction de dérives (calcul des indicateurs
de comportement puis prédiction de dérives). Une fois l’opération réalisée sur toute la base,
on obtient un nombre de dérives prédites P .

— Parmi les dérives prédites P , on détermine celles correspondant aux bonnes prédictions de
dérives BP et celles correspondant aux fausses alarmes F A en comparant leurs instants
aux dérives réelles du tracker D : une prédiction de dérive est comptée comme une bonne
prédiction (BP ) lorsqu’elle a eu lieu dans un intervalle de 1-15 images avant la dérive
réelle. Dans le cas contraire, elle est comptée comme une fausse alarme (F A). L’intervalle
choisi est large afin de prendre en compte les différents types de dérives. En effet, certaines
sont associées à des perturbations brusques et soudaines (occultation), d’autres à des
perturbations lentes (changement modéré d’apparence). Celles-ci ont pour effet d’opérer
un changement de comportement du modèle avec un intervalle de temps variable avant la
dérive réelle.

Performances de prédiction

En faisant varier le seuil d’un prédicteur de dérives, on obtient une courbe de précision rappel
P R ou courbe de bonnes prédictions fausses alarmes BP F A. Les figures 4.10 et 4.11 montrent
les courbes P R et BP F A des prédicteurs de dérives de CT, DSST et MS sur VOT2013+ et
VOT2015. Les courbes P R sont différentes d’un tracker à l’autre et d’une base à l’autre. Le
prédicteur de CT n’a pas les mêmes valeurs de P R pour un même seuil de VOT2013+ (figure
4.10) à VOT2015 (figure 4.11). Cependant, nous observons la même tendance de courbe. Malgré
des tendances différentes des courbes P R de DSST, de VOT2013+ à VOT2015, on peut par
exemple retrouver la même valeur de rappel pour un même seuil : un seuil de 10 donne un rappel
entre 0.6 et 0.7. De même pour MS, un seuil de 4 donne un rappel proche de 0.8.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 130

Table 4.1 – Seuils des prédicteurs de dérives des trackers générant le meilleur rapport Rappel
et nombre de fausses alarmes #F A sur la base VOT2013+. #D indique le nombre de dérives
réelles du tracker et #BP le nombre de bonnes prédictions de dérives réalisées par le prédicteur.

VOT2013+ (6525 images)


Tracker Seuils #D #BP #FA Précision Rappel
NCC 0.6, 0.1, 0.1 126 98 275 0.263 0.778
KLT 0.2, 0.2, 2 74 44 646 0.064 0.595
CT 0.3 36 27 300 0.083 0.75
STRUCK 0.5, 0.3 28 17 223 0.071 0.607
DPM 0.01, 2 59 44 408 0.097 0.746
DSST 10 16 10 477 0.021 0.625
MS 3 198 121 859 0.123 0.611
ASMS 0.6, 0.1 31 4 530 0.007 0.129

Pour construire un bon prédicteur de dérives, on va chercher à maximiser le rappel tout


en ayant un nombre faible de fausses alarmes. Pour des valeurs de seuil bien choisies, il est
possible d’avoir un nombre assez faible de fausses alarmes par rapport au nombre d’images de la
base (6525 dans VOT2013+ et 21455 dans VOT2015) tout en conservant un rappel intéressant,
par exemple proche de 0.7. Pour la plupart des trackers, cette condition est réalisable, voir les
tableaux 4.1 et 4.2.
Logiquement, il vaut mieux avoir plus de fausses alarmes que de manquer de détecter une
dérive. Mais si on se place dans le cadre de fusion de trackers, avoir un nombre trop élevé de
fausses prédictions diminue les chances de reconstituer une piste continue puisque les trackers
détectés en état de dérive sont retirés de la fusion.
Cette évaluation présente des limites puisque l’intervalle d’images choisi détermine si une
prédiction est une fausse alarme ou une bonne prédiction. Or, les changements de comportement
des trackers peuvent avoir lieu en dehors de l’intervalle (longtemps avant la dérive réelle) et
seront alors considérés comme des fausses alarmes. La prédiction de phénomènes temporels à
long terme est difficile car elle dépend d’une connaissance du futur des observations, par nature
non accessible dans une approche en ligne.

4.4.3 Apprentissage SVM

En pratique, l’apprentissage des indicateurs de dérives dans les conditions définies dans la
section 4.2.2 n’a pas donné de résultats satisfaisants.
Plusieurs raisons expliquent cet échec :

— Une première est la difficulté à généraliser à cause d’un nombre insuffisant d’exemples
négatifs,

— Les données d’apprentissage semblent faiblement séparables, ceci est en partie dû à la


manière de les labelliser (voir la figure 4.12). En effet, séparer les exemples par un seuil η
est imprécis et ne reflète pas l’état exact du tracker et ses capacités à absorber les variations
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 131

CT CT
0.2 1000
0.9 VOT2013+ VOT2013+
0.8 0.1
0.18 900

0.7
800
0.16
0.6
700
0.14

number of false alarms


0.5
600
precision

0.12
0.4 500
0.1 0.2
400
0.3
0.08
300
0.3
0.06 0.2
200
0.4
0.04 100 0.5
0.1 0.6
0.9 0.8 0.7
0.02 0
0.4 0.5 0.6 0.7 0.8 0.9 1 14 16 18 20 22 24 26 28 30 32 34
recall number of good predictions

(a) CT, PR (b) CT, BPFA


DSST DSST
0.055 1800
6 VOT2013+ 15
VOT2013+
0.05 1600

0.045 8 1400

0.04
1200
number of false alarms

0.035
1000 12
precision

0.03
800
0.025
4
10 600
0.02 10

400
0.015
12
0.01 200 8
15
4 6
0.005 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 2 4 6 8 10 12 14
recall number of good predictions

(c) DSST, PR (d) DSST, BPFA


MS MS
0.3 3500
VOT2013+ VOT2013+
10
3000
1
0.25

8
2500
number of false alarms

0.2 0.5
2000 6
precision

1500
0.15 4
2
1000

0.1
4
500 2

0.1 6
0.1 0.5 1
8 0
0.05 0 20 40 60 80 100 120 140 160 180 200
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10 1
recall number of good predictions

(e) MS, PR (f) MS, BPFA

Figure 4.10 – Courbes de précision rappel P R (a,c,e) avec en ordonnée la précision et en abscisse
le rappel et courbes de nombre de bonnes prédictions fausses alarmes BP F A (b,d,f) avec en
ordonnée le nombre de fausses alarmes et en abscisse le nombre de bonnes prédictions, des
prédicteurs de dérives des trackers CT, DSST et MS en faisant varier les seuils des prédicteurs
sur VOT2013+. Le seuil des prédicteurs est indiqué pour chaque point de la courbe.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 132

CT CT
0.2 3500
VOT2015 VOT2015
0.9
0.8 0.1
0.18 3000
0.7
0.6
0.16
0.5 2500

number of false alarms


0.14
0.4 2000
precision

0.12 0.2
1500
0.3
0.1
0.3
1000
0.08 0.2
0.4
0.5
0.06 500 0.6
0.1 0.7
0.9 0.8

0.04 0
0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 60 80 100 120 140 160 180
recall number of good predictions

(a) CT, PR (b) CT, BPFA


DSST DSST
0.1 6000
VOT2015 VOT2015 15

0.09 8
5000

0.08

4000
number of false alarms

0.07
12
precision

6
0.06 3000
10
0.05 10
2000

0.04
12 8
1000
0.03 4 4 6
15
0.02 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 50 100 150
recall number of good predictions

(c) DSST, PR (d) DSST, BPFA


MS MS
0.16 9000
VOT2015 10
1
0.14 8000 8
2
7000
0.12
4 6
6000
number of false alarms

0.1
precision

5000
0.08 6
4000 4
8
0.06 10
3000

0.04 0.5
2000 2

0.02 1000
1
VOT2015 0.5
0.1
0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 100 200 300 400 500 600 700
0.1 recall number of good predictions

(e) MS, PR (f) MS, BPFA

Figure 4.11 – Courbes de précision rappel P R (a,c,e) avec en ordonnée la précision et en abscisse
le rappel et courbes de nombre de bonnes prédictions fausses alarmes BP F A (b,d,f) avec en
ordonnée le nombre de fausses alarmes et en abscisse le nombre de bonnes prédictions, des
prédicteurs de dérives des trackers CT, DSST et MS en faisant varier les seuils des prédicteurs
sur VOT2015. Le seuil des prédicteurs est indiqué pour chaque point de la courbe.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 133

Table 4.2 – Seuils des prédicteurs de dérives des trackers générant le meilleur rapport Rappel et
nombre de fausses alarmes #F A sur la base VOT2015. #D indique le nombre de dérives réelles
du tracker et #BP le nombre de bonnes prédictions de dérives réalisées par le prédicteur.

VOT2015 (21455 images)


Tracker Seuils #D #BP #FA Précision Rappel
NCC 0.6, 0.1, 0.1 448 317 1090 0.225 0.708
KLT 0.2, 0.2, 2 258 145 2685 0.051 0.562
CT 0.3 231 137 1204 0.102 0.593
STRUCK 0.5, 0.3 175 120 1265 0.087 0.686
DPM 0.01, 2 532 436 1460 0.23 0.82
DSST 10 179 119 2018 0.056 0.665
MS 3 665 436 2649 0.141 0.656
ASMS 0.6, 0.1 114 50 3539 0.014 0.439

Figure 4.12 – Distribution des indicateurs de comportement (var10 , d) de dimension 2 de


STRUCK sur la séquence bolt. En vert, les points indiquant un bon fonctionnement du tracker
(IoU ≥ 0.5) et en rouge, les points indiquant une dérive (IoU < 0.5). Les distributions de points
verts et rouges sont fortement mélangées.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 134

d’apparence en fonction des situations. Le comportement du score de confiance ou de la


carte ne varie pas en fonction de la valeur de recouvrement IoU. Notamment lorsque la
dérive est lente, le changement de comportement des scores se produit bien en amont de la
perte totale de la cible et ce, de manière progressive. Le tracker se fixe sur un motif du
fond et apprend ce motif, qui lentement remplace l’objet. Une fois le motif appris (durée
dépendant de l’inertie du modèle d’apparence du tracker), les scores indiquent un suivi
correct du tracker d’autant plus que ce motif de fond évolue peu dans le temps comparé à
l’objet.

— Le biais engendré par le recentrage de la caméra sur l’objet mobile dans beaucoup de vidéos
ne permet pas de connaître l’état exact du tracker. Le modèle d’apparence peut avoir
dérivé tandis que le recouvrement des boîtes indique le contraire à cause du recentrage.
A l’inverse, le modèle d’apparence peut ne pas dériver (capacité d’absorption du modèle)
malgré un recouvrement faible des boîtes, c’est le cas lorsqu’une partie de l’objet est suivie
correctement ou lorsque le tracker ne pratique pas d’adaptation de taille de la boîte. Il
pourra être envisagé d’utiliser une plus grande base d’exemples d’apprentissage afin de
réduire le biais causé par le recentrage des objets.

4.4.4 Fusion de trackers par mélange d’experts

Dans cette section, nous réalisons la fusion de deux trackers, CT et STRUCK, par un mélange
d’experts. Le mélange d’experts estime les poids respectifs p1 et p2 des trackers CT et STRUCK
à partir des valeurs des indicateurs de comportement calculés à chaque instant. Les indicateurs
de comportement utilisés sont ceux de la section 4.4.1 dont on ajoute un biais de 1. CT possède
un indicateur ∆area, STRUCK en possède deux, var10 et d.

Données d’apprentissage Les données d’apprentissage et de test utilisées sont calculées sur
12 séquences de VOT2013 [Kristan et al., 2013] en lançant les trackers sur chacune des séquences
suivant le protocole d’évaluation défini dans le chapitre 2. Les données comportent :

— les indicateurs de comportement des trackers individuels,

— les prédictions (boîtes englobantes) des trackers individuels,

— la vérité terrain de chacune des prédictions.

Apprentissage et évaluation par validation croisée Pour mesurer les performances de


la fusion CT-STRUCK, on réalise une validation croisée sur les 12 séquences. Elle consiste à
entraîner le mélange d’experts sur une partie des séquences, i.e. estimer les paramètres du mélange
d’experts {wi }2i=1 par une descente de gradient ; puis à évaluer le mélange sur le reste des séquences.
Nous avons créé 12 ensembles d’entraînement et 12 ensembles d’évaluation. Chaque ensemble
d’entraînement contient les indicateurs de 11 séquences, l’ensemble d’évaluation correspondant
contient les indicateurs de la séquence ne faisant pas partie des 11 séquences d’entraînement. Par
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 135

Table 4.3 – Performances individuelles de CT et STRUCK, performances de fusion de CT-


STRUCK par mélange d’experts (Fusion ME), et performances de fusion de CT-STRUCK par
une moyenne des boîtes sur 12 séquences de VOT2013 (colonne de gauche). La performance
mesurée pour chaque séquence est une erreur de localisation du centre en pixels. La dernière
ligne du tableau (Moyenne) correspond à une moyenne de l’erreur sur l’ensemble des séquences.
Les meilleures performances sont en rouge, les deuxièmes meilleures performances en bleu.

CT STRUCK Fusion ME Fusion


Moyenne
Bicycle 4.0598 4.0145 2.8046 2.5941
Car 7.1512 8.1532 7.4421 6.9986
Cup 5.5207 3.1847 3.091 3.528
David 24.7045 18.1105 12.6347 13.9245
Face 24.8409 27.3152 23.1027 21.957
Hand 8.7394 8.261 6.8658 6.8927
Iceskater 33.986 14.097 17.8148 21.596
Juice 13.809 5.3418 6.854 8.2423
Jump 14.2703 7.5134 7.0747 8.2993
Sunshade 12.9549 5.5121 5.3967 7.0178
Torus 7.5819 15.2527 11.5124 9.8206
Woman 11.9825 6.3738 7.2711 8.5667
Moyenne 14.1334 10.2608 9.3221 9.9531

exemple, on entraîne sur les 11 premières séquences et on évalue les performances de la fusion
sur la dernière.

Performances de fusion La performance mesurée est une erreur de localisation du centre en


pixels mesurant la distance moyenne entre les boîtes de la fusion et de la vérité. Elle est définie
dans la section 1.2.2. Les performances de fusion obtenues pour chacune des séquences par la
validation croisée, sont indiquées dans le tableau 4.3. Nous comparons ces performances à celles
des trackers individuels (CT, STRUCK) et à une fusion simple (Fusion Moyenne) consistant à
pondérer les trackers de la même manière, p1 = p2 = 0.5. La meilleure performance correspond
à l’erreur la plus faible. Les résultats montrent que la fusion par mélange d’experts obtient
globalement l’erreur moyenne la plus faible sur l’ensemble des séquences, cependant comparée à
la fusion moyenne, elle est seulement légèrement supérieure. En observant plus précisément les
poids estimés des trackers dans le mélange pour différentes séquences (figures 4.13b et 4.13d),
p1 ' 0.3 et p2 ' 0.7 à chaque instant : STRUCK est favorisé par rapport à CT. STRUCK montre
en effet des performances globales supérieures à CT mais non au niveau des performances locales
comme le montre la figure 4.13c : l’erreur de localisation du centre de CT est inférieure à celle de
STRUCK entre les instants 200 et 280. Cette pondération inégale semble résulter de données
d’apprentissage insuffisantes pour permettre une représentation équilibrée des situations.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 136

bicycle bicycle
60 1
Erreur(CT) CT
Erreur(STRUCK) 0.9 STRUCK
50 Erreur(Fusion)
0.8

0.7
40

poids des trackers


erreur en pixels

0.6

30 0.5

0.4
20
0.3

0.2
10
0.1

0 0
0 50 100 150 200 250 300 0 50 100 150 200 250 300
temps temps

(a) bicycle, erreur de localisation du centre (b) bicycle, poids des trackers
car car
30 1
Erreur(CT) CT
Erreur(STRUCK) 0.9 STRUCK
25 Erreur(Fusion)
0.8

0.7
20
poids des trackers
erreur en pixels

0.6

15 0.5

0.4
10
0.3

0.2
5
0.1

0 0
0 50 100 150 200 250 300 350 400 0 50 100 150 200 250 300 350 400
temps temps

(c) car, erreur de localisation du centre (d) car, poids

Figure 4.13 – Évolution de l’erreur de localisation du centre (en pixels) et des poids des
trackers de la fusion CT-STRUCK par mélange d’experts dans les séquences bicycle et car
de VOT2013. (a,c) représentent l’évolution de l’erreur de localisation du centre instantanée
des trackers individuels CT (vert) et STRUCK (violet), et de la fusion CT-STRUCK. (b,d)
représentent l’évolution des poids gi (φti ) des trackers CT (vert) et STRUCK (violet) dans la
fusion CT-STRUCK. Les poids des trackers sont initialisés à 0.5 dans la première image. Les
deux instants 130 et 180 dans (b) où les poids des deux trackers sont à 0.5 correspondent à une
dérive de l’un des deux trackers.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 137

4.5 Discussion et travaux futurs

L’objectif de cette étude a été de développer des fonctions de prédiction en ligne des dérives
des trackers en analysant leur comportement. La construction d’une telle fonction est en réalité
loin d’être générique et simple à réaliser.
La première approche a consisté à prédire la dérive à partir d’indicateurs de qualité du
modèle d’apparence, calculés en ligne. Une des difficultés était de trouver les « bons indicateurs
spécifiques » construits à partir des données intrinsèques au modèle. Une autre concernait la
manière de régler les seuils des prédicteurs de dérives, à savoir quelle précision rappel pour
un usage optimal. L’apprentissage d’un classifieur SVM ou d’un mélange d’experts à partir
des indicateurs était difficile principalement dus au manque de données d’apprentissage et à la
manière de labelliser les exemples. Il pourra être envisagé d’étendre les tests sur d’autres trackers
ou combinaisons de trackers en utilisant une base de données d’apprentissage plus conséquente.
Une autre perspective est d’apprendre à prédire les dérives des trackers directement à partir des
images brutes ou des caractéristiques image sans passer par les cartes de scores, ces dernières ne
permettant pas d’obtenir des indicateurs de comportement de manière générique. Une dimension
temporelle devra être ajoutée à l’exploitation des images brutes ou caractéristiques puisque le
suivi d’objet exploite un signal temporel.
La deuxième approche raisonne à partir de la localisation et de la configuration spatiale des
boîtes prédites sans utiliser les données intrinsèques du modèle. L’efficacité de cette approche n’a
pas encore été prouvée puisqu’elle ne sera évaluée que dans le chapitre 5.

4.6 Conclusion

Les travaux décrits dans ce chapitre sont centrés sur la prédiction en ligne des dérives des
trackers, plus précisément sur la conception de méthodes d’auto-évaluation de bon ou mauvais
fonctionnement des trackers.
Puisque les dérives des trackers sont la conséquence d’un modèle d’apparence inadapté au suivi,
la première approche a consisté à évaluer la qualité du modèle d’apparence du tracker à partir
d’indicateurs de comportement du tracker calculés en ligne. Ces indicateurs de comportement
exploitent des caractéristiques intrinsèques du modèle (score de confiance, carte de scores et
autres scores) qui traduisent une certaine qualité de la prédiction, comme leur vraisemblance avec
le modèle, ou leur variation spatio-temporelle. Ces deux aspects ont été étudiés car détecter un
changement de leur comportement permet d’anticiper une dérive du tracker. La deuxième approche
exploite le comportement individuel ou collectif des boîtes prédites prises au même instant qui, en
fonction de leur distribution spatiale, détermine les boîtes aberrantes. L’efficacité des prédicteurs
de dérives par indicateurs de comportement dépend fortement des seuils d’indicateurs choisis.
Leur apprentissage n’ayant pas donné de résultats concrets, ils seront utilisés avec des seuils fixes
dans la suite du travail de thèse.
CHAPITRE 4. PRÉDICTION EN LIGNE DES DÉRIVES DES TRACKERS 138

Cependant, l’évaluation de performances de ces approches a été réalisée de manière hors ligne
et ne permet pas de juger de l’efficacité de l’approche lorsqu’elle est intégrée dans une chaîne
de fusion. La prochaine étape sera alors de proposer une chaîne de fusion complète intégrant
les méthodes de prédiction en ligne des dérives proposées, de façon à sélectionner et fusionner
de manière robuste un ensemble de trackers pour en améliorer globalement les performances de
suivi.
Chapitre 5

Conception de mécanismes de fusion


de trackers

Sommaire
5.1 Différents schémas de fusion possibles . . . . . . . . . . . . . . . . . . 140
5.1.1 Fonctionnement général d’un tracker . . . . . . . . . . . . . . . . . . . . 140
5.1.2 Fusion en boucle ouverte . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.1.3 Fusion en boucle fermée . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.2 Approche de fusion proposée . . . . . . . . . . . . . . . . . . . . . . . 144
5.2.1 Schéma générique de fusion . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.2.2 Sélection des trackers par prédiction en ligne des dérives . . . . . . . . . 145
5.2.3 Fusion des boîtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.4 Correction de la position et/ou du modèle des trackers . . . . . . . . . . 147
5.2.5 Une variété de configurations possibles de fusion . . . . . . . . . . . . . 148
5.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.3.1 Évaluation des configurations de fusion . . . . . . . . . . . . . . . . . . 149
5.3.2 Meilleure combinaison de trackers ? . . . . . . . . . . . . . . . . . . . . . 153
5.4 Discussion et travaux futurs . . . . . . . . . . . . . . . . . . . . . . . . 171
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

L’objectif de ce chapitre est de concevoir une chaîne générique de fusion combinant un


ensemble de trackers hétérogènes. Dans un premier temps, nous chercherons à identifier les
emplacements dans la chaîne où des interactions entre les trackers sont possibles, en particulier au
niveau des entrées et sorties des trackers, pour proposer un schéma générique de fusion (section
5.1). Dans un deuxième temps, nous décrirons le schéma de fusion proposé et les différentes
configurations de fusion qui peuvent être générées à partir de ce schéma (section 5.2). Enfin, nous
évaluerons cette chaîne de fusion sur un ensemble de trackers et de bases de vidéos (chapitre 2)
afin de déterminer la meilleure stratégie de fusion permettant de robustifier le suivi (section 5.3).

139
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 140

𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑖𝑖
𝑖𝑖 𝑖𝑖
𝐵𝐵�𝑡𝑡𝑖𝑖 , 𝑐𝑐𝑡𝑡𝑖𝑖
Tracker i (𝑀𝑀𝑡𝑡−1 , 𝑊𝑊𝑡𝑡−1 )

MAJ modèle et fenêtre


MAJ position

Figure 5.1 – Schéma générique de fonctionnement d’un tracker. Le Tracker i prédit la position
de la cible B̂ti dans l’image It à l’instant t à partir de sa position à l’instant précédent B̂t−1
i ,
i
d’une fenêtre de recherche Wt−1 i
définie par B̂t−1 et de son modèle d’apparence calculé à l’instant
i i
précédent Mt−1 . Un score de confiance ct est associé à la prédiction. La position de l’objet, la
fenêtre de recherche et le modèle d’apparence sont mis à jour en utilisant la nouvelle position.

5.1 Différents schémas de fusion possibles

Cette section pose la question de la combinaison générique de trackers : à quels niveaux la


fusion peut-elle avoir lieu, quels sont les mécanismes de fusion qui peuvent entrer en jeu, comment
exploiter des informations de même nature mais produites par différents trackers, quelles actions
sont possibles.

5.1.1 Fonctionnement général d’un tracker

Pour concevoir ces mécanismes de fusion, nous allons tout d’abord nous intéresser aux
emplacements dans la chaîne de traitement où des interactions entre trackers sont possibles, telles
que la fusion d’informations ou la réinjection d’informations dans les trackers.
Partons tout d’abord d’un schéma générique de tracker, représenté dans la figure 5.1. Un
Tracker i fonctionne en deux temps :

1. Prédiction : il prédit la position de l’objet B̂ti dans la nouvelle image It à l’instant t à partir
i , d’une fenêtre de recherche W i
de sa position à l’instant précédent B̂t−1 i
t−1 définie par B̂t−1
i
et de son modèle d’apparence de l’objet Mt−1 à t − 1. Un score de confiance cit (score de
corrélation, détection, etc.) calculé par le modèle est associé à la prédiction (section 4.1.1).
i
2. Mise à jour : il met à jour la position de l’objet B̂t−1 → B̂ti , la fenêtre de recherche de
i
l’objet utilisant la nouvelle position Wt−1 → Wti , et met à jour son modèle Mt−1
i → Mti à
partir de la nouvelle position. Dans le cas d’un modèle statique, Mti = Mt−1
i .

A partir de ce schéma, nous pouvons d’ores et déjà identifier plusieurs emplacements de


fusion correspondant aux entrées et sorties du tracker :

(i) La sortie prédite B̂ti peut être récupérée pour être utilisée en aval (post-traitement).
i
(ii) La mise à jour du modèle Mt−1 peut être contrôlée en changeant la position en entrée B̂ti .
i
(iii) Le réajustement de la fenêtre de recherche Wt−1 en contrôlant la position en entrée B̂ti .

Différents schémas de fusion sont possibles combinant un ensemble de trackers. Nous nous
orientons vers une architecture parallèle car comme nous l’avons vu dans l’étude bibliographique
(section 1.3.1), les architectures en cascade sont souvent difficiles à configurer dues aux dépendances
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 141

𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
1
𝐵𝐵�𝑡𝑡1
Tracker 1

𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓
� 𝒕𝒕
𝑩𝑩 𝐵𝐵�𝑡𝑡
𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹

𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑀𝑀
𝐵𝐵�𝑡𝑡𝑀𝑀
Tracker M

Figure 5.2 – Schéma de fusion en boucle ouverte sans sélection.

en chaîne, et étant donné que notre objectif est de robustifier le suivi, ce type d’architectures
n’est pas la meilleure option. Deux types de fusion sont alors possibles : fusion en boucle ouverte
et fusion en boucle fermée. Pour ces deux types de fusion, nous présentons en détails les différents
schémas de fusion possibles.

5.1.2 Fusion en boucle ouverte

Un schéma simple de fusion consiste à faire fonctionner les trackers individuellement {Tracker 1, ...Tracker M },
à récupérer leurs sorties B̂t = (B̂t1 , ...B̂tM ) qui sont ensuite fusionnées pour produire la sortie du
système B̂tf usion , par exemple, en moyennant les sorties. Un autre exemple de fusion est celui
de [Bailer et al., 2014] qui calcule une somme pondérée des sorties en utilisant une fonction
d’attraction des boîtes. Les trackers n’interagissent pas entre eux, on dit que la fusion est en
boucle ouverte, voir la figure 5.2.
Le principal inconvénient d’une fusion simple des sorties est sa sensibilité à la dérive. Dès lors
qu’un tracker dérive, la précision de B̂tf usion calculé en combinant toutes les sorties individuelles
des trackers, s’en trouve affectée. Afin de résoudre ce problème, une étape de sélection des sorties
peut être ajoutée avant leur fusion (figure 5.3). Elle consiste à sélectionner un sous-ensemble
B̂selection
t de sorties correctes de B̂t , en évaluant la qualité de chaque sortie B̂ti par un coefficient
sit ∈ {0, 1}. Une valeur de 1 indiquerait un bon fonctionnement du Tracker i, et dans le cas
contraire, un mauvais fonctionnement. Dans l’étape de fusion, seules sont prises en compte les
sorties des trackers dont le coefficient est non nul. Un cas particulier de sélection consiste à
sélectionner le meilleur tracker à chaque instant [Moujtahid et al., 2015b, Zhong et al., 2014].
Dans une fusion en boucle ouverte, un tracker n’est plus utile une fois qu’il a dérivé, à moins
qu’il ne raccroche par hasard la cible. Afin de suivre une cible du début à la fin d’une séquence,
il est nécessaire qu’au moins un des trackers de la fusion assure le suivi du début à la fin : si tous
les trackers dérivent avant la fin de la séquence, le suivi ne peut être assuré, voir la figure 5.4a.

5.1.3 Fusion en boucle fermée

En revanche, dans une fusion en boucle fermée, les trackers peuvent interagir entre eux pour
s’autocorriger. Le principe général de la fusion en boucle fermée est illustré dans la figure 5.4b.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 142

𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
1
𝐵𝐵�𝑡𝑡1
Tracker 1

𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓
� 𝒕𝒕
𝑩𝑩 � 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔
𝑩𝑩𝒕𝒕
𝐵𝐵�𝑡𝑡
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹

𝐼𝐼𝑡𝑡 , 𝐵𝐵�𝑡𝑡−1
𝑀𝑀
𝐵𝐵�𝑡𝑡𝑀𝑀
Tracker M

Figure 5.3 – Schéma de fusion en boucle ouverte avec sélection.

failure

Tracker 1

failure
no tracker
Tracker 2 works

time

t=0 end
(a) Fusion en boucle ouverte
failure
reinitialization
Tracker 1

failure
reinitialization
Tracker 2

time

t=0 end
(b) Fusion en boucle fermée

Figure 5.4 – (a) Fusion en boucle ouverte. En vert, les pistes des Tracker 1 et Tracker 2. Les
deux trackers dérivent avant la fin de la séquence, donc leur fusion ne permet pas d’assurer le
suivi jusqu’au bout. (b) Fusion en boucle fermée. Les deux trackers peuvent interagir entre eux,
le Tracker 2 réinitialise le Tracker 1 lorsque celui-ci a dérivé et vice-versa, dans un cas idéal, cette
interaction permet la continuité du suivi des deux trackers et ainsi, de leur fusion.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 143

𝐵𝐵�𝑡𝑡1
Tracker 1

𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓
𝐼𝐼𝑡𝑡 𝐵𝐵�𝑡𝑡𝑖𝑖 � 𝒕𝒕
𝑩𝑩 � 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔
𝑩𝑩𝒕𝒕 𝐵𝐵�𝑡𝑡
Tracker i 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹

𝐵𝐵�𝑡𝑡𝑀𝑀
Tracker M

� 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄
𝑩𝑩 𝒕𝒕

Figure 5.5 – Schéma de fusion en boucle fermée (correction) avec sélection. Une boucle de
rétroaction permet de contrôler la position de la fenêtre de recherche des M trackers, la mise
à jour ou réinitialisation de leurs modèles, ce qui permet de corriger les trackers ayant dérivé.
L’étape de fusion calcule non seulement la sortie de fusion B̂tf usion mais génère aussi les positions
corrigées B̂correction
t = (B̂t1,correction , ...B̂tM,correction ) destinées à la correction des trackers.

Le Tracker 1 dérive et est réinitialisé en utilisant le Tracker 2 (fonctionnel) et vice-versa. Ainsi


un tracker peut redevenir fonctionnel et participer à la fusion même après une dérive.
Le schéma de fonctionnement de la fusion en boucle fermée est présenté dans la figure 5.5. La
différence avec une fusion en boucle ouverte est qu’il existe une boucle de rétroaction après la
fusion pilotant soit la position de la fenêtre de recherche, soit la mise à jour des modèles internes
des trackers, soit leur réinitialisation :

(i) Le pilotage de la fenêtre de recherche consiste à recadrer la fenêtre de manière à ce qu’elle


ne soit pas trop décentrée par rapport à la position de la cible. Ce pilotage est utile lorsque
cette dernière effectue de grands déplacements dans l’image.

(ii) Le pilotage de la mise à jour du modèle permet de corriger ou d’améliorer le modèle en lui
fournissant une boîte plus précise en localisation, issue des étapes de sélection et fusion,
plutôt qu’utiliser la prédiction produite par le tracker même, qui peut être erronée.

(iii) Le pilotage de la réinitialisation des modèles des trackers ayant dérivé, leur dérive étant
déterminée par une évaluation en ligne de leur comportant dans l’étape de sélection. Leur
réinitialisation avec la bonne apparence de la cible permet aux trackers d’être à nouveau
opérationnels. C’est le cas par exemple de la fusion de [Stenger et al., 2009, Vojir et al.,
2015], les trackers sont réinitialisés par un détecteur hors ligne lorsqu’ils ne sont plus
suffisamment fiables. [Kalal et al., 2012] réinitialisent le tracker par un détecteur en ligne,
et ce dernier est mis à jour par la sortie de fusion.

5.1.4 Conclusion

Les principaux mécanismes de fusion de trackers identifiés sont la sélection des boîtes avant
leur fusion et la correction des entrées et états internes des trackers, donnant lieu à différents
schémas de fusion possibles. Le plus complet des schémas est celui de la fusion en boucle fermée,
représentée dans la figure 5.5. La fusion en boucle ouverte est la plus simple des fusions, reposant
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 144

sur des stratégies de fusion de boîtes, prédites par des trackers fonctionnant individuellement.
Cette fusion peut se faire de manière hors ligne en récupérant les pistes de tous les trackers
comme cela a été réalisé dans [Bailer et al., 2014]. Cependant, elle est sensible au bruit introduit
par les prédictions incorrectes. Une étape de sélection peut être ajoutée en sélectionnant les bons
trackers à chaque instant. Cependant, pour assurer une continuité du suivi, cette configuration
n’est efficace que lorsqu’au moins un des trackers de l’ensemble ne dérivent pas dans la séquence.
La fusion en boucle fermée avec sélection est avantageuse car elle permet de corriger les trackers
imprécis ou ayant dérivé en pilotant leur fenêtre de recherche, mise à jour et réinitialisation.
Cependant, elle est complexe à contrôler et difficile à évaluer, cela nécessite une implémentation
globale.

5.2 Approche de fusion proposée

L’approche de fusion que nous proposons est une fusion en boucle fermée, dont nous détaillerons
plus précisément les étapes de sélection, fusion et correction, ainsi que les méthodes proposées
pour les réaliser. Le schéma ainsi développé permet d’expérimenter différentes configurations de
fusion en boucle fermée en combinant différentes méthodes de sélection, fusion et correction. Par
ailleurs, il permet aussi d’expérimenter des schémas de fusion en boucle ouverte, comme ceux
représentés dans les figures 5.2 et 5.3.

5.2.1 Schéma générique de fusion

Le système proposé réalise la fusion d’un ensemble de M trackers {T1 , . . . TM }. Tout d’abord, le
système est initialisé. Ensuite, la fusion est opérée en 4 étapes (suivi, sélection, fusion, correction),
illustrée dans la figure 5.6.

Initialisation du système A l’instant initial t = 0, chaque tracker est initialisé avec la même
boîte englobante B0 , correspondant à la vérité terrain de la cible à la première image I0 (véritable
position). La phase d’initialisation comprend également la construction du modèle d’apparence.

Suivi A chaque nouvelle image It , chaque tracker Ti , i ∈ [1, M ], estime la position de la cible
à l’instant t en calculant une boîte englobante, B̂ti . Cette estimation est réalisée à partir d’une
position calculée à t − 1 définissant la zone de recherche de la cible à t et du modèle d’apparence
du tracker calculé à t − 1. En complément de l’estimation, chaque tracker Ti calcule un ensemble
d’indicateurs de comportement, voir la 4.1. Ceux-ci sont représentés par un vecteur φit .

Sélection Une sélection en ligne des sorties des trackers B̂t = (B̂t1 , ...B̂tM ) est effectuée. Cette
sélection repose sur la prédiction en ligne des dérives des trackers décrite dans le chapitre 4.

Fusion Les sorties sélectionnées sont combinées pour produire la sortie du système B̂tf usion .
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 145

1. Tracker Parallel Running 2. Tracker Selection

𝐵𝐵�𝑡𝑡1 , 𝜙𝜙𝑡𝑡1 𝑠𝑠𝑡𝑡1


Tracker 1 Drift Predictor 1 3. Tracker Fusion

𝐼𝐼𝑡𝑡 𝐵𝐵�𝑡𝑡2 , 𝜙𝜙𝑡𝑡2 � 𝒕𝒕 , 𝝓𝝓𝒕𝒕


𝑩𝑩 𝑠𝑠𝑡𝑡2 � 𝒕𝒕 , 𝒔𝒔𝒕𝒕
𝑩𝑩 𝐵𝐵�𝑡𝑡𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓
Tracker 2 Drift Predictor 2 Fusion

𝐵𝐵�𝑡𝑡𝑀𝑀 , 𝜙𝜙𝑡𝑡𝑀𝑀 𝑠𝑠𝑡𝑡𝑀𝑀


Tracker M Drift Predictor M

� 𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄
𝑩𝑩 𝒕𝒕 , 𝒔𝒔𝒕𝒕 4. Tracker Correction

System

Figure 5.6 – Notre approche de fusion en boucle fermée est divisée en 4 étapes principales. Les
vecteurs sont en gras.
(1) Suivi parallèle des trackers : pour chaque nouvelle image It , chaque tracker Ti , i ∈ [1, M ],
prédit la localisation de la cible sous la forme d’une boîte englobante B̂ti et calcule des indicateurs
de comportement φit indiquant le bon ou mauvais fonctionnement du tracker.
(2) Sélection des trackers : les sorties ainsi calculées B̂t = (B̂t1 , ...B̂tM ) et φt = (φ1t , ...φMt ) sont
utilisés par les prédicteurs de dérives (Drift Predictors) pour prédire l’état de chaque tracker
sit ∈ {0, 1}, 1 indiquant un fonctionnement correct et 0 une dérive du tracker. A l’issue de cette
étape, on obtient le vecteur d’état st = (s1t , ...sM t ).
(3) Fusion des boîtes : les boîtes provenant des trackers au fonctionnement correct sont fusionnées
pour produire la sortie du système B̂tf usion .
(4) Correction des trackers : une correction peut être apportée aux trackers dont l’état indique
une dérive, notamment en corrigeant leur position et/ou modèle d’observation (mise à jour ou
réinitialisation) en utilisant la sortie du système B̂tf usion . Les prédictions corrigées B̂corrected
t =
1,corrected M,corrected i,corrected f usion
(B̂t , ...B̂t ) sont rebouclées sur les entrées des trackers où B̂t = B̂t
i,corrected i
lorsque la correction a lieu sinon B̂t = B̂t .

Correction de la position et/ou du modèle d’apparence La fusion en boucle fermée


implique la correction de certains trackers détectés comme défaillants afin de pouvoir tirer parti
pleinement de chacun d’eux, en corrigeant soit leur position, soit leur modèle d’apparence.

Nous détaillons les étapes de sélection, fusion et correction dans les sections suivantes.

5.2.2 Sélection des trackers par prédiction en ligne des dérives

Cette étape réalise la sélection en ligne des trackers en prenant en entrée, les boîtes prédites
B̂t = (B̂t1 , ...B̂tM ) et les indicateurs de comportement Φt = (φ1t , ...φM
t ) des trackers, pour produire

en sortie, un vecteur d’état des trackers st = (s1t , ...sM i


t ) où st ∈ {0, 1} est l’état estimé du tracker

Ti . Cet état est binaire, valant 1 lorsque le tracker en bon fonctionnement et 0 lorsqu’il dérive.

Méthodes proposées L’estimation de st est réalisée par des prédicteurs de dérives (Drift
Predictors), notés DP, décrites dans le chapitre 4. Les méthodes utilisées pour les construire sont
les suivantes :
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 146

(a) BI (Behavioral Indicators) : à partir des indicateurs de comportement. Pour chaque tracker
Ti , i ∈ [1, M ], un DPi estime l’état du tracker sit à chaque instant t à partir des indicateurs
de comportement φit . Chaque tracker possède un DP qui lui est propre. L’estimation
des {sit }M i i
i=1 se réalise en M opérations indépendantes et parallèles : st = DPi (φt ). Cette

méthode a été décrite dans le chapitre précédent dans la section 4.2. Les prédicteurs de
dérives utilisés par la suite (section 5.3) ont été construits en utilisant un seuil (section
4.2.1). Les seuils ont été fixés aux valeurs indiquées dans le tableau 5.3.
(b) BF (Box Filtering) : en réalisant un filtrage de boîtes. La règle de filtrage étant la même
pour tous les trackers, il s’agit du même DP itéré sur chaque tracker. Pour chaque tracker
Ti , i ∈ [1, M ], le DP estime l’état sit à chaque instant t à partir de la prédiction du
tracker B̂ti . L’estimation des {sit }M
i=1 se réalise en M opérations indépendantes et parallèles :

sit = DP (B̂ti ). Ce filtrage a été décrit dans le chapitre précédent dans la section 4.3.1.
(c) BC (Box Consensus) : en effectuant un consensus de boîtes. Les états {sit }M
i=1 sont estimés

collectivement à partir de l’ensemble des prédictions {B̂ti }M


i=1 . Il s’agit d’une opération

conjointe à tous les trackers, à l’issue de laquelle le vecteur d’état est obtenu : st = DP (B̂t ).
Cette méthode a été décrite dans le chapitre précédent dans la section 4.3.2.
(d) BI+BF : en combinant les méthodes BI et BF. Ceci revient à appliquer une opération
OU entre les vecteurs d’état estimés individuellement par chacune des méthodes BI et BF :
st = sBI BF
t ∨ st .

(e) BI+BC : en combinant les méthodes BI et BC. Les méthodes BI et BF sont appliquées
séquentiellement, BI en premier suivi de BC : un premier filtrage des prédictions {B̂ti }M
i=1

est réalisé par BI, puis le consensus BC effectué sur les prédictions restantes.

Autres méthodes testées


(f) Ideal : simulation d’un DP idéal, c’est-à-dire un prédicteur de dérives capable de prédire
correctement les dérives des trackers. Pour y parvenir, nous utilisons la vérité terrain pour
estimer l’état de chaque tracker connaissant sa prédiction : sit = DP (B̂ti ). Le DP idéal
mesure le taux de recouvrement IoU , défini dans la section 1.2.2, entre B̂ti et la vérité
terrain Bt : IoU (B̂ti , Bt ), et prédit une dérive (sit = 0) lorsque IoU (B̂ti , Bt ) < η où η est le
seuil de dérive fixé à 0.2. Possédant un tel DP permet d’estimer la performance maximale
pouvant être atteinte par une fusion impliquant une sélection.
(g) ∅ : aucune sélection des trackers. L’étape de sélection peut être ignorée : ∀t, ∀i, sit = 1. La
fusion utilise alors les prédictions de tous les trackers.

5.2.3 Fusion des boîtes

La sortie du système de fusion B̂tf usion est calculée en combinant les prédictions des trackers
dont l’état estimé sit est non nul. Cet ensemble est noté B̂selection
t = {B̂ti |sit = 1, i ∈ [1, M ]}.
Deux méthodes ont été utilisées pour réaliser la fusion :
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 147

(a) Avg (Average) : réalise une moyenne des coordonnées (x, y, w, h) des K ≤ M prédictions
PM
dont le coefficient sit = 1, avec K = i
i=1 st :

M
1 X
B̂tf usion = si ∗ B̂ti . (5.1)
K i=1 t

Toutes les prédictions sont considérées avec la même importance.

(b) Grav (Gravity) : B̂tf usion correspond au barycentre pondéré des K prédictions :

B̂tf usion =
X
wi ∗ B̂ti (5.2)
i|B̂ti ∈B̂selection
t

où wi est le poids de la prédiction i à l’instant t. Notons dij la distance euclidienne entre


les centres des prédictions i et j appartenant à B̂selection
t . Le poids wi de la prédiction i
est défini par :
P 1
j6=i
dij
wi = PK 1
(5.3)
k=1
P
d
j6=k kj

Chaque coordonnée de B̂tf usion est la somme pondérée des K coordonnées utilisant les
poids précédemment calculés. Cette méthode permet de pondérer les boîtes en fonction de
leur densité spatiale, en particulier favoriser les boîtes qui sont proches.

Si B̂selection
t = ∅, alors B̂tf usion = B̂t−1
f usion
.

5.2.4 Correction de la position et/ou du modèle des trackers

Une fois la fusion réalisée, une étape de correction des trackers peut avoir lieu en utilisant la
sortie du système, calculée en combinant les prédictions correctes. En effet, une non correction
d’un tracker dont le coefficient sit = 0 (dérive) causerait son échec puisque le modèle serait mis à
jour par des observations incorrectes générées par le tracker lui-même.
Deux types de correction peuvent leur être apportés : une mise à jour ou une réinitialisation de
la position et/ou du modèle d’observation des trackers. La réinitialisation d’un tracker concerne à
la fois sa position et son modèle, elle s’avère nécessaire lorsque la cible est définitivement perdue,
i.e. loin de la fenêtre de recherche du tracker. Cependant, cette opération est risquée puisque
les connaissances accumulées dans le modèle sont entièrement remises à zéro et la variabilité du
modèle inexistante. Une mauvaise réinitialisation entraîne immédiatement l’échec du tracker à
cause de l’instabilité du modèle.
La mise à jour est moins radicale que la réinitialisation. Pour les trackers à modèle dynamique,
la mise à jour concerne à la fois la position et le modèle, consistant à recentrer la fenêtre de
recherche sur la bonne position et à alimenter le tracker avec les bonnes caractéristiques à suivre.
Pour les trackers à modèle statique, le modèle ne peut être mis à jour, seule une correction de la
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 148

position est possible (redirection de la fenêtre de recherche) mais non pertinente si le modèle
lui-même est inadapté. Dans ce dernier cas, le choix a été de remplacer la mise à jour par une
réinitialisation.

Trois corrections possibles pour les trackers ont été utilisées et sont présentées ci-dessous :
(a) RD (Reinitialize drifting trackers) : réinitialisation de la position et du modèle des trackers
dont le coefficient sit est nul.
(b) UD (Update drifting trackers) : mise à jour de la position et du modèle des trackers dont
le coefficient sit est nul.
(c) UA (Reinitialize all trackers) : mise à jour de la position et du modèle de tous les trackers
B̂t en utilisant B̂tf usion . Cette dernière option a pour objectif de prévenir les dérives
(prévention) des trackers même lorsqu’ils fonctionnent correctement ou d’améliorer leur
modèle en leur fournissant une observation plus précise.
Une autre possibilité est d’ignorer l’étape de correction pour tester la fusion en boucle ouverte
avec ou sans sélection :
(d) P : aucune correction. ∀t, ∀i, B̂ti,corrected = B̂ti .

Notons B̂corrected
t = {B̂ti,corrected }M
i=1 , les nouvelles entrées des trackers, voir la figure 5.6. Si

le tracker Ti réalise l’une des corrections (a), (b) ou (c), alors B̂ti,corrected = B̂tf usion , sinon il est
mis à jour en utilisant sa propre prédiction B̂ti,corrected = B̂ti .

L’utilisation d’une des 4 méthodes est exclusive tout au long d’une séquence : le système
tel qu’il a été conçu ne permet pas pour l’instant d’alterner entre différentes corrections pour
différents trackers et à des différents moments de la séquence.

5.2.5 Une variété de configurations possibles de fusion

L’architecture que nous proposons permet le pilotage des deux étapes clés : sélection et
correction, et autorise à la fois la boucle ouverte (sans correction) et la boucle fermée (avec
correction). Les méthodes possibles pour les différentes étapes de la fusion (sélection, fusion,
correction) sont résumées dans le tableau 5.1. Ce qui donne le choix à une variété de configurations
possibles de fusion, une configuration de fusion consistant à choisir une méthode pour chaque
étape de la fusion.

Configurations de fusion Au total, 46 configurations de fusion peuvent être expérimentées,


et sont présentées dans le tableau 5.2. 8 configurations parmi les 46 simulent un DP idéal. Les 4
premières configurations n’ont pas de méthodes de sélection (∅). Puisqu’il n’y a pas de sélection,
on peut choisir de ne corriger aucun des trackers (P) ou de corriger tous les trackers (UA). Les
configurations de fusion en boucle ouverte sont toutes celles dont la correction est absente (P).
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 149

Table 5.1 – Tableau récapitulatif des méthodes développées pour les étapes de sélection, fusion
et correction de notre approche de fusion, et décrites dans la section 5.2. Une configuration de
fusion consiste à choisir une méthode pour chaque étape de la fusion.

Sélection Fusion Correction


∅ Avg P
Ideal Grav UD
BI UA
BF RD
BC
BI+BF
BI+BC

Les configurations réalisant une sélection par indicateurs de comportement (BI, BI+BF,
BI+BC) doivent nécessairement disposer d’une correction pour leur permettre de corriger les
modèles des trackers (donc P impossible), notamment lorsque ceux-ci sont dynamiques. En effet,
les indicateurs de comportement reflètent le comportement du modèle du tracker, une dérive a
lieu parce qu’il y a eu adaptation du modèle à un nouvel objet, par exemple apprentissage du
fond et non de la cible. Une fois que le modèle s’est adapté, son comportement sera normal et la
dérive ne pourra plus être détectée. Il est donc nécessaire de corriger le modèle lorsqu’une dérive
a été détectée afin que les indicateurs puissent jouer pleinement leur rôle.

5.3 Évaluation

Dans cette partie, nous présentons les performances de fusion réalisées sur les 46 configurations
de fusion présentées dans la section 5.2.5. Ces configurations sont évaluées sur différentes
combinaisons de trackers du répertoire (NCC, KLT, CT, STRUCK, DPM, DSST, MS, ASMS) et
bases de vidéos (VOT2013+, VOT2015, VOT-TIR2015) décrites dans le chapitre 2. La mesure
de performance qui nous intéresse est évidemment la robustesse mesurée en suivant le protocole
d’évaluation décrit dans le chapitre 2.
L’évaluation a été conduite de manière à répondre à deux questions :

— Quelle stratégie de fusion adopter parmi les différents schémas de fusion présentés précé-
demment (fusion en boucle ouverte ou fermée, avec ou sans sélection) ? cette question est
abordée en section 5.3.1.

— Quels trackers fusionner de façon à maximiser les performances ? cette question est abordée
en 5.3.2.

5.3.1 Évaluation des configurations de fusion

L’objectif est d’évaluer les différentes configurations de fusion et de mesurer l’influence de


la sélection et/ou correction dans la fusion. Dans cette section, l’évaluation a été restreinte à
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 150

Table 5.2 – 46 configurations de fusion testées utilisant différentes méthodes de sélection (∅,
Ideal, BF, BC, BI, BI+BF, BI+BC), fusion (Avg, Grav) et correction (P, UD, UA, RD).

Exp Sélection Fusion Correction


1 ∅ Avg P
2 ∅ Grav P
3 ∅ Avg UA
4 ∅ Grav UA
5 Ideal Avg P
6 Ideal Grav P
7 Ideal Avg UD
8 Ideal Grav UD
9 Ideal Avg UA
10 Ideal Grav UA
11 Ideal Avg RD
12 Ideal Grav RD
13 BF Avg P
14 BF Grav P
15 BF Avg UD
16 BF Grav UD
17 BF Avg UA
18 BF Grav UA
19 BF Avg RD
20 BF Grav RD
21 BC Avg P
22 BC Grav P
23 BC Avg UD
24 BC Grav UD
25 BC Avg UA
26 BC Grav UA
27 BC Avg RD
28 BC Grav RD
29 BI Avg UD
30 BI Grav UD
31 BI Avg UA
32 BI Grav UA
33 BI Avg RD
34 BI Grav RD
35 BI+BF Avg UD
36 BI+BF Grav UD
37 BI+BF Avg UA
38 BI+BF Grav UA
39 BI+BF Avg RD
40 BI+BF Grav RD
41 BI+BC Avg UD
42 BI+BC Grav UD
43 BI+BC Avg UA
44 BI+BC Grav UA
45 BI+BC Avg RD
46 BI+BC Grav RD
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 151

Table 5.3 – Indicateurs de comportement des trackers et leurs seuils respectifs.

Tracker indicateurs de comportement Seuils


NCC ∆xmax , ∆ymax , ∆max α1 = 0.2, α2 = 0.2, α3 = 0.2
KLT ∆xc , ∆yc , ∆spotsize β1 = 0.35, β2 = 0.35, β3 = 1.5
CT ∆area γ1 = 0.7
STRUCK var10 , d δ1 = 0.5, δ2 = 0.5
DPM dbest, obest ε1 = 0.05, ε2 = 1
DSST P SR ζ1 = 8
MS f bratio η1 = 8
ASMS ρ(m, f ), ρ(m, b) θ1 = 0.4, θ2 = 0.3

un nombre limité de combinaisons de trackers et de configurations de fusion afin de diminuer


les combinatoires des configurations (46 configurations * nombre de combinaisons de trackers
possibles parmi les 8). Nous avons sélectionné les 4 meilleurs trackers de performances indivi-
duelles suffisamment comparables : CT, STRUCK, DSST et ASMS. Puis, nous avons formé des
combinaisons de 3 trackers, donnant les 4 combinaisons suivantes :

— CT+STRUCK+DSST,

— CT+STRUCK+ASMS,

— CT+DSST+ASMS,

— STRUCK+DSST+ASMS.

En effet, pour tester l’efficacité de certaines configurations de fusion comme celles qui réalisent
la sélection à partir d’un raisonnement sur des clusters de boîtes (BC), le nombre de trackers
combinés doit être au moins de 3.
Parmi les 46 configurations de fusion, nous avons sélectionné les 23 configurations utilisant
une fusion par une moyenne (Avg) et éliminé les 23 utilisant une fusion par un barycentre pondéré
(Grav). Celles qui calculent un barycentre pondéré (Grav) ont montré qu’elles généraient plus de
dérives que les autres (Avg) pour une même combinaison de trackers : au total 18646 dérives
pour Grav contre 18375 pour Avg sur les 23 configurations correspondantes, calculées sur les 3
bases et pour les 4 combinaisons de trackers.

Réglage de seuils de la méthode de sélection BI Les seuils des prédicteurs de dérives


par indicateurs de comportement (BI) ont été fixés aux valeurs indiquées dans le tableau 5.3.
Ces seuils ont été empiriquement choisis de manière à produire un faible taux de fausses alarmes
individuelles, et par conséquent moins de bonnes prédictions de dérives (section 4.4.2). En effet,
la robustesse de fusion se dégrade avec l’augmentation du nombre de fausses alarmes car trop de
trackers sont inactivés. Cela a été testé sur quelques combinaisons de 2 et 3 trackers.

Évaluation Les résultats présentés dans la suite de cette partie, impact de la sélection et
impact de la correction, sont obtenus ainsi :
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 152

(i) pour évaluer une configuration de fusion parmi les 23, on mesure la performance de fusion
(robustesse) pour chacune des 4 combinaisons de trackers. On obtient alors le vecteur des
robustesses rob = {robj }4i=1 . La performance de la configuration est calculée en moyennant
1 P4
les robustesses : robmean = 4 i=1 robj .

(ii) pour évaluer une méthode de sélection en particulier parmi les 7 (∅, Ideal, BF, BC, BI,
BI+BF, BI+BC), on mesure la robustesse de chacune des configurations de fusion utilisant
cette méthode de sélection (parmi les 23) pour chacune des 4 combinaisons de trackers, on
obtient alors le vecteur des robustesses rob = robij où i parcourt les combinaisons et j les
configurations (figure 5.7).

(iii) pour évaluer une méthode de correction en particulier parmi les 4 (P, UD, UA, RD), on
procède de la même manière qu’en (ii) mais en retirant toutes les configurations utilisant
un DP Ideal (figure 5.7).

(iv) pour évaluer une méthode de sélection combinée à une méthode de correction (Ideal+P,
BF+UD, etc.), on procède de la même manière qu’en (ii) mais j parcourt les configurations
utilisant à la fois la méthode de sélection et la méthode de correction choisies (tableau 5.4).

Impact de la sélection dans la fusion

Nous voulons mesurer si la sélection améliore la fusion. Pour avoir une interprétation globale
de la sélection, il faut évaluer chaque méthode de sélection en intégrant les configurations avec
et sans correction. En effet, il existe des couplages entre sélection et correction, ces derniers ne
P (si , cj ) où si désigne ième méthode de sélection, cj la j ème
P
sont pas indépendants : P (si ) = j

méthode de correction, et P (si , cj ) la performance de la méthode de sélection si combinée à la


méthode de correction cj .
Nous avons évalué chacune des méthodes de sélection (∅, Ideal, BF, BC, BI, BI+BF, BI+BC)
sur les 3 bases séparément (VOT2013+, VOT2015, VOT-TIR2015) et sur le total de 3 (Total).
Les résultats sont représentés graphiquement dans la figure 5.7a. L’utilisation d’une sélection
efficace des trackers améliore considérablement la robustesse par rapport à une fusion sans
sélection (∅) comme le montrent les résultats obtenus avec un DP Ideal sur les 3 bases et le total
des 3. Les méthodes de sélection développées BF, BI+BF et BI+BC apportent une amélioration
de la robustesse par rapport à une fusion sans sélection (∅) sur les 3 bases. BC et BI montrent
une amélioration sur VOT2013 et VOT-TIR2015. En revanche, leurs résultats sont équivalents
ou inférieurs à ∅ sur VOT2015 (recouvrements d’écarts-types).
Globalement sur le total des 3 bases, BF est la meilleure option en donnant un écart-type
faible. La principale explication des mauvais résultats de BI est que les trackers ne sont pas
en mesure de fournir des scores fiables et facilement interprétables permettant de déterminer
de façon nette leur comportement. En effet, les capacités des modèles à absorber les variations
d’apparence des objets sont très variables d’un tracker à l’autre pour une situation donnée, et il
est très difficile de les définir clairement.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 153

Impact de la correction dans la fusion

Nous avons évalué chacune des méthodes de correction (P, UD, UA, RD) sur les 3 bases
séparément (VOT2013+, VOT2015, VOT-TIR2015) et sur le total de 3 (Total). Les résultats
sont représentés graphiquement dans la figure 5.7b. UA et UD sont globalement supérieurs à
P sur le total des bases (Total). Cependant, ils sont moins bons sur VOT2015 (recouvrements
d’écarts-types). RD est nettement moins bon que P sur VOT2015 et équivalent à P sur VOT2013+
et VOT-TIR2015. Une des raisons de l’impact négatif de la réinitialisation est que l’apparence
utilisée pour configurer un nouveau modèle se produit simultanément avec le phénomène de
dérive (occultation, illumination, changement d’aspect), qui est souvent un événement transitoire
dans la séquence. Pour éviter que la réinitialisation ne s’achève sur une dérive, il vaut mieux
qu’elle ait lieu après ce phénomène transitoire. Ainsi, les mises à jour du modèle sont préférables
aux réinitialisations. Globalement, UA est meilleur que UD sur le total des bases, on pourrait
noter : UA < UD < P < RD, sachant que la meilleure méthode correspond à l’indicateur de
robustesse (nombre de dérives) le plus petit.

Meilleure configuration de fusion

Nous avons évalué chaque méthode de sélection (∅, Ideal, BF, BC, BI, BI+BF, BI+BC)
combinée à une méthode de correction (P, UD, UA, RD) sur les 3 bases cumulées (Total), et
reporté les résultats dans le tableau 5.4. Dans le cas d’une sélection idéale (Ideal), corriger
les trackers a un intérêt, avec UD la meilleure méthode de correction : UD < RD < UA <
P. Sinon la meilleure performance est obtenue avec une sélection BI+BF et une correction
UA. Une fusion en boucle fermée peut apporter davantage qu’une fusion en boucle ouverte.
Cependant, certaines configurations en boucle ouverte (BF+P, BC+P) sont concurrentes avec
les meilleures configurations en boucle fermée (BI+BF+UA, BI+UA). Ces dernières semblent
plus performantes, mais également plus fluctuantes avec un écart-type important et donc des
performances variables en fonction des combinaisons de trackers. Notons également l’écart de
performance entre la meilleure configuration de fusion obtenue avec une sélection idéale Ideal+UD
(67 ± 12) et celle obtenue avec une des méthodes de sélection développées BI+BF+UA (180 ± 62).
Une méthode de sélection peu efficace (fausses alarmes, non détection de dérives, sélection des
mauvais trackers) nuit au suivi, ajouter une étape de correction est alors d’autant plus néfaste.

5.3.2 Meilleure combinaison de trackers ?

Admettons que l’on contrôle parfaitement les étapes de sélection et de correction de la fusion,
i.e. sélectionne correctement les sorties des trackers avant leur fusion et corrige les trackers
en situation d’échec. Il reste un choix important dont la performance de fusion dépend : la
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 154

Robustesse moyenne par méthode de sélection


Robustesse (nombre de dérives) 300

250

200
Total
150 VOT2015
VOT-TIR2015
VOT2013+
100

50

0
Ø Ideal BF BC BI BI+BF BI+BC

Méthode de sélection

(a) Sélection

Robustesse moyenne par méthode de correction


300
Robustesse (nombre de dérives)

250

200
Total
150 VOT2015
VOT-TIR2015
VOT2013+
100

50

0
P UD UA RD

Méthode de correction

(b) Correction

Figure 5.7 – Robustesse moyenne sur les 3 bases (VOT2013+, VOT2015, VOT-TIR2015) et
leur total (Total). (a) montre la robustesse moyenne de fusion par méthode de sélection (∅, Ideal,
BF, BC, BI, BI+BF, BI+BC). (b) montre la robustesse moyenne de fusion par méthode de
correction (P, UD, UA, RD). Pour chacune des méthodes, la robustesse est moyennée sur 4
combinaisons (CT+STR+DSST, CT+STR+ASMS, CT+DSST+ASMS, STR+DSST+ASMS)
et sur les configurations de fusion de la méthode de sélection correspondante en (a) et de la
méthode de correction en (b). Les barres d’erreurs représentent ± l’écart-type.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 155

Table 5.4 – Robustesse moyenne ± l’écart-type pour chaque méthode de sélection (∅, Ideal, BF,
BC, BI, BI+BF, BI+BC) et combinée à une méthode de correction (P, UD, UA, RD), évaluée sur
le total des 3 bases (Total). Pour chaque méthode de sélection+correction, la robustesse de fusion
est moyennée sur les 4 combinaisons (CT+STR+DSST, CT+STR+ASMS, CT+DSST+ASMS,
STR+DSST+ASMS) et sur les configurations de fusion de la méthode de sélection+correction
correspondante. Les meilleures robustesses (toute méthode excepté Ideal) sont en rouge, et le
meilleur est de plus souligné.

∅ Ideal BF BC BI BI+BF BI+BC


P 282±28 86±20 200±20 201±17
UD 67±12 212±18 243±26 241±24 208±26 210±20
UA 227±14 78±14 216±35 249±17 191±62 180±62 213±35
RD 71±9 213±21 283±16 259±32 223±25 244±19

combinaison de trackers utilisée. En effet, pour une configuration de fusion fixée, quels trackers
combiner pour atteindre les meilleures performances ? Un domaine de recherche à explorer est la
complémentarité des trackers. Notre hypothèse est que, plus les trackers sont complémentaires,
meilleure est leur fusion.
Pour les évaluations suivantes, nous retenons deux des meilleures configurations de fusion
obtenues dans la section 5.3.1 : une fusion en boucle ouverte BC+P et une fusion en boucle
fermée BI+BF+UA, pour les comparer.

Performance des combinaisons de trackers

Nous avons évalué les combinaisons de trackers sur la base représentative VOT2015 en utilisant
les configurations de fusion BC+P et BI+BF+UA. Les tableaux 5.5, 5.6 et 5.7 montrent les
performances des combinaisons de 2, 3 et 4 trackers classées par ordre décroissant de performance
avec la configuration BC+P, de la meilleure robustesse à la moins bonne. Les tableaux 5.8, 5.9,
5.10 correspondent aux performances de la configuration BI+BF+UA. Pour chaque combinaison,
nous avons indiqué la robustesse de fusion (Fusion), la robustesse du meilleur tracker de la
combinaison (Best Ind), la différence de robustesse entre le meilleur tracker et le moins bon
tracker de la combinaison (Diff Ind) et le gain en pourcentage de la fusion par rapport au meilleur
tracker de la combinaison (Gain) :

BestInd − F usion
Gain = (5.4)
BestInd

On observe que les meilleurs combinaisons de 2, 3 et 4 trackers (premières combinaisons du


tableau) sont formées du meilleur tracker individuel de la base ASMS (Best Ind = 112 dérives).
De même, les moins bonnes combinaisons (derniers du tableau) sont formées des moins bons
trackers de la base, NCC avec 447 dérives, DPM avec 525 dérives et MS avec 654 dérives. Ceci
s’explique par le fait que les bons trackers génèrent moins de dérives que les mauvais trackers.
La performance de fusion est donc dépendante des performances individuelles de la combinaison.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 156

L’indicateur Diff Ind renseigne sur l’homogénéité des performances individuelles des trackers
de la combinaison. Celui-ci n’est pas corrélé au gain de la fusion : une faible valeur de Diff Ind
n’implique pas un gain élevé, par exemple STRUCK-ASMS obtient un gain de +10.7% pour un
Diff Ind = 40 (tableau 5.5). De même une valeur élevée de Diff Ind n’implique pas un gain faible,
par exemple STRUCK-MS obtient un gain de +19.1% pour un Diff Ind = 502 (tableau 5.5).
La performance de fusion maximale est atteinte pour 2 trackers sur VOT2015 avec 100
dérives (STRUCK-ASMS), celles de 3 et 4 trackers génèrent respectivement 102 dérives (NCC-
STRUCK-ASMS) et 110 dérives (NCC-STRUCK-MS-ASMS). Combiner des trackers performants
(STRUCK, ASMS) avec des trackers peu performants (NCC, MS) exige la capacité de gérer
les nombreuses dérives générées par les trackers peu performants. Il y a un coût à corriger
les mauvaises performances des trackers, la performance de fusion dépend dans un sens du
nombre total de dérives individuelles des trackers fusionnés. Le répertoire dont nous disposons
est formé de trackers très hétérogènes en performance de robustesse (tableau 3.2). Plus l’on
combine de trackers, plus le nombre total de dérives individuelles est important. Ce qui explique
le gain négatif observé pour la plupart des combinaisons de 4 trackers (tableaux 5.7 et 5.10). Par
conséquent, fusionner un grand nombre de trackers n’assure pas de meilleures performances.
Pour espérer un gain positif d’une combinaison d’au moins 3 trackers, il faut que les trackers
2 à 2 de la combinaison génèrent un gain positif. Par exemple, les combinaisons NCC-DPM
(+43.4%), NCC-MS (+20.4%), DPM-MS (+47.4%) produisent un gain positif, leur combinaison
NCC-DPM-MS (+47.9%) produit également un gain positif (tableau 5.6). Un résultat inattendu
est que NCC combiné à n’importe quel tracker du répertoire, génère un gain positif pour la
configuration de fusion BC+P malgré ses faibles performances individuelles (tableau 5.5). Ce
gain pourrait être lié à sa complémentarité avec les autres trackers.

Table 5.5 – Classement des combinaisons de 2 trackers parmi les 8 sur VOT2015 utilisant la
fusion BC+P. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la meilleure
robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure robustesse
individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport à la
meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un gain
positif sont surlignées en rouge.

Combination Fusion Best Ind Diff Ind Gain


STRUCK-ASMS 100 112 40 +10.7%
NCC-ASMS 109 112 335 +2.7%
CT-ASMS 112 112 109 +0.0%
STRUCK-MS 123 152 502 +19.1%
DSST-ASMS 128 112 61 -14.3%
MS-ASMS 138 112 542 -23.2%
NCC-STRUCK 141 152 295 +7.2%
DPM-ASMS 142 112 413 -26.8%
STRUCK-DSST 154 152 21 -1.3%
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 157

CT-DSST 156 173 48 +9.8%


DPM-DSST 163 173 352 +5.8%
NCC-DSST 164 173 274 +5.2%
CT-STRUCK 167 152 69 -9.9%
DSST-MS 175 173 481 -1.2%
CT-MS 176 221 433 +20.4%
KLT-ASMS 177 112 139 -58.0%
KLT-STRUCK 179 152 99 -17.8%
NCC-CT 183 221 226 +17.2%
KLT-DSST 186 173 78 -7.5%
STRUCK-DPM 186 152 373 -22.4%
CT-DPM 210 221 304 +5.0%
KLT-CT 214 221 30 +3.2%
KLT-DPM 220 251 274 +12.4%
KLT-MS 231 251 403 +8.0%
NCC-KLT 239 251 196 +4.8%
NCC-DPM 253 447 78 +43.4%
DPM-MS 276 525 129 +47.4%
NCC-MS 356 447 207 +20.4%

Table 5.6 – Classement des combinaisons de 3 trackers parmi les 8 sur VOT2015 utilisant la
fusion BC+P. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la meilleure
robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure robustesse
individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport à la
meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un gain
positif sont surlignées en rouge.

Combination Fusion Best Ind Diff Ind Gain


NCC-STRUCK-ASMS 102 112 335 +8.9%
CT-STRUCK-ASMS 107 112 109 +4.5%
STRUCK-MS-ASMS 110 112 542 +1.8%
NCC-CT-ASMS 114 112 335 -1.8%
NCC-MS-ASMS 115 112 542 -2.7%
CT-DSST-ASMS 120 112 109 -7.1%
NCC-DSST-ASMS 125 112 335 -11.6%
CT-MS-ASMS 127 112 542 -13.4%
STRUCK-DPM-ASMS 133 112 413 -18.8%
NCC-STRUCK-DSST 134 152 295 +11.8%
STRUCK-DSST-ASMS 134 112 61 -19.6%
NCC-DPM-ASMS 136 112 413 -21.4%
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 158

DPM-DSST-ASMS 136 112 413 -21.4%


DSST-MS-ASMS 136 112 542 -21.4%
CT-DPM-ASMS 142 112 413 -26.8%
NCC-STRUCK-MS 143 152 502 +5.9%
CT-STRUCK-MS 146 152 502 +3.9%
CT-STRUCK-DSST 147 152 69 +3.3%
STRUCK-DPM-MS 153 152 502 -0.7%
STRUCK-DPM-DSST 153 152 373 -0.7%
NCC-KLT-ASMS 156 112 335 -39.3%
NCC-CT-STRUCK 159 152 295 -4.6%
CT-DPM-DSST 159 173 352 +8.1%
CT-DSST-MS 161 173 481 +6.9%
STRUCK-DSST-MS 162 152 502 -6.6%
NCC-CT-DSST 163 173 274 +5.8%
DPM-MS-ASMS 164 112 542 -46.4%
KLT-STRUCK-ASMS 165 112 139 -47.3%
NCC-DPM-DSST 166 173 352 +4.0%
KLT-DSST-ASMS 167 112 139 -49.1%
KLT-CT-ASMS 168 112 139 -50.0%
NCC-DSST-MS 169 173 481 +2.3%
NCC-KLT-STRUCK 170 152 295 -11.8%
NCC-STRUCK-DPM 170 152 373 -11.8%
NCC-KLT-DSST 174 173 274 -0.6%
KLT-MS-ASMS 176 112 542 -57.1%
KLT-STRUCK-DSST 180 152 99 -18.4%
KLT-STRUCK-MS 180 152 502 -18.4%
CT-STRUCK-DPM 180 152 373 -18.4%
KLT-CT-DSST 181 173 78 -4.6%
KLT-DPM-ASMS 183 112 413 -63.4%
DPM-DSST-MS 183 173 481 -5.8%
NCC-CT-MS 187 221 433 +15.4%
KLT-CT-STRUCK 188 152 99 -23.7%
KLT-STRUCK-DPM 190 152 373 -25.0%
KLT-DPM-DSST 191 173 352 -10.4%
KLT-DSST-MS 193 173 481 -11.6%
CT-DPM-MS 193 221 433 +12.7%
NCC-CT-DPM 197 221 304 +10.9%
KLT-CT-DPM 207 221 304 +6.3%
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 159

NCC-KLT-CT 211 221 226 +4.5%


KLT-CT-MS 213 221 433 +3.6%
KLT-DPM-MS 215 251 403 +14.3%
NCC-KLT-MS 224 251 403 +10.8%
NCC-KLT-DPM 228 251 274 +9.2%
NCC-DPM-MS 233 447 207 +47.9%

Table 5.7 – Classement des combinaisons de 4 trackers parmi les 8 sur VOT2015 utilisant la
fusion BC+P. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la meilleure
robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure robustesse
individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport à la
meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un gain
positif sont surlignées en rouge.

Combination Fusion Best Ind Diff Ind Gain


NCC-STRUCK-MS-ASMS 110 112 542 +1.8%
CT-STRUCK-MS-ASMS 119 112 542 -6.3%
NCC-CT-STRUCK-ASMS 122 112 335 -8.9%
NCC-CT-MS-ASMS 130 112 542 -16.1%
CT-DSST-MS-ASMS 131 112 542 -17.0%
NCC-STRUCK-DSST-ASMS 132 112 335 -17.9%
CT-STRUCK-DSST-ASMS 133 112 109 -18.8%
CT-STRUCK-DPM-ASMS 133 112 413 -18.8%
NCC-STRUCK-DPM-ASMS 134 112 413 -19.6%
NCC-CT-DSST-ASMS 134 112 335 -19.6%
CT-DPM-DSST-ASMS 135 112 413 -20.5%
STRUCK-DPM-MS-ASMS 138 112 542 -23.2%
NCC-STRUCK-DSST-MS 142 152 502 +6.6%
STRUCK-DSST-MS-ASMS 143 112 542 -27.7%
NCC-CT-DPM-ASMS 145 112 413 -29.5%
NCC-DSST-MS-ASMS 146 112 542 -30.4%
NCC-DPM-DSST-ASMS 146 112 413 -30.4%
NCC-STRUCK-DPM-DSST 146 152 373 +3.9%
STRUCK-DPM-DSST-ASMS 147 112 413 -31.3%
CT-DPM-MS-ASMS 147 112 542 -31.3%
CT-STRUCK-DSST-MS 147 152 502 +3.3%
DPM-DSST-MS-ASMS 148 112 542 -32.1%
NCC-DPM-MS-ASMS 149 112 542 -33.0%
NCC-KLT-STRUCK-ASMS 153 112 335 -36.6%
NCC-CT-STRUCK-DSST 155 152 295 -2.0%
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 160

NCC-KLT-DSST-ASMS 156 112 335 -39.3%


NCC-KLT-DPM-ASMS 156 112 413 -39.3%
NCC-CT-STRUCK-MS 157 152 502 -3.3%
KLT-CT-STRUCK-ASMS 158 112 139 -41.1%
KLT-STRUCK-MS-ASMS 160 112 542 -42.9%
KLT-STRUCK-DSST-ASMS 160 112 139 -42.9%
NCC-STRUCK-DPM-MS 160 152 502 -5.3%
NCC-KLT-STRUCK-DSST 160 152 295 -5.3%
CT-DPM-DSST-MS 164 173 481 +5.2%
STRUCK-DPM-DSST-MS 165 152 502 -8.6%
NCC-CT-DSST-MS 165 173 481 +4.6%
NCC-CT-STRUCK-DPM 165 152 373 -8.6%
KLT-CT-MS-ASMS 166 112 542 -48.2%
CT-STRUCK-DPM-DSST 167 152 373 -9.9%
CT-STRUCK-DPM-MS 169 152 502 -11.2%
KLT-DSST-MS-ASMS 171 112 542 -52.7%
KLT-STRUCK-DSST-MS 171 152 502 -12.5%
KLT-STRUCK-DPM-ASMS 171 112 413 -52.7%
KLT-CT-DSST-ASMS 171 112 139 -52.7%
NCC-CT-DPM-DSST 172 173 352 +0.6%
NCC-KLT-CT-ASMS 172 112 335 -53.6%
NCC-KLT-DSST-MS 173 173 481 +0.0%
NCC-KLT-MS-ASMS 175 112 542 -56.3%
NCC-KLT-CT-DSST 175 173 274 -1.2%
KLT-DPM-DSST-ASMS 179 112 413 -59.8%
KLT-CT-STRUCK-DSST 179 152 99 -17.8%
NCC-DPM-DSST-MS 179 173 481 -3.5%
KLT-CT-DPM-ASMS 181 112 413 -61.6%
KLT-CT-STRUCK-DPM 181 152 373 -19.1%
NCC-KLT-DPM-DSST 181 173 352 -4.6%
NCC-KLT-CT-STRUCK 182 152 295 -19.7%
KLT-CT-STRUCK-MS 185 152 502 -21.7%
KLT-CT-DPM-DSST 186 173 352 -7.5%
NCC-KLT-STRUCK-MS 186 152 502 -22.4%
KLT-DPM-MS-ASMS 192 112 542 -71.4%
KLT-CT-DSST-MS 192 173 481 -11.0%
NCC-CT-DPM-MS 192 221 433 +13.1%
KLT-DPM-DSST-MS 194 173 481 -12.1%
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 161

NCC-KLT-STRUCK-DPM 195 152 373 -28.3%


KLT-STRUCK-DPM-DSST 196 152 373 -28.9%
NCC-KLT-CT-DPM 200 221 304 +9.5%
KLT-STRUCK-DPM-MS 203 152 502 -33.6%
NCC-KLT-CT-MS 208 221 433 +5.9%
KLT-CT-DPM-MS 210 221 433 +5.0%
NCC-KLT-DPM-MS 221 251 403 +12.0%

Table 5.8 – Classement des combinaisons de 2 trackers parmi les 8 sur VOT2015 utilisant la
fusion BI+BF+UA. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la
meilleure robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure
robustesse individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport
à la meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un
gain positif sont surlignées en rouge.

Combination Fusion Best Ind Diff Ind Gain


DSST-ASMS 102 112 61 +8.9%
KLT-ASMS 117 112 139 -4.5%
CT-ASMS 123 112 109 -9.8%
STRUCK-ASMS 126 112 40 -12.5%
NCC-ASMS 128 112 335 -14.3%
MS-ASMS 137 112 542 -22.3%
DPM-ASMS 169 112 413 -50.9%
STRUCK-DSST 172 152 21 -13.2%
KLT-DSST 178 173 78 -2.9%
CT-DSST 183 173 48 -5.8%
DSST-MS 184 173 481 -6.4%
KLT-STRUCK 195 152 99 -28.3%
NCC-CT 197 221 226 +10.9%
NCC-DSST 200 173 274 -15.6%
CT-STRUCK 205 152 69 -34.9%
CT-MS 211 221 433 +4.5%
NCC-STRUCK 214 152 295 -40.8%
KLT-CT 214 221 30 +3.2%
STRUCK-MS 220 152 502 -44.7%
NCC-MS 249 447 207 +44.3%
NCC-KLT 259 251 196 -3.2%
KLT-MS 268 251 403 -6.8%
DPM-DSST 279 173 352 -61.3%
NCC-DPM 290 447 78 +35.1%
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 162

CT-DPM 397 221 304 -79.6%


STRUCK-DPM 399 152 373 -162.5%
KLT-DPM 420 251 274 -67.3%
DPM-MS 420 525 129 +20.0%

Table 5.9 – Classement des combinaisons de 3 trackers parmi les 8 sur VOT2015 utilisant la
fusion BI+BF+UA. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la
meilleure robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure
robustesse individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport
à la meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un
gain positif sont surlignées en rouge.

Combination Fusion Best Ind Diff Ind Gain


KLT-DSST-ASMS 97 112 139 +13.4%
CT-DSST-ASMS 106 112 109 +5.4%
DSST-MS-ASMS 109 112 542 +2.7%
STRUCK-DSST-ASMS 115 112 61 -2.7%
KLT-MS-ASMS 122 112 542 -8.9%
CT-STRUCK-ASMS 124 112 109 -10.7%
KLT-CT-ASMS 126 112 139 -12.5%
KLT-STRUCK-ASMS 126 112 139 -12.5%
NCC-DSST-ASMS 127 112 335 -13.4%
NCC-CT-ASMS 130 112 335 -16.1%
CT-MS-ASMS 133 112 542 -18.8%
NCC-MS-ASMS 134 112 542 -19.6%
STRUCK-MS-ASMS 141 112 542 -25.9%
NCC-STRUCK-ASMS 143 112 335 -27.7%
NCC-KLT-ASMS 144 112 335 -28.6%
DPM-DSST-ASMS 146 112 413 -30.4%
KLT-STRUCK-DSST 161 152 99 -5.9%
STRUCK-DPM-ASMS 161 112 413 -43.8%
CT-STRUCK-DSST 166 152 69 -9.2%
DPM-MS-ASMS 168 112 542 -50.0%
KLT-DSST-MS 169 173 481 +2.3%
NCC-DPM-ASMS 170 112 413 -51.8%
KLT-STRUCK-MS 170 152 502 -11.8%
CT-DPM-ASMS 172 112 413 -53.6%
NCC-CT-DSST 174 173 274 -0.6%
CT-DSST-MS 179 173 481 -3.5%
NCC-STRUCK-DSST 181 152 295 -19.1%
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 163

STRUCK-DSST-MS 181 152 502 -19.1%


NCC-DSST-MS 186 173 481 -7.5%
KLT-CT-DSST 187 173 78 -8.1%
NCC-CT-MS 189 221 433 +14.5%
CT-STRUCK-MS 189 152 502 -24.3%
KLT-DPM-ASMS 190 112 413 -69.6%
NCC-CT-STRUCK 195 152 295 -28.3%
KLT-CT-STRUCK 195 152 99 -28.3%
KLT-CT-MS 198 221 433 +10.4%
NCC-KLT-CT 199 221 226 +10.0%
NCC-KLT-DSST 199 173 274 -15.0%
NCC-KLT-STRUCK 202 152 295 -32.9%
NCC-STRUCK-MS 205 152 502 -34.9%
NCC-DPM-DSST 220 173 352 -27.2%
KLT-DPM-DSST 246 173 352 -42.2%
STRUCK-DPM-DSST 247 152 373 -62.5%
DPM-DSST-MS 248 173 481 -43.4%
CT-DPM-DSST 250 173 352 -44.5%
NCC-KLT-MS 254 251 403 -1.2%
NCC-CT-DPM 255 221 304 -15.4%
NCC-DPM-MS 263 447 207 +41.2%
NCC-STRUCK-DPM 264 152 373 -73.7%
NCC-KLT-DPM 270 251 274 -7.6%
CT-STRUCK-DPM 284 152 373 -86.8%
CT-DPM-MS 314 221 433 -42.1%
KLT-DPM-MS 338 251 403 -34.7%
KLT-CT-DPM 344 221 304 -55.7%
STRUCK-DPM-MS 359 152 502 -136.2%
KLT-STRUCK-DPM 378 152 373 -148.7%

Table 5.10 – Classement des combinaisons de 4 trackers parmi les 8 sur VOT2015 utilisant la
fusion BI+BF+UA. Pour chaque combinaison, on calcule sa performance de fusion (Fusion), la
meilleure robustesse individuelle de la combinaison (Best Ind), la différence entre la meilleure
robustesse individuelle et la moins bonne (Diff Ind), le gain en pourcentage de la fusion par rapport
à la meilleure robustesse individuelle de la combinaison (Gain). Les combinaisons produisant un
gain positif sont surlignées en rouge.

Combination Fusion Best Ind Diff Ind Gain


KLT-DSST-MS-ASMS 105 112 542 +6.3%
CT-DSST-MS-ASMS 107 112 542 +4.5%
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 164

KLT-STRUCK-DSST-ASMS 110 112 139 +1.8%


KLT-CT-DSST-ASMS 116 112 139 -3.6%
NCC-DSST-MS-ASMS 116 112 542 -3.6%
KLT-CT-MS-ASMS 117 112 542 -4.5%
NCC-CT-STRUCK-ASMS 117 112 335 -4.5%
NCC-CT-DSST-ASMS 127 112 335 -13.4%
KLT-STRUCK-MS-ASMS 129 112 542 -15.2%
NCC-KLT-STRUCK-ASMS 130 112 335 -16.1%
CT-STRUCK-DSST-ASMS 131 112 109 -17.0%
KLT-CT-STRUCK-ASMS 131 112 139 -17.0%
NCC-KLT-MS-ASMS 131 112 542 -17.0%
NCC-KLT-CT-ASMS 131 112 335 -17.0%
STRUCK-DSST-MS-ASMS 133 112 542 -18.8%
NCC-STRUCK-DSST-ASMS 134 112 335 -19.6%
CT-STRUCK-MS-ASMS 135 112 542 -20.5%
NCC-CT-MS-ASMS 135 112 542 -20.5%
NCC-KLT-DSST-ASMS 137 112 335 -22.3%
STRUCK-DPM-DSST-ASMS 144 112 413 -28.6%
KLT-DPM-DSST-ASMS 145 112 413 -29.5%
NCC-STRUCK-MS-ASMS 145 112 542 -29.5%
DPM-DSST-MS-ASMS 146 112 542 -30.4%
NCC-DPM-DSST-ASMS 148 112 413 -32.1%
CT-DPM-DSST-ASMS 149 112 413 -33.0%
CT-DPM-MS-ASMS 151 112 542 -34.8%
KLT-CT-DPM-ASMS 152 112 413 -35.7%
KLT-STRUCK-DSST-MS 161 152 502 -5.9%
NCC-DPM-MS-ASMS 162 112 542 -44.6%
CT-STRUCK-DPM-ASMS 163 112 413 -45.5%
NCC-KLT-STRUCK-DSST 165 152 295 -8.6%
KLT-CT-DSST-MS 169 173 481 +2.3%
CT-STRUCK-DSST-MS 170 152 502 -11.8%
KLT-CT-STRUCK-DSST 171 152 99 -12.5%
NCC-STRUCK-DPM-ASMS 171 112 413 -52.7%
NCC-CT-STRUCK-DSST 171 152 295 -12.5%
NCC-KLT-DPM-ASMS 171 112 413 -52.7%
NCC-KLT-CT-DSST 172 173 274 +0.6%
STRUCK-DPM-MS-ASMS 174 112 542 -55.4%
NCC-CT-DPM-ASMS 174 112 413 -55.4%
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 165

NCC-CT-DSST-MS 175 173 481 -1.2%


KLT-DPM-MS-ASMS 176 112 542 -57.1%
KLT-STRUCK-DPM-ASMS 177 112 413 -58.0%
KLT-CT-STRUCK-MS 184 152 502 -21.1%
NCC-KLT-DSST-MS 186 173 481 -7.5%
NCC-STRUCK-DSST-MS 187 152 502 -23.0%
NCC-KLT-CT-MS 194 221 433 +12.2%
NCC-KLT-STRUCK-MS 195 152 502 -28.3%
NCC-CT-STRUCK-MS 196 152 502 -28.9%
NCC-KLT-CT-STRUCK 199 152 295 -30.9%
NCC-STRUCK-DPM-DSST 201 152 373 -32.2%
KLT-CT-DPM-DSST 203 173 352 -17.3%
NCC-CT-DPM-DSST 207 173 352 -19.7%
CT-STRUCK-DPM-DSST 211 152 373 -38.8%
NCC-DPM-DSST-MS 211 173 481 -22.0%
NCC-CT-STRUCK-DPM 222 152 373 -46.1%
NCC-CT-DPM-MS 224 221 433 -1.4%
NCC-KLT-DPM-DSST 227 173 352 -31.2%
KLT-STRUCK-DPM-DSST 229 152 373 -50.7%
CT-DPM-DSST-MS 232 173 481 -34.1%
NCC-STRUCK-DPM-MS 232 152 502 -52.6%
STRUCK-DPM-DSST-MS 233 152 502 -53.3%
KLT-DPM-DSST-MS 237 173 481 -37.0%
NCC-KLT-DPM-MS 237 251 403 +5.6%
NCC-KLT-CT-DPM 246 221 304 -11.3%
NCC-KLT-STRUCK-DPM 247 152 373 -62.5%
CT-STRUCK-DPM-MS 261 152 502 -71.7%
KLT-CT-STRUCK-DPM 267 152 373 -75.7%
KLT-CT-DPM-MS 293 221 433 -32.6%
KLT-STRUCK-DPM-MS 333 152 502 -119.1%

Complémentarité des trackers

On se pose la question de prédire l’apport de la fusion de trackers à partir de critères


quantifiables. Prédire le gain de la fusion est intéressant car il permet de choisir la meilleure
combinaison de trackers qui atteindra la meilleure robustesse. L’hypothèse est que le gain de
la fusion dépend de la complémentarité des trackers fusionnés. Une idée assez spontanée est de
partir de l’incomplétude que nous avons définie dans la section 3.3.3 et de voir si cette mesure
peut être prédictible des performances de fusion.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 166

Pour les deux configurations de fusion BC+P et BI+BF+UA, nous avons tracé la performance
de fusion en ordonnée et l’incomplétude en abscisse pour les combinaisons de 2-4 trackers sur
les 3 bases (a,c,e) et détaillé les combinaisons de 2 trackers (b,d,f) dans les figures 5.8 et 5.9.
Une corrélation peut être observée entre la performance de fusion et l’incomplétude, et être
représentée par une droite (figure 5.10) : plus l’incomplétude est faible, meilleure est la robustesse.
Elle est moins évidente sur VOT-TIR2015. Mais cette corrélation n’est observée que lorsque le
nombre de trackers fusionnés est faible car pour des combinaisons de 5-8 trackers, elle est très
faible. Nous n’avons donc pas fait apparaître les combinaisons de 5-8 trackers sur les graphes.
Ceci s’explique par le fait que l’incomplétude n’est plus informative lorsque le nombre de trackers
fusionnés est élevé, étant presque toujours égale à 0 (voir la section 3.3.3). Et aussi parce que la
robustesse maximale pouvant être atteinte par un système de fusion qui a ses limites, n’est pas
de l’ordre de 0 dérives.
L’incomplétude est donc prédictive de la performance de fusion lorsque le nombre de trackers
fusionnés est faible et peut être utilisée comme moyen empirique pour choisir la meilleure
combinaison de trackers à fusionner.

Comparaison avec [Bailer et al., 2014]

Nous comparons les performances de fusion obtenues avec les configurations BC+P et
BI+BF+UA, et celles obtenues avec la fusion [Bailer et al., 2014]. Cette dernière est similaire à
la fusion BC+P, toutes deux exploitant des schémas en boucle ouverte. Le code testé 1 est celui
de l’approche élémentaire basic approach. Il consiste à combiner les prédictions de boîtes de M
trackers en maximisant une fonction d’attraction ai pour une boîte candidate c à chaque instant
i:
X 1
ai (c) = (5.5)
j∈M
d(bi,j , c)2 + σ

où bi,j est la boîte prédite par le tracker j à l’instant i, σ une constante, et d(bi,j , c) la distance
entre les boîtes bi,j et c. La distance entre deux boîtes b et c étant définie par :

d(b, c) =k dx (b, c), dy (b, c), dw (b, c), dh (b, c) k2


cx − bx cy − by cw − bw ch − bh (5.6)
=k 2 ,2 , 2α , 2α k2
cw + bw ch + bh cw + bw ch + bh

où α est une constante, (bx , by , bw , bh ) et (cx , cy , cw , ch ) sont respectivement les 4 coordonnées de


b et c. Ils réalisent une descente de gradient pour déterminer la boîte optimale c∗i .
Le tableau 5.11 montre la combinaison de trackers ayant obtenu la meilleure robustesse
pour chaque base en utilisant notre approche (Ours) et celle de [Bailer et al., 2014] (Bailer).
Nous avons calculé le gain en pourcentage de la fusion relativement à la meilleure robustesse
individuelle de la combinaison (Indiv). Les résultats montrent que notre approche de fusion
(BC+P ou BI+BF+UA) est supérieure à celle de [Bailer et al., 2014] sur les 3 bases. Remarquons
1. https ://sites.google.com/site/alainpagani/
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 167

VOT2013+ : 2 trackers
VOT2013+ 110 NCC−KLT
110 NCC−CT
NCC−STRUCK
100 NCC−DPM
100 NCC−DSST
NCC−MS
90 NCC−ASMS
90

Fusion performance (nb drifts)


KLT−CT
Fusion performance (nb drifts)

KLT−STRUCK

80 80 KLT−DPM
KLT−DSST
KLT−MS

70 70 KLT−ASMS
CT−STRUCK
CT−DPM
CT−DSST
60 60 CT−MS
CT−ASMS
STRUCK−DPM
50 50 STRUCK−DSST
STRUCK−MS
STRUCK−ASMS
40 40 DPM−DSST
DPM−MS
DPM−ASMS
30 30 DSST−MS
DSST−ASMS
2 trackers MS−ASMS
20 3 trackers 20
4 trackers
10 10
0 20 40 60 80 100 120 140 0 50 100 150
Incompleteness Incompleteness

(a) 2-4 tracker combinations (b) 2-tracker combinations


VOT2015 : 2 trackers
VOT2015 400 NCC−KLT
400 NCC−CT
NCC−STRUCK
NCC−DPM
NCC−DSST
350 NCC−MS
350 NCC−ASMS
Fusion performance (nb drifts)

KLT−CT
Fusion performance (nb drifts)

KLT−STRUCK
KLT−DPM

300 300 KLT−DSST


KLT−MS
KLT−ASMS
CT−STRUCK
CT−DPM
CT−DSST
250 250 CT−MS
CT−ASMS
STRUCK−DPM
STRUCK−DSST
STRUCK−MS
200 200 STRUCK−ASMS
DPM−DSST
DPM−MS
DPM−ASMS
DSST−MS
150 150 DSST−ASMS
2 trackers MS−ASMS

3 trackers
4 trackers
100 100
0 100 200 300 400 500 600 0 100 200 300 400 500 600
Incompleteness Incompleteness

(c) 2-4 tracker combinations (d) 2-tracker combinations


VOT−TIR2015 : 2 trackers
VOT−TIR2015 160 NCC−KLT
160 NCC−CT
NCC−STRUCK
NCC−DPM
NCC−DSST
140 140 NCC−MS
NCC−ASMS
Fusion performance (nb drifts)

KLT−CT
Fusion performance (nb drifts)

KLT−STRUCK
120 KLT−DPM
120 KLT−DSST
KLT−MS
KLT−ASMS
CT−STRUCK
100 CT−DPM
CT−DSST
100 CT−MS
CT−ASMS
80 STRUCK−DPM
STRUCK−DSST
STRUCK−MS
80 STRUCK−ASMS
DPM−DSST
60 DPM−MS
DPM−ASMS
DSST−MS
60 DSST−ASMS
40 2 trackers MS−ASMS

3 trackers
4 trackers
20 40
0 50 100 150 200 250 0 50 100 150 200 250
Incompleteness Incompleteness

(e) 2-4 tracker combinations (f) 2-tracker combinations

Figure 5.8 – Robustesse de fusion par rapport à l’incomplétude des combinaisons de trackers
(NCC, KLT, CT, STRUCK, DPM, DSST, MS, ASMS) en utilisant la configuration de fusion
BC+P sur VOT2013+ (a,b), VOT2015 (c,d) et VOT-TIR2015 (e,f). (a,c,e) montrent toutes les
combinaisons de 2-4 trackers parmi les 8 pour chaque base. Les combinaisons avec le même nombre
de trackers sont représentées avec le même symbole. (b,d,f) montrent toutes les combinaisons de
2 trackers pour chaque base. Chaque combinaison est représentée par un symbole différent.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 168

VOT2013+ : 2 trackers
VOT2013+ 80 NCC−KLT
80 NCC−CT
NCC−STRUCK
NCC−DPM
70 NCC−DSST
70 NCC−MS
NCC−ASMS

Fusion performance (nb drifts)


KLT−CT
Fusion performance (nb drifts)

KLT−STRUCK
60 60 KLT−DPM
KLT−DSST
KLT−MS
KLT−ASMS

50 50 CT−STRUCK
CT−DPM
CT−DSST
CT−MS
CT−ASMS
40 40 STRUCK−DPM
STRUCK−DSST
STRUCK−MS
STRUCK−ASMS

30 30 DPM−DSST
DPM−MS
DPM−ASMS
DSST−MS
DSST−ASMS
20 2 trackers 20 MS−ASMS

3 trackers
4 trackers
10 10
0 20 40 60 80 100 120 140 0 50 100 150
Incompleteness Incompleteness

(a) 2-4 tracker combinations (b) 2-tracker combinations


VOT2015 : 2 trackers
VOT2015 450 NCC−KLT
450 NCC−CT
NCC−STRUCK
NCC−DPM
400 400 NCC−DSST
NCC−MS
NCC−ASMS
Fusion performance (nb drifts)
KLT−CT
Fusion performance (nb drifts)

350 350
KLT−STRUCK
KLT−DPM
KLT−DSST
KLT−MS
300 KLT−ASMS
300 CT−STRUCK
CT−DPM
CT−DSST
250 CT−MS
CT−ASMS
250 STRUCK−DPM
STRUCK−DSST
200 STRUCK−MS
STRUCK−ASMS
200 DPM−DSST
DPM−MS
150 DPM−ASMS
DSST−MS
DSST−ASMS
2 trackers 150 MS−ASMS
100
3 trackers
4 trackers
50 100
0 100 200 300 400 500 600 0 100 200 300 400 500 600
Incompleteness Incompleteness

(c) 2-4 tracker combinations (d) 2-tracker combinations


VOT−TIR2015 : 2 trackers
VOT−TIR2015 220 NCC−KLT
220 NCC−CT
NCC−STRUCK
200 NCC−DPM
200 NCC−DSST
NCC−MS
NCC−ASMS
180
Fusion performance (nb drifts)

180 KLT−CT
Fusion performance (nb drifts)

KLT−STRUCK
KLT−DPM

160 160 KLT−DSST


KLT−MS
KLT−ASMS
CT−STRUCK
140 140 CT−DPM
CT−DSST
CT−MS

120 120 CT−ASMS


STRUCK−DPM
STRUCK−DSST
STRUCK−MS
100 100 STRUCK−ASMS
DPM−DSST
DPM−MS

80 80 DPM−ASMS
DSST−MS
DSST−ASMS
2 trackers MS−ASMS
60 60
3 trackers
4 trackers
40 40
0 50 100 150 200 250 0 50 100 150 200 250
Incompleteness Incompleteness

(e) 2-4 tracker combinations (f) 2-tracker combinations

Figure 5.9 – Robustesse de fusion par rapport à l’incomplétude des combinaisons de trackers
(NCC, KLT, CT, STRUCK, DPM, DSST, MS, ASMS) en utilisant la configuration de fusion
BI+BF+UA sur VOT2013+ (a,b), VOT2015 (c,d) et VOT-TIR2015 (e,f). (a,c,e) montrent
toutes les combinaisons de 2-4 trackers parmi les 8 pour chaque base. Les combinaisons avec
le même nombre de trackers sont représentées avec le même symbole. (b,d,f) montrent toutes
les combinaisons de 2 trackers pour chaque base. Chaque combinaison est représentée par un
symbole différent.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 169

VOT2013+
110

100

90

Fusion performance (nb drifts)


80

70

60

50

40
2 trackers
30 y=0.69*x+7, σ=13, r2=0.62
3 trackers
20
y=1.40*x+19, σ=11, r2=0.22
10 4 trackers
2
y=2.72*x+26, σ=11, r =−0.25
0
0 20 40 60 80 100 120 140
Incompleteness

(a) VOT2013
VOT2015
350

300
Fusion performance (nb drifts)

250

200

150

2 trackers
100 y=0.49*x+60, σ=27, r2=0.75
3 trackers
50 y=0.91*x+102, σ=27, r2=0.27
4 trackers
y=1.67*x+104, σ=27, r2=−0.36
0
0 100 200 300 400 500
Incompleteness

(b) VOT2015
VOT−TIR2015

140

120
Fusion performance (nb drifts)

100

80

60
2 trackers
2
40 y=0.44*x+29, σ=25, r =0.03
3 trackers
y=0.43*x+48, σ=19, r2=−0.16
20
4 trackers
y=0.83*x+46, σ=15, r2=−0.18
0
0 50 100 150 200
Incompleteness

(c) VOT-TIR2015

Figure 5.10 – Régression linéaire de la robustesse de fusion par rapport à l’incomplétude des
combinaisons de 2-4 trackers en utilisant la configuration de fusion BC+P sur VOT2013+ (a),
VOT2015 (b) et VOT-TIR2015 (c). y est l’équation de la droite, σ l’écart-type par rapport à
l’ordonnée et r2 le coefficient de détermination.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 170

Table 5.11 – Meilleure robustesse (Robust) avec la fusion de [Bailer et al., 2014] (Bailer) et
avec notre fusion (Ours) en utilisant les configurations BC+P et BI+BF+UA sur chacune des
bases. Best indique la combinaison de trackers correspondante à la meilleure robustesse. Les
pourcentages indiquent le gain de la fusion par rapport au meilleur tracker individuel de la
combinaison (Indiv). D : DSST, A : ASMS, M : MS, S : STRUCK, C : CT, P : DPM, K : KLT.
Les meilleurs résultats sont en rouge.

VOT2013+ VOT2015 VOT-TIR2015


Best Robust Best Robust Best Robust
Indiv D 18 A 112 D 47
Bailer D-M 16 (11%) S-D-A 108 (4%) S-D-A 45 (4%)
Ours BC+P D-A 13 (28%) S-A 100 (11%) C-P-D-A 39 (17%)
Ours BI+BF+UA S-D-M-A 17 (6%) K-D-A 97 (13%) S-D-M-A 41 (13%)

Table 5.12 – Meilleure (+) et moins bonne (−) combinaison de 2-4 trackers sur VOT2015 avec
la fusion de [Bailer et al., 2014] (Bailer) et avec notre fusion (Ours) en utilisant les configurations
BC+P et BI+BF+UA. Combi indique la combinaison de trackers et Robust la robustesse
correspondante. Les pourcentages indiquent le gain de la fusion par rapport au meilleur tracker
individuel de la combinaison. D : DSST, A : ASMS, M : MS, S : STRUCK, C : CT, P : DPM,
N : NCC, K : KLT. Les meilleurs résultats sont en rouge.

Bailer Ours BC+P Ours BI+BF+UA


Combi Robust Combi Robust Combi Robust
2 trackers + S-M 150 (1%) S-A 100 (11%) D-A 102 (9%)
− M-A 649 (-480%) N-M 356 (20%) K-P 420 (-66%)
3 trackers + S-D-A 108 (4%) N-S-A 102 (9%) K-D-A 97 (13%)
− N-P-M 333 (26%) N-P-M 233 (48%) K-S-P 378 (-142%)
4 trackers + C-S-D-A 115 (-3%) N-S-M-A 110 (2%) K-D-M-A 105 (6%)
− N-K-P-M 270 (-8%) N-K-P-M 221 (12%) K-S-P-M 333 (-113%)

qu’il n’y a pas une combinaison qui soit meilleure que toutes les autres pour toutes les bases,
puisque la performance d’un tracker est variable d’une séquence à l’autre, et la performance de
fusion dépendante de la configuration utilisée. Mais, le gain est toujours positif, la fusion a donc
un intérêt.
Nous montrons également les résultats des meilleures et moins bonnes combinaisons de 2-4
trackers utilisant notre approche (BC+P ou BI+BF+UA) et celles obtenues avec l’approche de
[Bailer et al., 2014] sur VOT2015 dans le tableau 5.12. La fusion BC+P est plus robuste que
celle de [Bailer et al., 2014] lorsque le nombre de tackers combinés augmente, le gain est toujours
positif contrairement. La fusion BI+BF+UA est au contraire moins robuste, les moins bonnes
combinaisons (−) montrant toutes des gains négatifs.
Pour les deux approches, la borne supérieure de la robustesse (robustesse la plus faible)
diminue avec le nombre de trackers mais la borne inférieure est atteinte pour 2 (Ours) ou 3
trackers (Bailer). La fusion ne permet donc pas de compenser les différentes sources de dérives.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 171

5.4 Discussion et travaux futurs

L’objectif principal de cette étude est d’exploiter la prédiction en ligne des dérives des trackers
dans une chaîne de fusion en boucle fermée puis de l’évaluer. Ceci a été motivé par le fait qu’avoir
accès à un prédicteur de dérives idéal améliore considérablement la performance de suivi. La
conception d’un tel prédicteur et le contrôle de son impact semblent délicat dans la pratique.

Sélection La sélection en ligne des trackers est une étape essentielle des stratégies de fusion.
Deux approches différentes ont été proposées pour la réaliser. La première analyse la distribution
spatiale des prédictions des trackers, en utilisant deux schémas de calcul, BF et BC, qui se
basent respectivement sur des contraintes de trajectoire et des contraintes géométriques. Ces deux
schémas de sélection se sont avérés simples et efficaces pour une certaine configuration (P) mais
échouent dans plusieurs circonstances telles que les grands mouvements de caméra. Le modèle
de mouvement utilisé dans la méthode BF fait l’hypothèse que la cible est dans un voisinage
proche de sa position à l’instant précédent. La méthode BC utilise un critère de recouvrement
des boîtes pour déterminer si deux boîtes votent pour la même position et un critère de distance
minimale pour éliminer celles qui sont éloignées de la position de la cible à l’instant précédent.
La seule information exploitée dans cette première approche est la prédiction instantanée de
position de chaque tracker. Cela s’est révélé être un faible indicateur de leur comportement. Il
faudrait exploiter simultanément la temporalité des états internes des trackers.
La deuxième approche proposée (BI) est basée sur le calcul d’indicateurs en ligne de la
qualité du modèle d’apparence. Ces indicateurs étaient difficiles à calibrer directement à partir
des données internes accessibles dans chaque tracker et ont montré peu d’améliorations dans le
processus de fusion lorsqu’ils sont utilisés seuls.
Il serait intéressant d’étudier deux évolutions. La première est d’apprendre pour chaque
tracker un prédicteur de dérives à partir de caractéristiques de la scène (couleur, distribution de
texture, bruit, mouvement global, etc.) et d’expériences variées par un apprentissage hors ligne.
Dans un deuxième temps, nous avons remarqué que les trackers se comportaient différemment
pendant une dérive : certains dérivent lentement, d’autres brusquement. Un constat général est
que l’exploitation et la modélisation du comportement temporel de leur état pourrait être un
moyen d’anticiper leur dérive.

Correction Une limite de l’architecture de notre système est la rigidité des schémas de
réinitialisation et de mise à jour : soit tous les trackers réinitialisent leur modèle à partir de
la sortie de fusion, soit ils les mettent à jour en fonction de la stratégie choisie. Bien que les
corrections UA et UD apparaissent globalement meilleures que RD (UA < UD < RD), une
meilleure flexibilité du schéma de correction pourrait améliorer leur robustesse.
La sortie du système, construite uniquement à partir des prédictions de boîtes, et non sur des
caractéristiques images, peut être imprécise, voire inexacte. Une mauvaise prédiction de boîte
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 172

introduit du bruit dans la sortie du système, servant à corriger les trackers. Suite à la phase
de correction, surtout si la réinitialisation a lieu, elle peut entraîner que des trackers corrigés
suivent une cible différente de celle initialement désignée. Pour éviter cela, il pourrait être utile
de revenir à l’image afin d’affiner la sortie système, par exemple en utilisant un algorithme de
« recentrage » tel que celui de [Gidaris et Komodakis, 2016].

Répertoire de trackers Le secret d’une fusion réussie est de trouver le bon équilibre entre la
complémentarité et la redondance des éléments fusionnés.
Dans cette étude, la complémentarité des trackers est définie par le paramètre global d’incom-
plétude. Cependant, les dérives de sous-ensembles de trackers sont souvent corrélées et causées
par un événement commun (changement d’éclairage, faible contraste, occultation, changement
d’aspect, etc.). Être capable de modéliser plus précisément ces scènes et événements perturbateurs
pourrait améliorer la stratégie de sélection en ligne d’ensembles de trackers : cette modélisa-
tion repose sur une phase d’estimation hors ligne d’apprentissage et donc sur la disponibilité
d’échantillons de données statistiquement pertinentes.
La fusion semble surtout intéressante lorsque les trackers sont de performances comparables
mais reposent sur des principes de conception différents. Dans cette étude, l’ensemble de trackers
modernes disponibles partageant ce principe était assez restreint (moins de 4 parmi les 8 testés).
Une plus grande distribution des trackers est nécessaire pour mesurer de manière fiable l’impact
du nombre de trackers dans la performance.

5.5 Conclusion

Les travaux décrits dans ce chapitre sont centrés sur la conception de bonnes stratégies
pour la fusion en ligne de trackers. L’accent était mis sur le contrôle de la robustesse globale
du suivi mesurée en nombre de dérives, à savoir le nombre de fois où la cible est perdue sur
une base donnée. Les trackers réussissent ou échouent face à des situations critiques différentes
(illumination, occultation, changements d’apparence) ; l’idée était d’exploiter leur complémentarité
en utilisant différentes stratégies de fusion.
La fusion peut fonctionner à deux niveaux : en sélectionnant l’ensemble approprié de bons
trackers et/ou en corrigeant leur sortie et/ou leur état interne. La prédiction de dérives basée sur
divers principes a été proposée et plus particulièrement étudiée comme un élément clé de l’étape
de sélection. Les stratégies globales de fusion ont donné lieu à 46 schémas différents qui ont été
largement évalués sur 3 bases (VOT2013+, VOT2015 et VOT-TIR2015) avec un répertoire de 8
trackers dont les codes sources sont disponibles (NCC, KLT, CT, STRUCK, DPM, DSST, MS,
ASMS).
Les résultats de l’expérience peuvent être résumés en une série de recommandations : quels
trackers utiliser ? que fusionner et comment ? lorsqu’on tente d’appliquer la fusion en ligne étant
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 173

donné une base d’objets ou un contexte d’application, et un ensemble de trackers avec leur
évaluation individuelle de robustesse sur la base.

1. La fusion est utile lorsqu’on fusionne des trackers avec des performances individuelles
de robustesse comparables. En revanche, la fusion de trackers très hétérogènes peut être
néfaste car les mauvais trackers peuvent affecter les autres trackers et donc, réduire les
performances de fusion.

2. Une étape de sélection est utile, un prédicteur de dérives individuel performant (DP Ideal)
donne les meilleures performances de fusion. Les méthodes les plus simples dont le rai-
sonnement se base sur des boîtes englobantes, filtrage temporel et consensus, conduisent
à des résultats comparables aux méthodes plus spécifiques qui cherchent à donner indé-
pendamment un indice du comportement individuel de chaque tracker (score ou carte de
vraisemblance).

3. Pour l’étape de correction, les fusions en boucle ouverte (sans correction) et fermée (avec
correction) donnent des résultats assez comparables, en dehors de la réinitialisation qui est
un paramètre très sensible et qui doit être utilisé avec précaution. Cependant, la fusion en
boucle fermée est aussi plus instable.

Les performances de fusion dépendent aussi de la complémentarité des trackers, outre leurs
performances individuelles. La mesure d’incomplétude définie dans le chapitre (chapitre 3) est
prédictive de la performance de fusion des combinaisons de 2 à 4 trackers avec une certaine
variance. Elle peut être utilisée pour choisir la combinaison de trackers qui atteindra la meilleure
robustesse sur une base donnée. La comparaison de notre approche de fusion avec une autre
approche de l’état de l’art assez similaire [Bailer et al., 2014], a montré des performances
supérieures.
CHAPITRE 5. CONCEPTION DE MÉCANISMES DE FUSION DE TRACKERS 174
Conclusion

Bilan de l’étude

A ce jour, aucun tracker n’est véritablement capable de maîtriser toutes les situations
difficiles pouvant apparaître lors du suivi d’un objet : changements d’apparence, d’illumination,
occultations, mouvement de la caméra, etc. L’objectif de cette thèse n’était pas de concevoir
un nouveau tracker mais d’étudier dans quelle mesure il était possible de tirer avantage de la
complémentarité d’algorithmes existants en les fusionnant.
Les travaux réalisés dans le cadre de cette thèse sont centrés sur la conception de stratégies
de fusion en ligne de trackers pour améliorer la robustesse globale du suivi ; la robustesse étant
définie par le nombre total de dérives sur une base, i.e. le nombre de fois où le tracker perd la
cible sur la base. L’accent est mis sur le contrôle des dérives individuelles des trackers fusionnés.
Les huit trackers considérés dans ce travail sont un mélange de trackers standards et de trackers
plus récents, construits sur des concepts différents et produisant des performances très hétérogènes :
NCC [Lewis, 1995], KLT [Kalal et al., 2012], CT [Zhang et al., 2012], STRUCK [Hare et al., 2011],
DPM [Felzenszwalb et al., 2010, Kalman, 1960], DSST [Danelljan et al., 2014], MS [Bradski, 1998],
ASMS [Vojir et al., 2014]. Trois bases de vidéos ont servi à l’évaluation, VOT2013+ [Kristan
et al., 2013, Geiger et al., 2012], VOT2015 [Kristan et al., 2015a] et VOT-TIR2015 [Felsberg
et al., 2015]. Elles présentent des objets et des scènes variés soumis à différentes perturbations
(mouvement de la caméra, zoom, occultation, changements d’illumination, d’apparence rapides,
déformation, etc.) et contiennent des images RGB ou infra-rouge.
Les trackers réagissent différemment face aux différentes situations critiques, i.e. ils ne dérivent
pas aux mêmes instants. Une idée a été d’exploiter cette complémentarité. Dans une première
partie (chapitre 3), nous avons mesuré de manière empirique leur complémentarité en étudiant les
instants de dérives des différents trackers. Dans la plupart des séquences vidéo des bases étudiées,
cette complémentarité est assurée car à chaque instant, au moins un des trackers de l’ensemble
fonctionne correctement. Il est alors possible, en théorie, d’assurer une continuité du suivi en
combinant plusieurs trackers si on est capable d’anticiper les dérives individuelles de chacun
d’eux. Nous avons proposé une métrique, l’incomplétude, pour mesurer la complémentarité des
trackers au niveau des dérives individuelles. Elle renseigne sur la robustesse maximale pouvant
être atteinte lorsque ces trackers sont fusionnés.

175
CONCLUSION 176

Dans une deuxième partie (chapitre 4), nous avons développé des méthodes d’évaluation en
ligne du bon comportement des trackers, pouvant éventuellement anticiper leurs dérives.
La première approche a consisté à évaluer la qualité du modèle d’apparence des trackers
individuels en calculant des indicateurs de comportement à partir des informations intrinsèques
qu’il délivre (score de confiance, carte de scores ou autres scores exploitant des variables internes
du modèle). Ces indicateurs de comportement exploitent les variations spatiales et/ou temporelles
des scores pour détecter les changements de comportement du tracker. Cette approche a donné
lieu à différentes méthodes d’estimation du bon comportement des trackers à partir des indicateurs
calculés. La première méthode a consisté à estimer un seuil pour chaque indicateur en réalisant
une évaluation de performances sur des bases de test. Le réglage des seuils pour avoir un
prédicteur performant était délicat car un taux élevé de bonnes prédictions impliquait également
un taux important de fausses alarmes. Les deux méthodes suivantes ont utilisé des méthodes
de classification, l’une réalisant une classification SVM des indicateurs et l’autre utilisant un
mélange d’experts évaluant la qualité de chaque tracker à partir des indicateurs fournis en sortie.
Ces méthodes n’ont pas donné de résultats satisfaisants dû au nombre insuffisant d’exemples
d’apprentissage ne permettant pas de généraliser.
La deuxième approche a consisté à analyser la distribution spatiale des boîtes englobantes
prédites de manière individuelle par une filtrage temporelle, ou de manière collective par un
consensus afin d’éliminer les boîtes aberrantes.
Dans une troisième partie (chapitre 5), nous avons développé une chaîne générique de fusion
permettant d’intégrer de manière robuste un ensemble de trackers. Cette chaîne est composée
de deux étapes clés : une étape de sélection et une étape de correction. L’étape de sélection
a pour objectif de repérer les trackers fiables en évaluant en ligne leur bon fonctionnement
avant de la fusion de leurs sorties. Elle est assurée par les méthodes de prédiction en ligne de
dérives développées dans le chapitre 4. L’étape de correction (fusion en boucle fermée) permet
d’apporter une correction aux trackers ayant potentiellement dérivé en corrigeant les sorties
et/ou les états internes des trackers non sélectionnés par une mise à jour ou une réinitialisation
de leur modèle. Les stratégies globales de fusion ont donné lieu à 46 schémas de fusion différents
évalués sur les 3 bases. Nous montrons qu’une sélection performante des trackers améliore
nettement la robustesse de suivi ; et que les méthodes de sélection simples basées sur des boîtes
englobantes, conduisent à des résultats comparables aux méthodes plus spécifiques qui cherchent
à donner indépendamment un indicateur du comportement individuel à chaque tracker. Une
correction des trackers ayant dérivé est intéressante lorsque la sélection est bien maîtrisée ; une
mise à jour des modèles de trackers est préférable à une réinitialisation qui peut être critique
lorsqu’elle a lieu pendant des changements d’apparence importants ou pendant une occultation
de l’objet. Les configurations en boucle fermée ont montré des performances supérieures à celles
des configurations en boucle ouverte mais sont également plus instables. En évaluant la fusion sur
l’ensemble des combinaisons de trackers possibles, nous montrons que fusionner un grand nombre
CONCLUSION 177

de trackers n’est pas nécessairement une bonne stratégie mais qu’en revanche, fusionner des
trackers complémentaires et de performances homogènes apporte une meilleure robustesse. En
comparaison à une autre approche de fusion similaire [Bailer et al., 2014], notre approche a obtenu
de meilleures performances sur les 3 bases. Par ailleurs, la mesure d’incomplétude introduite
dans le chapitre 3, indépendante de l’approche de fusion, est prédictive de la performance de
fusion de 2 à 4 trackers avec une certaine variance et peut être utilisée pour choisir la meilleure
combinaison d’algorithmes sur une base donnée.

Discussion et Perspectives

Plusieurs aspects de l’approche de fusion proposée peuvent être améliorés. L’évaluation en


ligne du bon comportement d’un tracker est une étape essentielle dans la chaîne de fusion.
Il pourrait être intéressant d’étudier les phénomènes transitoires du modèle qui pourrait en
expliquer sa capacité ou son incapacité à absorber les variations d’apparence, en particulier
lorsque le modèle est adaptatif, une localisation imprécise risquant de faire dériver le tracker.
Un champ de recherche possible pour améliorer la prédiction de dérives, serait d’apprendre
directement les caractéristiques images susceptibles de faire dériver le tracker tout en exploitant
la dimension temporelle des caractéristiques, i.e. pour quel type de scène ou perturbation un
tracker est susceptible de bien ou mal fonctionner.
Une évolution possible de l’étape de correction des trackers serait d’adapter le type de
correction (pas de correction, mise à jour, réinitialisation) en fonction de la situation, par exemple
attendre la fin d’une perturbation visuelle pour réinitialiser un tracker ayant dérivé, ou en fonction
de la précision de localisation de l’objet, réaliser une mise à jour plutôt qu’une réinitialisation.
Parmi les trackers du répertoire étudié, peu d’entre eux sont performants ou disposent de
performances de robustesse comparables. L’introduction de nouveaux trackers performants tels
que les trackers issus du Deep Learning [Nam et Han, 2015, Hong et al., 2015a, Danelljan et al.,
2015, Nam et al., 2016], pourra être envisagée pour améliorer la complémentarité des trackers.
Aucun des trackers dont nous disposons n’est vraiment capable de suivre avec précision des objets
très déformables (par exemple, la séquence nature de VOT2015) ; une solution possible serait
d’utiliser un tracker capable de segmenter l’objet comme celui proposé par [Xiao et al., 2015].
Le suivi d’objet pur ne fait pas l’hypothèse que ce qui est suivi est une entité, alors que les
bases ne contiennent que des objets ou personnes à pister. Une piste de recherche serait d’exploiter
explicitement une dimension sémantique à partir de la désignation initiale de la cible, à combiner
avec du suivi pur pour améliorer la précision de localisation. On pourra par exemple combiner
les algorithmes de suivi à d’autres types algorithmes exploitant la notion « d’objet » tels que les
algorithmes de détection [Gidaris et Komodakis, 2016], segmentation, saillance, reconnaissance
et classification.
CONCLUSION 178
Productions Scientifiques

Conférence nationale à comité de sélection

Leang, I., Herbin, S., Girard, B., et Droulez, J. (2015, Juin). Prédiction sélective des traitements
pour le suivi d’objet. Dans Journées francophones des jeunes chercheurs en vision par ordinateur.

Conférence internationale à comité de sélection

Leang, I., Herbin, S., Girard, B., and Droulez, J. (2015, October). Robust Fusion of Trackers
Using Online Drift Prediction. In International Conference on Advanced Concepts for Intelligent
Vision Systems (pp. 229-240). Springer International Publishing.

Revue internationale à comité de lecture

Leang, I., Herbin, S., Girard, B., and Droulez, J. On-line Fusion of Trackers for Single-Object
Tracking. Soumis le 21 Avril 2016 dans Pattern Recognition.

179
PRODUCTIONS SCIENTIFIQUES 180
Annexe A

Performances des trackers sur


VOT2015 et VOT-TIR2015

Table A.1 – Robustesse des trackers pour chaque séquence de VOT2015. Le nom des séquences
est indiqué dans la colonne de gauche, le nombre d’images par séquence dans la colonne #img.
La robustesse par séquence mesure le nombre de dérives du tracker dans la séquence. La ligne
TOTAL indique le nombre total de dérives par tracker sur l’ensemble des séquences. Les séquences
considérées comme difficiles sont encadrées. La/les meilleures performances de robustesse par
séquence sont en gras et la/les moins bonnes sont surlignées.

VOT2015 #img Robustesse par séquence (#dérives)


NCC KLT CT STRUCK DPM DSST MS ASMS
bag 196 0 1 0 0 8 0 1 0
ball1 105 1 4 5 1 10 1 2 0
ball2 41 3 3 1 0 4 3 4 2
basketball 725 19 7 2 1 2 2 37 2
birds1 339 7 6 3 0 12 14 23 2
birds2 539 3 1 0 0 27 1 4 2
blanket 225 5 0 0 2 0 2 0 0
bmx 76 0 0 0 0 0 1 2 0
bolt1 350 27 19 2 11 4 1 40 1
bolt2 293 17 7 0 1 3 2 28 1
book 175 8 6 7 6 3 6 4 0
butterfly 151 4 1 4 2 4 2 10 0
car1 742 1 0 3 2 6 0 33 1
car2 393 1 2 0 0 6 0 8 2
crossing 131 4 0 0 0 1 0 10 0
dinosaur 326 8 4 3 4 9 1 1 0
fernando 292 8 2 2 3 4 1 8 0
fish1 366 6 5 5 7 21 4 3 2

181
ANNEXE A. PERFORMANCES DES TRACKERS SUR VOT2015 ET VOT-TIR2015 182

fish2 310 8 5 4 9 17 7 3 1
fish3 519 3 5 0 1 32 0 0 0
fish4 682 5 4 1 0 21 4 7 2
girl 1500 29 11 5 2 4 1 15 0
glove 120 3 2 3 3 7 3 5 2
godfather 366 4 2 2 0 21 0 0 2
graduate 844 22 10 16 3 6 9 24 7
gymnastics1 567 17 7 9 8 8 10 20 0
gymnastics2 240 8 4 4 2 3 4 8 0
gymnastics3 118 4 4 2 2 5 3 6 3
gymnastics4 465 9 4 3 2 15 5 25 2
hand 267 12 9 17 15 17 7 5 4
handball1 377 13 7 37 7 21 5 6 5
handball2 402 12 4 12 9 19 9 5 2
helicopter 708 4 1 2 0 18 0 6 1
iceskater1 661 43 11 5 7 3 4 19 0
iceskater2 707 25 4 5 3 10 3 41 0
leaves 63 5 3 4 4 6 4 4 0
marching 201 7 0 0 0 4 0 4 1
matrix 100 7 8 7 4 6 4 5 2
motocross1 164 5 1 4 3 1 5 7 2
motocross2 61 3 2 0 1 0 2 3 0
nature 999 6 5 2 4 27 4 7 3
octopus 291 1 0 1 1 0 1 5 1
pedestrian1 140 6 4 2 4 6 8 10 3
pedestrian2 713 6 5 8 0 4 1 29 1
rabbit 158 7 4 7 6 8 4 11 4
racing 156 5 1 0 0 0 0 4 1
road 558 7 16 4 0 11 0 45 5
shaking 365 5 1 1 1 10 0 16 11
sheep 251 0 2 1 0 6 0 3 1
singer1 351 4 2 0 0 3 0 7 1
singer2 366 10 17 2 3 0 1 5 1
singer3 131 3 1 1 0 3 1 2 1
soccer1 392 9 0 3 2 13 3 11 8
soccer2 129 3 2 4 1 14 12 16 3
soldier 138 2 1 0 0 7 1 3 2
sphere 201 0 3 0 0 9 3 2 0
ANNEXE A. PERFORMANCES DES TRACKERS SUR VOT2015 ET VOT-TIR2015 183

tiger 365 1 3 2 7 13 1 3 1
traffic 191 2 1 0 0 1 0 12 2
tunnel 312 0 1 0 0 4 0 13 5
wiper 341 0 8 4 2 18 0 14 7
TOTAL 21455 447 253 221 156 525 170 654 112

Table A.2 – Robustesse des trackers pour chaque séquence de VOT-TIR2015. Le nom des
séquences est indiqué dans la colonne de gauche, le nombre d’images par séquence dans la colonne
#img. La robustesse par séquence mesure le nombre de dérives du tracker dans la séquence.
La ligne TOTAL indique le nombre total de dérives par tracker sur l’ensemble des séquences.
Les séquences considérées comme difficiles sont encadrées. La/les meilleures performances de
robustesse par séquence sont en gras et la/les moins bonnes sont surlignées.

VOT-TIR2015 #img Robustesse par séquence (#dérives)


NCC KLT CT STRUCK DPM DSST MS ASMS
birds 270 4 2 0 0 10 1 7 1
car 1420 4 5 2 3 0 1 4 0
crossing 301 3 5 0 0 17 0 27 0
crouching 618 18 7 2 1 0 1 8 2
crowd 71 5 1 1 1 3 1 2 1
depthwise_crossing 851 4 5 9 0 0 1 9 1
garden 676 13 7 7 12 17 13 15 4
hiding 358 5 1 0 0 3 1 20 0
horse 348 1 1 0 0 9 0 11 0
jacket 1451 22 17 5 34 10 1 17 9
mixed_distractors 270 4 0 2 1 2 2 3 0
quadrocopter 178 7 4 4 0 5 1 10 2
quadrocopter2 1010 38 35 84 76 42 18 59 59
rhino_behind_tree 619 0 1 0 0 20 1 16 0
running_rhino 763 0 7 0 0 14 0 0 0
saturated 218 3 3 1 0 2 0 4 2
selma 235 5 4 23 12 4 0 5 5
soccer 775 4 4 0 0 14 0 38 1
street 172 5 1 4 0 0 0 4 2
trees 665 4 13 0 0 14 5 38 0
TOTAL 11269 149 123 144 140 186 47 297 89
ANNEXE A. PERFORMANCES DES TRACKERS SUR VOT2015 ET VOT-TIR2015 184
Annexe B

Incomplétude des trackers sur


VOT2015 et VOT-TIR2015

Complementarite de 2 trackers, VOT2015


550 NCC−KLT
NCC−CT
NCC−STRUCK
500 NCC−DPM
NCC−DSST
NCC−MS
450 NCC−ASMS
KLT−CT
KLT−STRUCK
400 KLT−DPM
KLT−DSST
KLT−MS
Incompletude

350 KLT−ASMS
CT−STRUCK
CT−DPM
CT−DSST
300 CT−MS
CT−ASMS
STRUCK−DPM
250 STRUCK−DSST
STRUCK−MS
STRUCK−ASMS
200 DPM−DSST
DPM−MS
DPM−ASMS
150 DSST−MS
DSST−ASMS
MS−ASMS
100

50
0 5 10 15 20 25 30
N combinaison

(a) Combinaisons de 2 trackers

185
ANNEXE B. INCOMPLÉTUDE DES TRACKERS SUR VOT2015 ET VOT-TIR2015 186

NCC−KLT−CT NCC−KLT−STRUCK
NCC−KLT−DPM NCC−KLT−DSST
NCC−KLT−MS NCC−KLT−ASMS
Complementarite de 3 trackers, VOT2015 NCC−CT−STRUCK NCC−CT−DPM
140 NCC−CT−DSST NCC−CT−MS
NCC−CT−ASMS NCC−STRUCK−DPM
NCC−STRUCK−DSST NCC−STRUCK−MS
120 NCC−STRUCK−ASMS NCC−DPM−DSST
NCC−DPM−MS NCC−DPM−ASMS
NCC−DSST−MS NCC−DSST−ASMS
NCC−MS−ASMS KLT−CT−STRUCK
100 KLT−CT−DPM KLT−CT−DSST
KLT−CT−MS KLT−CT−ASMS
Incompletude

KLT−STRUCK−DPM KLT−STRUCK−DSST
KLT−STRUCK−MS KLT−STRUCK−ASMS
80 KLT−DPM−DSST KLT−DPM−MS
KLT−DPM−ASMS KLT−DSST−MS
KLT−DSST−ASMS KLT−MS−ASMS
60 CT−MS−ASMS CT−DSST−ASMS
CT−DSST−MS CT−DPM−ASMS
CT−DPM−MS CT−DPM−DSST
CT−STRUCK−ASMS CT−STRUCK−MS
40 CT−STRUCK−DSST CT−STRUCK−DPM
STRUCK−MS−ASMS STRUCK−DSST−ASMS
STRUCK−DSST−MS STRUCK−DPM−ASMS
STRUCK−DPM−MS STRUCK−DPM−DSST
20 DPM−DSST−MS DPM−DSST−ASMS
0 10 20 30 40 50 60
N combinaison DPM−MS−ASMS DSST−MS−ASMS

(b) Combinaisons de 3 trackers


DPM−DSST−MS−ASMS STRUCK−DSST−MS−ASMS
Complementarite de 4 trackers, VOT2015 STRUCK−DPM−MS−ASMS STRUCK−DPM−DSST−ASMS
70 STRUCK−DPM−DSST−MS CT−DSST−MS−ASMS
CT−DPM−MS−ASMS CT−DPM−DSST−ASMS
CT−DPM−DSST−MS CT−STRUCK−MS−ASMS
CT−STRUCK−DSST−ASMS CT−STRUCK−DSST−MS
CT−STRUCK−DPM−ASMS CT−STRUCK−DPM−MS
60 CT−STRUCK−DPM−DSST KLT−DSST−MS−ASMS
KLT−DPM−MS−ASMS KLT−DPM−DSST−ASMS
KLT−DPM−DSST−MS KLT−STRUCK−MS−ASMS
KLT−STRUCK−DSST−ASMS KLT−STRUCK−DSST−MS
KLT−STRUCK−DPM−ASMS KLT−STRUCK−DPM−MS
50 KLT−STRUCK−DPM−DSST KLT−CT−MS−ASMS
KLT−CT−DSST−ASMS KLT−CT−DSST−MS
Incompletude

KLT−CT−DPM−ASMS KLT−CT−DPM−MS
KLT−CT−DPM−DSST KLT−CT−STRUCK−ASMS
KLT−CT−STRUCK−MS KLT−CT−STRUCK−DSST
40 KLT−CT−STRUCK−DPM NCC−DSST−MS−ASMS
NCC−DPM−MS−ASMS NCC−DPM−DSST−ASMS
NCC−DPM−DSST−MS NCC−STRUCK−MS−ASMS
NCC−STRUCK−DSST−ASMS NCC−STRUCK−DSST−MS
NCC−STRUCK−DPM−ASMS NCC−STRUCK−DPM−MS
30 NCC−STRUCK−DPM−DSST NCC−CT−MS−ASMS
NCC−CT−DSST−ASMS NCC−CT−DSST−MS
NCC−CT−DPM−ASMS NCC−CT−DPM−MS
NCC−CT−DPM−DSST NCC−CT−STRUCK−ASMS
NCC−CT−STRUCK−MS NCC−CT−STRUCK−DSST
20 NCC−CT−STRUCK−DPM NCC−KLT−MS−ASMS
NCC−KLT−DSST−ASMS NCC−KLT−DSST−MS
NCC−KLT−DPM−ASMS NCC−KLT−DPM−MS
NCC−KLT−DPM−DSST NCC−KLT−STRUCK−ASMS
NCC−KLT−STRUCK−MS NCC−KLT−STRUCK−DSST
10 NCC−KLT−STRUCK−DPM NCC−KLT−CT−ASMS
0 10 20 30 40 50 60 70 NCC−KLT−CT−MS NCC−KLT−CT−DSST
N combinaison NCC−KLT−CT−DPM NCC−KLT−CT−STRUCK

(c) Combinaisons de 4 trackers


Complementarite de 5 trackers, VOT2015 STRUCK−DPM−DSST−MS−ASMS CT−DPM−DSST−MS−ASMS
28 CT−STRUCK−DSST−MS−ASMS CT−STRUCK−DPM−MS−ASMS
CT−STRUCK−DPM−DSST−ASMS CT−STRUCK−DPM−DSST−MS
26 KLT−DPM−DSST−MS−ASMS KLT−STRUCK−DSST−MS−ASMS
KLT−STRUCK−DPM−MS−ASMS KLT−STRUCK−DPM−DSST−ASMS
KLT−STRUCK−DPM−DSST−MS KLT−CT−DSST−MS−ASMS
24 KLT−CT−DPM−MS−ASMS KLT−CT−DPM−DSST−ASMS
KLT−CT−DPM−DSST−MS KLT−CT−STRUCK−MS−ASMS
22 KLT−CT−STRUCK−DSST−ASMS KLT−CT−STRUCK−DSST−MS
KLT−CT−STRUCK−DPM−ASMS KLT−CT−STRUCK−DPM−MS
KLT−CT−STRUCK−DPM−DSST NCC−DPM−DSST−MS−ASMS
Incompletude

20 NCC−STRUCK−DSST−MS−ASMS NCC−STRUCK−DPM−MS−ASMS
NCC−STRUCK−DPM−DSST−ASMS NCC−STRUCK−DPM−DSST−MS
18 NCC−CT−DSST−MS−ASMS NCC−CT−DPM−MS−ASMS
NCC−CT−DPM−DSST−ASMS NCC−CT−DPM−DSST−MS
NCC−CT−STRUCK−MS−ASMS NCC−CT−STRUCK−DSST−ASMS
16 NCC−CT−STRUCK−DSST−MS NCC−CT−STRUCK−DPM−ASMS
NCC−CT−STRUCK−DPM−MS NCC−CT−STRUCK−DPM−DSST
14 NCC−KLT−DSST−MS−ASMS NCC−KLT−DPM−MS−ASMS
NCC−KLT−DPM−DSST−ASMS NCC−KLT−DPM−DSST−MS
NCC−KLT−STRUCK−MS−ASMS NCC−KLT−STRUCK−DSST−ASMS
12 NCC−KLT−STRUCK−DSST−MS NCC−KLT−STRUCK−DPM−ASMS
NCC−KLT−STRUCK−DPM−MS NCC−KLT−STRUCK−DPM−DSST
10 NCC−KLT−CT−MS−ASMS NCC−KLT−CT−DSST−ASMS
NCC−KLT−CT−DSST−MS NCC−KLT−CT−DPM−ASMS
NCC−KLT−CT−DPM−MS NCC−KLT−CT−DPM−DSST
8
0 10 20 30 40 50 60 NCC−KLT−CT−STRUCK−ASMS NCC−KLT−CT−STRUCK−MS
N combinaison NCC−KLT−CT−STRUCK−DSST NCC−KLT−CT−STRUCK−DPM

(d) Combinaisons de 5 trackers


ANNEXE B. INCOMPLÉTUDE DES TRACKERS SUR VOT2015 ET VOT-TIR2015 187

Complementarite de 6 trackers, VOT2015


16 CT−STRUCK−DPM−DSST−MS−ASMS
KLT−STRUCK−DPM−DSST−MS−ASMS
KLT−CT−DPM−DSST−MS−ASMS
KLT−CT−STRUCK−DSST−MS−ASMS
KLT−CT−STRUCK−DPM−MS−ASMS
14 KLT−CT−STRUCK−DPM−DSST−ASMS
KLT−CT−STRUCK−DPM−DSST−MS
NCC−STRUCK−DPM−DSST−MS−ASMS
NCC−CT−DPM−DSST−MS−ASMS
NCC−CT−STRUCK−DSST−MS−ASMS
12 NCC−CT−STRUCK−DPM−MS−ASMS
NCC−CT−STRUCK−DPM−DSST−ASMS

Incompletude
NCC−CT−STRUCK−DPM−DSST−MS
NCC−KLT−DPM−DSST−MS−ASMS
NCC−KLT−STRUCK−DSST−MS−ASMS
NCC−KLT−STRUCK−DPM−MS−ASMS
10 NCC−KLT−STRUCK−DPM−DSST−ASMS
NCC−KLT−STRUCK−DPM−DSST−MS
NCC−KLT−CT−DSST−MS−ASMS
NCC−KLT−CT−DPM−MS−ASMS
NCC−KLT−CT−DPM−DSST−ASMS
8 NCC−KLT−CT−DPM−DSST−MS
NCC−KLT−CT−STRUCK−MS−ASMS
NCC−KLT−CT−STRUCK−DSST−ASMS
NCC−KLT−CT−STRUCK−DSST−MS
NCC−KLT−CT−STRUCK−DPM−ASMS
6 NCC−KLT−CT−STRUCK−DPM−MS
NCC−KLT−CT−STRUCK−DPM−DSST

4
0 10 20 30
N combinaison

(e) Combinaisons de 6 trackers


Complementarite de 7 trackers, VOT2015
10 NCC−KLT−CT−STRUCK−DPM−DSST−MS
NCC−KLT−CT−STRUCK−DPM−DSST−ASMS
NCC−KLT−CT−STRUCK−DPM−MS−ASMS
9.5 NCC−KLT−CT−STRUCK−DSST−MS−ASMS
NCC−KLT−CT−DPM−DSST−MS−ASMS
NCC−KLT−STRUCK−DPM−DSST−MS−ASMS
9 NCC−CT−STRUCK−DPM−DSST−MS−ASMS
KLT−CT−STRUCK−DPM−DSST−MS−ASMS

8.5
Incompletude

7.5

6.5

5.5

5
0 2 4 6 8
N combinaison

(f) Combinaisons de 7 trackers


Complementarite de 8 trackers, VOT2015
6 NCC−KLT−CT−STRUCK−DPM−DSST−MS−ASMS

5.8

5.6

5.4
Incompletude

5.2

4.8

4.6

4.4

4.2

4
0 1 2
N combinaison

(g) Combinaison de 8 trackers

Figure B.1 – Incomplétude calculée pour les combinaisons de 2-8 trackers sur VOT2015. Chaque
combinaison est représentée par un symbole. L’abscisse correspond au no de la combinaison de la
liste (légende de droite), par exemple l’abscisse 1 fait référence à la 1ère combinaison de la liste.
L’ordonnée indique l’incomplétude (en nombre d’images) de la combinaison correspondante.
ANNEXE B. INCOMPLÉTUDE DES TRACKERS SUR VOT2015 ET VOT-TIR2015 188

Complementarite de 2 trackers, VOT−TIR2015


250 NCC−KLT
NCC−CT
NCC−STRUCK
NCC−DPM
NCC−DSST
NCC−MS
200 NCC−ASMS
KLT−CT
KLT−STRUCK
KLT−DPM
KLT−DSST
KLT−MS
Incompletude 150 KLT−ASMS
CT−STRUCK
CT−DPM
CT−DSST
CT−MS
CT−ASMS
STRUCK−DPM
100 STRUCK−DSST
STRUCK−MS
STRUCK−ASMS
DPM−DSST
DPM−MS
DPM−ASMS
50 DSST−MS
DSST−ASMS
MS−ASMS

0
0 5 10 15 20 25 30
N combinaison

(a) Combinaisons de 2 trackers


ANNEXE B. INCOMPLÉTUDE DES TRACKERS SUR VOT2015 ET VOT-TIR2015 189

NCC−KLT−CT NCC−KLT−STRUCK
NCC−KLT−DPM NCC−KLT−DSST
NCC−KLT−MS NCC−KLT−ASMS
Complementarite de 3 trackers, VOT−TIR2015 NCC−CT−STRUCK NCC−CT−DPM
100 NCC−CT−DSST NCC−CT−MS
NCC−CT−ASMS NCC−STRUCK−DPM
90 NCC−STRUCK−DSST NCC−STRUCK−MS
NCC−STRUCK−ASMS NCC−DPM−DSST
NCC−DPM−MS NCC−DPM−ASMS
80 NCC−DSST−MS NCC−DSST−ASMS
NCC−MS−ASMS KLT−CT−STRUCK
70 KLT−CT−DPM KLT−CT−DSST
KLT−CT−MS KLT−CT−ASMS
Incompletude

KLT−STRUCK−DPM KLT−STRUCK−DSST
60
KLT−STRUCK−MS KLT−STRUCK−ASMS
KLT−DPM−DSST KLT−DPM−MS
50 KLT−DPM−ASMS KLT−DSST−MS
KLT−DSST−ASMS KLT−MS−ASMS
40 CT−MS−ASMS CT−DSST−ASMS
CT−DSST−MS CT−DPM−ASMS
CT−DPM−MS CT−DPM−DSST
30 CT−STRUCK−ASMS CT−STRUCK−MS
CT−STRUCK−DSST CT−STRUCK−DPM
20 STRUCK−MS−ASMS STRUCK−DSST−ASMS
STRUCK−DSST−MS STRUCK−DPM−ASMS
STRUCK−DPM−MS STRUCK−DPM−DSST
10 DPM−DSST−MS DPM−DSST−ASMS
0 10 20 30 40 50 60
N combinaison DPM−MS−ASMS DSST−MS−ASMS

(b) Combinaisons de 3 trackers


DPM−DSST−MS−ASMS STRUCK−DSST−MS−ASMS
Complementarite de 4 trackers, VOT−TIR2015 STRUCK−DPM−MS−ASMS STRUCK−DPM−DSST−ASMS
40 STRUCK−DPM−DSST−MS CT−DSST−MS−ASMS
CT−DPM−MS−ASMS CT−DPM−DSST−ASMS
CT−DPM−DSST−MS CT−STRUCK−MS−ASMS
CT−STRUCK−DSST−ASMS CT−STRUCK−DSST−MS
CT−STRUCK−DPM−ASMS CT−STRUCK−DPM−MS
35 CT−STRUCK−DPM−DSST KLT−DSST−MS−ASMS
KLT−DPM−MS−ASMS KLT−DPM−DSST−ASMS
KLT−DPM−DSST−MS KLT−STRUCK−MS−ASMS
KLT−STRUCK−DSST−ASMS KLT−STRUCK−DSST−MS
30 KLT−STRUCK−DPM−ASMS KLT−STRUCK−DPM−MS
KLT−STRUCK−DPM−DSST KLT−CT−MS−ASMS
KLT−CT−DSST−ASMS KLT−CT−DSST−MS
Incompletude

KLT−CT−DPM−ASMS KLT−CT−DPM−MS
25 KLT−CT−DPM−DSST KLT−CT−STRUCK−ASMS
KLT−CT−STRUCK−MS KLT−CT−STRUCK−DSST
KLT−CT−STRUCK−DPM NCC−DSST−MS−ASMS
NCC−DPM−MS−ASMS NCC−DPM−DSST−ASMS
20 NCC−DPM−DSST−MS NCC−STRUCK−MS−ASMS
NCC−STRUCK−DSST−ASMS NCC−STRUCK−DSST−MS
NCC−STRUCK−DPM−ASMS NCC−STRUCK−DPM−MS
NCC−STRUCK−DPM−DSST NCC−CT−MS−ASMS
NCC−CT−DSST−ASMS NCC−CT−DSST−MS
15 NCC−CT−DPM−ASMS NCC−CT−DPM−MS
NCC−CT−DPM−DSST NCC−CT−STRUCK−ASMS
NCC−CT−STRUCK−MS NCC−CT−STRUCK−DSST
NCC−CT−STRUCK−DPM NCC−KLT−MS−ASMS
10 NCC−KLT−DSST−ASMS NCC−KLT−DSST−MS
NCC−KLT−DPM−ASMS NCC−KLT−DPM−MS
NCC−KLT−DPM−DSST NCC−KLT−STRUCK−ASMS
NCC−KLT−STRUCK−MS NCC−KLT−STRUCK−DSST
5 NCC−KLT−STRUCK−DPM NCC−KLT−CT−ASMS
0 10 20 30 40 50 60 70 NCC−KLT−CT−MS NCC−KLT−CT−DSST
N combinaison NCC−KLT−CT−DPM NCC−KLT−CT−STRUCK

(c) Combinaisons de 4 trackers


Complementarite de 5 trackers, VOT−TIR2015 STRUCK−DPM−DSST−MS−ASMS CT−DPM−DSST−MS−ASMS
18 CT−STRUCK−DSST−MS−ASMS CT−STRUCK−DPM−MS−ASMS
CT−STRUCK−DPM−DSST−ASMS CT−STRUCK−DPM−DSST−MS
KLT−DPM−DSST−MS−ASMS KLT−STRUCK−DSST−MS−ASMS
16 KLT−STRUCK−DPM−MS−ASMS KLT−STRUCK−DPM−DSST−ASMS
KLT−STRUCK−DPM−DSST−MS KLT−CT−DSST−MS−ASMS
KLT−CT−DPM−MS−ASMS KLT−CT−DPM−DSST−ASMS
KLT−CT−DPM−DSST−MS KLT−CT−STRUCK−MS−ASMS
14 KLT−CT−STRUCK−DSST−ASMS KLT−CT−STRUCK−DSST−MS
KLT−CT−STRUCK−DPM−ASMS KLT−CT−STRUCK−DPM−MS
KLT−CT−STRUCK−DPM−DSST NCC−DPM−DSST−MS−ASMS
Incompletude

NCC−STRUCK−DSST−MS−ASMS NCC−STRUCK−DPM−MS−ASMS
12
NCC−STRUCK−DPM−DSST−ASMS NCC−STRUCK−DPM−DSST−MS
NCC−CT−DSST−MS−ASMS NCC−CT−DPM−MS−ASMS
NCC−CT−DPM−DSST−ASMS NCC−CT−DPM−DSST−MS
10 NCC−CT−STRUCK−MS−ASMS NCC−CT−STRUCK−DSST−ASMS
NCC−CT−STRUCK−DSST−MS NCC−CT−STRUCK−DPM−ASMS
NCC−CT−STRUCK−DPM−MS NCC−CT−STRUCK−DPM−DSST
NCC−KLT−DSST−MS−ASMS NCC−KLT−DPM−MS−ASMS
8
NCC−KLT−DPM−DSST−ASMS NCC−KLT−DPM−DSST−MS
NCC−KLT−STRUCK−MS−ASMS NCC−KLT−STRUCK−DSST−ASMS
NCC−KLT−STRUCK−DSST−MS NCC−KLT−STRUCK−DPM−ASMS
6 NCC−KLT−STRUCK−DPM−MS NCC−KLT−STRUCK−DPM−DSST
NCC−KLT−CT−MS−ASMS NCC−KLT−CT−DSST−ASMS
NCC−KLT−CT−DSST−MS NCC−KLT−CT−DPM−ASMS
NCC−KLT−CT−DPM−MS NCC−KLT−CT−DPM−DSST
4
0 10 20 30 40 50 60 NCC−KLT−CT−STRUCK−ASMS NCC−KLT−CT−STRUCK−MS
N combinaison NCC−KLT−CT−STRUCK−DSST NCC−KLT−CT−STRUCK−DPM

(d) Combinaisons de 5 trackers


ANNEXE B. INCOMPLÉTUDE DES TRACKERS SUR VOT2015 ET VOT-TIR2015 190

Complementarite de 6 trackers, VOT−TIR2015


8 CT−STRUCK−DPM−DSST−MS−ASMS
KLT−STRUCK−DPM−DSST−MS−ASMS
KLT−CT−DPM−DSST−MS−ASMS
KLT−CT−STRUCK−DSST−MS−ASMS
KLT−CT−STRUCK−DPM−MS−ASMS
7 KLT−CT−STRUCK−DPM−DSST−ASMS
KLT−CT−STRUCK−DPM−DSST−MS
NCC−STRUCK−DPM−DSST−MS−ASMS
NCC−CT−DPM−DSST−MS−ASMS
NCC−CT−STRUCK−DSST−MS−ASMS
6 NCC−CT−STRUCK−DPM−MS−ASMS
NCC−CT−STRUCK−DPM−DSST−ASMS

Incompletude
NCC−CT−STRUCK−DPM−DSST−MS
NCC−KLT−DPM−DSST−MS−ASMS
NCC−KLT−STRUCK−DSST−MS−ASMS
NCC−KLT−STRUCK−DPM−MS−ASMS
5 NCC−KLT−STRUCK−DPM−DSST−ASMS
NCC−KLT−STRUCK−DPM−DSST−MS
NCC−KLT−CT−DSST−MS−ASMS
NCC−KLT−CT−DPM−MS−ASMS
NCC−KLT−CT−DPM−DSST−ASMS
4 NCC−KLT−CT−DPM−DSST−MS
NCC−KLT−CT−STRUCK−MS−ASMS
NCC−KLT−CT−STRUCK−DSST−ASMS
NCC−KLT−CT−STRUCK−DSST−MS
NCC−KLT−CT−STRUCK−DPM−ASMS
3 NCC−KLT−CT−STRUCK−DPM−MS
NCC−KLT−CT−STRUCK−DPM−DSST

2
0 10 20 30
N combinaison

(e) Combinaisons de 6 trackers


Complementarite de 7 trackers, VOT−TIR2015
5 NCC−KLT−CT−STRUCK−DPM−DSST−MS
NCC−KLT−CT−STRUCK−DPM−DSST−ASMS
NCC−KLT−CT−STRUCK−DPM−MS−ASMS
NCC−KLT−CT−STRUCK−DSST−MS−ASMS
NCC−KLT−CT−DPM−DSST−MS−ASMS
4.5 NCC−KLT−STRUCK−DPM−DSST−MS−ASMS
NCC−CT−STRUCK−DPM−DSST−MS−ASMS
KLT−CT−STRUCK−DPM−DSST−MS−ASMS

4
Incompletude

3.5

2.5

2
0 2 4 6 8
N combinaison

(f) Combinaisons de 7 trackers


Complementarite de 8 trackers, VOT−TIR2015
3 NCC−KLT−CT−STRUCK−DPM−DSST−MS−ASMS

2.8

2.6

2.4
Incompletude

2.2

1.8

1.6

1.4

1.2

1
0 1 2
N combinaison

(g) Combinaison de 8 trackers

Figure B.2 – Incomplétude calculée pour les combinaisons de 2-8 trackers sur VOT-TIR2015.
Chaque combinaison est représentée par un symbole. L’abscisse correspond au no de la combinaison
de la liste (légende de droite), par exemple l’abscisse 1 fait référence à la 1ère combinaison de la
liste. L’ordonnée indique l’incomplétude (en nombre d’images) de la combinaison correspondante.
Bibliographie

[Achanta et al., 2012] Achanta, R., Shaji, A., Smith, K., Lucchi, A., Fua, P. et Süsstrunk,
S. (2012). Slic superpixels compared to state-of-the-art superpixel methods. IEEE transactions
on pattern analysis and machine intelligence, 34(11):2274–2282.

[Adam et al., 2006] Adam, A., Rivlin, E. et Shimshoni, I. (2006). Robust fragments-based
tracking using the integral histogram. In 2006 IEEE Computer Society Conference on Computer
Vision and Pattern Recognition (CVPR’06), volume 1, pages 798–805. IEEE.

[Ahonen et al., 2006] Ahonen, T., Hadid, A. et Pietikainen, M. (2006). Face description with
local binary patterns : Application to face recognition. IEEE transactions on pattern analysis
and machine intelligence, 28(12):2037–2041.

[Allen et al., 2004] Allen, J. G., Xu, R. Y. et Jin, J. S. (2004). Object tracking using camshift
algorithm and multiple quantized feature spaces. In Proceedings of the Pan-Sydney area
workshop on Visual information processing, pages 3–7. Australian Computer Society, Inc.

[Avidan, 2004] Avidan, S. (2004). Support vector tracking. IEEE transactions on pattern
analysis and machine intelligence, 26(8):1064–1072.

[Babenko et al., 2009] Babenko, B., Yang, M.-H. et Belongie, S. (2009). Visual tracking
with online multiple instance learning. In Computer Vision and Pattern Recognition, 2009.
CVPR 2009. IEEE Conference on, pages 983–990. IEEE.

[Bailer et al., 2014] Bailer, C., Pagani, A. et Stricker, D. (2014). A superior tracking
approach : Building a strong tracker through fusion. In Computer Vision–ECCV 2014, pages
170–185. Springer.

[Bailer et Stricker, 2015] Bailer, C. et Stricker, D. (2015). Tracker fusion on vot challenge :
How does it perform and what can we learn about single trackers ? In Proceedings of the IEEE
International Conference on Computer Vision Workshops, pages 67–75.

[Bar-Shalom et al., 2004] Bar-Shalom, Y., Li, X. R. et Kirubarajan, T. (2004). Estimation


with applications to tracking and navigation : theory algorithms and software. John Wiley &
Sons.

[Bar-Shalom et al., 2011] Bar-Shalom, Y., Willett, P. K. et Tian, X. (2011). Tracking and
data fusion : A Handbook of Algorithms. Yaakov Bar-Shalom.

191
BIBLIOGRAPHIE 192

[Bay et al., 2008] Bay, H., Ess, A., Tuytelaars, T. et Van Gool, L. (2008). Speeded-up
robust features (surf). Computer vision and image understanding, 110(3):346–359.

[Berg et al., 2015] Berg, A., Ahlberg, J. et Felsberg, M. (2015). A thermal object tracking
benchmark. In Advanced Video and Signal Based Surveillance (AVSS), 2015 12th IEEE
International Conference on, pages 1–6. IEEE.

[Biresaw et al., 2014a] Biresaw, T. A., Cavallaro, A. et Regazzoni, C. S. (2014a).


Correlation-based self-correcting tracking. Neurocomputing.

[Biresaw et al., 2014b] Biresaw, T. A., Cavallaro, A. et Regazzoni, C. S. (2014b). Tracker-


level fusion for robust bayesian visual tracking.

[Black et Jepson, 1998] Black, M. J. et Jepson, A. D. (1998). Eigentracking : Robust matching


and tracking of articulated objects using a view-based representation. International Journal
of Computer Vision, 26(1):63–84.

[Blackman, 2004] Blackman, S. S. (2004). Multiple hypothesis tracking for multiple target
tracking. IEEE Aerospace and Electronic Systems Magazine, 19(1):5–18.

[Bolme et al., 2010] Bolme, D. S., Beveridge, J. R., Draper, B. A. et Lui, Y. M. (2010).
Visual object tracking using adaptive correlation filters. In Computer Vision and Pattern
Recognition (CVPR), 2010 IEEE Conference on, pages 2544–2550. IEEE.

[Bordes et al., 2007] Bordes, A., Bottou, L., Gallinari, P. et Weston, J. (2007). Solving
multiclass support vector machines with larank. In Proceedings of the 24th international
conference on Machine learning, pages 89–96. ACM.

[Bordes et al., 2008] Bordes, A., Usunier, N. et Bottou, L. (2008). Sequence labelling svms
trained in one pass. In Joint European Conference on Machine Learning and Knowledge
Discovery in Databases, pages 146–161. Springer.

[Bradski, 2000] Bradski, G. (2000). Dr. Dobb’s Journal of Software Tools.

[Bradski, 1998] Bradski, G. R. (1998). Real time face and object tracking as a component of a
perceptual user interface. In Applications of Computer Vision, 1998. WACV’98. Proceedings.,
Fourth IEEE Workshop on, pages 214–219. IEEE.

[Brasnett et al., 2007] Brasnett, P., Mihaylova, L., Bull, D. et Canagarajah, N. (2007).
Sequential monte carlo tracking by fusing multiple cues in video sequences. Image and Vision
Computing, 25(8):1217–1227.

[Breitenstein et al., 2011] Breitenstein, M. D., Reichlin, F., Leibe, B., Koller-Meier, E.
et Van Gool, L. (2011). Online multiperson tracking-by-detection from a single, uncalibrated
camera. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 33(9):1820–1833.

[Brox et Malik, 2010] Brox, T. et Malik, J. (2010). Object segmentation by long term analysis
of point trajectories. In European conference on computer vision, pages 282–295. Springer.
BIBLIOGRAPHIE 193

[Čehovin et al., 2011] Čehovin, L., Kristan, M. et Leonardis, A. (2011). An adaptive coupled-
layer visual model for robust visual tracking. In 2011 International Conference on Computer
Vision, pages 1363–1370. IEEE.

[Čehovin et al., 2014] Čehovin, L., Kristan, M. et Leonardis, A. (2014). Is my new tracker
really better than yours ? In IEEE Winter Conference on Applications of Computer Vision,
pages 540–547. IEEE.

[Chau et al., 2009] Chau, D. P., Bremond, F. et Thonnat, M. (2009). Online evaluation
of tracking algorithm performance. In Crime Detection and Prevention (ICDP 2009), 3rd
International Conference on, pages 1–6. IET.

[Chu et Smeulders, 2010] Chu, D. M. et Smeulders, A. W. (2010). Thirteen hard cases in


visual tracking. In Advanced Video and Signal Based Surveillance (AVSS), 2010 Seventh IEEE
International Conference on, pages 103–110. IEEE.

[Collins et al., 2005] Collins, R., Zhou, X. et Teh, S. K. (2005). An open source tracking
testbed and evaluation web site. In IEEE International Workshop on Performance Evaluation
of Tracking and Surveillance, volume 35.

[Comaniciu et Meer, 2002] Comaniciu, D. et Meer, P. (2002). Mean shift : A robust approach
toward feature space analysis. Pattern Analysis and Machine Intelligence, IEEE Transactions
on, 24(5):603–619.

[Comaniciu et al., 2000] Comaniciu, D., Ramesh, V. et Meer, P. (2000). Real-time tracking
of non-rigid objects using mean shift. In Computer Vision and Pattern Recognition, 2000.
Proceedings. IEEE Conference on, volume 2, pages 142–149. IEEE.

[Dalal et Triggs, 2005] Dalal, N. et Triggs, B. (2005). Histograms of oriented gradients for
human detection. In 2005 IEEE Computer Society Conference on Computer Vision and
Pattern Recognition (CVPR’05), volume 1, pages 886–893. IEEE.

[Danelljan et al., 2014] Danelljan, M., Häger, G., Khan, F. et Felsberg, M. (2014). Ac-
curate scale estimation for robust visual tracking. In British Machine Vision Conference,
Nottingham, September 1-5, 2014. BMVA Press.

[Danelljan et al., 2015] Danelljan, M., Hager, G., Shahbaz Khan, F. et Felsberg, M.
(2015). Convolutional features for correlation filter based visual tracking. In Proceedings of
the IEEE International Conference on Computer Vision Workshops, pages 58–66.

[Di Stefano et al., 2005] Di Stefano, L., Mattoccia, S. et Tombari, F. (2005). Zncc-based
template matching using bounded partial correlation. Pattern recognition letters, 26(14):2129–
2134.

[Dubout et Fleuret, 2012] Dubout, C. et Fleuret, F. (2012). Exact acceleration of linear


object detectors. In Computer Vision–ECCV 2012, pages 301–311. Springer.

[Erdem et al., 2012] Erdem, E., Dubuisson, S. et Bloch, I. (2012). Visual tracking by fusing
multiple cues with context-sensitive reliabilities. Pattern Recognition, 45(5):1948 – 1959.
BIBLIOGRAPHIE 194

[Everingham et al., 2010] Everingham, M., Van Gool, L., Williams, C. K., Winn, J. et
Zisserman, A. (2010). The pascal visual object classes (voc) challenge. International journal
of computer vision, 88(2):303–338.

[Felsberg et al., 2015] Felsberg, M., Berg, A., Hager, G., Ahlberg, J., Kristan, M., Matas,
J., Leonardis, A., Cehovin, L., Fernandez, G., Vojir, T., Nebehay, G. et Pflugfelder,
R. (2015). The thermal infrared visual object tracking vot-tir2015 challenge results. In The
IEEE ICCV Workshops.

[Felzenszwalb et al., 2010] Felzenszwalb, P. F., Girshick, R. B., McAllester, D. et Rama-


nan, D. (2010). Object detection with discriminatively trained part-based models. PAMI,
IEEE Transactions on, 32(9):1627–1645.

[Ferryman et Ellis, 2010] Ferryman, J. et Ellis, A. (2010). Pets2010 : Dataset and challenge.
In Advanced Video and Signal Based Surveillance (AVSS), 2010 Seventh IEEE International
Conference on, pages 143–150. IEEE.

[Fischler et Bolles, 1981] Fischler, M. A. et Bolles, R. C. (1981). Random sample consensus :


a paradigm for model fitting with applications to image analysis and automated cartography.
Communications of the ACM, 24(6):381–395.

[Freund et al., 1996] Freund, Y., Schapire, R. E. et al. (1996). Experiments with a new
boosting algorithm. In Icml, volume 96, pages 148–156.

[Geiger et al., 2012] Geiger, A., Lenz, P. et Urtasun, R. (2012). Are we ready for autonomous
driving ? the kitti vision benchmark suite. In CVPR, 2012 IEEE Conference on, pages
3354–3361. IEEE.

[Gidaris et Komodakis, 2016] Gidaris, S. et Komodakis, N. (2016). Locnet : Improving locali-


zation accuracy for object detection. In Computer Vision and Pattern Recognition (CVPR),
2016 IEEE Conference on.

[Girshick et al., 2014] Girshick, R., Donahue, J., Darrell, T. et Malik, J. (2014). Rich
feature hierarchies for accurate object detection and semantic segmentation. In Computer
Vision and Pattern Recognition.

[Gordon et al., 1993] Gordon, N. J., Salmond, D. J. et Smith, A. F. (1993). Novel approach
to nonlinear/non-gaussian bayesian state estimation. In IEE Proceedings F-Radar and Signal
Processing, volume 140, pages 107–113. IET.

[Grabner et Bischof, 2006] Grabner, H. et Bischof, H. (2006). On-line boosting and vision.
In Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on,
volume 1, pages 260–267. IEEE.

[Grabner et al., 2006] Grabner, H., Grabner, M. et Bischof, H. (2006). Real-time tracking
via on-line boosting. In BMVC, volume 1, page 6.
BIBLIOGRAPHIE 195

[Grabner et al., 2008] Grabner, H., Leistner, C. et Bischof, H. (2008). Semi-supervised


on-line boosting for robust tracking. In European conference on computer vision, pages 234–247.
Springer.

[Grossberg, 1987] Grossberg, S. (1987). Competitive learning : From interactive activation to


adaptive resonance. Cognitive science, 11(1):23–63.

[Hare et al., 2011] Hare, S., Saffari, A. et Torr, P. H. (2011). Struck : Structured output
tracking with kernels. In ICCV, 2011 IEEE International Conference on, pages 263–270.
IEEE.

[Harris et Stephens, 1988] Harris, C. et Stephens, M. (1988). A combined corner and edge
detector. In Alvey vision conference, volume 15, page 50. Citeseer.

[Henriques et al., 2012] Henriques, J. F., Caseiro, R., Martins, P. et Batista, J. (2012).
Exploiting the circulant structure of tracking-by-detection with kernels. In Computer Vision–
ECCV 2012, pages 702–715. Springer.

[Henriques et al., 2015] Henriques, J. F., Caseiro, R., Martins, P. et Batista, J. (2015).
High-speed tracking with kernelized correlation filters. Pattern Analysis and Machine Intelli-
gence, IEEE Transactions on, 37(3):583–596.

[Hong et al., 2015a] Hong, S., You, T., Kwak, S. et Han, B. (2015a). Online tracking by
learning discriminative saliency map with convolutional neural network. In Blei, D. et
Bach, F., éditeurs : Proceedings of the 32nd International Conference on Machine Learning
(ICML-15), pages 597–606. JMLR Workshop and Conference Proceedings.

[Hong et al., 2015b] Hong, Z., Chen, Z., Wang, C., Mei, X., Prokhorov, D. et Tao, D.
(2015b). Multi-store tracker (muster) : A cognitive psychology inspired approach to object
tracking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 749–758.

[Hua et al., 2015] Hua, Y., Alahari, K. et Schmid, C. (2015). Online object tracking with
proposal selection. In Proceedings of the IEEE International Conference on Computer Vision,
pages 3092–3100.

[Isard et Blake, 1998] Isard, M. et Blake, A. (1998). Condensation—conditional density


propagation for visual tracking. International journal of computer vision, 29(1):5–28.

[Julier et Uhlmann, 1997] Julier, S. J. et Uhlmann, J. K. (1997). New extension of the kalman
filter to nonlinear systems. In AeroSense’97, pages 182–193. International Society for Optics
and Photonics.

[Julier et Uhlmann, 2004] Julier, S. J. et Uhlmann, J. K. (2004). Unscented filtering and


nonlinear estimation. Proceedings of the IEEE, 92(3):401–422.

[Kailath, 1967] Kailath, T. (1967). The divergence and bhattacharyya distance measures in
signal selection. IEEE transactions on communication technology, 15(1):52–60.
BIBLIOGRAPHIE 196

[Kalal et al., 2010a] Kalal, Z., Matas, J. et Mikolajczyk, K. (2010a). Pn learning : Bootstrap-
ping binary classifiers by structural constraints. In Computer Vision and Pattern Recognition
(CVPR), 2010 IEEE Conference on, pages 49–56. IEEE.

[Kalal et al., 2010b] Kalal, Z., Mikolajczyk, K. et Matas, J. (2010b). Forward-backward


error : Automatic detection of tracking failures. In Pattern Recognition (ICPR), 2010 20th
International Conference on, pages 2756–2759. IEEE.

[Kalal et al., 2012] Kalal, Z., Mikolajczyk, K. et Matas, J. (2012). Tracking-learning-


detection. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 34(7):1409–1422.

[Kalman, 1960] Kalman, R. E. (1960). A new approach to linear filtering and prediction
problems. Journal of Fluids Engineering, 82(1):35–45.

[Khan et al., 2014] Khan, M. H., Valstar, M. F. et Pridmore, T. P. (2014). A generalized


search method for multiple competing hypotheses in visual tracking. In Pattern Recognition
(ICPR), 2014 22nd International Conference on, pages 2245–2250. IEEE.

[Kim et al., 2008] Kim, M., Kumar, S., Pavlovic, V. et Rowley, H. (2008). Face tracking
and recognition with visual constraints in real-world videos. In Computer Vision and Pattern
Recognition, 2008. CVPR 2008. IEEE Conference on, pages 1–8. IEEE.

[Kitagawa, 1996] Kitagawa, G. (1996). Monte carlo filter and smoother for non-gaussian
nonlinear state space models. Journal of computational and graphical statistics, 5(1):1–25.

[Klaser et al., 2008] Klaser, A., Marszałek, M. et Schmid, C. (2008). A spatio-temporal


descriptor based on 3d-gradients. In BMVC 2008-19th British Machine Vision Conference,
pages 275–1. British Machine Vision Association.

[Kristan et al., 2015a] Kristan, M., Matas, J., Leonardis, A., Felsberg, M., Cehovin, L.,
Fernandez, G., Vojir, T., Hager, G., Nebehay, G. et Pflugfelder, R. (2015a). The
visual object tracking vot2015 challenge results. In The IEEE ICCV Workshops.

[Kristan et al., 2015b] Kristan, M., Matas, J., Leonardis, A., Vojir, T., Pflugfelder, R.,
Fernandez, G., Nebehay, G., Porikli, F. et Cehovin, L. (2015b). A novel performance
evaluation methodology for single-target trackers.

[Kristan et al., 2014] Kristan, M., Pflugfelder, R., Leonardis, A., Matas, J., Čehovin,
L., Nebehay, G., Vojíř, T., Fernandez, G., Lukežič, A., Dimitriev, A. et al. (2014). The
visual object tracking vot2014 challenge results. In Computer Vision-ECCV 2014 Workshops,
pages 191–217. Springer.

[Kristan et al., 2013] Kristan, M., Pflugfelder, R., Leonardis, A., Matas, J., Porikli, F.,
Cehovin, L., Nebehay, G., Fernandez, G., Vojir, T., Gatt, A. et al. (2013). The visual
object tracking vot2013 challenge results. In ICCVW, 2013 IEEE International Conference
on, pages 98–111. IEEE.

[Kwon et Lee, 2010] Kwon, J. et Lee, K. M. (2010). Visual tracking decomposition. In Computer
Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 1269–1276. IEEE.
BIBLIOGRAPHIE 197

[Kwon et Lee, 2011] Kwon, J. et Lee, K. M. (2011). Tracking by sampling trackers. In Computer
Vision (ICCV), 2011 IEEE International Conference on, pages 1195–1202. IEEE.

[Kwon et Lee, 2013] Kwon, J. et Lee, K. M. (2013). Highly nonrigid object tracking via patch-
based dynamic appearance modeling. IEEE transactions on pattern analysis and machine
intelligence, 35(10):2427–2441.

[Leal-Taixé et al., 2015] Leal-Taixé, L., Milan, A., Reid, I., Roth, S. et Schindler, K.
(2015). Motchallenge 2015 : Towards a benchmark for multi-target tracking. arXiv preprint
arXiv :1504.01942.

[Lebeda et al., 2016] Lebeda, K., Hadfield, S., Matas, J. et Bowden, R. (2016). Texture-
independent long-term tracking using virtual corners. IEEE Transactions on Image Processing,
25(1):359–371.

[Lewis, 1995] Lewis, J. (1995). Fast normalized cross-correlation. In Vision interface, volume 10,
pages 120–123.

[Li et al., 2013] Li, X., Hu, W., Shen, C., Zhang, Z., Dick, A. et Hengel, A. V. D. (2013).
A survey of appearance models in visual object tracking. ACM transactions on Intelligent
Systems and Technology (TIST), 4(4):58.

[Li et al., 2015] Li, Y., Zhu, J. et Hoi, S. C. (2015). Reliable patch trackers : Robust visual
tracking by exploiting reliable patches. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pages 353–361.

[Lowe, 2004] Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints.
International journal of computer vision, 60(2):91–110.

[Lucas et al., 1981] Lucas, B. D., Kanade, T. et al. (1981). An iterative image registration
technique with an application to stereo vision. In IJCAI, volume 81, pages 674–679.

[Ma et al., 2015] Ma, C., Yang, X., Zhang, C. et Yang, M.-H. (2015). Long-term correlation
tracking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
pages 5388–5396.

[Matas et Vojíř, 2011] Matas, J. et Vojíř, T. (2011). Robustifying the flock of trackers. In
16th Computer Vision Winter Workshop. Citeseer, page 91. Citeseer.

[Matthews et al., 2004] Matthews, I., Ishikawa, T., Baker, S. et al. (2004). The template
update problem. IEEE transactions on pattern analysis and machine intelligence, 26(6):810–
815.

[McKenna et al., 1999] McKenna, S. J., Raja, Y. et Gong, S. (1999). Tracking colour objects
using adaptive mixture models. Image and vision computing, 17(3):225–231.

[Mei et Ling, 2011] Mei, X. et Ling, H. (2011). Robust visual tracking and vehicle classification
via sparse representation. IEEE Transactions on Pattern Analysis and Machine Intelligence,
33(11):2259–2272.
BIBLIOGRAPHIE 198

[Mei et al., 2011] Mei, X., Ling, H., Wu, Y., Blasch, E. et Bai, L. (2011). Minimum error
bounded efficient l1 tracker with occlusion detection. In Computer Vision and Pattern
Recognition (CVPR), 2011 IEEE Conference on, pages 1257–1264. IEEE.

[Moujtahid et al., 2015a] Moujtahid, S., Duffner, S. et Baskurt, A. (2015a). Classifying


global scene context for on-line multiple tracker selection. In British Machine Vision Conference
(BMVC).

[Moujtahid et al., 2015b] Moujtahid, S., Duffner, S. et Baskurt, A. (2015b). Coherent


selection of independent trackers for real-time object tracking. In International Conference on
Computer Vision Theory and Applications (VISAPP), pages 584–592.

[Mouret et Doncieux, 2010] Mouret, J.-B. et Doncieux, S. (2010). SFERESv2 : Evolvin’


in the multi-core world. In Proc. of Congress on Evolutionary Computation (CEC), pages
4079–4086.

[Nam et al., 2016] Nam, H., Baek, M. et Han, B. (2016). Modeling and propagating cnns in a
tree structure for visual tracking. CoRR, abs/1608.07242.

[Nam et Han, 2015] Nam, H. et Han, B. (2015). Learning multi-domain convolutional neural
networks for visual tracking. arXiv preprint arXiv :1510.07945.

[Nebehay et Pflugfelder, 2015] Nebehay, G. et Pflugfelder, R. (2015). Clustering of static-


adaptive correspondences for deformable object tracking. In Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, pages 2784–2791.

[Ozuysal et al., 2010] Ozuysal, M., Calonder, M., Lepetit, V. et Fua, P. (2010). Fast
keypoint recognition using random ferns. IEEE transactions on pattern analysis and machine
intelligence, 32(3):448–461.

[Penne et al., 2013] Penne, T., Tilmant, C., Chateau, T. et Barra, V. (2013). Markov chain
monte carlo modular ensemble tracking. Image and Vision Computing, 31(6):434–447.

[Phillips et al., 2000] Phillips, P. J., Moon, H., Rizvi, S. A. et Rauss, P. J. (2000). The
feret evaluation methodology for face-recognition algorithms. IEEE Transactions on pattern
analysis and machine intelligence, 22(10):1090–1104.

[Platt, 1999] Platt, J. C. (1999). Fast training of support vector machines using sequential
minimal optimization. Advances in kernel methods, pages 185–208.

[Qi et al., 2016] Qi, Y., Zhang, S., Qin, L., Yao, H., Huang, Q. et Yang, J. L. M.-H. (2016).
Hedged deep tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern
Recognition.

[Ross et al., 2008] Ross, D. A., Lim, J., Lin, R.-S. et Yang, M.-H. (2008). Incremental learning
for robust visual tracking. International Journal of Computer Vision, 77(1-3):125–141.

[Russakovsky et al., 2015] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S.,
Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A. C. et Fei-Fei,
BIBLIOGRAPHIE 199

L. (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of


Computer Vision (IJCV), 115(3):211–252.

[Salahshoor et al., 2008] Salahshoor, K., Mosallaei, M. et Bayat, M. (2008). Centralized


and decentralized process and sensor fault monitoring using data fusion based on adaptive
extended kalman filter algorithm. Measurement, 41(10):1059–1076.

[Salti et al., 2012] Salti, S., Cavallaro, A. et Di Stefano, L. (2012). Adaptive appearance
modeling for video tracking : Survey and evaluation. IEEE Transactions on Image Processing,
21(10):4334–4348.

[SanMiguel et al., 2012] SanMiguel, J. C., Cavallaro, A. et Martínez, J. M. (2012). Adap-


tive online performance evaluation of video trackers. Image Processing, IEEE Transactions on,
21(5):2812–2823.

[Santner et al., 2010] Santner, J., Leistner, C., Saffari, A., Pock, T. et Bischof, H. (2010).
Prost : Parallel robust online simple tracking. In Computer Vision and Pattern Recognition
(CVPR), 2010 IEEE Conference on, pages 723–730. IEEE.

[Shi et Tomasi, 1994] Shi, J. et Tomasi, C. (1994). Good features to track. In Computer
Vision and Pattern Recognition, 1994. Proceedings CVPR’94., 1994 IEEE Computer Society
Conference on, pages 593–600. IEEE.

[Siebel et Maybank, 2002] Siebel, N. T. et Maybank, S. (2002). Fusion of multiple tracking


algorithms for robust people tracking. In Computer Vision—ECCV 2002, pages 373–387.
Springer.

[Simonyan et al., 2014] Simonyan, K., Vedaldi, A. et Zisserman, A. (2014). Deep inside convo-
lutional networks : Visualising image classification models and saliency maps. In Proceedings
of the International Conference on Learning Representations (ICLR).

[Simonyan et Zisserman, 2014] Simonyan, K. et Zisserman, A. (2014). Very deep convolutional


networks for large-scale image recognition. CoRR, abs/1409.1556.

[Smeulders et al., 2014] Smeulders, A. W., Chu, D. M., Cucchiara, R., Calderara, S.,
Dehghan, A. et Shah, M. (2014). Visual tracking : An experimental survey. Pattern Analysis
and Machine Intelligence, IEEE Transactions on, 36(7):1442–1468.

[Stenger et al., 2009] Stenger, B., Woodley, T. et Cipolla, R. (2009). Learning to track
with multiple observers. In Computer Vision and Pattern Recognition, 2009. CVPR 2009.
IEEE Conference on, pages 2647–2654. IEEE.

[Supancic et Ramanan, 2013] Supancic, J. S. et Ramanan, D. (2013). Self-paced learning for


long-term tracking. In Proceedings of the IEEE conference on computer vision and pattern
recognition, pages 2379–2386.

[Tuytelaars et Mikolajczyk, 2008] Tuytelaars, T. et Mikolajczyk, K. (2008). Local invariant


feature detectors : a survey. Foundations and trends
R in computer graphics and vision,

3(3):177–280.
BIBLIOGRAPHIE 200

[Vapnik, 1995] Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer-Verlag
New York, Inc., New York, NY, USA.

[Viola et al., 2005] Viola, P., Jones, M. J. et Snow, D. (2005). Detecting pedestrians using
patterns of motion and appearance. International Journal of Computer Vision, 63(2):153–161.

[Vojíř et Matas, 2014] Vojíř, T. et Matas, J. (2014). The enhanced flock of trackers. In
Registration and Recognition in Images and Videos, pages 113–136. Springer.

[Vojir et al., 2015] Vojir, T., Matas, J. et Noskova, J. (2015). Online adaptive hidden markov
model for multi-tracker fusion. arXiv preprint arXiv :1504.06103.

[Vojir et al., 2013] Vojir, T., Noskova, J. et Matas, J. (2013). Robust scale-adaptive mean-
shift for tracking. In Scandinavian Conference on Image Analysis, pages 652–663. Springer.

[Vojir et al., 2014] Vojir, T., Noskova, J. et Matas, J. (2014). Robust scale-adaptive mean-
shift for tracking. Pattern Recognition Letters, 49:250 – 258.

[Vondrick et al., 2013] Vondrick, C., Patterson, D. et Ramanan, D. (2013). Efficiently


scaling up crowdsourced video annotation. International Journal of Computer Vision, 101(1):
184–204.

[Wang et al., 2013] Wang, D., Lu, H. et Yang, M.-H. (2013). Online object tracking with
sparse prototypes. IEEE transactions on image processing, 22(1):314–325.

[Wang et al., 2015a] Wang, L., Ouyang, W., Wang, X. et Lu, H. (2015a). Visual tracking
with fully convolutional networks. In The IEEE International Conference on Computer Vision
(ICCV).

[Wang et al., 2016] Wang, L., Ouyang, W., Wang, X. et Lu, H. (2016). Stct : Sequentially
training convolutional networks for visual tracking. CVPR.

[Wang et al., 2015b] Wang, N., Shi, J., Yeung, D.-Y. et Jia, J. (2015b). Understanding and
diagnosing visual tracking systems. In Proceedings of the IEEE International Conference on
Computer Vision, pages 3101–3109.

[Wang et Yeung, 2013] Wang, N. et Yeung, D.-Y. (2013). Learning a deep compact image
representation for visual tracking. In Advances in neural information processing systems, pages
809–817.

[Wu et al., 2013] Wu, Y., Lim, J. et Yang, M.-H. (2013). Online object tracking : A benchmark.
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages
2411–2418.

[Xiao et al., 2015] Xiao, J., Stolkin, R. et Leonardis, A. (2015). Single target tracking using
adaptive clustered decision trees and dynamic multi-level appearance models. In Proceedings
of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4978–4987.

[Xiong et Svensson, 2002] Xiong, N. et Svensson, P. (2002). Multi-sensor management for


information fusion : issues and approaches. Information fusion, 3(2):163–186.
BIBLIOGRAPHIE 201

[Yang et al., 2011] Yang, H., Shao, L., Zheng, F., Wang, L. et Song, Z. (2011). Recent
advances and trends in visual tracking : A review. Neurocomputing, 74(18):3823–3831.

[Yilmaz, 2007] Yilmaz, A. (2007). Object tracking by asymmetric kernel mean shift with
automatic scale and orientation selection. In 2007 IEEE Conference on Computer Vision and
Pattern Recognition, pages 1–6. IEEE.

[Yilmaz et al., 2006] Yilmaz, A., Javed, O. et Shah, M. (2006). Object tracking : A survey.
Acm computing surveys (CSUR), 38(4):13.

[Yoon et al., 2012] Yoon, J. H., Kim, D. Y. et Yoon, K.-J. (2012). Visual tracking via adaptive
tracker selection with multiple features. In Computer Vision–ECCV 2012, pages 28–41.
Springer.

[Zass et Shashua, 2008] Zass, R. et Shashua, A. (2008). Probabilistic graph and hypergraph
matching. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference
on, pages 1–8. IEEE.

[Zhang et al., 2014a] Zhang, J., Ma, S. et Sclaroff, S. (2014a). Meem : Robust tracking via
multiple experts using entropy minimization. In Computer Vision–ECCV 2014, pages 188–203.
Springer.

[Zhang et al., 2012] Zhang, K., Zhang, L. et Yang, M.-H. (2012). Real-time compressive
tracking. In Computer Vision–ECCV 2012, pages 864–877. Springer.

[Zhang et al., 2014b] Zhang, P., Wang, J., Farhadi, A., Hebert, M. et Parikh, D. (2014b).
Predicting failures of vision systems. In Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pages 3566–3573.

[Zhao et Pietikainen, 2007] Zhao, G. et Pietikainen, M. (2007). Dynamic texture recognition


using local binary patterns with an application to facial expressions. IEEE transactions on
pattern analysis and machine intelligence, 29(6):915–928.

[Zhong et al., 2014] Zhong, B., Yao, H., Chen, S., Ji, R., Chin, T.-J. et Wang, H. (2014).
Visual tracking via weakly supervised learning from multiple imperfect oracles. Pattern
Recognition, 47(3):1395 – 1410.

[Zhong et al., 2012] Zhong, W., Lu, H. et Yang, M.-H. (2012). Robust object tracking via
sparsity-based collaborative model. In Computer vision and pattern recognition (CVPR), 2012
IEEE Conference on, pages 1838–1845. IEEE.

Вам также может понравиться