Représenter pour suivre : Exploitation de représentations parcimonieuses pour le suivi multi-objets

Loïc Fagot-Bouquet

Résumé

Visual object tracking is a subject of significant relevance in Computer Vision and its practical applications are numerous and exploited in various areas. For example, it is used in videosurveillance domain or by self-driving car technologies that require a full understanding of the vehicle surroundings. Multiple Object Tracking based on the tracking-by-detection paradigm has widely benefited from the recent developments in object detection. However, object detectors sometimes give erroneous responses, like missed detections, false positives, or imprecise detections. Maintaining target identities and handling occlusions are some other issues more specific to Multiple Object Tracking, which remains a challenging problem. Many recent approaches have exploited complex appearance models to distinguish more efficiently the targets and gain in robustness. In this thesis, we have followed the same idea by considering appearance models based on sparse representations that have been widely used in Single Object Tracking. We focus on people tracking since most practical applications are dealing with this object category. The first contribution of this thesis consists in designing an online, meaning frame by frame, tracking approach that takes advantage of collaborative sparse representations to define the affinity values between the estimated trajectories and the last detections. Furthermore, different possible descriptions of the targets, either holistic or local ones, have been considered. Contrary to offline approaches that consider several frames, online approaches are not able to correct possible association errors like identity switches or track fragmentations. Therefore, we proposed for our second contribution to develop a tracking system with a sliding window, based on a MCMCDA approach, able to correct association errors by exploiting sparse representations well-suited for this specific framework. Since the dictionaries used are composed solely of detections, the quality of the representations based on these dictionaries is highly dependent on the performance of the object detector. In order to rely less on the detector quality, we consider for the last contribution of this thesis to use dense dictionaries that are taking into account all possible locations of a target inside each frame. Many quantitative evaluations were performed using usual and public datasets, notably those of the MOTChallenge, in order to provide a consistent comparison with other recent approaches. These evaluations show the gain in performances of our proposed contributions and demonstrate the relevance of the choices that had been made.

Le suivi visuel d’objets est un sujet d’importance en Vision par Ordinateur dont les applications pratiques sont multiples et exploitées dans des domaines assez diversifiés. On peut citer en particulier les problématiques de vidéo-surveillance ou encore celles liées aux voitures autonomes pour lesquelles il est crucial d’analyser correctement l’environnement. Cette thèse se focalise sur le problème de suivi multi-objets en considérant plus spécifiquement le suivi de personnes multiples, cette catégorie d’objets étant l’une des plus fréquentes dans les applications déployées en pratique. Le suivi multi-objets, en utilisant le paradigme de suivi par détection, a grandement profité des avancées récentes en détection d’objets. Néanmoins, le suivi multiobjets présente encore plusieurs problèmes spécifiques et reste ainsi une problématique difficile en Vision par Ordinateur. Les détecteurs donnent occasionnellement des réponses erronées, principalement des objets non détectés ou des fausses détections, face auxquelles un algorithme de suivi doit être le plus robuste possible. Pour aboutir à des systèmes plus robustes, de nombreuses approches récentes cherchent à exploiter des modèles d’apparence spécifiques afin de mieux différencier les cibles. Cette même approche a été suivie pour cette thèse, en nous inspirant de méthodes de suivi mono-objet à base de représentations parcimonieuses. Bien que l’emploi de telles représentations se soit révélé efficace dans plusieurs domaines en Vision par Ordinateur, cet outil restait peu utilisé pour le suivi multi-objets. La première contribution présentée dans ce manuscrit consiste à employer des représentations parcimonieuses collaboratives dans un système de suivi en ligne, image après image, pour définir les affinités en apparence entre les trajectoires estimées et les dernières détections. Des considérations sur les descriptions possibles des cibles, holistiques ou locales, ont de plus été examinées. Les approches en ligne ne peuvent cependant remettre en cause les choix d’appariement effectués à chaque image contrairement à des méthodes considérant simultanément plusieurs images consécutives. Notre seconde contribution a alors été de proposer une méthode de suivi à fenêtre glissante, ou multi-images, permettant de corriger d’éventuelles erreurs d’appariement en exploitant des représentations parcimonieuses adaptées à ce cadre spécifique. La dernière contribution développée dans ce manuscrit envisage l’emploi de dictionnaires denses pour définir les représentations parcimonieuses. Des dictionnaires denses, prenant en considération toutes les positions possibles dans une image, permettent de moins dépendre de la qualité du détecteur d’objets comparés à des dictionnaires définis à partir de détections. De nombreuses évaluations quantitatives ont été réalisées sur des base de données publiques usuelles afin de permettre une comparaison avec d’autres approches récentes. Ces évaluations attestent des gains en performances des contributions proposées et valident ainsi les choix effectués.

Representing to follow: Exploitation of parsimonious representations for multi-object tracking

Représenter pour suivre : Exploitation de représentations parcimonieuses pour le suivi multi-objets

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager