Analyse multimodale de situations conflictuelles en contexte véhicule - Thèses du Laboratoire d'analyse et d'architecture des systèmes Accéder directement au contenu
Thèse Année : 2022

Multimodal analysis of conflict scenarii in a vehicle context

Analyse multimodale de situations conflictuelles en contexte véhicule

Quentin Portes
  • Fonction : Auteur
  • PersonId : 1110067
  • IdRef : 265471176

Résumé

In this thesis we study human interactions in order to identify conflictual situations in the vehicle cabin. Humans most commonly use sight and hearing to analyze interactions. This task seems trivial, but is complex for an artificial intelligence model. It must capture video and audio information and analyze it to make a prediction. Our approach is new compared to previous research on this topic since passengers are constrained in their movements in the cabin and the computing power on board for this task is limited. To our knowledge, no work has been done on the analysis of human interactions for conflictual situation detection in this context and with these constraints. Our investigations are first based on a public corpus of sentiment analysis to compare with the literature. We implement a model capable of ingesting video, audio and text data (audio transcription) to merge them and make a decision. In our application context, we then record a multimodal dataset of hum! an interactions simulating more or less conflictual situations in a vehicle cockpit. This database is exploited to implement end-to-end and parametric classification models. The results obtained are consistent with the literature on the impact of each modality on the system performance. Thus, the text is more informative than audio and video. The different fusion approaches implemented show significant benefits on the performance of single-modality classification. The development step of all our systems are guided with the objective to integrate them on an on-board vehicle platform.
Dans cette thèse nous étudions les interactions humaines afin d’identifier des situations conflictuelles dans l’habitacle d’un véhicule. Les humains utilisent le plus communément la vue et l'ouïe pour analyser les interactions. Cette tâche paraît anodine, mais reste complexe pour un modèle d'intelligence artificielle. Celui-ci doit capturer les informations vidéo et audio et les analyser pour prédire une situation conflictuelle. Notre approche est nouvelle en regard des travaux réalisés jusque-là sur ce sujet puisque les passagers sont contraints dans leurs mouvements dans l’habitacle et que la puissance de calcul embarqué pour cette tâche est limitée. Aucun travail, à notre connaissance, ne s'est intéressé à l’analyse des interactions humaines pour la détection de situations conflictuelles dans ce contexte et avec ces contraintes. Nos investigations s’appuient tout d’abord sur un corpus public (intitulé MOSI) d'analyse de sentiment pour se comparer à la littérature. Nous implémentons un modèle capable d'ingérer des données vidéo, audio et texte (transcription de l'audio) pour les fusionner et prendre une décision. Dans notre contexte applicatif, nous enregistrons par la suite un jeu de données multimodal d'interactions humaines simulant des situations plus ou moins conflictuelles dans un habitacle de véhicule. Cette base de données est exploitée afin d'implémenter des modèles de classification de bout-en-bout et paramétrique. Les résultats obtenus sont cohérents avec la littérature sur l’impact de chaque modalité sur les performances du système. Ainsi, le texte est respectivement plus informatif que l’audio et que la vidéo. Les différentes approches de fusion implémentées montrent d! es bénéfices notables sur les performances de classification mono-modalité. Le développement de nos systèmes est mené avec l'objectif de les intégrer sur une plateforme embarquée pour véhicule. Pour ce faire, les coûts en calculs de nos modèles sont considérés.
Fichier principal
Vignette du fichier
PORTES Quentin.pdf (11.78 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03823664 , version 1 (21-10-2022)
tel-03823664 , version 2 (10-11-2022)

Identifiants

  • HAL Id : tel-03823664 , version 1

Citer

Quentin Portes. Analyse multimodale de situations conflictuelles en contexte véhicule. Robotique [cs.RO]. UPS Toulouse, 2022. Français. ⟨NNT : ⟩. ⟨tel-03823664v1⟩
109 Consultations
42 Téléchargements

Partager

Gmail Facebook X LinkedIn More