Séminaire Olfa Ben Ahmed


Event Details

  • Date:
  • Categories:

Titre : Analyse multimodale profonde de la vidéo

Résumé :

Durant les dernières années, les méthodes d’apprentissage profond ont montré leurs performance dans différent domaines d’analyse d’information audio-visuelle. Ce progrès a ouvert la porte à l’exploitation de ces méthodes pour l’analyse du visage et la reconnaissance multimodale des émotions dans des vidéos difficiles à analyser (films d’Hollywood , émission TV, etc.). Cependant, le manque de données multimodales annotées limite les possibilités de réaliser un apprentissage efficace de tels systèmes de reconnaissance. Dans ce séminaire, je présente mes travaux de recherche en analyse du visage et en reconnaissance d’émotion dans des flux vidéo avec les réseaux profonds. Ces travaux s’inscrivent dans le cadre de projet FUI NexGenTV dans lequel j’ai participé. NexGenTV propose un système de reconnaissance de visage et d’enrichissement de contenu audio-visuel basé sur la fusion des différent types d’information multimédia (vidéo, audio, twitter, etc.). La partie reconnaissance d’émotion propose une architecture profonde multimodale constituée d’une combinaison des modèles de réseaux profond. Chaque modèle est spécialisé dans une modalité. De plus, l’évolution temporelle de la vidéo est modulée par des agrégations temporelles des informations spatiales et acoustiques. L’approche de fusion proposée dans cette architecture, à l’inverse des approches classiques de fusion d’information multimodale (tardive, précoce), permet de tirer d’avantage de la contribution de chaque modalité dans la reconnaissance.