Thématique 1 : Interaction et extraction de contenu audiovisuel

Directeur thématique : Langis Gagnon, Ph.D.
Collaborateurs : CRIM, Université Laval (Prof. Denis Laurendeau), Université de Montréal (Prof. James Turner)

Le but de la thématique 1 est de développer des outils logiciels pour l'analyse et l'extraction automatique de contenu audiovisuel dans des documents vidéo afin de faciliter l'accessibilité aux non-voyants et malvoyants ainsi que pour les sourds et malentendants, et faciliter la recherche de contenu audiovisuel dans des archives audiovisuelles. Les projets de la thématique 1 sont :

  • Projet 1.1 : Sous-titrage intelligent
Ce projet vise à offrir aux personnes sourdes et malentendantes un sous-titrage adaptatif afin d’en faciliter la lecture et la compréhension. L’adaptation sera faite en fonction de l’action visuelle et de la présence du visage des personnages. Une étude sera effectuée avec des personnes sourdes et malentendantes pour mesurer la facilité de lecture et le niveau de surcharge attentionnelle lorsque la vidéo et le texte sont présentés simultanément. L’expérimentation utilisera l’oculométrie (eye-tracking), suivie d’une évaluation de la surcharge attentionnelle. Des outils logiciels seront développés pour ajuster automatiquement l’affichage du sous-titrage à l’intérieur d’une vidéo, en évitant que les téléspectateurs soient désorientés ou qu’ils perdent des parties importantes d’information. PRÉSENTATION RÉCENTE
  • Projet 1.2 : Encodage du contenu audiovisuel pour la vidéo description assistée par ordinateur
Ce projet vise à développer des outils d’identification de caractéristiques et d’interprétation sémantique pour informatiser la production de vidéo description destinée aux personnes aveugles. Les outils qui seront développés incluent la détection de transition graduelle de plans, la segmentation de scènes, d’activités humaines et de gestes, la caractérisation de mouvements de caméra, l'identification des figures, etc. Les encodeurs audiovisuels seront développés sous forme de plugiciels de logiciels libres d’édition vidéo, tels que VirtualDub et AviSynth. Un autre but du projet est d'élaborer une typologie de vidéo description et de créer des lignes directrices à l’intention des producteurs de films et d’émissions de télévision. PRÉSENTATION RÉCENTE 1; PRÉSENTATION RÉCENTE 2
  • Projet 1.3 : Enhanced talking Web browser
Le but du projet 1.3 est d'explorer la possibilité d'enrichir un site Web qui aurait une grande quantité de contenu visuel (images et vidéos) par l'accessibilité à de la vidéo description. Nous voulons développer une version améliorée d'un site Web qui supporte un lecteur adaptif de vidéo description permettant aux utilisateurs aveugles de choisir les descripteurs pour obtenir l'information visuelle qu'ils désirent, tant au niveau du type (selon notre typologie) que sur la quantité de vidéo description. PRÉSENTATION RÉCENTE; Site expérimental de videodescription adaptive/accessible avec voix de synthèse
  • Projet 1.4 : Reading mobile camera
Ce projet vise à adapter l'algorithme de Reconnaissance Optique de Caractères conçu dans le Projet 1.2 pour la détection de textes dans des films, afin d'aider les personnes aveugles à traiter et comprendre l'information textuelle qui les entoure lors de déplacements dans un environnement urbain.
  • Projet 1.5 : Visual captioning at play
Ce projet vise à fournir une alternative au sous-titrage traditionnel des matchs de hockey à la télévision. Nous visons à développer un ordinateur qui peut détecter la présence d'un joueur en identifiant son numéro de chandail et transcrit automatiquement son nom à l'écran.

Outils logiciels en développement :

  • Logiciel de synchronisation (version beta) : Pour l'acquisition et la synchronisation de données issues d'un oculomètre, d'un lecteur vidéo et d'une manette de jeu, pour l'analyse de la surcharge attentionnelle
  • SmartCaption (preuve de concept): Pour le positionnement des sous-titres en fonction de la présence de figures, de texte et de mouvement dans une scène
  • Video Ground Truth Maker (version beta) : Pour l'étiquettage de contenu visuel et les mesures de performances d'outils automatiques d'indexation
  • Video Description Manager (prototype; version beta à venir) : Pour la coordination des différents modules d'extraction de contenu audio-visuel (transition, figures, texte, mouvement, lieux, etc.) et la génération assistée par ordinateur de vidéo description
  • Adaptive Video Description Player (prototype; version beta à venir) : Pour la sélection du type et du niveau de vidéo description lors de la lecture du film, selon les préférences de l'usager
Fichier attachéTaille
Projects map of Theme 151.06 Ko
Screen captures of software tools191.43 Ko