Thématique 2 : Reconnaissance de la parole et du contexte sonore

Theme 2 :Reconnaissance de la parole et du contexte sonore

Directeur thématique: Gilles Boulianne, M.Sc.
Collaborateurs: CRIM, Université McGill (Prof. Richard Rose), École de technologie supérieure (Prof. Pierre Dumouchel)

À mesure que la production et la manipulation du contenu culturel se font de plus en plus sous forme électronique, la reconnaissance automatique de la parole apparaît de plus en plus intéressante, car elle a un potentiel eacute;norme d'amélioration de certains processus de production et de post-production qui comptent parmi les plus coûteux en main-d'œuvre, comme la post-synchronisation, la correction des scripts, ou le sous-titrage. L'accessibilité et la possibilité de comprendre les édias courants, comme la télévision et le matériel éducatif restent encore les besoins les plus pressants de la communauté sourde et malentendante. Mais les solutions à ces problèmes ont aussi des retombées pour l'accessibilité à d'autres médias, tels que le cinéma, les Webcasts et Podcasts sur Internet, le théâtre, et même tout l'environnement sonore qui nous entoure. Au cours des deux prochaines années, nous allons poursuivre nos travaux de recherche et développement entrepris au cours des deux premiers projets, dans le but d'améliorer la qualité du sous-titrage et d'étendre son application à un plus large éventail d'environnements et de conditions sonores. Les quatres nouveaux projets fourniront potentiellement d'excellentes solutions aux besoins de la communauté sourde et malentendante et, dans certains cas, du public en général.

RESEARCH NETWORK ON

  • Project 2.1 : Amélioration du coeur technologique

    Les technologies de base en reconnaissance de la parole ont dû être perfectionnées et adaptées au contenu culturel pour atteindre un niveau de précision utilisable. Nous avons proposé de nouveaux algorithmes et perfectionnements dans le traitement du signal, l'adaptation des modèles acoustiques et des traits caractéristiques, la sélection du vocabulaire, et la modélisation statistique et grammaticale de la langue. Les mesures de progrès ont été effectuées sur un grand corpus de parole enregistré par les sous-titreurs pendant la production réelle de sous-titres de télévision en direct, ainsi qu'un autre grand corpus constitué d'émissions de télévision provenant de plusieurs diffuseurs. Ces améliorations ont été intégrées dans la production quotidienne des sous-titres et soumises à des auditoires de sourds et malentendants pour évaluation et critique. Nous avons décrit ces travaux en détails dans six rapports techniques et cinq articles scientifiques présentés dans des conférences internationales avec comité de sélection.

  • Project 2.2 : Reconnaissance de la parole et du contexte sonore

    Lorsqu'il s'agit particulièrement de culture, ce n'est pas la parole seulement, mais le contexte sonore en entier qui porte le contenu émotionnel et relationnel. Bien que le contexte sonore soit presqu'entièrement négligé dans la recherche courante en reconnaissance de la parole, ce projet a étudié des techniques qui permettront d'identifier, classifier et d'exploiter cette information pour améliorer la précision de reconnaissance, tout en donnant aux usagers un accès plus complet au contenu culturel. Pour comprendre le message d'un locuteur, Les chercheurs du CRIM, de McGill, et de l'École de technologie supérieure ont collaboré pour créer des prototypes et démonstrations qui illustrent l'importance du contenu émotionnel et relationnel de la parole, et de l'information additionnelle présente dans le signal sonore.Des prototypes et démonstrations d'indexation automatique du contenu parlé ont été créés. Des logiciels permettant la segmentation en parole/musique/bruit, l'identification et le suivi de locuteur, la vérification du locuteur, et la synchronisation d'un script avec la voix d'un acteur de théâtre, ont aussi été mis au point au cours de ce projet et présentés lors de la vitrine technologique E-Inclusion. Un site Web démontre la recherche par mots-clés du contenu parlé des cours en ligne sur le site COOL de l'université McGill. Ces travaux ont été publiés dans cinq articles scientifiques, un article de revue et trois rapports techniques.
  • Project 2.3: Partout et toujours : technologie de sous-titrage en direct

    Le but de ce projet est d'augmenter les capacités de notre technologie de sous-titrage en direct par reconnaissance vocale, de sorte qu'elle puisse servir pour des plénières de conférences, de congrès ou de grandes réunions, qui sont des évènements à occurrence unique, sous-titrés à distance,  et pour lesquels très peu de données peuvent être disponibles d'avance.

    Pour illustrer le besoin de sous-titrage en direct de conférences, on peut penser à un évènement, tel que le 14e Congrès Mondial de la Fédération des Sourds, qui s'est tenu à Montréal en 2003. Le sous-titrage en direct de cet évènement, en français et en anglais, avait été considéré comme une réussite majeure et s'était mérité un prix de l'Industrie des communications internationales. Aujourd'hui, il serait impossible de refaire un tel exploit, à cause de la pénurie de sténographes, et pourrait rester impossible à moins que ce projet réussisse.

  • Project 2.4 : e-Accessibilité aux cours en ligne: e-Learning pour la déficience sensorielle

    Ce projet continuera le projet de transcription de cours entamé dans la Phase 1, en applicant ses résultats à un corpus plus grand et plus réaliste. Il explorera de nouveaux paradigmes dans la conception d'interface usager, pour permettre aux déficients visuels de repérer du contenu, de naviguer dans les cours et d'entendre les présentations et  pour rendre accessibles les présentations audio aux sourds et malentendants en synchronisant l'audio de la présentation aux diapositives. Le projet automatisera la transcription et l'indexation du site multimédia de cours en ligne COOL de l'université McGill afin de rendre navigable et utilisable pour le e-Learning par tous les Canadiens, incluant ceux atteints de déficience visuelle ou auditive.

    L'idée générale est qu'un étudiant puisse spécifier un terme de requête dans une interface usager conçue à cet effet. Le terme est converti en une représentation acoustique et comparé aux centaines de présentations qui sont en ligne. L'étudiant reçoit alors une liste de contenus potentiellement intéressants, parmi lesquels il peut naviguer et choisir pour les écouter ou les visualiser. Le site Web est conforme aux pratiques W3C pour l'accessibilité aux personnes atteintes de déficience visuelle ou auditive.

  • Project 2.5 :  Sous-titrage participatif

    Le portail de sous-titrage participatif de E-Inclusion sera le point d'accès à un répertoire centralisé de sous-titres. Cette base de données sera alimentée par la participation des usagers de l'Internet, comme un Wiki, à l'aide d'une interface simple. En choisissant un document audio-visuel (ou seulement audio) n'importe où sur le Web, le navigateur de l'usager consultera le répertoire E-Inclusion et indiquera, s'il s'y trouve des sous-titres pour le document. Si c'est le cas, lors de l'écoute du document, les sous-titres seront affichés dans une autre fenêtre, en synchronisation avec l'audio du document.

    Parce qu'il permet à la communauté des sourds et malentendants de s'approprier et de contrôler les sous-titres, et avec son architecture participative et démocratique, ce projet est typique du Web 2.0. De telles bases de données alimentées par les usagers connaissent déjà beaucoup de succès (par exemple, le Internet Movie Database, en opération depuis 1990, il contient des informations sur 889 000 films), CDDB, freedb or MusicBrainz (ce dernier contient maintenant plus de 439 000 titres de CD et 5,2 millions de titres de pièces), sans oublier la célèbre Wikipedia.

  • Project 2.6 :  Indexation assistée

    Les technologies vocales mises au point au cours des projets précédents seront combinées en un prototype qui multipliera les capacités humaines pour identifier le contenu audio, de la même manière qu'un bulldozer multiplie la capacité de travail de son conducteur, de façon à réduire considérablement le travail manuel requis pour indexer de grandes archives audiovisuelles. Le système incluera une application client Web pour l'indexation assistée, la segmentation en audio, parole et locuteurs, la reconnaissance de la parole du locuteur et des émotions, et des modules d'indexation et de repérage.

    Il y a d'énormes quantités de contenu culturel canadien archivé sur le Web, mais qui restent inacessibles à la communauté sourde et malentendante. Notre histoire est notre patrimoine, et ces archives devraient être disponibles pour tous les Canadiens. Pour les expériences, nous utiliserons une grande archive multimédia, telle que celle recueillie par Radio-Canada,ou les Archives nationales du Canada, ou l'Office national du film du Canada.
Fichier attachéTaille
einc2_presentation_mars_2008_v30.pdf833.46 Ko
theme2_mar2006_small.pdf1.11 Mo