Vous ne le saviez pas !

RAP

RAP

Reconnaissance automatique de la parole

El l’ordinateur s’allume

Dans un bureau de l’INRS-télécommunications, à l’Île-des-Sœurs, un élève consciencieux écoute sans relâche les mêmes cassettes et écrit les mots qu’il entend. Le prof lui donne la note: 92%. Contrairement à bien des étudiants, l’élève est prêt à recommencer son apprentissage sans se lasser d’écouter la voix de son maître: cet élève est un ordinateur.

La reconnaissance automatique de la parole – RAP par ordinateur fait l’objet de recherches toujours plus fébriles à mesure que se confirment les immenses progrès accomplis. Le processus de compréhension du langage d’un cerveau humain étant trop compliqué, il faut en effet imaginer une manière pour qu’un programme reconnaisse tous les mots d’un discours.

Montréal est l’un des grands centres mondiaux de la recherche en reconnaissance de la parole. Outre l’INRS-télécommunications, on retrouve des programmes de recherches au Centre de recherche informatique de Montréal  – CRIMM et dans diverses universités, dont McGill et l’École de technologie supérieure – ETS.

Les difficultés qui se présentent aux chercheurs sont nombreuses, souvent reliées entre elles : ainsi, la dimension du vocabulaire utilisable décroîtra avec le nombre d’utilisateurs du système. Si le service interurbain reconnaît les mots oui et non, qu’ils soient prononcés par qui que ce soit, les premiers dictaphones informatiques doivent être entraînés par leur utilisateur.

Un système de RAP «comprenant» un discours continu plutôt que des mots isolés est difficile à concevoir, du fait de l’absence de pause entre chaque mot. De même, la rapidité de la diction cause un problème : lorsqu’on parle plus lentement,  on allonge les voyelles et non les consonnes. On ne peut donc pas simplement compresser le signal sonore.

Pour « comprendre » un discours continu en temps réel, le programme de l’ordinateur commence par reconnaître les éléments sonores du langage, les phonèmes. Ce sont les phonèmes, – consonnes, voyelles et semi-voyelles qui, seuls on avec d’autres, forment les mots d’une langue.

À cette fin, l’ordinateur prend des lectures de fréquence, d’intensité et d’énergie à toutes les 10 millisecondes. Ces lectures sont combinées pour générer un seul signal à chaque dix millisecondes. Selon le signal et sa durée de répétition, le programme identifiera un phonème particulier parmi la banque de phonèmes dont il dispose.

Ensuite, l’ordinateur énumère toutes les possibilités de mots à partir des phonèmes recueillis. Il dispose pour cela d’une banque de mots dont il connaît l’écriture phonétique. Il est ainsi en mesure d’associer un groupe de phonèmes à un mot.

On voit donc que la capacité de reconnaissance du programme est limitée par la banque de mots dont il dispose. S’il doit par exemple reconnaître un texte poétique à partir d’une banque de délibérations de la Chambre des Communes, le taux de reconnaissance sera faible. Le GRIMM développe un logiciel de réservations téléphoniques pour les agences de voyages.

(C’est arrivé le 13 mars 1995).

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>