Nous vous présentons YiSi, un professeur de traduction automatique qui identifie (gentiment) les erreurs de sens

Communiqué de presse

L’agente de recherche Jackie Lo, à droite, discute du code de YiSi avec la spécialiste en développement de logiciels, Darlene Stewart, à gauche.

Un logiciel ouvert développé par des informaticiennes du CNRC gagne un concours international

Le 11 février 2019 — Ottawa (Ontario)

La plupart des Canadiens sont un jour ou l’autre tombés sur une traduction automatique de mauvaise qualité effectuée au mot à mot et qui, bien qu’amusante, risquait de semer la confusion. Mais comment annoncer à un ordinateur que son plus récent travail est moins que satisfaisant et lui enseigner les points à améliorer?

C’est ici qu’entre en jeu YiSi, un nouveau logiciel de perfectionnement des systèmes de traduction automatique développé par le Conseil national de recherches du Canada. YiSi est un logiciel ouvert qui analyse les phrases produites par les systèmes de traduction automatique et les compare au texte original ou à un texte de référence traduit par un humain. YiSi attribue ensuite une cote d’exactitude de 0 à 100 à chaque phrase traduite, en indiquant les erreurs trouvées afin que les développeurs puissent améliorer leur système de traduction.

Jackie Lo, agente de recherche, est à l’origine de l’idée derrière YiSi, soit utiliser des bases de données  de relations sémantiques entre mots pour attribuer une note aux textes traduits automatiquement. Jackie Lo a développé le code du prototype de YiSi en 2017. Elle a ensuite travaillé en étroite collaboration avec Darlene Stewart, spécialiste en développement de logiciels, qui s’est assurée que YiSi indique poliment à l’utilisateur comment lancer les tâches d’évaluation, n’abandonne pas son travail lorsque l’utilisateur lui fournit des bases de données ne convenant pas au travail demandé et avise aimablement l’utilisateur lorsque des erreurs ont été commises.

Vous vous demandez qui vérifie ensuite le travail de YiSi et comment nous pouvons avoir la certitude que les notes attribuées sont justes? YiSi a notamment participé en 2018, dans le cadre de la troisième conférence sur la traduction automatique (« WMT »), à une compétition internationale à laquelle étaient inscrits d’autres « professeurs » de systèmes de traduction automatique et qui consistait pour les concurrents à effectuer une « tâche commune d’évaluation ». Après avoir évalué plus de 400 000 phrases traduites, que des humains avaient aussi notées à des fins de référence, YiSi s’est classé au premier rang dans l’évaluation de l’exactitude des traductions effectuées du turc vers l’anglais, de l’anglais vers le russe et de l’anglais vers le turc, et a aussi été le logiciel offrant le meilleur rendement global pour les 14 paires de langues de la compétition.

Quelle est la prochaine étape pour YiSi? En 2019, Jackie et Darlene prévoient mettre à l’épreuve YiSi dans le cadre de projets menés en collaboration avec des clients du CNRC, à intégrer YiSi à des trousses d’outils de développement de systèmes de traduction automatique afin de promouvoir son utilisation, et à participer à la tâche d’évaluation de métriques de WMT 2019. D’ici là, les développeurs de systèmes de traduction automatique qui souhaiteraient mettre YiSi à l’épreuve sont invités à communiquer avec le Centre de recherche en technologies numériques du CNRC.

Citations

« Depuis mon arrivée au Conseil national de recherches du Canada en 2015, j’ai bénéficié du climat de créativité et de la liberté nécessaires pour travailler sur des projets comme YiSi. J’espère que les développeurs de systèmes de traduction automatique s’approprieront ce nouvel outil et nous feront part de leurs commentaires. »

— Jackie Lo, agente  de recherche en traitement de textes multilingues, Conseil national de recherches du Canada

« Le 11 février, Journée internationale des femmes et des filles de science, le Conseil national de recherches du Canada a l’honneur de rendre hommage aux réussites de ses chercheuses qui, comme Jackie et Darlene dans le cadre du projet YiSi, accomplissent un travail exceptionnel. Par des politiques et des mesures transformatrices, nous pouvons favoriser l'accès et la participation pleine et équitable des femmes et des filles à la science, y compris la science informatique. »

Geneviève Tanguay, vice-présidente, Technologies émergentes, Conseil national de recherches du Canada

Faits en bref

  • Tirant son nom du mot cantonais signifiant sens, YiSi s’appuie sur une base de données massive de « plongements lexicaux » (word embeddings), soit des vecteurs de nombres réels qui évaluent la « proximité » ou la relation sémantique entre les mots, en tenant compte de leur nature et de leur fonction dans les phrases.

  • Pour générer les 400 000 phrases que YiSi évalue dans le cadre des concours auquel il participe, plusieurs systèmes développés par d’autres équipes de recherche traduisent environ 3 000 phrases originales de l’anglais vers le tchèque, l’allemand, l’estonien, le finnois, le russe, le turc et le chinois, et vice versa.

  • Le Centre de recherche en technologies numériques du Conseil national de recherches du Canada effectue des recherches pour donner un sens aux données et créer de la valeur à partir de l'information. Ses experts se spécialisent dans l’analytique de pointe, la visionique, le traitement du langage naturel, et l’intelligence artificielle.

Liens connexes

Personnes-ressources

Relations avec les médias
Conseil national de recherches du Canada
613-991-1431
media@nrc-cnrc.gc.ca
Twitter : @nrc_cnrc
Instagram : @nrc_cnrc

Pour obtenir YiSi :
Jackie Lo, agente de recherche
Centre de recherche en technologies numériques
Conseil national de recherches du Canada
613-993-5205
Jackie.Lo@nrc-cnrc.gc.ca

Détails de la page

Date de modification :