A person’s arms reaching toward circular geometric shapes

Un modèle d'IA générative a surpassé un moteur de traduction automatique neuronale au cours d'une évaluation de traduction automatique

Ce jalon marque-t-il le début de la fin du paradigme de la traduction automatique neuronale ?

Dernière mise à jour : le 12 mai 2023 9 h 13

Pour la première fois dans nos évaluations comparatives de traduction automatique (MT), un modèle d'intelligence artificielle (IA) générative a proposé une meilleure traduction qu'un moteur de traduction automatique neuronale (NMT). Plus précisément, le grand modèle de langage (LLM) GPT-4 a légèrement surpassé Yandex pour la paire de langues anglais-chinois.

Penchons-nous sur les implications de cette évolution.

Si cela indique que le paradigme de la traduction automatique neuronale touche à sa fin ou évolue de manière considérable, nous pouvons nous attendre à une transformation des prestations de traduction automatique, avec un bond dans la qualité de la traduction, une adoption accrue et la capacité à produire plus de contenu.

Les fournisseurs de MT doivent se maintenir au premier plan de cette évolution technologique et se demander en quoi elle impactera leur moteur de MT actuel, afin de proposer des solutions exploitant pleinement ces avancées. Les acheteurs de MT doivent se tenir informés des évolutions afin d'orienter leurs investissements de façon avisée. Ces investissements devront probablement inclure des technologies basées sur le LLM et non des solutions uniquement fondées sur la MT neuronale.

NOUS CONTACTER

Le LLM surpasse la qualité du moteur de MT neuronale : est-ce important ?

Le résultat de cette évaluation marque une avancée, mais prenons un peu de recul. Il concernait un seul modèle pour une seule paire de langues. Le LLM a livré de meilleures performances par rapport à un seul moteur de NMT sur cinq, et dans un seul type d'évaluation de la MT : une évaluation à plusieurs références. Cette avancée est-elle tout de même significative ? Oui, et pas qu'un peu.

Le résultat peut paraître insignifiant dans le contexte ci-dessus, mais il a son importance. En effet, depuis l'avènement de la NMT, c'est la première fois qu'un autre type d'approche de la MT surpasse un moteur de MT neuronale. De plus, une approche « non-MT », c'est-à-dire une automatisation de langage multi-objectifs, non préparée spécifiquement pour la traduction automatique, a battu le moteur de NMT. C'est ce dernier détail qui rend remarquable le fait que le grand modèle de langage GPT-4 ait surpassé un moteur de NMT.

Quelles sont les implications du résultat de traduction notable de ChatGPT-4 pour le paradigme de la traduction automatique neuronale ?

Depuis février 2022, nous évoquons publiquement la possibilité d'un changement de paradigme de MT dans un avenir pas si lointain. Consultez notre commentaire de suivi sur la traduction automatique pour en savoir plus sur nos réflexions à ce sujet. Ces derniers résultats comparatifs fournissent une preuve supplémentaire qu'un changement important va avoir lieu.

Mais ne tirons pas de conclusions trop hâtivement. Il est encore trop tôt pour affirmer que les grands modèles de langage (LLM) vont remplacer les moteurs de NMT et qu'un tel changement est imminent. Nous avons besoin de plus de temps pour évaluer beaucoup plus de données. Il y a bien trop de facteurs à prendre en compte, et la technologie LLM doit fortement s'améliorer pour devenir une solution de traduction viable pour les entreprises.

Il est probable qu'un changement de paradigme s'amorce, les moteurs de NMT adoptant certaines approches LLM, car les technologies NMT et LLM partagent de nombreux points communs.

Quels sont les résultats de la traduction par NMT et par LLM dans trois paires de langues ?

Comparons les résultats de traduction entre les cinq principaux moteurs de traduction automatique neuronale et certains modèles de GPT pour trois paires de langues.

Nous avons calculé le niveau de qualité en fonction de la distance d'édition inverse, à l'aide de plusieurs références pour les paires de langues suivantes : anglais-chinois (EN-ZH), anglais-espagnol (EN-ES) et anglais-allemand (EN-DE).

La distance d'édition mesure le nombre de modifications qu'un humain doit apporter au résultat de MT pour que la traduction générée soit aussi bonne qu'une traduction humaine. Pour notre calcul, nous avons comparé le résultat brut de la MT à 10 traductions humaines différentes (plusieurs références) au lieu d'une seule traduction humaine. La distance d'édition inverse signifie que plus le nombre obtenu est élevé, plus la qualité est grande.

La Figure 1 montre peu de différence dans la distance d'édition inverse entre les moteurs de NMT et les LLM, ce qui signifie qu'ils ont livré des performances similaires. Cependant, fait notoire, le grand modèle de langage GPT-4 a produit une qualité de traduction légèrement supérieure par rapport à la NMT Yandex pour la paire de langues anglais-chinois.

Comparaison de la qualité de la traduction automatique entre les modèles de GPT et les principaux moteurs de MT neuronale pour la paire de langues anglais-chinois

Les résultats de traduction pour les paires de langues anglais-espagnol et anglais-allemand sont affichés respectivement dans les Figures 2 et 3. Dans ces deux scénarios, tous les moteurs de MT neuronale ont livré de meilleures performances par rapport aux LLM, comme c'était le cas jusqu'à présent.

Comme nous nous y attendions, plus le modèle de GPT est performant, plus les résultats de MT le sont également ; GPT-4 a donc dépassé les performances de ChatGPT et GPT-3.

Puis-je faire confiance aux grands modèles de langage dans le cadre d'un usage professionnel de mes traductions ?

L'IA générative n'en est qu'à ses premiers pas et doit encore évoluer. Elle ne répond donc pas aux attentes dans certains domaines clés. Notre livre blanc ChatGPT et la localisation explique que la technologie ne connaît pas la vérité, n'a aucune idée de ce qu'elle traite et ne sait pas compter. Vous êtes prêt à lui faire confiance ? Pas si vite.

Ces défauts devraient inquiéter et freiner les entreprises.

Profil d'une personne en train d'observer des écrans

Variabilité

Notre évaluation démontre que les résultats de GPT sont variables. En d'autres termes, ils peuvent changer d'une exécution à l'autre. Vous pouvez observer ce phénomène dans les Figures 2 et 3, où la première et la deuxième exécutions présentent des résultats différents.

Nous nous y attendions. Cependant, cette variabilité doit absolument être prise en compte pour déterminer si l'utilisation de LLM peut convenir à la traduction professionnelle, car la prédictivité y est essentielle.

Lorsque des sociétés traduisent leur contenu, elles doivent éviter tout caractère aléatoire. Le résultat de la MT doit être plus déterministe que ce que propose actuellement l'IA générative. La MT professionnelle est soumise à une attente de cohérence, de même que les autres utilisations du LLM à des fins professionnelles.

Les résultats déterministes purs vont à l'encontre de la nature des modèles génératifs, dans lesquels on suppose et présume un niveau de créativité, disons, ou de variabilité. Cette situation est acceptable, voire souhaitable dans certains cas, mais pas tous. Il est essentiel de mettre en place un mécanisme pour contrôler la variabilité (au-delà de l'utilisation du paramètre « Température », c'est-à-dire le paramètre censé contrôler la « créativité » du LLM).

La meilleure approche pour contrôler la variabilité dans les modèles génératifs n'est pas encore évidente. Les utilisateurs peuvent peut-être résoudre ce problème grâce à des invites prédéfinies et à une association de paramètres pour des tâches spécifiques, mais une solution plus concrète sera nécessaire.

Le manque de prévisibilité n'est pas compatible avec une majorité des applications professionnelles.

Instabilité de l'API

L'instabilité de l'interface de programmation d'application (API) est un autre problème actuel rencontré avec les LLM.

La plupart des applications d'IA générative en sont encore aux premières phases de leur déploiement, tandis qu'une très forte demande entraîne une utilisation massive de leurs API. L'association de ces facteurs génère certains problèmes. Cette situation apparaît clairement, car les utilisateurs rencontrent davantage de problèmes avec ces applications qu'avec d'autres technologies plus matures.

Erreurs

Nous avons détecté, dans le résultat de la MT LLM, des problèmes d'exactitude qui ne sont pas présents dans le résultat NMT, ou qui y sont présents avec un pourcentage largement inférieur.

Ces problèmes comprennent les hallucinations, des termes inventés ou qui n'apparaissent pas dans le texte source, ou des problèmes de concordance, liés à l'accord au sein du texte. Il peut s'agir de l'association d'un adjectif ou d'un déterminant féminin à un nom masculin, et vice versa.

Comme indiqué dans le Tableau 1, le LLM a utilisé le terme « marketeros », rare et peut-être trop familier, dans la traduction espagnole. Le terme « responsables del marketing » aurait été une traduction correcte. Les LLM ont commis des erreurs semblables dans les langues cibles allemande et chinoise. Il est particulièrement important de surveiller les erreurs de MT catastrophiques. En effet, selon la gravité de l'erreur, les marques sont susceptibles d'en subir certaines répercussions en termes financiers, juridiques ou de réputation.

Tableau 1. Exemples de termes « inventés » ou « hallucinants » dans le résultat de la MT LLM :

Anglais-espagnol (EN-ES)
Anglais-allemand (EN-DE)
Anglais-chinois (EN-ZH)

Source	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.
Cible	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.
Commentaire	terme correct : « responsables del marketing »

Source	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions
Cible	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.
Commentaire	termes corrects : "Vermittler" et "bankähnlichen"

Source	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.
Cible	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。
Commentaire	termes corrects : "公益事业" et "好感度"

Tableau 1. Exemples de termes « inventés » ou « hallucinants » dans le résultat de la MT LLM :
Langue	Source	Cible	Commentaire
Anglais-espagnol (EN-ES)	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.	terme correct : « responsables del marketing »
Anglais-allemand (EN-DE)	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.	termes corrects : "Vermittler" et "bankähnlichen"
Anglais-chinois (EN-ZH)	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。	termes corrects : "公益事业" et "好感度"

Comme indiqué dans le Tableau 2, le LLM a commis des erreurs d'accord ou de caractères lors de la traduction dans les trois langues cibles. Par exemple, il a utilisé la version féminine et non masculine pour traduire « other » en espagnol. Ces types d'erreurs risquent d'affecter la confiance des consommateurs envers les marques.

Tableau 2. Exemples d'erreurs d'accord et de caractères.

Anglais-espagnol (EN-ES)
Anglais-allemand (EN-DE)
Anglais-chinois (EN-ZH)

Catégorie	Erreur d'accord
Source	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.
Cible	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.
Commentaire	le masculin devrait être employé (« otros »)

Catégorie	Erreur d'accord
Source	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.
Cible	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.
Commentaire	l'indéfini accusatif devrait être employé ("Reiniger")

Catégorie	Erreur de script
Source	Handle the fiber with care as damage may occur if struck or bent sharply.
Cible	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。
Commentaire	Charactères chinois traditionnels

Tableau 2. Exemples d'erreurs d'accord et de caractères.
Catégorie	Langue	Source	Cible	Commentaire
Erreur d'accord	Anglais-espagnol (EN-ES)	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.	le masculin devrait être employé (« otros »)
Erreur d'accord	Anglais-allemand (EN-DE)	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.	l'indéfini accusatif devrait être employé ("Reiniger")
Erreur de script	Anglais-chinois (EN-ZH)	Handle the fiber with care as damage may occur if struck or bent sharply.	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。	Charactères chinois traditionnels

Verdict : est-ce le début de la fin du paradigme de NMT ?

Nous n'assistons pas au début de la fin du paradigme de NMT. Comme indiqué, les signes montrant que la NMT a mûri et qu'un changement de paradigme de MT est probable sont présents depuis quelque temps. Nous suivons désormais un continuum vers cette fin.

Nous avons commencé à nous demander si la prédominance du paradigme sous sa forme actuelle allait toucher à sa fin après avoir remarqué que la qualité des cinq principaux moteurs de NMT commençait à stagner, sans améliorations majeures, comme indiqué dans la Figure 4. Celle-ci mesure la qualité du résultat des cinq principaux moteurs de NMT entre mai 2018 et décembre 2022 pour l'allemand, l'espagnol, le russe et le chinois, avec la distance d'édition inverse.

Performances des moteurs de MT neuronale

La faible amélioration de la qualité en 2022 nous a poussés à conclure que la NMT avait atteint un plateau, car une situation similaire s'était présentée à la fin du paradigme central précédent de la MT, le paradigme statistique. Le Machine Translation Tracker de Lionbridge, la mesure la plus ancienne du secteur pour les principaux moteurs de MT, fournit des informations supplémentaires sur les performances des cinq moteurs de NMT.

Les dernières avancées dans la qualité de la traduction par un modèle d'IA générative peuvent accélérer la fin du paradigme NMT tel que nous le connaissons, mais la technologie a encore un long chemin à parcourir.

Soulignons que les applications d'IA générative en sont encore aux prémices de leur déploiement. Certains problèmes, tels que ceux que nous avons exposés ci-dessus, doivent être résolus et sont en passe de l'être. Des améliorations sont déjà apportées à la vitesse de la lumière. Dans nos derniers tests sur ChatGPT-4, certains de ces problèmes avaient été corrigés. La vitesse incroyable à laquelle les LLM peuvent s'améliorer renforce l'idée selon laquelle ils deviendront le nouveau paradigme de la traduction automatique.

Il est très probable que les fournisseurs de MT neuronale intègrent certains aspects des LLM dans leur architecture NMT, plutôt que de voir les LLM s'emparer totalement du paradigme actuel, à mesure que ce dernier évolue. Nous avons connu des périodes hybrides similaires, lorsque le secteur de la MT est passé de la MT basée sur les règles (RBMT) à la MT statistique (SMT).

Les traducteurs sont-ils impressionnés par les performances de traduction de l'IA générative ?

Que pense le traducteur humain de l'IA générative ? En raison de ses défauts actuels, les évaluateurs humains qui ont comparé les performances entre les moteurs de MT neuronale et les LLM ont indiqué qu'ils préféraient tout de même le résultat de la MT neuronale plutôt que celui des LLM. Les évaluateurs ont toujours exprimé cette préférence, y compris ceux qui ont évalué la qualité du chinois.

L'IA générative va continuer à évoluer, cela ne fait aucun doute. Nous vous informerons de ces évolutions rapides.

Nous contacter

Lisez notre blog pour en savoir plus sur notre avis concernant les performances de traduction de ChatGPT et sur ce qu'elles impliquent pour l'avenir de la localisation.

Si vous souhaitez en savoir plus sur la façon dont Lionbridge peut vous aider à tirer parti efficacement de la traduction automatique, contactez-nous dès aujourd'hui.

AUTEUR

Rafa Moral et Janette Mandell

#translation_localization
#ai
#generative-ai
#blog_posts

CE QUE NOUS FAISONS

SECTEURS

RESSOURCES

NOTRE ENTREPRISE