Traduction automatique en traduction

Aide-mémoire : la terminologie de la traduction automatique, de l'intelligence artificielle aux grands modèles de langage et au-delà

Dernière mise à jour : le 14 décembre 2023 17 h 38

Avec sa longue histoire de plusieurs dizaines d'années, la traduction automatique (TA) est en plein essor. Les avancées dans les grands modèles de langage (LLM) suscitent un nouvel intérêt auprès du public et dans les cercles de service linguistiques.

Au cours des dernières années, alors que tout ce qui se rapporte à l’IA (intelligente artificielle) s’est fermement ancré dans l’air du temps, l'IA générative (GenAI) se révèle comme étant l'une des dernières expressions en vogue qui attirent l’attention de nombreux secteurs. Quel que soit votre rapport au concept de la traduction automatique, vous devez savoir comment en parler.

Tandis que les applications de l’IA deviennent de plus en plus accessibles aux entreprises et aux consommateurs, un lexique de termes étroitement associés est apparu. Comment les observateurs extérieurs au secteur peuvent-ils déterminer la différence entre des termes qui sont parfois utilisés de manière interchangeable ?

Comment traduire la traduction automatique ?

Nous sommes là pour vous aider. Chez Lionbridge, nous comptons parmi notre équipe certains des experts en TA les plus expérimentés au monde. Nous avons élaboré cet aide-mémoire en collaboration avec eux pour vous aider à déceler les différences subtiles et plus évidentes entre les termes moteurs du secteur.

NOUS CONTACTER

1. Intelligence artificielle

Pour comprendre les tendances récentes en matière de traduction automatique, vous devez d’abord vous familiariser avec le contexte dans lequel elles s’inscrivent : l’intelligence artificielle dans toute sa puissance. L'IA désigne l'intelligence que mettent en œuvre les machines lorsqu'elles réalisent des tâches généralement considérées comme nécessitant des réflexions humaines, comme l'apprentissage et la résolution de problèmes. Au cours des dernières années, l'IA a bénéficié de l'augmentation de la puissance des ordinateurs. Ces ordinateurs plus puissants sont synonymes de traitement plus intensif pendant la réalisation d’une tâche, et d’apprentissage automatique optimisé, ce qui leur permet d’acquérir les connaissances nécessaires pour les applications d’IA.

2. Apprentissage automatique

L’apprentissage automatique est une branche des sciences informatiques qui utilise des quantités de données considérables pour enseigner aux ordinateurs comment effectuer des tâches. L’apprentissage automatique consiste à examiner les données associées à une tâche spécifique, à identifier des modèles dans ces données et à effectuer des associations entre eux, puis à utiliser ces nouvelles informations pour déterminer comment l’ordinateur doit réaliser la tâche en question. Si, après cette analyse, l’ordinateur devient plus efficace pour effectuer cette tâche, on parle alors d’apprentissage automatique.

Puisque nous disposons de données sur presque tous les sujets imaginables, nous utilisons l’apprentissage automatique pour améliorer les performances des ordinateurs dans tous les domaines, des prévisions météorologiques à la sélection automatique d’actions, en passant par la traduction automatique.

3. Traduction automatique

En termes simples, la traduction automatique est un système automatisé : vous présentez un support source à un ordinateur dans une langue, et il le restitue dans une autre langue. Le résultat n’est pas parfait, mais c’est l’un des outils les plus puissants dont nous disposons pour produire plus efficacement des traductions de haute qualité.

Au cours des dernières décennies, la qualité de la traduction automatique s’est améliorée, de même que l’étendue des langues prises en charge. Le développement de la traduction automatique a reflété notre utilisation de plus en plus sophistiquée des ordinateurs : des simples systèmes de remplacement de mots lors des prémices de la traduction automatique à l’apprentissage approfondi et aux réseaux neuronaux de la traduction automatique neuronale, avec des réponses de l'IA générative ressemblant étrangement à celles d'un humain, en passant par la grammaire et les lexiques explicitement codés de la traduction automatique basée sur des règles, ainsi que par le paradigme de traitement des nombres de la traduction automatique statistique.

Un hologramme futuriste décrivant la traduction automatique

4. Traduction automatique statistique

La traduction automatique statistique (SMT, Statistical Machine Translation) s'appuie sur l'apprentissage automatique pour générer un grand nombre de candidats de traduction pour une phrase source donnée, puis sélectionne la meilleure en fonction de la probabilité que des mots et phrases apparaissent ensemble dans la langue cible. La SMT réalise son apprentissage de la traduction grâce aux « n-grammes », de petits groupes de mots qui apparaissent ensemble dans les langues source et dans la langue cible. Au cours des phases d'apprentissage automatique, un système SMT reçoit des ressources d'entraînement, c'est-à-dire un très grand nombre d'exemples de phrases dans la langue source et leur traduction dans la langue cible. L’algorithme d’apprentissage divise les phrases sources et cibles en n-grammes. Il détermine alors quels n-grammes de la langue cible sont susceptibles d’apparaître dans une traduction lorsqu’un n-gramme spécifique de la langue source apparaît dans une phrase.

Ensuite, l’algorithme d’apprentissage élabore un modèle de langue qui calcule la probabilité que des mots et des expressions donnés apparaissent les uns à côté des autres dans la langue cible. Lorsque l’apprentissage est terminé et qu’il faut traduire un nouveau contenu, le système de traduction automatique statistique décompose la nouvelle phrase source en n-grammes, trouve les n-grammes de la langue cible fortement associés et génère des phrases candidates. La traduction finale est la phrase dont les n-grammes de la langue cible présentent la plus forte corrélation avec les n-grammes de la phrase source, et dont les mots de la phrase cible sont les plus susceptibles d’apparaître ensemble dans la langue cible.

L’efficacité de la traduction automatique statistique est surprenante, surtout si l’on s’attarde sur le fait que les systèmes de ce type n’ont rien de linguistique. En effet, le système ne tient compte que des n-grammes, jamais d’une phrase complète. C’est un point de divergence avec une autre approche de la traduction automatique : la traduction automatique neuronale.

5. Traduction automatique neuronale

La traduction automatique neuronale (NMT) apporte une solution à la plus grande lacune de la traduction automatique statistique : sa dépendance à l’analyse des n-grammes. La traduction automatique neuronale dote le système des outils dont il a besoin : il reçoit le corpus d’apprentissage, tout comme un système de traduction automatique statistique, à une différence essentielle près. Une fois que le système reçoit le corpus, il décide lui-même comment apprendre tout ce qu’il peut sur ces données.

Les systèmes de NMT créent des vecteurs d'informations pour chaque phrase source, en associant des informations sur chaque mot avec les mots environnants. Certains systèmes développent des centaines d'informations par mot, renforçant ainsi la précision. Grâce à l'apprentissage approfondi, les systèmes de NMT capturent une grande quantité d'informations sur chaque mot et phrase source. Puis, ils utilisent un modèle d'attention pour se concentrer sur les caractéristiques essentielles qu'ils ont apprises en analysant ces flux de données très volumineux, qui sont importants pour le processus de traduction. Il en résulte des traductions dont la fluidité est nettement améliorée ; les traductions générées par ordinateur ont commencé à sembler de plus en plus naturelles.

La NMT a changé la donne dans notre secteur, et nous avons augmenté notre utilisation de la TA pour accélérer nos processus de production à mesure que les outils mûrissaient et que la technologie s'améliorait. En 2022, les principaux moteurs de traduction automatique neuronale n'ont pas été capables d'améliorer leur qualité de façon substantielle, ce qui a signalé la fin proche de ce paradigme et a créé des conditions propices à un grand changement.

6. IA générative/grands modèles de langage

L'IA générative est un système d'intelligence artificielle (IA) capable de générer du contenu nouveau, y compris du texte et des images, à partir d'invites et grâce à un entraînement multimodal complet. Elle est remarquable pour sa capacité à produire des réponses d'une qualité semblable à celles des humains. Un grand modèle de langage est un système d'IA dédié aux langues. L'IA peut résumer, traduire, prédire et générer du texte à partir de connaissances issues d'énormes bases de données. Bien qu'elle ne soit pas spécifiquement entraînée pour traduire du texte, elle peut le faire avec une qualité bonne (mais pas excellente) et s'améliore rapidement. ChatGPT était le premier LLM à être publié de manière globale en novembre 2022 et a attiré 100 millions d'utilisateurs en seulement deux mois après son lancement.

À mesure qu'elle développera ses capacités, la technologie de GenAI/LLM va de plus en plus traiter les activités linguistiques essentielles et répétitives. Nous nous attendons à ce qu'elle crée plus d'espace pour les activités humaines à valeur supérieure dans les trois domaines suivants :

Idéation de contenu : des humaines lancent le processus de création de contenu avec l'idéation.
Validation de contenu : des humains garantissent la précision, la sécurité et l'authenticité.
Analyse de contenu : des humains assurent une surveillance accrue et de meilleures performances.

Les services à valeur supérieure, comme la transcréation, deviendront plus accessibles économiquement pour les entreprises. Les marques pourront ainsi trouver du contenu qui touchera davantage leurs acheteurs, et sera plus convaincant et fiable aux yeux des acheteurs de différents pays. Lionbridge identifie des cas d'utilisation de l'IA générative et développe des applications pour exploiter pleinement les LLM, afin d'automatiser davantage le flux de localisation.

7. Traduction automatique par grand modèle de langage

La traduction automatique par grand modèle de langage désigne l'utilisation des LLM pour la TA. La TA par LLM pourrait remplacer un jour le paradigme de la TA neuronale, mais cette technologie n'est pas encore mûre. Les LLM produisent des résultats corrects, et le modèle GPT-4 d'OpenAI a même dépassé le moteur de traduction automatique neuronale Yandex dans la paire de langues anglais-chinois au cours d'une évaluation réalisée par Lionbridge. Néanmoins, au moment de la rédaction de cet article, les LLM n'étaient pas en mesure d'égaler la vitesse, la qualité et le coût des cinq principaux moteurs de traduction automatique neuronale, et ne constituaient donc pas un remplacement adapté. Lionbridge surveille les performances de la traduction automatique par LLM via le Lionbridge Machine Translation Tracker. Le Tracker mesure désormais plusieurs modèles de LLM, avec notamment l'évaluation de la traduction automatique par GPT-4.

8. Traduction par IA avec un humain dans la boucle

La traduction par IA avec un humain dans la boucle désigne les efforts combinés des humains et des machines pour produire les résultats de traduction dont vous avez besoin.

La GenAI/les LLM améliorent l'efficacité et le coût de la traduction, mais une intervention humaine reste indispensable pour les raisons suivantes :

La technologie ne peut pas remplacer l'ingéniosité humaine.
Vous ne pouvez pas faire entièrement confiance à la technologie sans supervision.
La technologie ne peut pas s'exécuter de manière indépendante.

Voici comment les humains surmontent certains des principaux problèmes liés aux LLM et apportent une valeur ajoutée :

Ils révisent entièrement le résultat traduit, un point particulièrement important pour assurer la cohérence. La technologie de GenAI/LLM est plus efficace lorsque l'invite ne contient que quelques centaines de mots, une contrainte qui génère souvent des traductions incohérentes.
Ils ajoutent plusieurs glossaires et instructions par type de projet dans une série d'invites pour assurer un ton de marque cohérent.
Ils génèrent des invites, une étape initiale et une exigence essentielle pour assurer l'efficacité des performances de GenAI/LLM, ce que ces technologies ne peuvent pas exécuter par elles-mêmes.
Ils créent des plateformes sophistiquées et dédiées qui organisent des milliers d'invites, recyclent leur utilisation et injectent des instructions et des glossaires selon les besoins, pour obtenir les résultats souhaités. Lionbridge a conçu et lancé une plateforme d'itération d'invites pour recycler et itérer des invites efficaces.
Ils déterminent comment intégrer la technologie de LLM aux flux de travail existants qui utilisent les mémoires de traduction et la traduction automatique neuronale en parallèle pour gagner du temps, réduire les efforts et diminuer les coûts. L'équipe Lionbridge dédiée à l'IA sait parfaitement harmoniser les LLM dans les flux de travail existants.

Pourquoi Lionbridge ?

Chez Lionbridge, nous parlons couramment la langue de la TA. Nous proposons la TA à grande échelle depuis 2002 et sommes au premier plan des dernières évolutions intéressantes. Visitez notre page dédiée à la traduction automatique pour connaître les dernières tendances en la matière.

Contactez-nous

Vous souhaitez mettre en place les derniers outils pour automatiser vos traductions ? Contactez-nous dès aujourd'hui pour en savoir plus.

#blog_posts
#translation_localization

RÉDIGÉ PAR

Lionbridge

Remplissez notre formulaire de contact pour démarrer une conversation avec nous.

Nous identifierons vos besoins et vous expliquerons en quoi nos fonctionnalités innovantes peuvent vous aider à éliminer les frontières et à étendre votre portée internationale. Prêt à explorer les possibilités ? Nous avons hâte de vous aider.

CE QUE NOUS FAISONS

SECTEURS

RESSOURCES

NOTRE ENTREPRISE