SÉLECTIONNER LA LANGUE :

Commentaire d'un expert de Lionbridge : analyse de la traduction automatisée

Les experts en technologie de Lionbridge évaluent les paradigmes de la traduction automatique et de l'IA générative pour vous donner un aperçu des dernières tendances en matière de traduction automatique.

La technologie de traduction automatique reste pertinente malgré la nature révolutionnaire de l'IA générative


De nombreux changements sont à venir : comprendre l'évolution de la traduction automatique

Il y a quelque temps déjà, nous avons annoncé que le paradigme de la traduction automatique (TA) était sur le point de connaître une révolution. Lisez les commentaires de nos experts pour savoir pourquoi.

Nos experts en traduction automatique livrent des informations sur de nombreux sujets, notamment :

  • Les performance de traduction des moteurs de TA et des modèles d'IA générative (GenAI) à des moments donnés et la signification des résultats dans un contexte plus global
  • Les limitations des outils de traduction automatique
  • Les façons d'améliorer l'efficacité de la traduction automatique

Mieux vous comprenez la TA et la GenAI, plus vous pouvez déployer les outils qui répondent à vos besoins. Profitez des points forts offerts par chaque paradigme pour améliorer l'efficacité de la traduction, augmenter la génération de contenu et favoriser les économies.

Commentaire d'un expert de Lionbridge

Les particularités notables de GPT-4, octobre 2023

Face à la prévalence et aux promesses de l'IA générative (GenAI) / des grands modèles de langage (LLM), nous avons amélioré le rapport Machine Translation (MT) Quality Tracker de Lionbridge. Dorénavant, le rapport comprendra les résultats de la traduction par GPT-4 en plus des résultats de GPT-3.5 et de Davinci et, bien sûr, les performances du moteur de MT neuronale (NMT).

Quelles sont certaines de nos dernières conclusions ? Quelques particularités notables pour GPT-4.

Nous avons rencontré plusieurs problèmes liés à GPT-4, comme une lenteur des performances, son incapacité à fournir des traductions pour différentes raisons, et un comportement incohérent : par exemple, il manquait des traductions dans certaines exécutions, mais pas dans d'autres.

Conclusion n° 1 : GPT-4 ne peut pas traduire certaines phrases.

Au cours de notre ensemble de tests de TA, GPT-4 n'a pas pu traduire une phrase en particulier.

Après quelques recherches, nous avons remarqué qu'un terme pouvant avoir une connotation sexuelle dans certains contextes avait causé le problème. Précisons toutefois que la phrase issue de notre test était parfaitement classique et acceptable. Néanmoins, le terme a tout de même déclenché le filtre de contenu sexuel de GPT-4. L'IA a donc censuré la traduction de cette phrase et n'a donné aucun résultat. Ce résultat nous a surpris pour deux raisons :

L'utilisation typique de ce terme isolé ne posait pas de problème.

Le contexte de cette phrase en particulier ne présentait aucune interprétation problématique.

Cette observation nous a poussés à conclure qu'une partie du mécanisme de filtrage de GPT-4 était peut-être basée sur une simple liste de mots interdits, comprenant également des termes ambigus. Cette approche est problématique, car elle est sujette aux déclenchements abusifs et provoque des faux positifs. Cela constitue un problème important pour la traduction professionnelle.

Les technologies précédentes de traduction automatique, comme les moteurs de TA neuronale, ne présentent pas ce type de problème de filtrage de contenu. Nous pouvons donc en conclure qu'il s'agit d'une limitation de la technologie des LLM.

Cette limitation a des répercussions sur des scénarios concrets. Par exemple, imaginez que vous ayez besoin de traduire du contenu médical associé à la gynécologie ou à l'éducation sexuelle. Vous pourriez avoir la surprise de découvrir que le LLM refuse de traduire une partie de votre contenu.

Fait intéressant, nous n'avons rencontré ce problème que lors de la traduction de cette phrase vers une langue en particulier, le chinois, mais pas en la traduisant vers d'autres langues. Ce résultat indique que le filtre était appliqué à la sortie de GPT-4. La solution consiste à désactiver les filtres de contenu pour les tâches de traduction.

Conclusion n° 2 : la variabilité de la sortie de GPT-4.

Après cinq semaines de suivi, nous avons découvert que la sortie de la traduction automatique par LLM était hautement variable, en particulier avec GPT-4.

Nous nous attendions à ce résultat pour l'IA générative, mais la variabilité a été plus importante que prévu, même lorsque nous avons utilisé les réglages de paramètres Température et Probabilité supérieure (Top_p) pour réduire la créativité et rendre la sortie plus déterministe. La sortie de traduction était différente dans chaque exécution de GPT que nous avons menée, même lorsque nous avons effectué des traductions immédiatement l'une après l'autre.

Les deux traductions peuvent être acceptable, même si elles sont différentes. Néanmoins, il s'agit d'un autre aspect à contrôler et d'une autre différence par rapport au paradigme précédent de TA neuronale.

Nous commençons à deviner que ce changement de paradigme potentiel, de la NMT à la TA par LLM, pourra être un changement technologique, et qu'il nécessitera également un changement d'état d'esprit : Nous devrons peut-être nous préparer à vivre avec des sorties moins déterministes, même lorsque nous utilisons la même entrée et les mêmes paramètres, et nous devrons nous attendre à voir plus de variabilité que ce à quoi nous étions habitués avec l'automatisation actuelle.

Nous devrons peut-être vivre avec plus d'incertitude, dans une certaine mesure, mais il reste possible d'utiliser des mécanismes et des bonnes pratiques pour mieux contrôler cette variabilité.

Enfin, tandis que vous consultez notre tableau, veuillez noter que la diminution de l'Edit Distance pour GPT-4 n'est pas synonyme de qualité en baisse. Elle reflète simplement la variabilité des sorties de GPT. Le mois prochain, la ligne montera peut-être. Consultez régulièrement cet espace pour découvrir les évolutions et d'autres informations.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation

Index des sujets des commentaires d'experts

Parcourez les résumés ci-dessous pour explorer les sujets de nos commentaires d'experts précédents.

Mars 2023 — un grand modèle de langage (LLM) surpasse un moteur de traduction automatique (MT) neuronale : et ensuite ?

Février 2023 — Amélioration de la traduction automatique (TA) : personnalisation de la TA vs entraînement de la TA

Janvier 2023 — Comparaison de la qualité des traductions entre ChatGPT et les principaux moteurs de traduction automatique

Novembre 2022 — Amélioration de Microsoft MT

Octobre 2022 — Trad Auto et formalité linguistique

Septembre 2022 — Utilisation de la terminologie pour améliorer la qualité de la TA

Août 2022 — Surmonter les erreurs catastrophiques lors de la TA

Juillet 2022 — Classement des langues en matière de TA

Juin 2022 — Analyse précise de la qualité de la TA

Mai 2022 — Performances d'Amazon et de Yandex en mai

Avril 2022 — Performances de Yandex en avril

Mars 2022 — Évaluations comparatives de TA personnalisées

Février 2022 — L'avenir de la traduction automatique neurale (NMT)

Janvier 2022 — Performances du moteur TA en janvier

Décembre 2021 — Lionbridge ajoute Yandex MT au contrôle concurrentiel MT Quality Tracker

Novembre 2021 — Bing Translator apporte des améliorations

Octobre 2021 — Progression du moteur TA d'Amazon

Septembre 2021 — Amazon améliore la qualité de la traduction automatique

Août 2021 — Principales entreprises de pointe et progression de leur moteur TA

Le système Lionbridge Machine Translation Tracker

Le système Machine Translation Tracker de Lionbridge est la plus ancienne mesure de la TA dans le secteur.

Le Tracker mesure les performances globales des cinq principaux moteurs de TA neuronale et de plusieurs modèles de GenAI. Il évalue également la qualité de la traduction en fonction des paires de langues et des domaines. GenAI ne dépasse pas les principaux moteurs de TA neuronale, à quelques exceptions près. Cependant, ces modèles offrent de bons résultats, surtout compte tenu du fait qu'ils n'ont pas été formés de manière explicite pour les traductions.

Que faut-il en retenir ? Malgré le vif intérêt témoigné envers le déploiement de la GenAI/des LLM, la traduction automatique démontre toujours qu'elle est un outil de traduction automatique intéressant.

Les résultats de traduction évoluent constamment et le système Tracker capture ces fluctuations.

Commentaire d'experts de Lionbridge

Bénéficiez des informations livrées par nos experts en traduction automatique.

Mars 2023

L'intelligence artificielle (IA) générative a atteint un jalon important : elle a surpassé un moteur de traduction automatique (MT) neuronale au cours de l'une de nos évaluations comparatives. Plus spécifiquement, le grand modèle de langage (LLM) GPT-4 a fourni une qualité légèrement supérieure par rapport à Yandex pour la paire de langues anglais-chinois, comme le montre la Figure 1.

Cette évolution est notoire, car c'est la première fois qu'un autre type d'approche de la MT surpasse un moteur de MT neuronale depuis l'avènement de cette dernière. De plus, une approche non-MT, une automatisation de langage multi-objectifs, non préparée spécifiquement pour la traduction automatique, a surpassé le moteur de MT neuronale.

Pourquoi cet événement doit-il vous interpeller ? Si vous êtes un fournisseur de MT, pour rester concurrentiel, vous devez vous maintenir au premier plan des avancées technologiques et vous demander en quoi elles impacteront votre offre MT actuelle. Si vous êtes un acheteur de MT, vous devez vous tenir informés de ces évolutions afin de réaliser des investissements avisés, qui devront probablement inclure des technologies basées sur le LLM et non des solutions uniquement fondées sur la MT neuronale.

Il est important de souligner que l'IA générative n'en est qu'à ses premiers pas. Elle ne répond donc pas aux attentes dans certains domaines clés. Par exemple, elle produit des résultats variables sur plusieurs exécutions, son interface de programmation d'application (API) présente des instabilités, et elle fait plus d'erreurs que les moteurs de MT neuronale. Ces problèmes doivent être résolus pour permettre à la technologie de mûrir. Nous percevons déjà des améliorations à la vitesse de la lumière.

La vitesse incroyable à laquelle les LLM peuvent s'améliorer renforce l'idée selon laquelle ils deviendront le nouveau paradigme de la traduction automatique. Nous nous attendons à vivre une période hybride, au cours de laquelle les fournisseurs de MT neuronale intégreront certains aspects des LLM dans leur architecture de MT neuronale, à mesure que le paradigme évolue.

Lisez notre article de blog pour découvrir une comparaison de la qualité de traduction entre la MT neuronale et les LLM pour deux autres paires de langues, et des réflexions complémentaires pour déterminer si nous assistons au début de la fin pour le paradigme de la traduction automatique neuronale.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Février 2023

Les moteurs génériques de traduction automatique (TA) fournissent en général un résultat satisfaisant aux entreprises qui cherchent à automatiser leurs traductions. Cependant, ces moteurs sont susceptibles de produire des suggestions médiocres, en particulier lorsqu'il s'agit de contenu technologique ou hautement spécialisé.

Les entreprises qui cherchent à améliorer les résultats de traduction automatique (TA) pour atteindre des objectifs spécifiques peuvent envisager deux possibilités : Personnalisation de la TA et/ou entraînement de la TA. L'une ou l'autre méthode – ou une combinaison des deux – peut produire de meilleurs résultats pendant le processus de traduction automatique.

Cependant, les approches diffèrent les unes des autres et ne sont pas interchangeables. Le tableau 1 donne un aperçu de la personnalisation de la TA et de l'entraînement de la TA et offre quelques considérations pour évaluer chaque méthode.

Personnalisation et entraînement de la traduction automatique

  Personnalisation de la TA
Qu'est-ce que c'est et comment ça marche Adaptation d'un moteur de traduction automatique préexistant avec un glossaire de traduction et à une liste de termes à ne pas traduire (DNT – Do Not Translate) dans le but d'améliorer la précision des traductions générées.
Objectif Améliore les suggestions de la TA pour des résultats plus précis et réduit la nécessité de post-édition
Avantages spécifiques Permet aux entreprises d'adhérer à leur marque et à leur terminologie mais aussi de produire des variantes régionales
Risques Lorsqu'elle n'est pas exécutée correctement, la TA peut formuler de mauvaises suggestions et avoir un impact négatif sur la qualité globale
Utilisation Solution idéale pour le contenu technologique et axé sur les détails et tout contenu nécessitant :
*Des traductions précises de la terminologie
*Des variantes régionales, lorsque vous manquez de données suffisantes pour l'entraînement de la TA
Facteurs de succès Un spécialiste expérimenté en TA, capable de gérer avec succès les règles de normalisation des entrées et des sorties, les glossaires et les listes DNT
Coûts Prévoyez un coût unique pour mettre à jour le profil qui entre dans le moteur de TA et des coûts permanents pour la tenue d'un glossaire au fil du temps ; les coûts sont relativement peu élevés si l'on tient compte des avantages potentiels et sont généralement inférieurs aux coûts d'entraînement de la TA

Tableau 1. Comparaison entre la personnalisation et l'entraînement de la TA

  Entraînement de la TA
Qu'est-ce que c'est et comment ça marche Création et entraînement d'un moteur de TA au moyen de nombreuses données bilingues, issues de corpus et de mémoires de traduction (MT), dans le but d'améliorer la précision des traductions générées.
Objectif Améliore les suggestions de la TA pour des résultats plus précis et réduit la nécessité de post-édition
Avantages spécifiques Permet aux entreprises de conserver une voix, un ton et un style de marque spécifiques et de produire des variantes régionales
Risques Si les données de qualité sont insuffisantes pour entraîner le moteur, l'entraînement de la TA risque de n'avoir aucun impact sur le résultat ; si des auteurs inexpérimentés font un usage inapproprié de la terminologie. la TA risque de formuler de mauvaises suggestions et d'avoir un impact négatif sur la qualité globale
Utilisation Solution idéale pour le contenu hautement spécialisé, le marketing et le contenu créatif, et tout contenu nécessitant :
*Une voix, un ton ou un style de marque spécifique
*Des variantes régionales, lorsque vous avez suffisamment de données pour l'entraînement de la TA
Facteurs de succès Un minimum de 15 000 segments distincts pour entraîner correctement le moteur
Coûts Prévoyez des coûts liés au premier entraînement, ainsi que des coûts potentiels pour tout entraînement supplémentaire, qui peuvent être envisagés au fil du temps si le contrôle des performances de la TA indique une marge d'amélioration ; l'entraînement de la TA peut valoir l'investissement dans certains cas si l'on tient compte des avantages potentiels.

Tableau 1. Comparaison entre la personnalisation et l'entraînement de la TA

  Personnalisation de la TA Entraînement de la TA
Qu'est-ce que c'est et comment ça marche Adaptation d'un moteur de traduction automatique préexistant avec un glossaire de traduction et à une liste de termes à ne pas traduire (DNT – Do Not Translate) dans le but d'améliorer la précision des traductions générées. Création et entraînement d'un moteur de TA au moyen de nombreuses données bilingues, issues de corpus et de mémoires de traduction (MT), dans le but d'améliorer la précision des traductions générées.
Objectif Améliore les suggestions de la TA pour des résultats plus précis et réduit la nécessité de post-édition Améliore les suggestions de la TA pour des résultats plus précis et réduit la nécessité de post-édition
Avantages spécifiques Permet aux entreprises d'adhérer à leur marque et à leur terminologie mais aussi de produire des variantes régionales Permet aux entreprises de conserver une voix, un ton et un style de marque spécifiques et de produire des variantes régionales
Risques Lorsqu'elle n'est pas exécutée correctement, la TA peut formuler de mauvaises suggestions et avoir un impact négatif sur la qualité globale Si les données de qualité sont insuffisantes pour entraîner le moteur, l'entraînement de la TA risque de n'avoir aucun impact sur le résultat ; si des auteurs inexpérimentés font un usage inapproprié de la terminologie. la TA risque de formuler de mauvaises suggestions et d'avoir un impact négatif sur la qualité globale
Utilisation Solution idéale pour le contenu technologique et axé sur les détails et tout contenu nécessitant :
*Des traductions précises de la terminologie
*Des variantes régionales, lorsque vous manquez de données suffisantes pour l'entraînement de la TA
Solution idéale pour le contenu hautement spécialisé, le marketing et le contenu créatif, et tout contenu nécessitant :
*Une voix, un ton ou un style de marque spécifique
*Des variantes régionales, lorsque vous avez suffisamment de données pour l'entraînement de la TA
Facteurs de succès Un spécialiste expérimenté en TA, capable de gérer avec succès les règles de normalisation des entrées et des sorties, les glossaires et les listes DNT Un minimum de 15 000 segments distincts pour entraîner correctement le moteur
Coûts Prévoyez un coût unique pour mettre à jour le profil qui entre dans le moteur de TA et des coûts permanents pour la tenue d'un glossaire au fil du temps ; les coûts sont relativement peu élevés si l'on tient compte des avantages potentiels et sont généralement inférieurs aux coûts d'entraînement de la TA Prévoyez des coûts liés au premier entraînement, ainsi que des coûts potentiels pour tout entraînement supplémentaire, qui peuvent être envisagés au fil du temps si le contrôle des performances de la TA indique une marge d'amélioration ; l'entraînement de la TA peut valoir l'investissement dans certains cas si l'on tient compte des avantages potentiels.

Tableau 1. Comparaison entre la personnalisation et l'entraînement de la TA

 

    - Thomas McCarthy, analyste commercial de TA, Lionbridge


Janvier 2023

Les grands modèles de langage (LLM) sont-ils une bonne alternative à un paradigme de traduction automatique neuronale (NMT) pour la traduction automatique (TA) ? Pour le savoir, nous avons comparé les performances de traduction de ChatGPT, le petit dernier de la famille GPT-3 de LLM d'OpenAI, aux cinq principaux moteurs de TA que nous utilisons dans notre suivi de la qualité de la TA.

Comme on pouvait s'y attendre, les moteurs NMT spécialisés traduisent mieux que ChatGPT. Mais étonnamment, ChatGPT fait un travail respectable. Comme le montre la figure 1, ChatGPT a fait preuve de performances presque aussi bonnes que les moteurs spécialisés.

Nous avons calculé le niveau de qualité en fonction de la distance d'édition inverse en utilisant plusieurs références pour la paire de langue anglais-espagnol. La distance d'édition mesure le nombre de modifications qu'un humain doit apporter au résultat de TA pour que la traduction résultante soit aussi bonne qu'une traduction humaine. Pour notre calcul, nous avons comparé le résultat brut de la TA à 10 traductions humaines différentes (plusieurs références) au lieu d'une seule traduction humaine. La distance d'édition inverse signifie que plus le nombre résultant est élevé, meilleure est la qualité.

Figure 1. Comparaison de la qualité de la traduction automatique entre ChatGPT et les principaux moteurs de traduction automatique en fonction de la distance d'édition inverse à l'aide de plusieurs références pour la paire de langue anglais-espagnol.

Ces résultats sont remarquables car le modèle générique a été formé pour effectuer des tâches de traitement du langage naturel (NLP) et n'a pas été spécifiquement formé pour exécuter des traductions. Les performances de ChatGPT sont similaires au niveau de qualité produit par les moteurs de TA qui datent de deux ou trois ans.

Compte tenu de l'évolution des LLM – basée sur l'attention du public et les investissements importants des entreprises technologiques dans cette solution – nous pourrons bientôt voir si ChatGPT dépasse les moteurs de TA ou si la TA commencera à adopter un nouveau paradigme LLM. La TA peut utiliser les LLM comme fondement, puis affiner la technologie spécifiquement pour la traduction automatique. Le processus correspond à ce que font OpenAI et d'autres sociétés LLM pour améliorer leurs modèles génériques en fonction de cas d'utilisation spécifiques, tels que permettre aux machines de communiquer avec les humains de manière conversationnelle. La spécialisation ajoute de la précision aux tâches effectuées.

L'un des avantages de ces modèles linguistiques « génériques » élargis est qu'ils peuvent faire beaucoup de choses différentes et offrent une qualité exceptionnelle dans la plupart de leurs tâches. Par exemple, le GATO de DeepMind, un autre modèle d'intelligence générale, a été testé relativement à plus de 600 tâches, avec des résultats à la pointe de la technologie (SOTA – State-of-the-Art) pour 400 d'entre elles.

Deux lignes de développement continueront d'exister – des modèles génériques, tels que GPT, Megatron et GATO, et des modèles spécialisés à des fins précises basés sur ces modèles génériques. Les modèles génériques sont importants pour faire progresser l'Intelligence générique artificielle (AGI) et éventuellement faire progresser des développements encore plus impressionnants à plus long terme. Les modèles spécialisés auront des utilisations pratiques à court terme pour des domaines spécifiques. L'une des choses remarquables à propos des LLM est que les deux lignes peuvent progresser et fonctionner en parallèle.

Nous sommes intrigués par ce que l'avenir nous réserve. Nous continuerons d'évaluer les LLM et de publier les résultats afin que vous puissiez vous tenir au courant de cette évolution passionnante. Lisez nos blogs pour approfondir les performances de traduction de ChatGPT et en savoir plus sur ChatGTP et la localisation et pourquoi il changera probablement la donne.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Novembre 2022

Nous avons constaté une amélioration globale des résultats de la traduction automatique (MT) de Microsoft entre le 11 octobre et le 1er novembre. Avec cette récente augmentation de la qualité de Bing Translator, les principaux moteurs de traduction automatique produisent des résultats très similaires. En tant que tels, ils font face à une bataille serrée pour la position de leader.

Les principaux moteurs n'ont pas montré d'améliorations intéressantes depuis des mois. Espérons que ce développement de Microsoft brise cette tendance et marque le début des progrès à venir de ces moteurs.

Nous sommes allés au-delà de notre mesure habituelle de traductions à référence unique et avons confirmé les résultats d'amélioration de Microsoft avec un deuxième suivi qui englobait plusieurs références. Dans cette évaluation, nous avons utilisé 10 traductions de référence réalisées par des humains – l'étalon-or – plutôt qu'une seule traduction pour obtenir une métrique de l'effort d'édition plus précise qui prend en compte plusieurs traductions correctes possibles dans les résultats finaux.

Nous notons que 2022 a enregistré des résultats très plats en matière de Traduction Automatique. Nous avons observé peu de changement; ce développement de la TA de Microsoft Bing est sans doute l'avancée la plus notable de toute l'année. Comme indiqué plus tôt dans l'année, le paradigme actuel de la MT pourrait atteindre un plateau. Nous avons hâte de voir ce que 2023 réserve à la traduction automatique.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Octobre 2022

Ce mois-ci, nous souhaitons attirer votre attention sur la formalité linguistique et la difficulté, mais pas l'impossibilité, de la rendre correctement lors de l'utilisation de la traduction automatique (TA).

Les moteurs de traduction automatique (TA) peuvent rendre des degrés de formalité incorrects et incohérents. Pourquoi ? Les modèles de TA émettent généralement une seule traduction pour chaque segment source. Lorsque ledit segment est ambigu, le modèle doit choisir une traduction parmi plusieurs options valides, quel que soit le public cible. Ce choix aléatoire du modèle entre différentes options valides peut entraîner des traductions incohérentes ou des traductions dont le niveau de formalité est incorrect.

Il est particulièrement difficile d'obtenir un résultat correct lorsque la langue source a moins de niveaux de formalité que la langue cible. Par exemple, des langues comme le français ont des modes formels bien définis, avec le tutoiement et le vouvoiement, alors que l'anglais n'en a pas.

Bien que la plupart des systèmes de TA ne prennent pas en charge la formalité linguistique ou les paramètres de genre, nous constatons des progrès. Actuellement, DeepL (API) et Amazon (console et SDK) proposent des fonctionnalités qui contrôlent la formalité. Smart MT™ de Lionbridge, une solution de traduction automatique d'entreprise, permet d'appliquer des règles linguistiques au texte cible pour produire des traductions automatiques avec le style ou la formalité souhaités.

Il est essentiel de traduire efficacement votre source pour répondre aux besoins de vos publics cibles, ce qui inclut le traitement du langage formel et informel dans votre résultat de TA. Les traductions imprécises ou, pire encore, grossières vous exposent au risque de perdre votre public.

Lisez notre blog pour en savoir plus sur la TA et le langage formel vs informel.

 

    - Yolanda Martin, spécialiste de traduction automatique chez Lionbridge


Septembre 2022

Il peut être avantageux d'utiliser la traduction automatique (TA), mais vous devez procéder avec prudence. Les moteurs de TA génériques peuvent produire des traductions erronées et peuvent notamment provoquer des résultats indésirables pour des domaines spécifiques d'un point de vue terminologique. L'impact peut être particulièrement nocif dans les domaines médicaux et juridiques. Mais il y a des choses que vous pouvez faire pour améliorer les résultats de la TA.

L'utilisation de la terminologie peut vous permettre d'améliorer la qualité de la traduction automatique et d'obtenir des traductions précises et cohérentes.

Il est impératif d'entraîner des systèmes de TA personnalisés avec des textes bilingues spécifiques à un domaine qui incluent une terminologie spécialisée. Néanmoins, il est impossible d'obtenir des traductions fiables lorsque les moteurs sont entraînés avec des textes spécialisés où la terminologie n'est pas utilisée de manière cohérente. Les recherches dans ce domaine suggèrent d'injecter des informations linguistiques dans les systèmes de traduction automatique neuronale (NMT). La mise en œuvre de l'annotation manuelle ou semi-automatique dépend des ressources disponibles (glossaires. etc.) ainsi que des contraintes (temps, coût, disponibilité des annotateurs humains, etc.).

Smart MT™ de Lionbridge permet d'appliquer des règles linguistiques au texte source et cible, de prendre en compte de la terminologie à ne pas traduire (DNT – Do Not Translate) ainsi que d'ajouter des listes de glossaires à un profil spécifique. Nous aidons nos clients à créer et à maintenir des glossaires, qui sont régulièrement perfectionnés pour inclure de nouveaux termes pertinents et supprimer la terminologie obsolète. Une fois que les glossaires ont été créés dans Smart MT, ils peuvent être utilisés pour tous les moteurs TA, ce qui permet d'économiser du temps et de l'argent.

L'utilisation de glossaires pour les projets de TA n'est pas aussi simple qu'il n'y paraît. Les glossaires, s'ils sont utilisés de manière inappropriée, peuvent nuire à la qualité globale de la traduction automatique. La meilleure façon de suivre la terminologie en TA consiste à entraîner la TA. La combinaison de moteurs de TA entraînés, de personnalisation des glossaires et d'identification des règles de prétraitement et de post-traitement garantit que le résultat de la TA contient la terminologie appropriée et se rapproche en termes stylistiques de la documentation du client.

Lisez notre blog pour en savoir plus sur l'utilisation de la terminologie pour améliorer le résultat de la TA.

 

    - Yolanda Martin, spécialiste de traduction automatique chez Lionbridge


Août 2022

Alors que les entreprises recourent de plus en plus à la traduction automatique (TA), les employés doivent redoubler de vigilance vis-à-vis des risques de diffusion d'erreurs catastrophiques.

Les erreurs catastrophiques sont plus problématiques que les erreurs de TA standard, qui se rapportent à la typologie des erreurs liées aux caractéristiques linguistiques, telles que l'orthographe, la grammaire ou la ponctuation. Ces erreurs transcendent la linguistique et se produisent lorsque le résultat du moteur s'écarte dangereusement du message prévu. La désinformation ou les malentendus qui en résultent sont susceptibles de causer des problèmes de réputation, financiers ou juridiques aux entreprises et peuvent avoir des conséquences néfastes sur la sécurité ou la santé publique. Il est essentiel de trouver des moyens de les identifier et de les empêcher de compromettre vos communications.

Lionbridge administre des contrôles de qualité automatisés spécifiques dans les textes traduits pour détecter les erreurs critiques tout en préservant la vitesse de la traduction automatique et en réduisant le besoin d'intervention humaine.

Ces méthodes automatisées détectent :

  • Les sens opposés entre les textes originaux et traduits
  • Les mots offensants, grossiers ou très sensibles
  • Les traductions incorrectes de noms propres d'individus et d'organisations qui sont également des mots courants

Les entreprises seront mieux protégées contre les erreurs catastrophiques à mesure que les informaticiens amélioreront la technologie de traduction automatique existante pour les éviter. En attendant, nous pouvons utiliser une technologie automatisée pour identifier les problèmes potentiels, réviser les phrases problématiques et promouvoir l'exactitude pendant le processus de traduction.

Lisez notre blog pour un examen approfondi des erreurs catastrophiques qui peuvent survenir lors de la traduction automatique.

 

    - Luis Javier Santiago, chef de groupe TA

 

    et Rafa Moral, vice-président de Lionbridge, Innovation


Juillet 2022

Google NMT, Bing NMT, Amazon, DeepL, Yandex – quel est le meilleur moteur ? Les données du mois dernier – et la tendance générale actuelle – montrent que les principaux moteurs fonctionnent au même niveau. C'est la raison pour laquelle il vaut la peine de prendre en compte des facteurs supplémentaires lors de l'élaboration de votre stratégie de traduction automatique, tels que la facilité avec laquelle les moteurs de TA traduisent des paires de langues spécifiques.

Identifier à quel point il est difficile de gérer des paires de langues spécifiques pour certains moteurs vous aidera à budgétiser vos coûts de traduction à allouer aux différentes langues. Par exemple, vous devrez déployer plus d'efforts pour obtenir des traductions de haute qualité relativement à des paires de langues complexes. Avoir une notion de la complexité d'une langue peut vous aider dans vos prises de décisions commerciales.

Classer les langues par traduisibilité n'est pas une tâche aisée, cependant, nous disposons de différentes métriques pour les évaluer. La distance d'édition, c'est à dire les différentes modifications qu'un post-éditeur apporte pour s'assurer que le texte final a une qualité professionnelle, et les métriques d'évaluation de la traduction automatique peuvent donner une idée de la complexité et de la traduisibilité automatique pour chaque paire de langues.

La plupart des langues romanes, telles que le portugais, l'espagnol, le français et l'italien, nécessitent moins de modifications pour atteindre des niveaux de qualité élevés lorsqu'elles sont traduites depuis l'anglais. Nous avons identifié ces langues cibles telles que les plus simples à gérer pour les moteurs, occupant donc les quatre premières places de notre classement de traduisibilité automatique. Le hongrois et le finnois – deux langues ouraliennes – comptent parmi les langues les plus complexes, et sont arrivées aux dernières places de notre classement, soit aux 27ème et 28ème places. L'estonien, autre langue de la même famille, fait également partie des langues les plus complexes. Ces résultats, basés sur des millions de phrases traitées par Lionbridge, soulignent l'importance des familles linguistiques dans les résultats de traduction automatique.

Bien que la comparaison intra-langue ait ses limites, le classement peut fournir des informations intéressantes pour mieux gérer les projets multilingues. Lisez notre blog pour voir le tableau de classement des langues de Lionbridge dans son intégralité.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Juin 2022

En juin, nous avons observé une petite amélioration des traductions russes par le moteur de TA de Yandex et une petite baisse des résultats de traduction par le moteur de TA de Microsoft Bing. S'agit-il de changements notables ou de résultats insignifiants et fallacieux ? Pour le savoir, nous avons analysé les résultats différemment.

Au lieu d'utiliser un seul étalon-or qui mesure la distance entre une traduction automatique et une traduction humaine « parfaite », nous avons utilisé plusieurs traductions de référence. Nous avons comparé chaque traduction faite par des machines à 10 traductions réalisées par des traducteurs professionnels. Lorsque nous avons adopté cette approche, les petites fluctuations de la qualité des traductions par Yandex et Microsoft Bing en juin ont disparu. Ainsi, nous pouvons conclure qu'il n'y a eu aucun changement dans la qualité de la TA. Les résultats de juin sont stables.

Parfois, les données et leurs représentations graphiques peuvent être trompeuses. Cela se produit souvent lorsqu'il existe de petits deltas entre différentes mesures. C'est une bonne pratique d'utiliser plus d'une approche pour évaluer les données afin d'interpréter les résultats avec précision.

Nous prévoyons peu de mouvement dans la qualité des moteurs de TA dans les mois à venir. Nous utiliserons cette section pour fournir une analyse et des observations générales de TA. Le mois prochain, recherchez des comparaisons entre les paires de langues TA. Nous explorerons s'il est possible d'utiliser des données pour classer les langues et les familles de langues par complexité de la TA et déterminerons si les machines peuvent traduire certaines paires de langues plus facilement que d'autres.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Mai 2022

Il s'est essentiellement agi d'un autre mois de stagnation pour les moteurs de TA.

Nous avons remarqué qu'Amazon a progressivement amélioré la façon dont son moteur gère la paire anglais-espagnol. C'est maintenant le moteur leader dans cette paire de langues. Amazon a également fait des progrès mineurs dans les autres langues, mais plus petits que ses améliorations dans la paire anglais-espagnol. Nous supposons que ces progrès sont dus à certains changements de paramètres génériques et à la suite de travaux concernant la paire anglais-espagnol. Les améliorations semblent affecter le traitement de certains caractères spéciaux et segments avec des expressions de mesure.

Pour le deuxième mois consécutif, Yandex a apporté des améliorations mineures. Fait intéressant, ces améliorations affectent également l'espagnol.

Comme nous l'avons noté précédemment, il n'y a pas eu de changements significatifs. Tous les moteurs fonctionnent de la même manière. Dans les mois à venir, nous analyserons certains domaines spécifiques de TA et vous ferons part de nos observations générales. Bien sûr, nous suivrons également les développements majeurs.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Avril 2022

Après plusieurs mois de performances stables de son moteur TA, Yandex a montré quelques progrès, notamment au niveau de son moteur allemand.

Dans une analyse détaillée des moteurs Yandex, nous avons constaté une amélioration de la gestion des phrases comportant des caractères de ponctuation (points d'interrogation, points d'exclamation, parenthèses et barres obliques), ainsi que des unités de mesure. Il se peut que ces développements découlent d'ajustements de paramètres de TA plutôt que de l'amélioration des modèles. D'un autre côté, nous avons également relevé de meilleures performances dans notre suivi de termes rares, ce qui pourrait indiquer un affinement des modèles ou davantage d'entraînement des données de la part de Yandex.

À peu près à la même époque l'année dernière, plusieurs moteurs de TA ont montré des améliorations que nous avons trouvées intéressantes. Cela indique-t-il un schéma temporel ? Verrons-nous en 2022 quelque chose de similaire à ce que nous avons observé l'année dernière ? Nous continuons à suivre les performances de TA de ces moteurs et nous publierons nos résultats prochainement.

D'une manière générale, on constate un intérêt accru envers l'évaluation des moteurs de TA. Aujourd'hui, presque tout le monde convient que la technologie de TA a fait ses preuves. L'utilité de cette technologie est largement reconnue relativement à la quasi totalité des besoins de traduction, avec ou sans intervention humaine et à travers des approches hybrides. Les utilisateurs de la TA ont néanmoins encore du mal à trouver le bon moyen d'évaluer, de mesurer et d'améliorer les résultats de TA.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Mars 2022

Si vous avez suivi ces pages, vous connaissez nos évaluations comparatives de TA génériques. Chaque mois, nous identifions les moteurs de traduction automatique les plus performants pour des paires de langues données et suivons les améliorations du moteur. En mars, les performances des différents moteurs de TA ont été stables. C'est une tendance que nous observons depuis un certain temps déjà. Comme nous l'avons commenté le mois dernier, cela peut indiquer qu'un nouveau paradigme de TA est nécessaire.

Alors que nous partageons des résultats génériques, les entreprises recherchent de plus en plus des évaluations comparatives de TA personnalisées. Contrairement à la version générique, ces évaluations prennent en considération les besoins spécifiques d'une entreprise lors de la détermination des moteurs de TA les plus avantageux.

Lorsqu'une entreprise souhaite commencer à utiliser la TA ou améliorer la façon dont elle utilise actuellement la TA, il est essentiel d'identifier les moteurs TA qui fonctionneront le mieux. Lorsque nous exécutons des évaluations personnalisées, nous adoptons une approche similaire à celle présentée sur cette page, mais nous formulons des recommandations basées sur le type de contenu et les exigences de la paire de langues d'une entreprise.

Bien que des évaluations comparatives TA personnalisées soient disponibles depuis des années, elles sont de plus en plus demandées. Nous attribuons cette tendance au rôle important que joue la TA pour aider les entreprises à réussir sur un marché numérique.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Février 2022

Le moteur TA de Google a montré d'infimes améliorations en janvier et février 2022, tandis que les autres moteurs que nous suivons sont restés stagnants. Ces observations peuvent nous amener à nous poser quelques questions pointues. Le paradigme de la traduction automatique neuronale (NMT) est-il parvenu à un plateau ? Un nouveau changement de paradigme est-il nécessaire compte tenu de l'incapacité des moteurs à faire des progrès significatifs ? Nous avons constaté des tendances similaires lorsque la NMT a remplacé la TA statistique.

À la fin de l'ère de la TA statistique, il n'y avait pratiquement aucun changement dans la qualité des résultats de TA. De plus, la qualité des résultats des différents moteurs TA a convergé. Nous observons des tendances similaires. La NMT ne sera probablement pas remplacée à court terme, mais si l'on considère les théories de la croissance exponentielle et de l'accélération des rendements, ainsi que le parcours de 30 ans de la TA basée sur les règles, l'importance de la décennie de la TA statistique et le fait que la NMT est entrée dans sa sixième année, un nouveau changement de paradigme pourrait ne pas être pas si loin.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Janvier 2022

Au cours du mois de janvier, les principaux moteurs de traduction automatique (TA) n'ont pas montré de changements significatifs dans leurs performances. 

Google a apporté de petites améliorations progressives dans certaines langues et domaines. Les performances de la plupart des autres moteurs ont été stables. Microsoft a connu des améliorations au cours des derniers mois, mais les performances ont plafonné en janvier. Dans l'ensemble, la qualité de Google Traduction continue de dominer la technologie de traduction automatique à usage général. 

En décembre, nous avons ajouté un cinquième moteur TA à notre outil de suivi. En surveillant Yandex, nous pouvons mieux analyser la qualité de la TA en langue russe.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Décembre 2021

En décembre, nous avons ajouté Yandex MT à notre contrôle comparatif MT Quality Tracker. 

Selon nos séries de tests, jusqu'à présent, Yandex :

  • Fait preuve de meilleures performances que MS Bing, aussi bonnes que Google et moins bonnes qu'Amazon et DeepL pour le russe.
  • Présente d'aussi bonnes performances qu'Amazon et MS Bing pour l'allemand.
  • Ne fonctionne pas aussi bien que les principaux moteurs de TA pour les autres paires de langues que nous suivons.
  • Montre de bonnes performances pour traiter des phrases de plus de 50 mots. 

Dans le cadre d'autres observations, MS Bing a significativement amélioré ses résultats au cours des derniers mois de 2021, en particulier en ce qui concerne le chinois. Amazon a également fait quelques progrès. Alors que nous commençons la nouvelle année, Google prend le relais et améliore ses performances. Plus précisément, les traductions en espagnol, russe et allemand se sont améliorées. La ligne de Yandex est restée stable pendant les cinq semaines où nous l'avons suivie.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Novembre 2021

Après plusieurs semaines d'expérimentation et de fluctuation des performances globales, il est clair que les ingénieurs de Microsoft NLP mijotent quelque chose. Bing Translator a montré des améliorations générales au cours des dernières semaines, et en particulier pour le chinois, faisant de ce moteur de traduction automatique le grand gagnant du mois dernier. Bing Translator est venu à combler des lacunes dans la plupart des domaines, dépassant même les performances de certains de ses concurrents. Ce moteur reste l'un des plus efficace à entrainer, et ses améliorations le positionnent en tant que choix avisé lors de la création de modèles personnalisés spécifiques à votre contenu.

 

    - Jordi Macias, vice-président de Lionbridge, Excellence linguistique


Octobre 2021

Les moteurs de traduction automatique (TA) d'Amazon ont continué d'évoluer positivement au cours du mois d'octobre, selon la lancée amorcée il y a environ un mois. Ces perfectionnements constituent la deuxième série d'améliorations incrémentielles que nous avons observées au cours des derniers mois.

Pour rappel, voici quelques-uns des domaines dans lesquels les moteurs de TA d'Amazon ont continué d'évoluer au cours des deux derniers mois :

  • Adoption d'un style plus informel qu'avant
  • Traitement différent des unités de mesure
    • Mesures impériales et métriques désormais systématiquement affichées
    • Indication des mesures impériales avant les mesures métriques
    • Nombres correspondant aux mesures désormais traduits et exempts d'erreur
    • « Euro » désormais écrit in extenso en remplacement du symbole monétaire €

 

    - Jordi Macias, vice-président de Lionbridge, Excellence linguistique


Septembre 2021

Le mois de septembre s'est avéré être un mois intéressant pour les moteurs de traduction automatique d'Amazon. Tout d'abord, la société a amélioré la qualité des traductions automatiques en allemand et en russe. Ensuite, nous avons constaté un sursaut de demandes pour les paires de langues espagnole et chinoise. Il s'agit ici de la deuxième série d'améliorations progressives constatées au cours des derniers mois.

Voici d'autres modifications apportées aux moteurs de traduction automatique d'Amazon :

  • Le style produit est plus informel qu'auparavant
  • Les unités de mesure sont traitées différemment
    • Les mesures impériales et métriques sont désormais systématiquement affichées
    • Les mesures impériales apparaissent désormais avant les mesures métriques
    • Les chiffres qui correspondent aux mesures sont maintenant traduits et corrects
    • « Euro » est maintenant écrit en toutes lettres et remplace le symbole monétaire €

 

    - Yolanda Martin, spécialiste de traduction automatique chez Lionbridge


Août 2021

Toutes les grandes entreprises technologiques ont développé leurs propres moteurs de traduction automatique, notamment Microsoft, Google, Amazon, Facebook et maintenant Apple. De nombreux autres acteurs importants sur les marchés hors États-Unis sont également en concurrence dans ce domaine. Les grandes entreprises technologiques sont convaincues que la traduction automatique et le traitement du langage naturel constituent des outils indispensables dans le monde actuel, interconnecté et globalisé.

Consultez cet espace pour savoir si Lionbridge est en phase avec la concurrence. Nous allons identifier les meilleures options de moteur de traduction automatique en fonction des besoins spécifiques de l'entreprise, en tenant compte de la paire de langues et du type de contenu souhaités.

Vu le grand nombre d'entreprises high-tech qui investissent dans ce domaine, nous nous attendons à une accélération dans la course à la traduction automatique et au traitement du langage naturel. Il ne fait aucun doute qu'Apple, avec son souci du détail et de la qualité, incitera les autres entreprises à se dépasser.

 

    – Rafa Moral, vice-président de Lionbridge, Innovation


Rencontrez nos experts en traduction automatique

Rafa Moral

Vice-président, Innovation 

Rafa supervise les activités de R&D liées au langage et à la traduction. Cela englobe les initiatives concernant la traduction automatique, le profilage et l'analyse de contenu, le relevé terminologique, ainsi que le contrôle et l'assurance qualité linguistique.

Share on LinkedIn

Yolanda Martin

Spécialiste de la TA

Yolanda est responsable de la création de modèles de traduction personnalisés, ainsi que de l'analyse de la qualité et de l'évolution de stratégies pour les affiner. En parallèle, elle travaille avec le service de R&D pour développer de nouveaux outils et ressources linguistiques.

Share on LinkedIn

Thomas McCarthy

Analyste commercial de TA

Thomas veille à ce que les clients et les parties prenantes de Lionbridge recueillent un maximum d'avantage grâce aux technologies, services et conseils liés à la TA.

Share on LinkedIn

Parlons-en

Veuillez saisir votre adresse électronique professionnelle