Seminario web
Mejorar la inclusividad en la investigación de ensayos clínicos: traducciones y elaboración de COA
Caso práctico: marketing multilingüe para minoristas
Nuevas soluciones de creación de contenido con IA para un gigante especializado en prendas y artículos deportivos
Centros de conocimiento de Lionbridge
Resultados positivos para los pacientes
Marco TRUST de Lionbridge
Fomentar la confianza en el uso de la IA
Talento en acción: Lex Parisi
Director de Soluciones de Marketing de Juegos de Lionbridge Games
IA generativa
- Servicios de traducción mediante IA
- Content Remix
Entrenamiento de la IA
- Aurora AI Studio™
Traducción automática
- MT Tracker
Instant Interpreter
Smart Onboarding
Modelos de servicios de traducción
Servicios de contenido
- Redacción técnica
- Formación y aprendizaje electrónico
- Informes financieros
- Marketing digital
- SEO y optimización de contenido
Servicios de traducción
- Localización de vídeo
- Localización de software
- Localización de sitios web
- Traducción para empresas reguladas
- Interpretación
- Instant Interpreter
- Eventos en directo
- Servicios de calidad lingüística
Servicios de testing
- Testing y control de calidad funcional
- Pruebas de compatibilidad
- Pruebas de interoperabilidad
- Pruebas de rendimiento
- Pruebas de accesibilidad
- Pruebas de experiencia de usuario/cliente
Sector biomédico
- Sector farmacéutico
- Sector clínico
- Cuestiones normativas
- Actividades posteriores a la aprobación
- Ámbito corporativo
- Productos sanitarios
- Validación e investigaciones clínicas
- Cuestiones normativas
- Actividades posteriores a la autorización
- Ámbito corporativo
Banca y finanzas
Comercio minorista
Productos de lujo
Comercio electrónico
Lionbridge Games
Automoción
Productos de consumo envasados
Tecnología
Fabricación industrial
Servicios jurídicos
Turismo y hostelería
Novedades
- Entradas de blog
- Casos prácticos
- Artículos
- Resúmenes de productos
- Infografías
- Libros electrónicos
- Vídeos
Seminarios web
Centros de conocimiento de Lionbridge
- Resultados positivos para los pacientes
- Soluciones para los ensayos clínicos modernos
- Compromiso del paciente
SELECCIONAR IDIOMA:
Llevamos un tiempo advirtiendo de que el paradigma de la traducción automática (TA) estaba ya lo bastante maduro como para experimentar un cambio. ¿Quiere saber por qué? Lea los comentarios de nuestro experto.
Nuestros expertos en traducción automática ofrecen información sobre numerosos temas, entre otros:
Cuanto mejor entienda la TA y la IA generativa, mejor podrá implantar las herramientas de manera selectiva para dar respuesta a sus necesidades. Aproveche los puntos fuertes que ofrece cada paradigma para lograr, en última instancia, la máxima eficiencia de la traducción, mejores resultados con el contenido y ahorros de costes.
A tenor del predominio y del potencial de la IA generativa y los modelos lingüísticos de gran tamaño, hemos mejorado el informe de la herramienta de seguimiento de la calidad de la traducción automática de Lionbridge. A partir de ahora, el informe incluirá los resultados de traducción de GPT-4, además de los de GPT-3.5 y Davinci y, como no podía ser de otra forma, los relacionados con el rendimiento del motor de TA neuronal.
Hemos detectado varios problemas en relación con GPT-4, entre los que se incluyen un bajo rendimiento, su incapacidad para ofrecer traducciones por diversos motivos y un comportamiento incoherente, por ejemplo, la ausencia de traducciones en algunas peticiones dentro de un conjunto.
GPT-4 no tradujo una oración concreta de nuestro conjunto para pruebas para la TA.
Tras analizar esta cuestión, hemos concluido que el problema residía en la presencia de un término con cierta connotación sexual en determinados contextos. Queremos dejar claro que la oración que utilizamos en nuestra prueba era completamente normal y aceptable. Sin embargo, por algún motivo, el término activó el filtro de contenido sexual GPT-4; posteriormente, la IA censuró la traducción de esa oración y, en consecuencia, no generó ningún resultado. Este resultado nos sorprendió por dos motivos:
Al usar ese término de manera aislada, no se produjo problema alguno.
El contexto de esa oración en concreto no tenía ninguna interpretación problemática.
Esta observación nos llevó a concluir que, quizás, una parte del mecanismo de filtrado de GPT-4 se basaba en una lista sencilla de palabras prohibidas que también incluye términos ambiguos. Este enfoque resulta problemático, ya que tiende a activarse en exceso y a provocar falsos positivos, un problema grave en el contexto de la traducción profesional.
Puesto que las anteriores tecnologías de traducción automática, como los motores de TA neuronal, no presentan este tipo de problema de filtrado de contenido, podemos concluir que se trata de una limitación propia de las tecnologías de LLM.
En contextos reales, esta limitación posee ciertas implicaciones. Por ejemplo, en el caso de que haya que traducir contenido médico relacionado con la ginecología o la educación sexual. Quizá le sorprenda comprobar que el LLM no traducirá parte del texto.
Lo más interesante es que este problema solamente apareció cuando tradujimos esta oración hacia un idioma en concreto, el chino, pero no al traducir hacia otras lenguas. Este resultado sugiere que el filtro se encontraba en el resultado de GPT-4. La solución consiste en desactivar los filtros de contenido para tareas de traducción.
Tras cinco semanas de seguimiento, descubrimos que la traducción automática que ofrece el LLM genera resultados muy variables, especialmente en el caso de GPT-4.
Aunque esperábamos este resultado en el caso de la IA generativa, la variabilidad fue mucho más relevante de lo previsto, incluso cuando utilizamos los ajustes del parámetro de temperatura y máxima probabilidad (Top_p) para reducir la creatividad y lograr un resultado más determinista. El resultado de la traducción fue diferente cada una de las veces que ejecutamos GPT, incluso cuando realizamos las traducciones una tras otra.
Aunque difieren, las dos traducciones pueden ser aceptables. Sin embargo, este es otro aspecto que se debe controlar y que marca otra diferencia con respecto al paradigma anterior de la TA neuronal.
Por todo ello, comenzamos a intuir que este posible cambio de paradigma, de la TA neuronal a la TA mediante LLM, puede constituir no solo un cambio tecnológico, sino que también exige un cambio de mentalidad por nuestra parte. Es posible que tengamos que estar preparados para convivir con resultados menos deterministas, incluso cuando se utiliza el mismo texto de entrada y los mismos parámetros, y esperamos observar una mayor variabilidad de la que solíamos observar con la automatización actual.
Aunque en cierto modo es posible que tengamos que convivir con un mayor grado de incertidumbre, es posible utilizar algunos mecanismos y prácticas recomendadas para conseguir que esa variabilidad sea, hasta cierto punto, controlable.
Por último, al examinar nuestro gráfico, se observa que la reducción en la distancia de edición de GPT-4 no indica una menor calidad, sino que se trata de un simple reflejo de la variabilidad que presentan los resultados de GPT. Es posible que, el próximo mes, se observe una subida en esta línea. No se pierda este espacio para descubrir los futuros avances y obtener más información.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
Examine los resúmenes ejecutivos que se muestran a continuación para obtener más información sobre los temas analizados en nuestros anteriores comentarios.
Marzo de 2023 — Un modelo lingüístico de gran tamaño (LLM) obtiene un mejor resultado que un motor de traducción automática (TA) neuronal: ¿y ahora qué?
Febrero de 2023: mejora de la traducción automática (TA): personalización y entrenamiento de la TA
Enero de 2023: comparación del grado de calidad de la traducción realizada por ChatGPT y los principales motores de TA
Noviembre de 2022: mejora de los resultados de la TA de Microsoft
Octubre de 2022: TA y grado de formalidad de un idioma
Septiembre de 2022: uso de la terminología para mejorar la calidad de la TA
Agosto de 2022: evitar los errores catastróficos durante la traducción automática
Julio de 2022: clasificación de idiomas para TA
Junio de 2022: análisis preciso de la calidad de la TA
Mayo de 2022: rendimiento de Amazon y Yandex en el mes de mayo
Abril de 2022: rendimiento de Yandex en el mes de abril
Marzo de 2022: comparativas personalizadas de TA
Febrero de 2022: el futuro de la traducción automática neuronal
Enero de 2022: rendimiento de los motores de TA en enero
Diciembre de 2021: Lionbridge añade Yandex a sus análisis comparativos de calidad de la TA
Noviembre de 2021: Bing Translator introduce mejoras
Octubre de 2021: evolución del motor de TA de Amazon
Septiembre de 2021: Amazon introduce mejoras en la calidad de la TA
Agosto de 2021: principales empresas tecnológicas y evolución de sus motores de TA
Obtenga más información de la mano de nuestros expertos en traducción automática.
La inteligencia artificial (IA) generativa ha alcanzado un hito importante, pues ha presentado un mejor rendimiento que un motor de traducción automática (TA) neuronal en una de nuestras evaluaciones comparativas. En concreto, el modelo lingüístico de gran tamaño (LLM) GPT-4 obtuvo una calidad ligeramente superior a la de Yandex en la combinación del inglés hacia el chino, como se muestra en la figura 1.
Este avance es muy notable, ya que es la primera vez que un tipo de enfoque de TA distinto supera a un motor de TA neuronal desde la aparición de esta. Además, ha sido un enfoque que no se basa en la TA, una automatización lingüística para múltiples fines que no está pensada específicamente para la traducción automática, el que ha vencido a un motor de TA neuronal.
¿Por qué no debería ignorar este suceso? Si usted es un prestador de TA y quiere seguir siendo competitivo, deberá situarse a la vanguardia de los avances tecnológicos y analizar el impacto que estos tendrán en su oferta actual de TA. En cambio, si usted es una persona que adquiere una TA, deberá estar al tanto de estas innovaciones para realizar buenas inversiones en TA, lo cual, probablemente, incluirá algunas tecnologías basadas en LLM en lugar de soluciones de traducción automática neuronal pura.
Cabe mencionar que la IA generativa todavía se encuentra en sus primeras fases, por consiguiente, presenta ciertas carencias en algunos ámbitos clave. Por ejemplo, genera resultados variables a lo largo de múltiples repeticiones, su interfaz de programación de aplicaciones (API) es inestable y comete más errores que los motores de TA neuronales. Para que la tecnología pueda madurar, es imprescindible solucionar estos problemas y, de hecho, ya vemos ciertas mejoras que se están consiguiendo a una velocidad de vértigo.
La increíble velocidad a la que se pueden mejorar los LLM respalda la idea de que esta tecnología se convertirá en el siguiente paradigma de la traducción automática. De acuerdo con nuestras previsiones, nos adentramos en un período híbrido en el que los prestadores de TA neuronal integrarán algunos aspectos de los LLM en la arquitectura de la TA neuronal mientras evoluciona el paradigma.
Lea nuestro artículo del blog para ver una comparación de la calidad de la traducción que ofrecen la TA neuronal y los LLM en dos combinaciones lingüísticas distintas y para conocer nuestra opinión sobre si nos encontramos ante el principio del fin del paradigma de la traducción automática neuronal.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
A menudo, los motores de traducción automática (TA) genéricos ofrecerán un resultado adecuado para aquellas empresas que buscan automatizar sus traducciones. Sin embargo, estos motores también pueden generar sugerencias que no son óptimas, especialmente a la hora de ocuparse del contenido relacionado con la tecnología o con un alto grado de especialización.
Las empresas que buscan mejorar los resultados de traducción automática para cumplir unos objetivos específicos pueden contemplar dos opciones: la personalización de la TA o el entrenamiento de la TA. Cualquiera de los dos métodos, o una combinación de ambos, puede ofrecer mejores resultados durante el proceso de traducción automática.
Sin embargo, los enfoques de cada uno difieren y no son intercambiables. En la Tabla 1 se muestra una sinopsis sobre la personalización y el entrenamiento de la TA y se recogen algunos factores que es necesario tener en cuenta a la hora de evaluar cada método.
Personalización de la TA | |
---|---|
Qué es y cómo funciona | Se trata de la adaptación de un motor de traducción automática preexistente con un glosario y una lista de términos no traducibles para mejorar la precisión de las traducciones generadas automáticamente. |
¿Qué hace? | Mejora las sugerencias de la TA para obtener resultados más precisos y reduce la necesidad de realizar una posedición exhaustiva. |
Ventajas específicas | Permite a las empresas mantener su nombre de marca y la terminología correspondiente, así como introducir variantes regionales. |
Riesgos que plantea su uso | Cuando no se ejecuta correctamente, la TA podría realizar sugerencias deficientes e influir de manera negativa en la calidad global del resultado. |
¿Cuándo se debe utilizar? | Ideal para contenido tecnológico y centrado en los detalles, así como para cualquier otro en el que se necesiten: *Traducciones precisas de terminología *Variantes regionales, cuando se carece de datos suficientes para entrenar la TA |
Factores que contribuyen a un buen resultado | Un experto en TA con experiencia que pueda gestionar correctamente las reglas de normalización de entrada y salida, los glosarios y las listas de términos no traducibles. |
Cuestiones relacionadas con el coste | Existe un coste puntual en concepto de actualización del perfil introducido en el motor de TA y ciertos costes continuos destinados al mantenimiento del glosario a lo largo del tiempo. Los costes son relativamente asequibles si se tienen en cuenta los posibles beneficios de esta técnica y, por lo general, inferiores a los que entraña el entrenamiento de un motor de TA. |
Tabla 1. Comparativa entre la personalización y el entrenamiento de la TA
Entrenamiento de la TA | |
---|---|
Qué es y cómo funciona | Consiste en el desarrollo y el entrenamiento de un motor de TA empleando amplios datos bilingües procedentes de corpus y memorias de traducción (TM) con el fin de mejorar la precisión de las traducciones generadas automáticamente. |
¿Qué hace? | Mejora las sugerencias de la TA para obtener resultados más precisos y reduce la necesidad de realizar una posedición exhaustiva. |
Ventajas específicas | Permite a las empresas obtener una voz, un tono y un estilo de marca específicos e introducir variantes regionales. |
Riesgos que plantea su uso | Si no hay suficientes datos de calidad para entrenar al motor, el entrenamiento de la TA podría no tener repercusión alguna en el resultado. En los textos de redactores con poca experiencia que hagan un uso excesivo de la terminología, la TA podría generar sugerencias deficientes y repercutir de manera negativa en la calidad global. |
¿Cuándo se debe utilizar? | Ideal para contenido muy especializado y creativo, marketing y cualquier otro contenido en el que se necesite: *Una voz, un tono o un estilo de marca concretos *Variantes regionales, cuanto existen datos suficientes para el entrenamiento de la TA |
Factores que contribuyen a un buen resultado | Un mínimo de 15 000 segmentos únicos para entrenar de manera adecuada al motor. |
Cuestiones relacionadas con el coste | El primer entrenamiento conlleva ciertos costes y existe la posibilidad de que se apliquen otros costes para llevar a cabo un entrenamiento adicional, que se podría contemplar con el paso del tiempo si tras supervisar el rendimiento de la TA se determina que presenta cierto margen de mejora. Si se tienen en cuenta los posibles beneficios, puede merecer la pena invertir en el entrenamiento de la TA. |
Tabla 1. Comparativa entre la personalización y el entrenamiento de la TA
Personalización de la TA | Entrenamiento de la TA | |
---|---|---|
Qué es y cómo funciona | Se trata de la adaptación de un motor de traducción automática preexistente con un glosario y una lista de términos no traducibles para mejorar la precisión de las traducciones generadas automáticamente. | Consiste en el desarrollo y el entrenamiento de un motor de TA empleando amplios datos bilingües procedentes de corpus y memorias de traducción (TM) con el fin de mejorar la precisión de las traducciones generadas automáticamente. |
¿Qué hace? | Mejora las sugerencias de la TA para obtener resultados más precisos y reduce la necesidad de realizar una posedición exhaustiva. | Mejora las sugerencias de la TA para obtener resultados más precisos y reduce la necesidad de realizar una posedición exhaustiva. |
Ventajas específicas | Permite a las empresas mantener su nombre de marca y la terminología correspondiente, así como introducir variantes regionales. | Permite a las empresas obtener una voz, un tono y un estilo de marca específicos e introducir variantes regionales. |
Riesgos que plantea su uso | Cuando no se ejecuta correctamente, la TA podría realizar sugerencias deficientes e influir de manera negativa en la calidad global del resultado. | Si no hay suficientes datos de calidad para entrenar al motor, el entrenamiento de la TA podría no tener repercusión alguna en el resultado. En los textos de redactores con poca experiencia que hagan un uso excesivo de la terminología, la TA podría generar sugerencias deficientes y repercutir de manera negativa en la calidad global. |
¿Cuándo se debe utilizar? | Ideal para contenido tecnológico y centrado en los detalles, así como para cualquier otro en el que se necesiten: *Traducciones precisas de terminología *Variantes regionales, cuando se carece de datos suficientes para entrenar la TA |
Ideal para contenido muy especializado y creativo, marketing y cualquier otro contenido en el que se necesite: *Una voz, un tono o un estilo de marca concretos *Variantes regionales, cuanto existen datos suficientes para el entrenamiento de la TA |
Factores que contribuyen a un buen resultado | Un experto en TA con experiencia que pueda gestionar correctamente las reglas de normalización de entrada y salida, los glosarios y las listas de términos no traducibles. | Un mínimo de 15 000 segmentos únicos para entrenar de manera adecuada al motor. |
Cuestiones relacionadas con el coste | Existe un coste puntual en concepto de actualización del perfil introducido en el motor de TA y ciertos costes continuos destinados al mantenimiento del glosario a lo largo del tiempo. Los costes son relativamente asequibles si se tienen en cuenta los posibles beneficios de esta técnica y, por lo general, inferiores a los que entraña el entrenamiento de un motor de TA. | El primer entrenamiento conlleva ciertos costes y existe la posibilidad de que se apliquen otros costes para llevar a cabo un entrenamiento adicional, que se podría contemplar con el paso del tiempo si tras supervisar el rendimiento de la TA se determina que presenta cierto margen de mejora. Si se tienen en cuenta los posibles beneficios, puede merecer la pena invertir en el entrenamiento de la TA. |
Tabla 1. Comparativa entre la personalización y el entrenamiento de la TA
Lea nuestro blog para obtener más información sobre las diferencias y las similitudes entre la personalización y el entrenamiento de la traducción automática.
—Thomas McCarthy, analista de TA para empresas de Lionbridge
¿Serán los modelos de lenguaje de gran tamaño (LLM) una buena alternativa al paradigma de la traducción automática neuronal (NMT) para la traducción automática (TA)? Para averiguarlo, hemos comparado el rendimiento de la traducción elaborada por ChatGPT, la última versión publicada por OpenAI de GPT-3, su familia de LLM, con los cinco principales motores de TA que empleamos para realizar el seguimiento de la calidad de la TA.
Tal y como se esperaba, los motores de NMT traducen mejor que ChatGPT, sin embargo, ChatGPT logra realizar un trabajo muy decente, algo que resulta sorprendente. Como se muestra en la Figura 1, ChatGPT presentó un rendimiento casi tan bueno como el de los motores especializados.
Hemos calculado el nivel de calidad a partir de la distancia de edición inversa empleando múltiples referencias para la combinación de idiomas de inglés a español. La distancia de edición mide el número de ediciones que un traductor humano debe realizar en el texto producido por una TA para que la traducción resultante sea igual de buena que una traducción humana. Para llevar a cabo nuestro cálculo, comparamos el resultado de la TA sin procesar con diez traducciones distintas realizadas por humanos, es decir, con múltiples referencias, y no solo con una única traducción humana. La distancia de edición inversa supone que cuanto mayor sea el número resultante, mejor será la calidad.
Figura 1. Comparación de la calidad de la traducción automática realizada por ChatGPT y los principales motores de traducción automática a partir de la distancia de edición inversa, empleando múltiples referencias para la combinación de idiomas inglés-español.
Estos resultados son notables porque el modelo genérico ha sido entrenado para llevar a cabo tareas de procesamiento del lenguaje natural (PLN) y no se ha entrenado específicamente para realizar traducciones. El rendimiento de ChatGPT presenta un nivel de calidad similar al que los motores de TA presentaban hace dos o tres años.
A tenor de la evolución de los LLM, tomando como base la atención del público y las considerables inversiones que las empresas tecnológicas están realizando en esta tecnología, pronto descubriremos si ChatGPT supera a los motores de TA o si la traducción automática empezará a adoptar nuevos paradigmas de LLM. La TA puede emplear los LLM como base y, después, perfeccionar la tecnología específicamente para la traducción automática. Esto sería algo similar a lo que OpenAI y otras empresas especializadas en LLM están haciendo para mejorar sus modelos genéricos para casos prácticos concretos, por ejemplo, para hacer posible que las máquinas se comuniquen con los seres humanos a través de conversaciones. La especialización añade precisión a las tareas realizadas.
Uno de los aspectos más destacados de estos modelos «genéricos» de lenguaje de gran tamaño es que pueden realizar muchas cosas distintas y ofrecer una calidad extraordinaria en la mayoría de tareas. Por ejemplo, GATO, el modelo de inteligencia general de DeepMind, se ha probado en más de 600 tareas y ha obtenido resultados punteros en 400 de ellos.
Actualmente, siguen existiendo dos líneas de desarrollo: los modelos genéricos, como GPT, Megatron y GATO; y los modelos especializados para fines concretos que se basan en estos modelos genéricos. Los modelos genéricos son importantes para mejorar la inteligencia artificial fuerte (IAF) y, posiblemente, propiciar avances todavía más impresionantes a largo plazo. Los modelos especializados tendrán usos prácticos a corto plazo en ámbitos concretos. Uno de los aspectos destacables sobre los LLM es que ambas líneas pueden avanzar y trabajar en paralelo.
Estamos muy intrigados por descubrir lo que nos depara el futuro. Seguiremos evaluando los LLM y publicando los resultados para que pueda estar al día de este avance tan emocionante. Lea nuestros artículos para profundizar en el rendimiento de las traducciones realizadas por ChatGPT y obtener más información acerca de la localización y ChatGTP y por qué es probable que cambie radicalmente el panorama.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
Entre el 11 de octubre y el 1 de noviembre hemos sido testigos de una gran mejora global de los resultados de la traducción automática (TA) de Microsoft. Con este reciente aumento de la calidad de Bing Translator, en estos momentos los principales motores de TA generan unos resultados muy similares. De este modo, se está librando una batalla muy ajustada por alcanzar la primera posición del ranking.
Durante meses, los principales motores de TA no han mostrado ninguna mejora de interés. Esperamos que este avance de Microsoft ponga fin a esa tendencia y que suponga el comienzo de una etapa de progreso para estos motores.
Hemos ido más allá de nuestra medición habitual de las traducciones con una sola referencia y hemos confirmado la mejora en los resultados de Microsoft con un segundo seguimiento que abarcaba múltiples referencias. En esta evaluación de la TA, hemos empleado 10 traducciones de referencia que han sido realizadas por personas, el modelo de referencia, en lugar de una sola traducción para obtener una métrica de distancia de edición más precisa que contemple varias traducciones correctas posibles en los resultados finales.
Al acercarnos al final del año, cabe señalar que los resultados de la TA en 2022 han sido bastante lineales. Hemos observado pocos cambios y, de hecho, probablemente este avance conseguido por Microsoft en la TA de Bing sea la mejora más notable producida en todo el año. Como ya se comentó a principios de año, es posible que el paradigma actual de la TA se esté estancando. Estamos ansiosos por descubrir qué le deparará 2023 a la traducción automática.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
Este mes, queremos llamar su atención sobre el grado de formalidad que presentan las lenguas y sobre lo difícil, aunque no imposible, que resulta reproducirlo correctamente cuando se utiliza la traducción automática (TA).
Los motores de traducción automática pueden hacer un uso incorrecto e incoherente del grado de formalidad de un texto. Esto se debe a que los modelos de TA, por lo general, devuelven una única traducción para cada segmento de entrada. Cuando el segmento de entrada es ambiguo, el modelo debe elegir una traducción entre varias opciones válidas, sin tener en cuenta el público destinatario. Al dejar que sea el modelo el que elija entre varias opciones posibles, pueden aparecer incoherencias en las traducciones o generarse textos con un nivel de formalidad incorrecto.
Cuando el idioma de origen tiene menos grados de formalidad que el idioma de destino, resulta especialmente complicado obtener el resultado correcto. Por ejemplo, los modos formal e informal de algunas lenguas como el francés están perfectamente definidos («tu» y «vous»), mientras que, en inglés, esto no sucede.
A pesar de que la mayoría de los sistemas de TA no admiten diferentes niveles de formalidad lingüística ni parámetros relacionados con el género, actualmente se están produciendo ciertos avances al respecto. Por ejemplo, en estos momentos, DeepL (API) y Amazon (consola y SDK) ofrecen diversas funciones que permiten controlar el grado de formalidad. Smart MT™, la solución de traducción automática diseñada para empresas de Lionbridge, permite aplicar reglas lingüísticas en el texto meta para generar traducciones automáticas con el grado de formalidad o el estilo deseados.
Estos ajustes resultan fundamentales para poder traducir de manera eficaz el texto origen de manera que se ajuste a las necesidades del público destinatario, lo que incluye abordar el uso del lenguaje formal e informal en el resultado de la TA. Las traducciones que parecen raras o, peor aún, ofensivas pueden poner en peligro a su empresa y provocar el distanciamiento de los usuarios.
Lea nuestra entrada del blog para obtener más información sobre la TA y las diferencias entre el lenguaje formal e informal.
—Yolanda Martin, especialista en traducción automática de Lionbridge
Aunque el uso de la traducción automática (TA) puede resultar beneficioso, hay que ser prudente. Los motores de TA genéricos pueden producir traducciones erróneas y, sobre todo, generar resultados no deseados para ámbitos específicos desde el punto de vista terminológico, lo cual puede repercutir muy negativamente, por ejemplo, en los ámbitos médico y jurídico. Sin embargo, existen ciertas formas de mejorar los resultados de la TA.
La terminología puede ayudarle a mejorar la calidad de la TA y a conseguir traducciones precisas y coherentes.
Es fundamental entrenar sistemas de TA personalizados con textos bilingües específicos de un ámbito en concreto que incluyan terminología especializada. Aun así, si la terminología no se emplea de forma coherente, no se podrá garantizar la precisión de las traducciones cuando se entrenen los motores con textos especializados. Las investigaciones en este ámbito proponen introducir información lingüística en los sistemas de traducción automática neuronal (TAN). La implementación de anotaciones manuales o semiautomáticas dependerá de los recursos disponibles, como los glosarios, y de las limitaciones, como el tiempo, el coste y la disponibilidad de los anotadores humanos.
La herramienta Smart MT™ de Lionbridge permite aplicar reglas lingüísticas en el texto de origen y de destino, así como reforzar la terminología a partir de listas de términos no traducibles (DNT) y de glosarios que se añaden a un perfil específico. Ayudamos a nuestros clientes a crear y mantener los glosarios, que se actualizan con frecuencia para incluir nuevos términos que resulten pertinentes y retirar aquellos que estén obsoletos. Los glosarios creados en Smart MT pueden utilizarse en todos los motores de TA, lo que supone un ahorro de tiempo y dinero.
El uso de glosarios en proyectos de TA no es tan sencillo como parece, pues, si estos recursos no se utilizan bien, pueden repercutir de manera negativa en la calidad global de la traducción automática. La mejor forma de ceñirse a la terminología en la TA es mediante el entrenamiento de este tipo de sistemas. La combinación de motores de TA entrenados, glosarios personalizados e identificación de reglas de procesamiento anterior y posterior permiten garantizar que los resultados de la TA contendrán la terminología adecuada y que presentarán un estilo similar al de la documentación del cliente.
Consulte nuestro blog para obtener más información sobre el uso de la terminología para mejorar los resultados de la TA.
—Yolanda Martin, especialista en traducción automática de Lionbridge
A medida que las empresas recurren más y más a la traducción automática (TA) como práctica habitual, los empleados tendrán que evitar que se difundan errores catastróficos.
Los errores catastróficos resultan más problemáticos que los típicos errores de la TA, que se engloban dentro de la tipología de errores vinculada con las características lingüísticas, como la ortografía, la gramática o la puntuación. Los errores catastróficos van más allá de la lingüística y se producen cuando el resultado del motor de TA se desvía considerablemente del mensaje previsto. La información errónea o los malentendidos resultantes pueden llegar a causar a las empresas problemas de reputación, financieros o legales e incluso podrían tener consecuencias negativas para la salud o la seguridad públicas. Por tanto, es fundamental encontrar formas de identificar esos errores y de evitar que pongan en riesgo las comunicaciones.
Lionbridge realiza controles de calidad específicos y automatizados en los textos traducidos para detectar errores fundamentales al tiempo que mantiene la velocidad de la TA y reduce la necesidad de la intervención humana.
Estos métodos automatizados permiten detectar:
Las empresas estarán mejor protegidas frente a los errores catastróficos cuando los informáticos mejoren la tecnología de TA existente para evitar estos errores de traducción. Hasta ese momento, podemos usar la tecnología automatizada para identificar posibles problemas, revisar oraciones problemáticas y promover la precisión durante el proceso de traducción.
Lea nuestro blog para profundizar en los errores catastróficos de la traducción automática.
—Luis Javier Santiago, responsable del grupo de TA,
y Rafa Moral, vicepresidente de Innovación de Lionbridge
Google NMT, Bing NMT, Amazon, DeepL, Yandex... ¿Cuál es el mejor motor? De acuerdo con los datos del mes pasado, y con la actual tendencia general, el rendimiento de los principales motores fue similar. Por ese motivo, merece la pena tener en cuenta otros factores al desarrollar una estrategia de TA, por ejemplo, la facilidad con la que los motores de TA traducen una combinación de idiomas concreta.
Identificar lo complicado que les resulta a los motores trabajar con un par de idiomas en concreto le ayudará a asignar el presupuesto a la hora de planificar los costes de traducción en todos los idiomas. Por ejemplo, tendrá que asignar más recursos a conseguir traducciones con una calidad excelente cuando se trate de combinaciones lingüísticas complejas. Disponer de información sobre la complejidad de un idioma puede ayudarle a respaldar sus decisiones empresariales.
La clasificación de los idiomas en función de su grado de traducibilidad no es un proceso sencillo; sin embargo, se pueden emplear distintos parámetros para evaluarlo. La distancia de edición, que representa el número de cambios que se realizan en una posedición para garantizar que el texto final posee la misma calidad que si hubiera sido realizado por un humano, puede ofrecer una idea de la complejidad y la capacidad de traducción de la TA para cada par de idiomas.
La mayoría de lenguas romances, como el portugués, el español, el francés y el italiano, necesitan menos cambios para alcanzar un nivel de calidad excelente al traducirse desde el inglés. Hemos detectado que estos idiomas de destino son los más fáciles de procesar para las máquinas, por eso ocupan las primeras cuatro posiciones en nuestra clasificación de traducibilidad automática. Por su parte, el húngaro y el finés, dos idiomas urálicos, son lenguas más complejas y se sitúan en las últimas posiciones de la clasificación, en los puestos 27 y 28. El estonio, otro idioma de la misma familia, también se encuentra entre los más complejos. Estos resultados, que se basan en millones de oraciones procesadas por Lionbridge, hacen hincapié en la importancia de las familias lingüísticas en los resultados de la TA.
A pesar de que las comparaciones intralingüísticas tienen sus limitaciones, la clasificación puede ofrecer información interesante para mejorar la gestión de proyectos multilingües. Lea nuestro blog para consultar la tabla con la clasificación de lenguas de Lionbridge al completo.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
En junio, observamos una ligera mejora en las traducciones al ruso con el motor de TA de Yandex, así como un pequeño descenso en los resultados de Microsoft Bing. Para determinar si son cambios dignos de mención o no, hemos analizado los resultados con diferentes métodos.
En lugar de utilizar un único patrón para medir la distancia de la traducción automática con una traducción humana «perfecta», hemos utilizado varias traducciones de referencia. Luego, hemos comparado las traducciones hechas automáticamente con diez traducciones de traductores profesionales. Con este enfoque, desaparecieron las pequeñas fluctuaciones de calidad observadas en el mes de junio con Yandex y Microsoft Bing. Podemos concluir así que no ha habido cambios en la calidad de los motores de traducción y que en junio los resultados han mantenido una trayectoria plana.
A veces los datos y las gráficas pueden llevar a engaño. Sobre todo, cuando hay pequeñas variaciones entre distintas mediciones. Por eso, para interpretar los resultados con precisión es recomendable no utilizar un solo enfoque para evaluar los datos.
Prevemos poco movimiento en la calidad de los motores de TA en los próximos meses. En esta sección ofreceremos análisis y observaciones generales sobre TA. Vuelva a visitarnos el mes que viene para ver comparativas entre combinaciones de idiomas de traducción automática. Veremos si es posible utilizar los datos para clasificar idiomas y familias lingüísticas según la complejidad de la TA y determinar si los motores pueden traducir algunos pares de idiomas con más facilidad que otros.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
Este mes, el rendimiento de los motores de TA ha mantenido una curva bastante plana en términos generales.
El motor de Amazon ha mejorado de forma gradual los resultados en la combinación de idiomas de inglés y español. De hecho, en este momento es el principal motor para esta combinación. Amazon también ha hecho algunos avances con otros idiomas, pero no en la misma medida que con la pareja de inglés y español. Creemos que estas mejoras resultan de cambios generales de la configuración y del trabajo con esa combinación lingüística. Parece que las optimizaciones afectan al tratamiento de algunos caracteres especiales y de segmentos con indicaciones de medidas.
Por segundo mes consecutivo, Yandex ha mostrado mejoras, aunque menores. Curiosamente, en este caso también son para español.
Como hemos dicho, no ha habido grandes cambios y el rendimiento de todos los motores se ha mantenido en un nivel similar. En los próximos meses, nos centraremos en analizar áreas concretas de TA y en hacer observaciones de tono general. Por supuesto, seguiremos monitorizando las grandes tendencias y evoluciones.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
Tras varios meses sin grandes cambios en la curva de rendimiento de su motor de traducción automática, Yandex ha hecho algunos progresos, especialmente con el motor de alemán.
En un análisis pormenorizado, hemos observado avances en los resultados que ofrecen sus motores al trabajar con frases que incluyen unidades de medida y signos de puntuación, como los de interrogación y exclamación, paréntesis o barras. Estos avances podrían ser el resultado de algunos ajustes en la configuración de traducción automática más que de mejoras en los modelos. Sin embargo, también mejoraron los resultados en nuestro seguimiento de términos raros, por lo que el progreso hecho por Yandex podría deberse a optimizaciones de los modelos o a un mayor entrenamiento de los datos.
El año pasado por estas fechas, varios motores de TA mostraron algunas mejoras que nos parecieron interesantes. Cabe preguntarse si estos avances siguen cierto patrón temporal y si este año veremos algo parecido a lo que observamos en 2021. Llevamos un seguimiento del rendimiento de la traducción automática de estos motores, y nuestra intención es presentar las conclusiones de aquí a un mes.
La evaluación de los motores de TA cada vez despierta mayor interés. En términos generales, la TA se considera una tecnología ya madura y se reconoce su utilidad para casi todas las tareas de traducción (con intervención humana, sin ella y también conceptos híbridos). Aun así, los usuarios de esta tecnología siguen teniendo dificultades para encontrar la forma correcta de evaluar, medir y mejorar sus resultados.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
Si ha seguido estas páginas, ya estará familiarizado con nuestras evaluaciones comparativas genéricas de traducción automática (TA). Cada mes, destacamos los motores de TA con mejores resultados en combinaciones de idiomas concretas y señalamos las mejoras. Este marzo, no ha habido una evolución notable en sus resultados. Se trata de una tendencia que venimos observando desde hace tiempo y, como señalamos el mes pasado, puede ser síntoma de la necesidad de un nuevo paradigma de TA.
Aunque aquí presentamos resultados genéricos, cada vez se demandan más comparativas personalizadas de TA. A diferencia de la modalidad genérica, estas evaluaciones tienen en cuenta las necesidades concretas de las empresas para elegir el motor de TA idóneo para su caso.
Si una empresa quiere empezar a utilizar traducción automática o mejorar el uso que hace de ella, es fundamental determinar qué motores le ofrecerían mejores resultados. En nuestras evaluaciones personalizadas, adoptamos un concepto similar al que se muestra en esta página, pero hacemos recomendaciones basadas en el tipo de contenido y las combinaciones de idiomas con las que quiera trabajar cada empresa.
Aunque existen comparativas personalizadas desde hace años, la demanda no para de crecer, y creemos que esta tendencia está relacionada con el importante papel que tiene la traducción automática para el éxito comercial en el mercado digital.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
El motor de traducción automática de Google mostró una débil mejora durante enero y febrero de 2022, mientras que los demás motores analizados se mantuvieron en los mismos niveles. Estas observaciones pueden llevar a preguntarnos si el paradigma de la traducción automática neuronal está llegando a un punto muerto. Además, se observaron tendencias similares cuando la TA neuronal sustituyó a la traducción automática estadística, por lo que cabe también preguntarse si es necesario un nuevo cambio de paradigma.
Al final de la era de la traducción automática estadística, la calidad de los resultados de la TA apenas variaba. Al mismo tiempo, los resultados de calidad de los distintos motores convergieron. En este momento, apreciamos tendencias similares. La traducción automática basada en reglas tiene ya treinta años de historia, la TA estadística tuvo una década de protagonismo y la TA neuronal se encuentra ya en su sexto año. Si creemos en las teorías de rendimientos acelerados y de crecimiento exponencial, todo esto nos haría pensar que, si bien es posible que la TA neuronal no se vea sustituida de forma inminente, tampoco parece lejano un nuevo cambio de paradigma.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
En el mes de enero, los principales motores de traducción automática no han mostrado cambios significativos en materia de rendimiento.
En el caso de Google, se han observado ligeras mejoras incrementales en algunos idiomas y ámbitos. Mientras, el rendimiento de casi todos los demás motores ha seguido una curva de evolución plana. Microsoft experimentó mejoras en los meses anteriores, pero su rendimiento se ha estancado en enero. En términos generales, la calidad de Google Translate sigue siendo líder en tecnología de traducción automática de uso general.
En diciembre, añadimos un quinto motor de traducción automática a nuestro rastreador. Con la monitorización de Yandex podemos analizar mejor la calidad de la traducción automática de ruso.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
En diciembre, incluimos la traducción automática de Yandex en nuestra comparativa para el control de calidad de motores de traducción automática.
Según las pruebas realizadas hasta el momento, Yandex:
En otros análisis, MS Bing ha mejorado sus resultados positivamente en los últimos meses de 2021. En ese sentido, han mejorado muy en especial las traducciones al idioma chino. También Amazon ha hecho algunos avances. Con el comienzo de un nuevo año, Google está tomando el relevo y mejorando sus resultados. En concreto, ha mejorado la calidad de las traducciones al español, al ruso y al alemán. La evolución de Yandex ha mantenido una curva plana en las cinco semanas de observación.
—Rafa Moral, vicepresidente de Innovación de Lionbridge
Tras unas semanas de experimentación con altibajos en el rendimiento, estaba claro que el equipo de ingeniería de Microsoft NLP tenía algo entre manos. En efecto, en este tiempo ha habido mejoras generales en Bing Translator, en especial para el idioma chino. Con estos resultados, el motor se erigió el mes pasado en líder indiscutible en traducción automática. Bing Translator ha resuelto sus deficiencias en casi todos los ámbitos, superando incluso los resultados de algunos de sus competidores. Además, es uno de los motores con mayor capacidad de aprendizaje y, con sus mejoras, una opción idónea a la hora de crear modelos personalizados y a la medida de su contenido.
—Jordi Macias, vicepresidente de Excelencia Lingüística de Lionbridge
Los motores de traducción automática (MT) de Amazon han continuado evolucionando positivamente durante el mes de octubre, desarrollando lo que empezaron a hacer aproximadamente hace un mes. Estas optimizaciones forman parte de la segunda etapa de mejoras que hemos visto en los últimos meses.
Como recordatorio, estas son algunas de las áreas donde los motores de MT de Amazon han continuado evolucionando durante los dos últimos meses:
—Jordi Macias, vicepresidente de Excelencia Lingüística de Lionbridge
Septiembre ha sido un buen mes para los motores de traducción automática de Amazon. En primer lugar, la empresa mejoró la calidad del material procesado para los idiomas alemán y ruso. Luego, se observaron mejoras para el par de idiomas español y chino. Estas optimizaciones forman parte de la segunda etapa de mejoras que hemos visto en los últimos meses.
Estos son algunos cambios en los motores de traducción automática de Amazon:
—Yolanda Martin, especialista en traducción automática de Lionbridge
Todas las empresas más importantes de tecnología han desarrollado su propio motor de traducción automática, como Microsoft, Google, Amazon, Facebook y, ahora, Apple. Hay otros actores importantes en los mercados fuera de EE. UU. que también compiten en el espacio. Está claro que las grandes empresas de tecnología creen que la traducción automática y el procesamiento del lenguaje natural son herramientas fundamentales para un mundo globalizado e interconectado.
Aprenda sobre cómo Lionbridge sigue la competencia. Identificaremos las mejores opciones de motores de traducción según las necesidades específicas de una empresa, el par de idiomas que quiera y el tipo de contenido.
Esperamos que la carrera de la traducción automática y el procesamiento del lenguaje natural se acelere con tantas empresas de tecnología importantes haciendo inversiones en este campo. No hay dudas de que Apple, con su atención al detalle y a la calidad, impulsará a otras empresas a mejorar su estrategia.
—Rafa Moral, vicepresidente de Innovación de Lionbridge