Traducción automática neuronal: cómo funciona la inteligencia artificial en la traducción de idiomas

Última actualización: 17/02/2017 17:43

Como la mayoría de los profesionales del marketing saben, una explosión de grandes volúmenes de datos ha revolucionado la manera en la que las empresas impulsan la eficiencia y la innovación operativas, y es una tendencia que va en aumento. Los expertos prevén que los volúmenes de datos continuarán aumentando un 40 por ciento cada año.

No cabe duda de que a medida que las empresas encuentran maneras efectivas de utilizar los datos, se les presentan desafíos a la hora de gestionar las sobrecargas de información. Pero los grandes volúmenes de datos también presentan grandes oportunidades, y una de ellas es globalizar una empresa a través de la localización.

Junto con un gran aumento en los datos, hay otros dos factores que están marcando un cambio en la industria de la localización. En primer lugar, el crecimiento exponencial de la potencia de los ordenadores, y en segundo lugar, el aumento del interés en el denominado aprendizaje profundo: un tipo de aprendizaje automático que utiliza Google en sus algoritmos de reconocimiento de imagen y voz.

Teniendo en cuenta estos factores, no es ninguna sorpresa que el aprendizaje profundo haya revolucionado el campo de la traducción y localización para crear lo que conocemos actualmente como la traducción automática neuronal. Después de todo, a medida que se registran más avances en la tecnología y en los volúmenes de datos, también hay más cantidad de material traducible. ¿Pero qué es exactamente la traducción automática neuronal y de qué manera aumenta la eficiencia en el proceso de localización?

En un seminario web reciente, el director de traducción automática de Lionbridge, Jay Marciano, habló acerca de la implementación de este nuevo y más preciso método de traducción y cómo permite avances en la industria.

Cómo funciona la traducción automática neuronal

La traducción automática neuronal es un paradigma relativamente nuevo que comenzó a explorarse a finales de 2014. Antes de esto, la traducción automática operaba con un modelo estadístico en el que el aprendizaje automático dependía de una base de datos de traducciones previas, denominadas memorias de traducción.

Si bien la traducción automática neuronal aún se entrena con memorias de traducción al igual que la traducción automática estadística, utiliza el aprendizaje profundo y, posiblemente, una mayor cantidad de datos de aprendizaje, para crear una red neuronal artificial.

Marciano utiliza un juego de ajedrez para ilustrar cómo funciona la traducción automática estadística. En un programa de ajedrez, hay un universo limitado en el que se pueden hacer una cantidad limitada de movimientos. El programa simplemente calcula todas los movimientos posibles para buscar el mejor. El aprendizaje automático que se da en un sistema de traducción automática estadística (SMT) funciona de manera similar comparando engramas, o grupos de 6 palabras en una oración, a partir de una oración de origen frente a aquellos que se dan en el idioma de destino para buscar correlaciones.

Por otro lado, la traducción automática neuronal se puede describir como un sistema neuronal «en aumento», explica Marciano. Es como tocar el piano: cuando nos equivocamos, volvemos para atrás, lo intentamos una vez más y repetimos el paso hasta que nos sale. Los sistemas de traducción automática neuronal intentan buscar su camino a través de las redes neuronales del mismo modo.

En este sentido, la traducción automática neuronal es mucho más efectiva que el modelo basado en engramas, que suele ser limitado y, a menudo, impreciso. Por un motivo, los sistemas de traducción automática neuronal funcionan con potentes unidades de procesamiento gráfico en lugar de unidades de procesamiento central (CPU), como hacen los sistemas de traducción automática estadística. Y, si bien la traducción automática neuronal requiere más tiempo para traducir una oración debido a la cantidad de datos involucrados en el proceso (del mismo modo en que los sistemas de traducción automática estadística toman más tiempo que los sistemas antiguos basados en reglas), la traducción automática estadística conlleva grandes problemas con los idiomas en los que las reglas se dan fuera de la unidad de seis palabras.

Por supuesto, la traducción automática neuronal aún tiene algunos problemas: por ejemplo, cuando se traduce contenido muy técnico. Sin embargo, ningún sistema de traducción automática traducirá correctamente un material original que contenga abreviaturas técnicas desconocidas, ni siquiera la traducción automática neuronal. Para las combinaciones de idiomas que no tienen muchos datos de entrenamiento (por ejemplo, del alemán al coreano), el aprendizaje profundo abre la posibilidad de usar datos de entrenamiento indirectos o «pivotados» del material original de otro idioma.

¿Cuál es la principal diferencia entre la traducción automática neuronal y la traducción automática estadística? Cuando procesa material de entrenamiento para los algoritmos del aprendizaje profundo, no necesariamente está diciendo qué deben buscar. Lo que hace es permitirle al sistema buscar patrones, como pistas contextuales con respecto a la oración original. Sin embargo, los detalles específicos siguen siendo un misterio en muchos aspectos.

La traducción automática neuronal y los grandes volúmenes de datos: cómo superar las habilidades limitadas

Las redes neuronales primero se utilizaron para los programas de reconocimiento de imágenes y voz entrenando los sistemas con datos supervisados, como la imagen de un perro con metadatos adjuntos. Con respecto a sus metadatos, el sistema sabrá identificar el contenido de la imagen como un perro.

Luego, el sistema intentará buscar la mejor manera a través de la red neuronal para establecer ese vínculo, y retrocederá y encontrará mejores rutas si encuentra una respuesta incorrecta y, finalmente, desarrollará una ruta neuronal que llegue hasta la respuesta correcta. Esta es la ruta en la que se hará hincapié de aquí en adelante.

En el reconocimiento del habla, en el caso de una determinada oración grabada en un idioma en particular, suele haber una sola transcripción correcta para el aprendizaje profundo, lo que permite que el entrenamiento sea bastante sencillo. La traducción requiere un material de entrenamiento más «ruidoso» y es una tarea más compleja.

Sin embargo, Marciano explica que el aprendizaje profundo y los grandes volúmenes de datos nos permite superar nuestras habilidades limitadas para percibir y analizar el mundo. Dado que los grandes volúmenes de datos aprovechan una gran cantidad de información, podemos identificar los patrones complicados y las asociaciones entre estos patrones de formas que exceden la capacidad humana de reconocerlos.

Sin embargo, es difícil elaborar una imagen mental del proceso de la traducción automática neuronal. Gran parte del procesamiento se hace en «capas ocultas» de datos complejos, lo que significa que es difícil ver cómo la red neuronal toma decisiones.

Por este motivo, solo podemos presentar el material de entrenamiento, dejar que los algoritmos hagan su trabajo y, luego, modificar el material de entrenamiento si las traducciones no son precisas. En Lionbridge, también usamos GeoFluent para corregir los errores en el material procesado con la traducción automática neuronal.

Utilizar métodos de evaluación de calidad, como BLEU, es algo indefinido. Si un sistema de traducción automática neuronal elige una traducción distinta a la traducción de referencia por un motivo desconocido, entonces se puede penalizar por la elección de vocabulario, incluso si está perfectamente bien.

El futuro de las redes neuronales y la comunicación

Si bien corregir errores y entender la toma de decisiones en una red neuronal es un tanto capcioso, la mejora en la fluidez que observamos en la traducción automática neuronal es lo suficientemente alentadora como para que sea una opción viable. ¿Entonces hay otros proveedores de traducción automática que proporcionan sistemas de traducción automática neuronal en este momento?

Básicamente, la respuesta es no. Hay tres sistemas de traducción automática neuronal que puede probar en este momento en Internet: Google Translate (que se puede integrar a cualquier herramienta de traducción asistida por ordenador [CAT]), Microsoft Translator y Systran Pure Neural Machine Translation. Sin embargo, aún estamos un poco más adelantados que la competencia en términos de sistemas listos para la producción que ofrecen conjuntos de herramientas de entrenamiento completos. Manténgase al día con los próximos anuncios sobre los sistemas de traducción automática neuronal para este año de Microsoft, Google, Systran, Baidu, Facebook, Amazon y otros.

La implementación de la traducción automática neuronal primero será en las combinaciones de idiomas que muestren el mayor avance en los sistemas de traducción automática estadística. En Lionbridge, planificamos evaluar los sistemas de traducción neuronal disponibles para ver si estas herramientas se adaptan a nuestros procesos de localización y cumplen con las necesidades de nuestros clientes antes de implementarlos. Visite nuestra página de liderazgo redactada por especialistas en traducción automática para conocer las últimas tendencias en este campo.

Hay algo seguro: la traducción automática neuronal es una herramienta revolucionara para la industria. Teniendo en cuenta que es un modelo muy nuevo, las mejoras en la traducción han sido enormes en comparación con 10 años atrás. La diferencia entre la traducción tradicional y la traducción automática seguirá acortándose, y nuestro objetivo es averiguar hasta dónde.

Para obtener más información acerca de los beneficios de la traducción automática neuronal y nuestras expectativas para el futuro del aprendizaje automático, vea el seminario web completo: Traducción automática neuronal: qué es y cómo impacta en la eficiencia en traducción

#blog_posts
#translation_localization

AUTHOR

Lionbridge

QUÉ HACEMOS

SECTORES

RECURSOS

QUIÉNES SOMOS

Traducción automática neuronal: cómo funciona la inteligencia artificial en la traducción de idiomas

Cómo funciona la traducción automática neuronal

La traducción automática neuronal y los grandes volúmenes de datos: cómo superar las habilidades limitadas

El futuro de las redes neuronales y la comunicación

SECTORES