SELEZIONARE LA LINGUA:

A person’s arms reaching toward circular geometric shapes

Un modello di intelligenza artificiale generativa ha superato un motore di traduzione automatica neurale nella valutazione della traduzione automatica

È l'inizio della fine del paradigma di traduzione automatica neurale?

Per la prima volta durante le nostre valutazioni comparative della traduzione automatica, un modello di intelligenza artificiale generativa ha fornito un output di traduzione migliore rispetto a un motore di traduzione automatica neurale (NMT, Neural Machine Translation). Nello specifico, il modello LLM (Large Language Model) GPT-4 ha avuto prestazioni leggermente migliori rispetto a Yandex per la combinazione linguistica dall'inglese al cinese.

Vale la pena esaminare le implicazioni di questo sviluppo.

Se questo è un segno del fatto che il paradigma della traduzione automatica neurale stia volgendo al termine o stia cambiando radicalmente, possiamo aspettarci una trasformazione nei servizi di traduzione automatica, con un salto di qualità nella traduzione, un'adozione su scala più vasta e la possibilità di generare più contenuti.

I fornitori di servizi di traduzione automatica devono essere in prima linea nel cambiamento tecnologico e valutarne l'impatto sul loro attuale motore di traduzione automatica per offrire una soluzione in grado di sfruttare al meglio le innovazioni. Coloro che acquistano i servizi di traduzione automatica devono stare al passo con gli sviluppi per fare investimenti oculati che probabilmente includeranno anche tecnologie basate sui modelli LLM al posto di soluzioni di traduzione automatica neurale pura.

Un modello LLM supera l'output della traduzione automatica neurale: è un traguardo significativo?

Anche se il risultato di questa valutazione rappresenta una svolta, va analizzato nella giusta prospettiva. Riguarda un singolo modello per una sola combinazione linguistica. Il modello LLM ha ottenuto risultati migliori rispetto a un singolo motore di traduzione automatica neurale su cinque e in un solo tipo di valutazione della traduzione automatica, ovvero una valutazione eseguita tramite confronto con più traduzioni di riferimento. Si tratta comunque di un traguardo importante? Assolutamente sì.

Sebbene il risultato possa sembrare insignificante se inserito nel contesto illustrato sopra, è comunque degno di nota perché è la prima volta dal suo avvento che la traduzione automatica neurale viene superata da un diverso tipo di approccio alla traduzione automatica. Inoltre, un approccio "non MT", ossia un'automazione linguistica polifunzionale non preparata specificamente per la traduzione automatica, ha battuto un motore di traduzione automatica neurale. Quest'ultimo dettaglio rende straordinario il fatto che il Large Language Model GPT-4 abbia superato un motore NMT.

Quali sono le implicazioni di questo eccezionale risultato di ChatGPT-4 per il paradigma della traduzione automatica neurale?

Da febbraio 2022 sosteniamo la possibilità di un cambio di paradigma nella traduzione automatica in un futuro non troppo lontano. Leggete i nostri commenti sullo strumento di valutazione della traduzione automatica per approfondire il pensiero che abbiamo condiviso a proposito di tale argomento in questo lasso di tempo. Gli ultimi risultati comparativi sono un'ulteriore testimonianza del fatto che stia arrivando un cambiamento significativo.

Ma non saltiamo alle conclusioni troppo in fretta. È ancora troppo presto per dire che i Large Language Model sostituiranno i motori di traduzione automatica neurale e che il cambiamento è imminente. Serve più tempo per valutare molti più dati. Ci sono moltissimi fattori da considerare e la tecnologia LLM deve migliorare significativamente prima di diventare una soluzione di traduzione praticabile per le aziende.

È probabile che il cambio di paradigma possa iniziare con i motori di traduzione automatica neurale che adottano alcuni approcci LLM, in quanto queste due metodologie hanno molti punti in comune.

A woman gazing down, smiling

Quali sono i risultati di un confronto tra gli output della traduzione automatica neurale e dei modelli LLM per tre combinazioni linguistiche?

Mettiamo a confronto i risultati della traduzione dei cinque principali motori di traduzione automatica neurale e di alcuni modelli GPT per tre combinazioni linguistiche.

Abbiamo calcolato il livello di qualità in base alla distanza di edit inversa usando più riferimenti per le seguenti combinazioni linguistiche: dall'inglese al cinese (EN-ZH), dall'inglese allo spagnolo (EN-ES) e dall'inglese al tedesco (EN-DE).

La distanza di edit misura il numero di modifiche che un essere umano deve apportare all'output della traduzione automatica affinché la traduzione che ne risulta raggiunga la stessa qualità della traduzione umana. Per il nostro calcolo, abbiamo confrontato l'output non elaborato della traduzione automatica con 10 diverse traduzioni umane (riferimenti multipli) anziché una sola. Nel calcolo della distanza di edit inversa, maggiore è il numero risultante, migliore è la qualità.

La Figura 1 mostra una piccola differenza nella distanza di edit inversa tra i motori di traduzione automatica neurale e i modelli LLM, il che significa che le prestazioni sono simili. Tuttavia, è importante notare che il Large Language Model GPT-4 ha prodotto una qualità di traduzione leggermente migliore rispetto a Yandex NMT per la combinazione linguistica dall'inglese al cinese.

Confronto della qualità della traduzione automatica tra i modelli GPT e i cinque principali motori di traduzione automatica neurale per la combinazione linguistica dall'inglese al cinese

I risultati della traduzione per le combinazioni linguistiche dall'inglese allo spagnolo e dall'inglese al tedesco sono illustrati rispettivamente nelle Figure 2 e 3. In questi due scenari, tutti i motori di traduzione automatica neurale hanno, fino a oggi, ottenuto risultati migliori rispetto ai modelli LLM.

Come ci aspettavamo, migliore è il modello GPT, migliori saranno i risultati di traduzione automatica e infatti GPT-4 ha avuto prestazioni migliori rispetto a ChatGPT e GPT-3.

Confronto della qualità della traduzione automatica tra i modelli GPT e i cinque principali motori di traduzione automatica neurale per la combinazione linguistica dall'inglese allo spagnolo
Confronto della qualità della traduzione automatica tra i modelli GPT e i cinque principali motori di traduzione automatica neurale per la combinazione linguistica dall'inglese al tedesco

È possibile fare affidamento sui Large Language Model per traduzioni da usare in ambito professionale?

L'intelligenza artificiale generativa è ancora nelle fasi iniziali e non si è completamente evoluta, pertanto risulta inferiore alle aspettative in alcune aree chiave. Il nostro white paper su ChatGPT e sulla localizzazione evidenzia come la tecnologia non dica la verità, non abbia idee proprie e non sappia contare. Siete pronti a fare affidamento su di essa? Pensateci con calma.

Queste carenze dovrebbero far riflettere le aziende.

Profilo di una persona che guarda degli schermi

Variabilità

La nostra valutazione dimostra che gli output di GPT sono variabili. In altre parole, i risultati possono cambiare da un'esecuzione all'altra. Potete notare questo fenomeno nelle Figure 2 e 3, in cui la prima e la seconda esecuzione mostrano risultati diversi.

Ci aspettavamo questo comportamento. Tuttavia, questa variabilità è importante da considerare quando si valuta se usare i modelli LLM per la traduzione professionale, dove la predittività è fondamentale.

Quando le aziende traducono i propri contenuti, c'è poco spazio per la casualità. L'output della traduzione automatica deve essere più deterministico di quello attualmente offerto dall'intelligenza artificiale generativa. Quando si usano la traduzione automatica e altri modelli LLM per scopi professionali, la coerenza è importante.

I risultati puramente deterministici vanno contro la natura dei modelli generativi, in cui si suppone e si presume un certo livello di creatività o variabilità. Questa situazione è accettabile e persino auspicabile per alcuni casi, ma non per tutti. È essenziale un meccanismo per controllare la variabilità (oltre all'uso dell'impostazione di "temperatura", che consente di controllare il livello di "creatività" del modello LLM).

L'approccio migliore per controllare la variabilità nei modelli generativi non è ancora chiaro. Probabilmente gli utenti possono affrontare questo problema attraverso alcuni prompt predefiniti e una combinazione di impostazioni per attività specifiche, ma sarà necessaria una soluzione più concreta.

La mancanza di predittività non si sposa bene con buona parte delle applicazioni aziendali.

Instabilità dell'API

Un altro problema attuale dei modelli LLM è l'instabilità dell'API (Application Programming Interface).

La maggior parte delle applicazioni di intelligenza artificiale generativa è ancora nelle fasi iniziali dell'implementazione. Un'enorme richiesta provoca un uso massiccio dell'API. La combinazione di questi fattori crea alcuni problemi. Questa situazione è evidente dal fatto che le persone riscontrano più problemi con queste applicazioni che con altre tecnologie più mature.

Errori

Abbiamo riscontrato problemi di accuratezza nell'output della traduzione automatica dei modelli LLM non presenti, oppure presenti in una percentuale molto inferiore, nel caso della traduzione automatica neurale.

Questi problemi includono le cosiddette allucinazioni, ovvero termini inventati o termini che non compaiono nel testo di origine, oppure problemi di concordanza all'interno del testo, ad esempio un aggettivo o un determinante di genere femminile associato a un sostantivo di genere maschile o viceversa.

Come si può vedere nella Tabella 1, il modello LLM ha usato il termine raro e decisamente troppo colloquiale "marketeros" durante la traduzione nel testo in spagnolo. La traduzione accurata del termine sarebbe "responsables del marketing”. I modelli LLM hanno fatto errori simili con le lingue di destinazione tedesco e cinese. È particolarmente importante monitorare la presenza di errori di traduzione automatica catastrofici, in quanto, a seconda della gravità dell'errore, i brand potrebbero avere ricadute di tipo reputazionale, finanziario o legale.

Tabella 1. Esempi di "allucinazioni" o termini "inventati" nell'output della traduzione automatica dei modelli LLM:

Origine As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.
Destinazione Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.
Commento Dovrebbe essere: "responsables del marketing"
Origine Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions
Destinazione Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.
Commento Dovrebbe essere: "Vermittler" e "bankähnlichen"
Origine See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.
Destinazione 看看本田如何利用推特的即时赢取功能为一个好事业赢得提升,同时也获得购买意向和品牌可喜度的提升。
Commento Dovrebbe essere: "公益事业" e "好感度"
Tabella 1. Esempi di "allucinazioni" o termini "inventati" nell'output della traduzione automatica dei modelli LLM:
Lingua Origine Destinazione Commento
Dall'inglese allo spagnolo (EN-ES) As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture. Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera. Dovrebbe essere: "responsables del marketing"
Dall'inglese al tedesco (EN-DE) Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben. Dovrebbe essere: "Vermittler" e "bankähnlichen"
Dall'inglese al cinese (EN-ZH) See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability. 看看本田如何利用推特的即时赢取功能为一个好事业赢得提升,同时也获得购买意向和品牌可喜度的提升。 Dovrebbe essere: "公益事业" e "好感度"

Come illustrato nella Tabella 2, il modello LLM ha commesso errori di concordanza o di caratteri durante la traduzione in tutte e tre le lingue di destinazione. Ha usato, ad esempio, la versione femminile per la parola "other" in spagnolo in un contesto in cui era necessario usare il maschile. Questi tipi di errori possono intaccare la fiducia dei consumatori nei brand.

Tabella 2. Esempi di errori di concordanza o di caratteri.

Categoria Errore di concordanza
Origine The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.
Destinazione El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.
Commento Dovrebbe essere maschile ("otros")
Categoria Errore di concordanza
Origine Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.
Destinazione Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.
Commento Dovrebbe essere accusativo indefinito ("Reiniger")
Categoria Errore nell'uso dei caratteri
Origine Handle the fiber with care as damage may occur if struck or bent sharply.
Destinazione 小心處理纖維,因為如果受到撞擊或急劇彎曲可能會損壞。
Commento Caratteri in cinese tradizionale
Tabella 2. Esempi di errori di concordanza o di caratteri.
Categoria Lingua Origine Destinazione Commento
Errore di concordanza Dall'inglese allo spagnolo (EN-ES) The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music. El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna. Dovrebbe essere maschile ("otros")
Errore di concordanza Dall'inglese al tedesco (EN-DE) Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand. Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen. Dovrebbe essere accusativo indefinito ("Reiniger")
Errore nell'uso dei caratteri Dall'inglese al cinese (EN-ZH) Handle the fiber with care as damage may occur if struck or bent sharply. 小心處理纖維,因為如果受到撞擊或急劇彎曲可能會損壞。 Caratteri in cinese tradizionale

Il verdetto: è l'inizio della fine del paradigma di traduzione automatica neurale?

Non è l'inizio della fine del paradigma di traduzione automatica neurale. Come abbiamo detto, i segnali che indicano che la traduzione automatica neurale è in fase matura e che è probabile un cambio di paradigma della traduzione automatica ci sono già da tempo. Ci stiamo avvicinando a questo punto in modo graduale e continuo.

Dopo aver notato un appiattimento dei cinque principali motori di traduzione automatica neurale, i quali hanno smesso di mostrare grandi miglioramenti (come illustrato nella Figura 4, che misura la qualità dell'output dei cinque motori principali tra maggio 2018 e dicembre 2022 per tedesco, spagnolo, russo e cinese in base alla distanza di edit inversa), abbiamo iniziato a chiederci se la predominanza del paradigma nella sua forma attuale stesse volgendo al termine.

Prestazioni dei motori di traduzione automatica neurale

Il miglioramento minimo della qualità nel corso del 2022 ci ha portato a concludere che la traduzione automatica neurale avesse raggiunto un plateau, analogamente a quanto era successo in precedenza al paradigma di traduzione automatica statistica. Lo strumento di valutazione della traduzione automatica di Lionbridge, che è il metodo usato più da lungo tempo nel settore per valutare i principali motori di traduzione automatica, fornisce ulteriori informazioni sulle prestazioni dei cinque principali motori di traduzione automatica neurale.

Anche se gli ultimi miglioramenti nella qualità della traduzione tramite un modello di intelligenza artificiale generativa possono spingere ulteriormente verso la fine del paradigma della traduzione automatica neurale così come lo conosciamo, la tecnologia ha ancora molta strada da fare.

Vale la pena sottolineare che la maggior parte delle applicazioni di intelligenza artificiale generativa è ancora nelle fasi iniziali dell'implementazione. È necessario risolvere problemi come quelli evidenziati sopra e le soluzioni sono attualmente in fase di studio. Stiamo già assistendo ad alcuni miglioramenti che avvengono a una velocità straordinaria. I nostri test più recenti su ChatGPT-4 hanno rilevato che alcuni dei problemi sono già stati risolti. L'incredibile velocità con cui i modelli LLM sono in grado di migliorare supporta l'idea che saranno probabilmente destinati a diventare il prossimo paradigma per la traduzione automatica.

Ci aspettiamo che sia più probabile che i fornitori di servizi di traduzione automatica neurale integrino alcuni aspetti dei modelli LLM nell'architettura esistente piuttosto che i modelli LLM soppiantino del tutto il paradigma attuale. Abbiamo assistito a periodi ibridi simili nel settore con il passaggio dalla traduzione automatica basata su regole a quella statistica.

I traduttori sono sorpresi dalle prestazioni di traduzione dell'intelligenza artificiale generativa?

Cosa ne pensa il traduttore umano dell'intelligenza artificiale generativa? A causa delle attuali carenze, i professionisti che hanno confrontato le prestazioni tra i motori di traduzione automatica neurale e i modelli LLM hanno indicato di preferire ancora l'output dei primi. I responsabili della valutazione hanno espresso questa preferenza in modo coerente, anche nel caso dell'output cinese.

Senza dubbio l'intelligenza artificiale generativa continuerà a evolversi e vi aiuteremo a rimanere al passo con i progressi in rapida evoluzione.

Contattateci

Leggete il nostro blog per saperne di più sul nostro punto di vista in merito alle prestazioni di traduzione di ChatGPT e su come influirà sul futuro della localizzazione.

Se volete scoprire come Lionbridge può aiutarvi a usare in modo efficace la traduzione automatica, contattateci oggi stesso.

linkedin sharing button

Rafa Moral con il contributo di Janette Mandell
AUTORE
Rafa Moral con il contributo di Janette Mandell
  • #translation_localization
  • #ai
  • #generative-ai
  • #blog_posts