A person’s arms reaching toward circular geometric shapes

En generativ AI-modell överträffade en neural maskinöversättningsmotor i en maskinöversättningsanalys

Innebär den här milstolpen början på slutet för paradigmet neural maskinöversättning?

Senast uppdaterad: 12 maj 2023 09:13

För första gången i våra jämförelser av maskinöversättningsmotorer (MT) har en modell för generativ artificiell intelligens (AI) gett bättre översättningsresultat än en neural maskinöversättningsmotor (NMT). Närmare bestämt presterade den stora språkmodellen (LLM) GPT-4 något bättre än Yandex i språkkombinationen engelska till kinesiska.

Effekterna av utvecklingen förtjänar en närmare titt.

Om detta är ett tecken på att paradigmet neural maskinöversättning närmar sig sitt slut eller förändras i grunden, kan vi förvänta oss att maskinöversättningen omvandlas och tar ett rejält skutt när det gäller översättningskvalitet, anpassningsförmåga och förmåga att producera mer innehåll.

MT-leverantörer måste gå i täten för teknikomställningen och fundera över hur detta kan påverka deras befintliga MT-motorer för att kunna ta fram ett erbjudande som drar maximal fördel av framstegen. MT-köpare behöver i sin tur hålla ett vaksamt öga på utvecklingen för att göra kloka investeringar – som förmodligen omfattar LLM-baserad teknik i stället för renodlade neurala MT-lösningar.

KONTAKTA OSS

LLM överträffar neural MT-motor: Har det någon betydelse?

Även om resultaten av jämförelsen är ett genombrott behöver vi sätta dem i ett större perspektiv. Jämförelsen gäller bara en modell och en enda språkkombination. LLM överträffade en enskild NMT-motor av fem och bara i en form av MT-jämförelse, en utvärdering av flera referensöversättningar. Är den här bedriften ändå något att orda om? Absolut!

Även om resultaten kan tyckas obetydliga i ovanstående sammanhang är de anmärkningsvärda, eftersom det är första gången ett annat slags MT-metod har överträffat en neural MT-motor sedan NMT såg dagens ljus. Dessutom är det en ”icke-MT”-metod som har klått NMT-motorn, närmare bestämt en allmän språkautomation som inte har förberetts speciellt för maskinöversättning. Den sista detaljen innebär att det är imponerande att den stora språkmodellen GPT-4 har överträffat en NMT-motor.

Vad betyder ChatGPT-4:s anmärkningsvärda översättningsresultat för paradigmet neural maskinöversättning?

Sedan februari 2022 har vi öppet ifrågasatt sannolikheten för ett MT-paradigmskifte i en inte alltför avlägsen framtid. Se vår kommentar om bedömningsverktyget för maskinöversättning om du vill läsa mer om vår syn på ämnet just nu. De senaste jämförande resultaten är ytterligare bevis för att en betydande förändring är på gång.

Men dra inga förhastade slutsatser. Det är fortfarande för tidigt att säga att stora språkmodeller (LLM) kommer att ersätta NMT-motorer, för att inte tala om att ändringen är nära förestående. Vi behöver mer tid för att utvärdera fler data. Det finns alldeles för många faktorer att ta hänsyn till och LLM-tekniken behöver bli betydligt bättre för att fungera som gångbar översättningslösning för företag.

Paradigmskiftet kommer förmodligen att inledas med att NMT-motorer tillämpar vissa LLM-metoder, eftersom NMT- och LLM-teknikerna har mycket gemensamt.

Hur står sig LLM-översättningar mot NMT-översättningar i tre språkkombinationer?

Låt oss jämföra översättningsresultaten från de fem främsta neurala maskinöversättningsmotorerna och några GPT-modeller för tre språkkombinationer.

Vi beräknade kvalitetsnivån utifrån omvänt redigeringsavstånd och med hjälp av flera referenser för följande språkkombinationer: engelska till kinesiska (EN-ZH), engelska till spanska (EN-ES) och engelska till tyska (EN-DE).

Redigeringsavståndet mäter antalet redigeringar som en mänsklig redigerare behöver göra i MT-resultatet för att den resulterande översättningen ska bli lika bra som en manuell översättning. I vår beräkning jämförde vi det råa MT-resultatet med tio olika manuella översättningar – flera referenser – i stället för bara en enda manuell översättning. Det omvända redigeringsavståndet innebär att ju högre den resulterande siffran är, desto bättre är kvaliteten.

Bild 1 visar små skillnader i det omvända redigeringsavståndet mellan NMT-motorer och LLM:er, vilket innebär att de presterade ungefär likadant. Lägg dock märke till att den stora språkmodellen GPT-4 producerade något högre översättningskvalitet än Yandex NMT för språkkombinationen engelska till kinesiska.

Jämförelse av automatiserad översättningskvalitet mellan GPT-modeller och stora neurala MT-motorer för språkkombinationen engelska till kinesiska

Översättningsresultaten för språkkombinationerna engelska till spanska och engelska till tyska visas i bild 2 respektive bild 3. I de här två scenarierna överträffade samtliga neurala MT-motorer LLM-modellerna, precis som tidigare har varit fallet.

Som väntat blev MT-resultaten bättre ju bättre GPT-modellen var, så att GPT-4 överträffade ChatGPT och GPT-3.

Kan jag förlita mig på stora språkmodeller när jag översätter något på jobbet?

Generativ AI är fortfarande i sin vagga och har en utveckling framför sig. Det innebär att den fallerar på vissa viktiga områden. I vårt whitepaper om ChatGPT och lokalisering berättar vi om hur tekniken underlåter att säga sanningen, inte har en susning och inte kan räkna. Är du beredd att lita på den? Sakta ner.

Tillkortakommandena bör väcka viss oro hos företagen.

Varierande resultat

Vår utvärdering visar att GPT-resultaten är varierande. Med andra ord kan resultaten skilja sig åt från gång till gång. Det här kan synas i bild 2 och 3, där omgång ett och två ger olika resultat.

Vi förväntade oss detta. Samtidigt är variationen viktig när vi fattar beslut om huruvida LLM-modeller ska användas till professionell översättning, efter förutsebarhet har högsta prioritet.

Det finns lite utrymme för slumpmässiga resultat när företag översätter innehåll. MT-resultatet måste kunna förutses i högre grad än vad generativ AI erbjuder i dag. Konsekvens är något som förväntas av en professionell maskinöversättning och andra områden där LLM används i tjänsten.

Helt förutsägbara resultat strider mot generativa modellers natur, där en viss – låt oss kalla det kreativitet eller variation – förväntas och antas. Den här situationen är godtagbar och till och med önskvärd i vissa fall, men inte alla. Det är viktigt att det finns en mekanism för att kontrollera variationer (förutom användning av inställningen ”Temperatur”, dvs. inställningen som är tänkt att styra LLM-modellens ”kreativitet”).

Det bästa sättet att styra variationer i generativa modeller har ännu inte framkommit. Det är möjligt att användare kan lösa problemet med ett antal fördefinierade prompter och en kombination av inställningar för specifika uppgifter, men en mer konkret lösning kommer att krävas.

Otillräcklig tillförlitlighet rimmar inte väl med en stor del av alla affärstillämpningar.

API-instabilitet

Ett annat aktuellt problem med LLM-modeller är instabila API:er (Application Programming Interface).

De flesta generativa AI-tillämpningar är fortfarande i sin linda. Enorm efterfrågan leder till intensiv användning av deras API:er. Tillsammans skapar de här faktorerna problem. Situationen blir uppenbar när användare upplever fler problem med de här tillämpningarna än med andra, mognare tekniker.

Fel

Vi har hittat bristfällig korrekthet i MT-resultat från LLM-modeller som antingen inte förekommer i NMT-resultat eller förekommer, men i betydligt mindre omfattning.

Problemen kan till exempel vara hallucinationer, det vill säga påhittade termer eller termer som inte förekommer i källtexten, eller konkordansfel som leder till bristfällig kongruens i texten. (Det kan exempelvis vara adjektiv eller pronomen i femininum som används tillsammans med ett maskulint substantiv eller tvärtom.)

Som du kan se i tabell 1 använde LLM-modellen det sällsynta och eventuellt alltför informella ordet ”marketeros” i den spanska översättningen. En mer korrekt översättning är termen ”responsables del marketing”. LLM-modellen gjorde liknande misstag på målspråken tyska och kinesiska. Det är särskilt viktigt att hålla utkik efter katastrofala MT-fel, eftersom företag kan drabbas av försämrat anseende eller ekonomiska eller juridiska följder.

Tabell 1. Exempel på ”påhittade” eller ”hallucinerade” termer i MT-resultat från en LLM-modell:

Engelska till spanska (EN-ES)
Engelska till tyska (EN-DE)
Engelska till kinesiska (EN-ZH)

Källtext	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.
Måltext	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.
Kommentar	bör vara: ”responsables del marketing”

Källtext	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions
Måltext	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.
Kommentar	bör vara: ”Vermittler” och ”bankähnlichen”

Källtext	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.
Måltext	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。
Kommentar	bör vara: ”公益事业” och ”好感度”

Tabell 1. Exempel på ”påhittade” eller ”hallucinerade” termer i MT-resultat från en LLM-modell:
Språk	Källtext	Måltext	Kommentar
Engelska till spanska (EN-ES)	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.	bör vara: ”responsables del marketing”
Engelska till tyska (EN-DE)	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.	bör vara: ”Vermittler” och ”bankähnlichen”
Engelska till kinesiska (EN-ZH)	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。	bör vara: ”公益事业” och ”好感度”

Som du kan se i tabell 2 producerade LLM-modellen kongruens- eller teckenfel vid översättning till alla tre målspråk. Till exempel valde modellen den feminina formen av ordet ”other” på spanska, när det borde ha varit den maskulina formen. Den här sortens misstag riskerar att minska konsumenternas förtroende för varumärken.

Tabell 2. Exempel på kongruens- och teckenfel.

Engelska till spanska (EN-ES)
Engelska till tyska (EN-DE)
Engelska till kinesiska (EN-ZH)

Kategori	Kongruensfel
Källtext	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.
Måltext	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.
Kommentar	bör vara maskulinum (”otros”)

Kategori	Kongruensfel
Källtext	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.
Måltext	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.
Kommentar	bör vara obestämd form ackusativ (”Reiniger”)

Kategori	Teckenfel
Källtext	Handle the fiber with care as damage may occur if struck or bent sharply.
Måltext	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。
Kommentar	Traditionella kinesiska tecken

Tabell 2. Exempel på kongruens- och teckenfel.
Kategori	Språk	Källtext	Måltext	Kommentar
Kongruensfel	Engelska till spanska (EN-ES)	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.	bör vara maskulinum (”otros”)
Kongruensfel	Engelska till tyska (EN-DE)	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.	bör vara obestämd form ackusativ (”Reiniger”)
Teckenfel	Engelska till kinesiska (EN-ZH)	Handle the fiber with care as damage may occur if struck or bent sharply.	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。	Traditionella kinesiska tecken

Utslag: Är detta början på slutet för NMT-paradigmet?

Nej, det är inte början på slutet för NMT-paradigmet. Som vi har påpekat finns det sedan en tid tecken på att NMT har mognat och sannolikheten för ett MT-paradigmskifte ökar. Vi befinner oss nu på en väg som leder till denna slutpunkt.

Vi började med att ifrågasätta om NMT-paradigmet i dess nuvarande form var på väg att förlora sin dominanta ställning efter att ha sett hur resultaten från de fem största NMT-motorerna började plana ut, utan att några större förbättringar kunde skönjas (vilket vi visar i bild 4). I jämförelsen mättes resultaten av de fem största NMT-motorerna mellan maj 2018 och december 2022 för tyska, spanska, ryska och kinesiska och utifrån omvänt redigeringsavstånd.

Eftersom få kvalitetsförbättringar uppnåddes under 2022 drog vi slutsatsen att NMT hamnat på en platå, eftersom något liknande skedde i slutet av MT:s föregående, huvudsakliga paradigm – det statistiska paradigmet. Lionbridges bedömningsverktyg för maskinöversättning har använts under lång tid för att mäta resultaten från stora MT-motorer och ger även insikter om resultaten från de fem NMT-motorerna.

Även om de senaste framstegen när det gäller översättningskvalitet från en generativ AI-modell snabbare kan ta oss till slutet av NMT-paradigmet i dess kända form, har tekniken fortfarande en lång väg att vandra.

Det bör också understrykas att generativa AI-tillämpningar precis har börjat distribueras. Problem som dem vi har berättat om ovan behöver lösas – och det görs också i dag. Vi kan redan se att förbättringar uppnås i häpnadsväckande takt. I våra senaste tester av ChatGPT-4 är vissa av problemen redan lösta. LLM-modeller har en förmåga att förbättras i otrolig fart, vilket stöder uppfattningen att LLM:er kan bli nästa paradigm för maskinöversättning.

Vi anser att leverantörer av neural MT med stor sannolikhet kommer att integrera aspekter av LLM-modeller i sin NMT-arkitektur, snarare än att LLM-modeller tar över det nuvarande paradigmet helt och hållet när detta utvecklas. Vi har kunnat se liknande hybridperioder när MT-industrin gick över från regelbaserad MT (RBMT) till statistisk MT (SMT).

Vad tycker översättare om resultaten från generativ AI?

Vad tycker mänskliga översättare om generativ AI? På grund av de nuvarande tillkortakommandena uppgav mänskliga utvärderare som jämförde resultaten från neurala MT-motorer med dem från LLM-modeller att de fortfarande föredrar resultaten från neural MT framför dem från LLM-modeller. Utvärderare har konsekvent uttryckt sådana preferenser, även de som bedömde resultat på kinesiska.

Det råder inga tvivel om att generativ AI kommer att fortsätta utvecklas och vi finns här för att hjälpa dig att följa med i den snabba utvecklingen.

Kontakta oss

Läs vår blogg för att få veta mer om vår syn på ChatGPT:s översättningsresultat och vad de innebär för lokaliseringens framtid.

Om du vill veta mer om hur Lionbridge kan hjälpa dig att effektivt använda maskinöversättning, kontakta oss i dag.

FÖRFATTARE

Rafa Moral med Janette Mandell

#translation_localization
#ai
#generative-ai
#blog_posts

VAD VI GÖR

BRANSCHER

RESURSER

OM OSS