SPRÅK:
SPRÅK:
Lionbridges kunskapscenter
Lösningar
Innehållstjänster
- Teknisk dokumentation
- Utbildning och eLearning
- Finansiella rapporter
- Digital marknadsföring
- SEO och innehållsoptimering
Översättningstjänster
- Videolokalisering
- Lokalisering av programvara
- Lokalisering av webbplatser
- Översättning för reglerade företag
- Tolkning
- Liveevenemang
Testningstjänster
- Funktionstestning
- Kompatibilitetstestning
- Interoperabilitetstestning
- Prestandatestning
- Tillgänglighetstestning
- UX-/CX-testning
Lösningar
- Tjänstemodeller för översättning
- Maskinöversättning
- Smart Onboarding™
- Aurora AI Studio™
Våra kunskapscenter
- Positiva patientutfall
- Lokaliseringens framtid
- Innovation till immunitet
- Språkresurscenter för covid-19
- En bransch i förändring
- Patientengagemang
- Lionbridge Insights
Life Sciences
- Läkemedelsindustrin
- Innehåll för kliniska prövningar
- Regulatoriskt innehåll
- Efter godkännande
- Företagsmaterial
- Medicinteknisk utrustning
- Validering och kliniska undersökningar
- Regulatoriskt innehåll
- Efter godkännande
- Företagsmaterial
Bank och finans
Detaljhandel
Lyxprodukter
E-handel
Lionbridge Games
Fordonsindustri
Konsumentförpackade varor
Teknik
Tillverkningsindustri
Juridiska tjänster
Resor, hotell och restaurang
VÄLJ SPRÅK:
Vi har under en tid förutspått att maskinöversättningsparadigmet (MT) går mot sitt slut. Läs våra expertkommentarer för att ta reda på varför.
Våra experter på automatiserad översättning delar med sig av insikter i olika ämnen, till exempel
Ju mer du lär dig om MT och GenAI, desto enklare blir det att välja hur verktygen ska användas för att tillgodose dina behov. Dra nytta av fördelarna hos respektive paradigm för att i slutändan effektivisera översättningsarbetet, producera mer innehåll och uppnå kostnadsbesparingar.
Vi har förbättrat Lionbridges bedömningsverktyg för maskinöversättning för att ta hänsyn till förekomsten av och potentialen hos generativ AI (GenAI) och stora språkmodeller (LLM). Från och med nu kommer rapporten förutom resultat från GPT-3.5 och Davinci även innehålla översättningsresultat från GPT-4 – och naturligtvis resultat från neurala MT-motorer (NMT).
Vi har upplevt flera problem i samband med GPT-4, bland annat långsam prestanda, oförmåga att producera översättningar av olika anledningar samt inkonsekvent beteende, exempelvis att översättningar saknas i vissa körningar men inte andra.
GPT-4 klarade inte av att översätta en viss mening i vår MT-testuppsättning.
Efter lite efterforskningar drog vi slutsatsen att en term med sexuella associationer i vissa sammanhang orsakade problemet. Vi vill vara tydliga med att meningen i vår testuppsättning var en helt vanlig och godtagbar mening. Trots detta utlöste termen GPT-4:s filter för innehåll av sexuell karaktär, vilket ledde till att AI:n censurerade översättningen av meningen och därmed inte producerade något alls. Resultatet överraskade oss av två anledningar:
När termen användes isolerat och på det sätt den brukar uppstod inte några problem.
Sammanhanget för just den här meningen kunde inte tolkas på något problematiskt sätt.
Observationen fick oss att dra slutsatsen att en del av filtreringsmekanismen i GPT-4 kanske bygger på en enkel lista med förbjudna ord som även innehåller tvetydiga termer. Den här metoden är problematisk, eftersom den riskerar att angripa för brett och ge falskt positiva resultat, vilket är ett allvarligt problem vid professionell översättning.
Tidigare maskinöversättningsteknik, till exempel neurala MT-motorer, har inte den här sortens problem med innehållsfiltrering. Därför kan vi anta att det är en begränsning hos LLM-tekniken.
Begränsningen får konsekvenser i verkliga scenarier. Tänk dig till exempel att du behöver översätta medicinskt innehåll om gynekologi eller sexualupplysning. Då blir du kanske överraskad om LLM inte översätter delar av texten.
En intressant aspekt är att vi bara noterade problemet när meningen översattes till ett visst språk, kinesiska, men inte när vi översatte den till andra språk. Resultatet visar att filtret användes på måltexten från GPT-4. Lösningen är att stänga av innehållsfiltren vid översättningsuppgifter.
Efter att ha följt maskinöversättningsresultat från LLM i fem veckor upptäckte vi att de varierade kraftigt, i synnerhet med GPT-4.
Även om vi förväntade oss de här resultaten från generativ AI var variationen större än vi hade räknat med – även när vi använde Top_p-parameterinställningar (Temperature and Top Probability) för att göra resultatet mindre kreativt och mer förutsägbart. Översättningsresultatet skilde sig åt i varje enskild GPT-omgång vi körde, även när vi utförde översättningarna direkt efter varandra.
Även om översättningarna är olika kan båda två vara godtagbara. Trots detta är det här ännu en aspekt som behöver kontrolleras och ytterligare en skillnad jämfört med det tidigare neurala MT-paradigmet.
Vi börjar ana att det här potentiella paradigmskiftet – från NMT till LLM MT – kanske inte bara består av en teknisk förändring, utan också ställer krav på att vi själva ändrar synsätt: Det kan hända att vi behöver lära oss att leva med mindre förutsägbara resultat, även när vi använder exakt samma källtext och parametrar. Vi kanske också får acceptera större variation än vi är vana vid med dagens automatisering.
I viss mån kan vi därmed bli tvungna att godta större ovisshet, men vi kan ändå använda vissa mekanismer och bra metoder för att se till att variationen blir någorlunda kontrollerbar.
Slutligen: När du studerar vårt diagram, observera att det ökade redigeringsavståndet för GPT-4 inte betyder att kvaliteten har sjunkit. Det beror på att GPT-resultaten är så varierande. Nästa månad kanske linjen går upp. Håll utkik här för att ta del av fler insikter och framsteg.
—Rafa Moral, Lionbridge Vice President, Innovation
Utforska sammanfattningarna nedan för att lära dig mer om ämnena i våra tidigare expertkommentarer.
Mars 2023 — en stor språkmodell (LLM) överträffar en neural maskinöversättningsmotor (MT): Vad händer nu?
Februari 2023 — Förbättra maskinöversättning (MT): MT-anpassning respektive MT-träning
Januari 2023 — Jämförelse av översättningskvalitet mellan ChatGPT och de stora maskinöversättningsmotorerna
November 2022 — Förbättringar i Microsofts MT
Oktober 2022 — MT och språkets stilnivå
September 2022 — Använda terminologi för att höja MT-kvaliteten
Augusti 2022 — Hantera katastrofala maskinöversättningsfel
Juli 2022 — Rankningslista för maskinöversättning
Juni 2022 — Korrekt analys av MT-kvalitet
Maj 2022 — Amazon- och Yandex-prestanda i maj
April 2022 — Prestandan hos Yandex i april
Mars 2022 — Anpassade jämförelser av maskinöversättningsmotorer
Februari 2022 — Den neurala maskinöversättningens framtid
Januari 2022 — Prestandan hos maskinöversättningsmotorer i januari
December 2021 – Lionbridge lägger till Yandex MT i den jämförande kvalitetskontrollen MT Quality Tracker
November 2021 – Bing Translator uppvisar bättre resultat
Oktober 2021 – Framstegen för Amazons maskinöversättningsmotor
September 2021 – Amazon förbättrar sin maskinöversättningskvalitet
Augusti 2021 – De främsta teknikföretagen och deras utveckling av maskinöversättningsmotorer
Få insikter från våra experter på automatiserad översättning.
Generativ artificiell intelligens (AI) har nått en viktig milstolpe: I en av våra jämförande analyser överträffade den en neural maskinöversättningsmotor (NMT). Närmare bestämt var det så att den stora språkmodellen (LLM) GPT-4 producerade något högre kvalitet än Yandex för språkkombinationen engelska till kinesiska, som du kan se i bild 1.
Den här utvecklingen är anmärkningsvärd, eftersom det är första gången ett annat slags MT-metod har överträffat en neural MT-motor sedan NMT såg dagens ljus. Dessutom är det en ”icke-MT”-metod som har klått NMT-motorn, en allmän språkautomation som inte har förberetts speciellt för maskinöversättning.
Varför är den här händelsen viktig för dig? Om du är MT-leverantör måste du gå i täten för tekniska framsteg och fundera över hur de kan påverka ditt befintliga MT-erbjudande, så att du kan behålla din konkurrenskraft. Om du är MT-köpare behöver du hålla ett vaksamt öga på utvecklingen för att göra kloka MT-investeringar – som förmodligen omfattar LLM-baserad teknik i stället för renodlade neurala MT-lösningar.
Det är värt att notera att generativ AI fortfarande är i sin vagga. Det innebär att den fallerar på vissa viktiga områden. Till exempel producerar den olika resultat vid flera körningar, har ett instabilt API (Application Programming Interface) och gör fler fel än neurala MT-motorer. De här problemen måste lösas för att tekniken ska mogna och vi kan redan se att förbättringar uppnås i häpnadsväckande hastighet.
LLM-modeller har en förmåga att förbättras i otrolig fart, vilket stöder uppfattningen att LLM:er kan bli nästa paradigm för maskinöversättning. Vi förväntar oss en hybridperiod då leverantörer av neural MT integrerar vissa aspekter av LLM:er i neurala MT-arkitekturer i takt med att paradigmet utvecklas.
I vår blogg kan du läsa en jämförelse av översättningskvaliteten från neurala MT-motorer och LLM:er för två ytterligare språkkombinationer och få veta mer om vår syn på om detta är början på slutet för paradigmet neural maskinöversättning.
—Rafa Moral, Lionbridge Vice President, Innovation
Generiska maskinöversättningsmotorer erbjuder vanligtvis tillräckligt bra resultat för företag som vill automatisera sina översättningar. Det finns dock en risk att motorerna ger undermåliga förslag, framför allt om innehållet är tekniskt eller högspecialiserat.
Företag som vill förbättra sina maskinöversättningsresultat för att uppfylla specifika mål kan välja mellan två alternativ: MT-anpassning och/eller MT-träning. Endera metod – eller en kombination av båda två – kan förbättra resultaten av den automatiserade översättningsprocessen.
Metoderna skiljer sig dock åt och kan inte utan vidare ersätta varandra. I tabell 1 ser du en översikt över MT-anpassning och MT-träning och några saker du behöver tänka på när du utvärderar respektive metod.
MT-anpassning | |
---|---|
Vad är det och hur fungerar det? | Anpassning innebär att en befintlig maskinöversättningsmotor anpassas med hjälp av en ordlista och en lista med termer som inte ska översättas för att förbättra precisionen i maskingenererade översättningar |
Vad gör den? | Den förbättrar MT-motorns förslag för att ge mer korrekta resultat och minska behovet av efterredigering |
Specifika fördelar | Ger företag möjlighet att bevara sitt varumärkesnamn och sin terminologi och skapa regionala varianter |
Risken med att använda det | Om den inte utförs på rätt sätt kan MT-motorn ge dåliga förslag och försämra hela översättningskvaliteten |
När ska det användas? | Perfekt till tekniskt och detaljerat innehåll och innehåll som kräver: * Korrekt översatt terminologi * Regionala varianter, men du inte har tillräckligt med data för att utföra MT-träning |
Framgångsfaktorer | En erfaren MT-expert som kompetent kan hantera normaliseringsregler för in- och utdata, ordlistor och listor med ord som inte ska översättas |
Kostnadsaspekter | Det uppstår en engångskostnad för att uppdatera profilen som läggs in i MT-motorn och vissa löpande kostnader för att underhålla en ordlista över tid. Kostnaden är dock förhållandevis låg sett till potentiella fördelar och är vanligtvis lägre än för MT-träning |
Tabell 1. Jämförelse av MT-anpassning och MT-träning
MT-träning | |
---|---|
Vad är det och hur fungerar det? | En MT-motor byggs och tränas genom att använda stora mängder tvåspråkiga data från korpusar och översättningsminnen (TM) i syfte att förbättra precisionen hos maskingenererade översättningar |
Vad gör den? | Den förbättrar MT-motorns förslag för att ge mer korrekta resultat och minska behovet av efterredigering |
Specifika fördelar | Ger företag möjlighet att utforma en specifik varumärkesröst, ton och stil och skapa regionala varianter |
Risken med att använda det | Om det inte finns tillräckligt med kvalitetsdata för att träna motorn kan MT-träningen misslyckas med att förbättra resultatet. MT-motorn kan ge dåliga förslag och försämra hela översättningskvaliteten om oerfarna författare överanvänder terminologi |
När ska det användas? | Perfekt till högspecialiserat innehåll, marknadsföring och kreativt innehåll och allt innehåll som kräver: * En specifik varumärkesröst, ton eller stil * Regionala varianter och om du har tillräckligt med data för att utföra MT-träning |
Framgångsfaktorer | Minst 15 000 unika segment för tillräcklig träning av motorn |
Kostnadsaspekter | Det uppstår kostnader för den första träningen och eventuellt också kostnader för ytterligare träning som kan behövas längre fram om övervakningen av MT-resultat tyder på att det finns utrymme för förbättringar. MT-träning kan vara väl investerade pengar i vissa fall när de potentiella fördelarna är tillräckligt stora |
Tabell 1. Jämförelse av MT-anpassning och MT-träning
MT-anpassning | MT-träning | |
---|---|---|
Vad är det och hur fungerar det? | Anpassning innebär att en befintlig maskinöversättningsmotor anpassas med hjälp av en ordlista och en lista med termer som inte ska översättas för att förbättra precisionen i maskingenererade översättningar | En MT-motor byggs och tränas genom att använda stora mängder tvåspråkiga data från korpusar och översättningsminnen (TM) i syfte att förbättra precisionen hos maskingenererade översättningar |
Vad gör den? | Den förbättrar MT-motorns förslag för att ge mer korrekta resultat och minska behovet av efterredigering | Den förbättrar MT-motorns förslag för att ge mer korrekta resultat och minska behovet av efterredigering |
Specifika fördelar | Ger företag möjlighet att bevara sitt varumärkesnamn och sin terminologi och skapa regionala varianter | Ger företag möjlighet att utforma en specifik varumärkesröst, ton och stil och skapa regionala varianter |
Risken med att använda det | Om den inte utförs på rätt sätt kan MT-motorn ge dåliga förslag och försämra hela översättningskvaliteten | Om det inte finns tillräckligt med kvalitetsdata för att träna motorn kan MT-träningen misslyckas med att förbättra resultatet. MT-motorn kan ge dåliga förslag och försämra hela översättningskvaliteten om oerfarna författare överanvänder terminologi |
När ska det användas? | Perfekt till tekniskt och detaljerat innehåll och innehåll som kräver: * Korrekt översatt terminologi * Regionala varianter, men du inte har tillräckligt med data för att utföra MT-träning |
Perfekt till högspecialiserat innehåll, marknadsföring och kreativt innehåll och allt innehåll som kräver: * En specifik varumärkesröst, ton eller stil * Regionala varianter och om du har tillräckligt med data för att utföra MT-träning |
Framgångsfaktorer | En erfaren MT-expert som kompetent kan hantera normaliseringsregler för in- och utdata, ordlistor och listor med ord som inte ska översättas | Minst 15 000 unika segment för tillräcklig träning av motorn |
Kostnadsaspekter | Det uppstår en engångskostnad för att uppdatera profilen som läggs in i MT-motorn och vissa löpande kostnader för att underhålla en ordlista över tid. Kostnaden är dock förhållandevis låg sett till potentiella fördelar och är vanligtvis lägre än för MT-träning | Det uppstår kostnader för den första träningen och eventuellt också kostnader för ytterligare träning som kan behövas längre fram om övervakningen av MT-resultat tyder på att det finns utrymme för förbättringar. MT-träning kan vara väl investerade pengar i vissa fall när de potentiella fördelarna är tillräckligt stora |
Tabell 1. Jämförelse av MT-anpassning och MT-träning
I vår blogg kan du läsa mer om anpassning och träning av maskinöversättning.
—Thomas McCarthy, Lionbridge MT Business Analyst
Kan stora språkmodeller (LLM) vara ett bra alternativ till ett paradigm för neural maskinöversättning (NMT) för maskinöversättning (MT)? För att ta reda på det jämförde vi översättningsresultaten från ChatGPT, OpenAI’:s senaste version av GPT-3-familjen LLM:er, med de fem största MT-motorerna som vi använder i vårt bedömningsverktyg för maskinöversättning.
Som väntat översatte de specialiserade NMT-motorerna bättre än ChatGPT. Men överraskande nog gjorde ChatGPT ett hyfsat jobb. Som du kan se i bild 1 presterade ChatGPT nästan lika bra som de specialiserade motorerna.
Vi beräknade kvalitetsnivån utifrån det omvända redigeringsavståndet med hjälp av flera referenser för språkkombinationen engelska till spanska. Redigeringsavståndet mäter antalet redigeringar som en mänsklig redigerare behöver göra i MT-resultatet för att den resulterande översättningen ska bli lika bra som en manuell översättning. I vår beräkning jämförde vi det råa MT-resultatet med tio olika manuella översättningar – flera referenser – i stället för bara en enda manuell översättning. Det omvända redigeringsavståndet innebär att ju högre den resulterande siffran är, desto bättre är kvaliteten.
Bild 1. Jämförelse av automatiserad översättningskvalitet mellan ChatGPT och de stora maskinöversättningsmotorerna utifrån omvänt redigeringsavstånd och med hjälp av flera referenser för språkkombinationen engelska till spanska.
Resultaten är anmärkningsvärda, eftersom den generiska modellen har tränats för att utföra uppgifter inom bearbetning av naturligt språk (NLP) och inte specifikt för att utföra översättningar. ChatGPT:s resultat ligger på ungefär samma kvalitetsnivå som MT-motorerna producerade för två eller tre år sedan.
Med tanke på utvecklingen inom LLM:er – som bygger på allmänhetens intresse och de betydande investeringar som teknikföretag gör i tekniken – kan vi förmodligen snart få se om ChatGPT går om MT-motorerna eller om MT börjar införa ett nytt LLM-paradigm. MT kan använda LLM:er som grund, men sedan finslipa tekniken specifikt för maskinöversättning. Det skulle påminna om det som OpenAI och andra LLM-företag gör för att förbättra sina generiska modeller för specifika användningsområden, till exempel att göra det möjligt för maskinerna att kommunicera med människor genom vanliga samtal. Specialisering ökar precisionen i utförda uppgifter.
En fantastisk sak med de här stora ”generiska” språkmodellerna är att de kan göra många olika saker och erbjuda enastående kvalitet i de flesta av uppgifterna. Till exempel har DeepMinds GATO, en annan generisk intelligensmodell, testats med över 600 uppgifter – och uppnått State-of-the-Art-resultat (SOTA) i 400 av dem.
Två utvecklingsspår kommer att finnas kvar även framöver: generiska modeller som GPT, Megatron och GATO och specialiserade modeller för särskilda ändamål baserat på dessa generiska modeller. De generiska modellerna är viktiga för att uppnå framsteg inom artificiell generisk intelligens (AGI) och eventuellt ännu mer imponerande framsteg på lång sikt. Specialiserade modeller kommer att vara till praktisk nytta på kort sikt inom specifika områden. En av de anmärkningsvärda sakerna med LLM:er är att båda spåren kan utvecklas och fungera parallellt.
Vi ser med spänning fram emot vad framtiden ska utvisa. Vi kommer att fortsätta utvärdera LLM:er och publicera resultaten, så att du kan hålla dig uppdaterad om den här fascinerande utvecklingen. Läs våra blogginlägg för att gräva djupare i ChatGPT:s översättningsresultat och lära dig mer om ChatGTP och lokalisering och varför det förmodligen kommer att rita om spelplanen.
—Rafa Moral, Lionbridge Vice President, Innovation
Vi har noterat en trevlig, allmän kvalitetshöjning i Microsofts maskinöversättningsresultat (MT) under perioden 11 oktober till 1 november. Den senaste kvalitetsförbättringen i Bing Translator innebär att alla de största MT-motorerna nu producerar väldigt likartade resultat. Därmed blir också kampen om ledarpositionen ett riktigt spännande lopp.
De främsta MT-motorerna har inte visat några intressanta förbättringar på flera månader. Låt oss hålla tummarna att den här utvecklingen från Microsoft bryter trenden och är början på fler framsteg hos motorerna.
Förutom vår vanliga mätning med en enda referens till översättningar valde vi att även bekräfta Microsofts förbättrade resultat med en andra spårning som omfattade flera referenser. I den här MT-utvärderingen använde vi tio referensöversättningar utförda av mänskliga översättare – den gyllene standarden – i stället för bara en översättning. På så sätt fick vi fram en mer exakt siffra för redigeringsavstånd som tar hänsyn till flera möjliga korrekta översättningar i de slutliga resultaten.
När vi nu närmar oss årets slut kan vi se att MT-resultaten förblev i princip oförändrade under 2022. Vi noterade små förändringar – utvecklingen för Microsofts maskinöversättning i Bing kan faktiskt vara det mest anmärkningsvärda framsteget på hela året. Som vi har sagt tidigare under året ser det ut som om det nuvarande MT-paradigmet har nått en platå. Vi ser fram emot att få veta vad 2023 har att bjuda på inom maskinöversättning.
—Rafa Moral, Lionbridge Vice President, Innovation
Den här månaden vill vi uppmärksamma språkets formalitet och hur svårt – men inte omöjligt – det är att få rätt på det vid användning av maskinöversättning (MT).
Maskinöversättningsmotorer (MT) kan producera innehåll med felaktig och inkonsekvent formalitet. Hur kommer det sig? Vanligtvis levererar MT-modeller en enda översättning för varje källsegment. Om källsegmentet är tvetydigt måste modellen välja en översättning bland flera giltiga alternativ, oberoende av målgrupp. Om modellen själv får välja mellan olika giltiga alternativ kan det leda till inkonsekventa översättningar eller översättningar med felaktig formell nivå.
Det är särskilt svårt att uppnå rätt resultat när källspråket har färre formalitetsnivåer än målspråket. Till exempel har språk som franskan väldefinierade formella former – tu respektive vous – medan engelskan inte har det.
De flesta MT-system stöder visserligen inte språkformalitet eller genusparametrar, men vi ser vissa framsteg. För närvarande erbjuder DeepL (API) och Amazon (konsol och SDK) funktioner som styr formalitet. I Lionbridges Smart MT™, en maskinöversättningslösning för företag, kan språkliga regler tillämpas på måltexten för att producera maskinöversättningar med önskad formell nivå.
Det är väldigt viktigt att översätta källtexten på ett effektivt sätt för att tillgodose målgruppernas behov. Då behöver du också hantera formellt och informellt språk i maskinöversättningar. Översättningar som låter ”onaturliga” eller – ännu värre – oförskämda riskerar att skrämma bort dina målgrupper.
I vår blogg kan du läsa mer om maskinöversättning och formellt respektive informellt språkbruk.
—Yolanda Martin, Lionbridge MT Specialist
Det kan vara till en fördel att använda maskinöversättning (MT), men det gäller att tänka sig för. Allmänna MT-motorer kan producera felaktiga översättningar och framför allt ge oönskade resultat inom vissa områden ur ett terminologiskt perspektiv. Effekterna kan bli särskilt allvarliga på de medicinska och juridiska områdena. Men det finns saker du kan göra för att förbättra MT-resultaten.
Genom att använda terminologi kan du höja MT-kvaliteten och se till att översättningar blir korrekta och konsekventa.
Det är väldigt viktigt att träna anpassade MT-system med tvåspråkiga texter från det aktuella området som även innehåller specialiserad terminologi. Om terminologin inte används konsekvent går det emellertid inte att garantera att översättningarna blir helt perfekta, även om motorerna tränas med specialiserade texter. Forskare på det här området rekommenderar att språkinformation läggs in i neurala maskinöversättningssystem (NMT). Möjligheten att manuellt eller halvautomatiskt märka upp data beror på tillgängliga resurser, som ordlistor, och begränsningar, som tid, kostnad och tillgång till medarbetare som kan utföra märkningen.
Lionbridges Smart MT™ kan användas för att lägga till språkliga regler i käll- och måltexten och för att tillämpa terminologi baserat på ordlistor och listor med ord som inte ska översättas, som läggs till i en viss profil. Vi hjälper våra kunder att skapa och underhålla ordlistor, som regelbundet förfinas genom att lägga till nya, relevanta termer och ta bort föråldrad terminologi. När ordlistor väl har skapats i Smart MT kan de sedan användas till alla MT-motorer, vilket sparar både tid och pengar.
Det är dock inte lika enkelt som man kan tro att använda ordlistor till MT-projekt. Om ordlistor används på ett felaktigt sätt kan de ha negativ effekt på maskinöversättningens allmänna kvalitet. Det bästa sättet att följa terminologi i MT är genom MT-träning. Genom att kombinera tränade MT-motorer med anpassade ordlistor och identifiering av regler för för- och efterbehandling kan man se till att maskinöversatta texter innehåller rätt terminologi och har en stil som stämmer överens med kundens övriga dokumentation.
Läs vår blogg för att ta del av fler insikter om hur du kan använda terminologi för att förbättra MT-resultat.
—Yolanda Martin, Lionbridge MT Specialist
Det blir allt vanligare att företag förlitar sig på maskinöversättning som standardmetod. Då vill det till att medarbetarna lyckas förhindra spridningen av katastrofala fel.
Katastrofala fel är ett mycket större problem än vanliga maskinöversättningsfel som beror på olika fel kopplade till språkliga aspekter som stavning, grammatik eller skiljetecken. Katastrofala fel handlar om mer än bara språket och uppstår när resultatet från översättningsmotorn avviker från det avsedda budskapet på ett direkt farligt sätt. Den desinformation eller de missförstånd som då uppstår kan skada företags anseende och orsaka ekonomiska eller juridiska problem. De kan även få konsekvenser för den allmänna säkerheten eller folkhälsan. Det är väldigt viktigt att vi kan hitta sätt att identifiera de här felen och undvika att de komprometterar din kommunikation.
Lionbridge genomför anpassade, automatiska kvalitetskontroller av översatt text för att upptäcka kritiska fel och samtidigt bibehålla MT-hastigheten och minska behovet av manuella ingrepp.
Våra automatiska kontroller upptäcker:
Företag kommer att bli bättre skyddade mot katastrofala fel när datavetare lyckas förbättra den befintliga MT-tekniken för att undvika den här sortens översättningsfel. Under tiden kan vi använda automatiserad teknik för att identifiera potentiella problem, skriva om problematiska meningar och främja precision under översättningsprocessen.
I vår blogg tar vi en närmare titt på de katastrofala fel som kan uppstå vid maskinöversättning.
—Luis Javier Santiago, MT Group Leader,
och Rafa Moral, Lionbridge Vice President, Innovation
Google NMT, Bing NMT, Amazon, DeepL, Yandex – vilken motor är egentligen bäst? Den senaste månadens data – och den allmänna trenden just nu – visar att de stora motorerna ger likartade resultat. Därför är det väl värt att ta hänsyn till ytterligare faktorer när du utvecklar din MT-strategi, till exempel hur enkelt det är för olika MT-motorer att översätta specifika språkkombinationer.
Genom att ta reda på hur svårt det är för motorer att hantera vissa språkkombinationer kan du enklare planera din budget när du avsätter översättningskostnader till olika språk. Du kanske till exempel behöver lägga ner mer resurser på kvalitetsöversättningar när du arbetar med komplicerade språkkombinationer. Insikter om språkens komplexitet kan hjälpa dig att fatta bättre affärsbeslut.
Att rangordna språk utifrån hur lätta de är att översatta är inte helt enkelt, men vi kan använda olika mått för att bedöma det. Redigeringsavstånd är ett mått för hur många ändringar en efterredigerare gör för att se till att den färdiga texten håller lika hög kvalitet som efter manuell översättning. Det kan ge dig en uppfattning om hur komplex maskinöversättningen är eller hur översättningsbara texter är mellan olika språk.
De flesta romanska språk, som portugisiska, spanska, franska och italienska, kräver färre ändringar för att uppnå hög kvalitet vid översättning från engelska. Vi har fastställt att de här målspråken är enklast för maskiner att hantera, och de intog de fyra översta platserna i vår lista över språk som är lättast att maskinöversätta till. Ungerska och finska – två uraliska språk – är mer komplicerade. De hamnade sist på vår lista med plats 27 respektive 28. Estniska är ett annat språk i samma familj och räknas också till de mer komplexa språken. De här resultaten bygger på miljontals meningar som behandlats av Lionbridge och understryker hur viktig språkfamiljen är för MT-resultat.
Jämförelser mellan språk har visserligen sina begränsningar, men listan kan ändå ge oss intressanta insikter om hur vi kan bli bättre på att hantera flerspråkiga projekt. I vår blogg hittar du hela Lionbridges rankningstabell för olika språk.
—Rafa Moral, Lionbridge Vice President, Innovation
I juni noterade vi en minimal förbättring av ryska översättningar i Yandex MT-motor och en lätt svacka i översättningsresultaten från Microsoft Bings MT-motor. Är det här anmärkningsvärda förändringar eller obetydliga, enstaka resultat? För att få det på det analyserade vi resultaten på ett annat sätt.
I stället för att använda en enda guldstandard, som mäter avståndet mellan MT-översättningen och en ”perfekt” manuell översättning, använde vi flera referensöversättningar. Vi jämförde varje översättning som utförts av maskiner med tio översättningar utförda av professionella översättare. När vi använde den här metoden försvann de små variationerna i översättningskvalitet som vi sett hos Yandex och Microsoft Bing i juni. Med andra ord kan vi dra slutsatsen att det inte har skett några förändringar i MT-översättningskvaliteten. Resultaten för juni var oförändrade.
Ibland kan data och deras grafiska gestaltning vara missvisande. Det sker ofta när det är små delta bland olika mätningar. Därför är det en god idé att använda flera metoder för att utvärdera data och kunna göra en korrekt tolkning av resultaten.
Vi förutspår små förändringar i MT-motorernas kvalitet de närmsta månaderna. Vi kommer att använda det här avsnittet för att presentera analyser och allmänna MT-observationer. Nästa månad kan du hålla utkik efter jämförelser mellan MT-språkkombinationer. Vi tänkte undersöka om det går att använda data för att klassificera språk och språkfamiljer utifrån MT-komplexitet och fastställa om maskiner enklare kan översätta vissa språkkombinationer än andra.
—Rafa Moral, Lionbridge Vice President, Innovation
I huvudsak har det varit ännu en stillastående månad för MT-motorer.
Vi kunde se att Amazon har åstadkommit viss förbättring när det gäller motorns förmåga att hantera språkkombinationen engelska-spanska. Detta är just nu den ledande motorn i språkkombinationen. Amazon har också gjort en del framsteg i andra språk, men mindre steg än för språkkombinationen engelska-spanska. Vi gissar att framstegen har sin förklaring i vissa allmänna ändringar av inställningarna till följd av arbetet med språkkombinationen engelska-spanska. Förbättringarna tycks påverka behandlingen av vissa specialtecken och strängar med måttuttryck.
För andra månaden i rad har Yandex åstadkommit mindre förbättringar. Det är intressant att notera att även dessa förändringar avser spanska.
Som vi tidigare sett har det inte skett någon betydande utveckling. Samtliga motorer fungerar ungefär som tidigare. Under kommande månader tänker vi analysera vissa enskilda MT-områden och göra allmänna observationer. Naturligtvis kommer vi även att följa stora framsteg.
—Rafa Moral, Lionbridge Vice President, Innovation
MT-motorns prestanda har legat stilla på samma nivå i flera månader, men nu har Yandex gjort vissa framsteg – framför allt med sin tyska motor.
Vid en noggrann analys såg vi förbättringar i Yandex-motorernas hantering av meningar med skiljetecken som frågetecken, utropstecken, parenteser och snedstreck – liksom måttenheter. De här framstegen kan vara en följd av finjusteringar i MT-inställningarna, snarare än förbättringar av själva modellerna. Vi såg dock även bättre resultat vid spårning av sällsynta begrepp, så Yandex framsteg kan också beror på viss finslipning av modellerna eller mer dataträning.
Vid ungefär den här tiden förra året uppvisade flera MT-motorer förbättringar som vi tyckte var intressanta. Går det att skönja ett tidsmönster i de här framstegen? Kommer vi att se något som påminner om det vi noterade 2021 även i år? Vi följer MT-prestandan för de här motorerna och kommer att rapportera om våra resultat under nästa månad eller så.
Rent generellt ökar intresset för att utvärdera MT-motorer. I dag är nästan alla överens om att MT är en mogen teknik. Användare inser hur användbar tekniken är till nästan alla sorters översättning – med eller utan manuella ändringar och hybridmetoder. MT-användare har emellertid fortfarande svårt att hitta rätt sätt att utvärdera, mäta och förbättra MT-resultat.
—Rafa Moral, Lionbridge Vice President, Innovation
Om du har följt de här sidorna känner du till våra allmänna jämförelser av maskinöversättningsmotorer. Varje månad fastställer vi vilka maskinöversättningsmotorer som har presterat bäst i olika språkkombinationer och följer motorernas utveckling. I mars låg utvecklingskurvan för olika maskinöversättningsmotorer platt. Det är en trend som vi har noterat sedan en tid tillbaka och som vi påpekade förra månaden kan detta vara ett tecken på att ett nytt paradigmskifte inom maskinöversättningsmotorer behövs.
Resultaten som vi delar är visserligen allmänna, men företag genomför i allt större omfattning anpassade jämförelser av maskinöversättningsmotorer. Till skillnad från allmänna jämförelser tar de här bedömningarna hänsyn till ett företags specifika behov för att välja ut de mest fördelaktiga maskinöversättningsmotorerna.
När ett företag vill börja använda maskinöversättning eller förbättra sina befintliga metoder för att använda maskinöversättning är det väldigt viktigt att fastställa vilka maskinöversättningsmotorer som kommer att fungera bäst. När vi genomför anpassade bedömningar använder vi en metod som påminner om den som presenteras på den här sidan, men vi ger rekommendationer baserat på företagets behov utifrån innehållstyp och språkkombination.
Anpassade jämförelser av maskinöversättningsmotorer har visserligen varit tillgängliga i flera år, men efterfrågan på dem ökar i dag. Vi anser att den här trenden beror på att maskinöversättning spelar en så viktig roll för att hjälpa företag att lyckas på en digital marknad.
—Rafa Moral, Lionbridge Vice President, Innovation
Googles maskinöversättningsmotor förbättrades något under januari och februari 2022, medan andra motorer som vi följer stod stilla i utvecklingen. De här observationerna kan föranleda vissa brännande frågor. Är paradigmet för neural maskinöversättning (NMT) på väg att nå en platå? Krävs det ett nytt paradigmskifte, med tanke på att motorerna verkar ha svårt att ta betydande steg framåt? Vi noterade liknande trender när NMT ersatte statistisk maskinöversättning.
Under den statistiska maskinöversättningens sista tid skedde praktiskt taget inga förbättringar av kvaliteten hos maskinöversättningarna. Vi kunde också se att kvaliteten på maskinöversättningar från olika motorer blev allt jämnare. I dag noterar vi liknande trender. NMT kommer visserligen inte att ersättas i närtid, men om vi sätter vår tilltro till teorier om exponentiell tillväxt och ökad avkastning är ett nytt paradigmskifte kanske inte så långt borta – särskilt inte om vi ser till den regelbaserade maskinöversättningens 30-åriga historia och den statistiska maskinöversättningens decennielånga dominans, och det faktum att NMT nu är inne på sitt sjätte år.
—Rafa Moral, Lionbridge Vice President, Innovation
Under januari månad har de största maskinöversättningsmotorerna inte gjort några betydande framsteg när det gäller resultat.
Google har steg för steg visat små förbättringar inom vissa språk och områden. Resultaten för de flesta övriga motorer har legat kvar på samma nivå. Microsoft har uppnått förbättringar de senaste månaderna, men resultaten var oförändrade under januari. På det stora hela är kvaliteten i Google Translate fortfarande ledande när det gäller maskinöversättning av allmänna texter.
I december lade vi till en femte maskinöversättningsmotor i vårt bedömningsverktyg. Genom att övervaka Yandex kan vi få bättre analyser av maskinöversättningskvaliteten för ryska.
—Rafa Moral, Lionbridge Vice President, Innovation
I december lade vi till Yandex MT i vår jämförande kvalitetskontroll MT Quality Tracker.
Våra tester visar hittills att Yandex
I andra studier förbättrade Microsoft Bing sina resultat på ett positivt sätt under de sista månaderna av 2021. Framför allt har översättningar till kinesiska blivit bättre. Amazon har också gjort vissa framsteg. När vi inleder det nya året tar Google över taktpinnen och förbättrar sina resultat. Framför allt har översättningar till spanska, ryska och tyska blivit bättre. Yandex kurva har legat plant under de fem veckor som vi har följt motorn.
—Rafa Moral, Lionbridge Vice President, Innovation
Efter några veckors experiment och varierande totalprestanda står det klart att Microsofts NLP-ingenjörer är något på spåren. Bing Translator har visat allmänna förbättringar de senaste veckorna och framför allt bättre resultat för kinesiska, vilket gör MT-motorn till den senaste månadens stora vinnare. Bing Translator har kommit ikapp på de flesta områden och ger nu till och med bättre resultat än vissa av konkurrenterna. Bing Translator är fortsatt en av de mest träningsbara motorerna och genom förbättringarna har den positionerat sig som ett bra alternativ för att bygga anpassade modeller som är specifika för ditt innehåll.
—Jordi Macias, Lionbridge Vice President, Language Excellence
Amazons maskinöversättningsmotorer har fortsatt sin positiva utveckling under oktober och bygger därmed vidare på den process som inleddes för omkring en månad sedan. De här framstegen är den andra omgången stegvis förbättringar som vi har sett de senaste månaderna.
Vi påminner om några av de områden där Amazons maskinöversättningsmotorer har vidareutvecklats de två senaste månaderna:
—Jordi Macias, Lionbridge Vice President, Language Excellence
September blev en bra månad för Amazons maskinöversättningsmotorer. För det första lyckades företaget höja kvaliteten på sina maskinöversättningar på tyska och ryska. Därefter noterade vi toppar för språkkombinationerna spanska och kinesiska. De här framstegen är den andra omgången stegvis förbättringar som vi har sett de senaste månaderna.
Här är några andra förändringar i Amazons MT-motorer:
—Yolanda Martin, Lionbridge MT Specialist
Alla stora teknikföretag har utvecklat egna MT-motorer, bland annat Microsoft, Google, Amazon, Facebook och nu även Apple. Många andra stora aktörer på marknader utanför USA konkurrerar också om utrymmet. Stora techföretag anser uppenbarligen att maskinöversättning och bearbetning av naturligt språk (NLP) är oumbärliga verktyg i dagens sammanlänkade, globala värld.
Håll utkik här när Lionbridge följer konkurrensen. Vi kommer att välja ut de bästa alternativen inom MT-motorer utifrån företags specifika behov och med utgångspunkt i önskad språkkombination och innehållstyp.
Vi räknar med att MT/NLP-kapplöpningen kommer att gå allt snabbare när så många framstående techföretag investerar i området. Det råder inga tvivel om att Apple – med sin väldokumenterade känsla för detaljer och kvalitet – kommer att tvinga andra företag att höja insatserna.
—Rafa Moral, Lionbridge Vice President, Innovation