A person’s arms reaching toward circular geometric shapes

한 차례의 기계번역 평가에서 NMT 엔진의 성능을 능가한 생성형 AI 모델

NMT 패러다임의 종말이 시작된 것인가?

생성형 인공지능(AI) 모델이 기계번역(MT) 비교 평가에서 처음으로 신경망 기계번역(NMT) 엔진보다 우수한 번역 결과를 제공했습니다. 특히 영어-중국어 쌍의 번역에서 대규모 언어 모델(LLM)인 GPT-4가 Yandex보다 좀 더 우수한 성능을 보였습니다.

이러한 진전이 무엇을 의미하는지 한번 살펴볼 필요가 있습니다.

이 결과가 NMT 패러다임의 종말을 시사하거나 극적인 변화를 알리는 신호라면 앞으로 기계번역에서 번역 품질의 획기적 도약, 기계번역 채택 증가, 콘텐츠 처리 능력 증대 등의 혁신을 기대할 수 있습니다.

MT 제공업체는 기술 변화의 최전선에서 이러한 발전을 최대한 활용한 서비스를 제공하기 위해 현재의 MT 엔진을 어떻게 개선할지 고민해야 합니다. MT 구매자는 현명한 투자를 위해 최신 개발 동향을 파악해야 합니다. 여기에는 NMT만 사용하는 서비스가 아닌 일부 LLM 기반 기술을 도입한 서비스가 포함될 가능성이 높습니다.

LLM이 NMT 엔진 성능을 능가한 결과에 내재된 의미

이 평가 결과는 획기적이지만 다른 측면에서도 생각해 봐야 합니다. 여기서는 한 언어쌍에 대해 단 하나의 모델만을 평가했습니다. LLM은 5개의 NMT 엔진 중 1개의 엔진에 한해, 그것도 다중 참조 평가라는 유형의 MT 평가에서만 우수한 성능을 보였습니다. 그럼에도 이 성과를 의미 있게 받아들여야 할까요? 물론입니다.

위의 맥락에서 보면 이 결과가 대수롭지 않게 여겨질 수도 있지만 NMT가 등장한 이후로 다른 유형의 MT 방식이 NMT 엔진을 능가한 것은 이번이 처음이라는 점에서 주목할 만합니다. 심지어 NMT 엔진 성능을 능가한 것은 '비 MT' 방식으로, 특별히 기계번역 용도로 고안된 것이 아닌 다목적 자동 언어 생성 모델이라는 점도 중요합니다. 바로 그 덕분에 GPT-4 LLM(대규모 언어 모델)이 NMT 엔진을 뛰어넘는 놀라운 성과를 거둘 수 있었습니다.

챗GPT-4의 놀라운 번역 결과가 NMT 패러다임에 시사하는 의미

2022년 2월부터 라이온브리지(Lionbridge)는 머지않은 미래에 발생할지 모를 MT 패러다임의 변화 가능성에 대해 공개적으로 의문을 제기해 왔습니다. 당사의 기계번역 추적 도구 관련 논평을 보면 그동안 라이온브리지가 이에 대해 어떻게 접근해 왔는지 자세히 알 수 있습니다. 이와 같은 최신 비교 결과는 중대한 변화가 다가오고 있다는 또 다른 증거입니다.

그러나 너무 성급하게 결론을 내려서는 안 됩니다. 변화가 임박했다고 말하는 것은 고사하고, 대규모 언어 모델(LLM)이 NMT 엔진을 대체할 것이라고 말하는 것도 아직 너무 이릅니다. 좀 더 시간을 들여 더 많은 데이터를 평가해 봐야 합니다. 고려해야 할 요소도 너무 많습니다. 또한 기업에서 번역 솔루션으로 활용할 수 있으려면 LLM 기술을 대대적으로 개선해야 합니다.

NMT와 LLM 기술은 공통점이 많으므로 NMT 엔진에 일부 LLM 방식을 도입하면서 패러다임의 변화가 시작될 가능성이 높습니다.

A woman gazing down, smiling

NMT와 LLM으로 세 가지 언어쌍을 번역한 결과 비교

상위 5개 NMT 엔진과 일부 GPT 모델을 이용해 세 가지 언어를 번역한 결과를 비교해 보겠습니다.

여기서는 영어-중국어(EN-ZH), 영어-스페인어(EN-ES), 영어-독일어(EN-DE) 언어쌍에 대해 복수 참조를 사용한 역편집 거리를 기준으로 품질 수준을 계산했습니다.

편집 거리는 MT에서 번역한 결과물을 사람에 의한 번역과 같은 수준으로 만들기 위해 사람이 MT 번역을 수정해야 하는 횟수를 측정한 수치입니다. 이 계산에서는 원시 MT 결과를 한 명이 아닌 10명의 번역사가 번역한 내용과 비교(복수 참조)했습니다. 역편집 거리의 수치가 높을수록 품질이 좋다는 것을 의미합니다.

그림 1을 보면 NMT 엔진과 LLM의 역편집 거리는 차이가 거의 없습니다. 이는 두 엔진의 성능이 비슷하다는 것을 의미합니다. 그러나 영어-중국어 쌍의 경우 대규모 언어 모델인 GPT-4의 번역 품질이 Yandex NMT보다 약간 더 우수했습니다.

GPT 모델과 주요 NMT 엔진의 영어-중국어 쌍에 대한 자동 번역 품질 비교

그림 2와 3은 각각 영어-스페인어 및 영어-독일어 언어쌍의 번역 결과입니다. 이 두 언어쌍에서는 기존 결과와 마찬가지로 모든 NMT 엔진이 LLM보다 나은 성능을 보였습니다.

예상대로 GPT-4가 챗GPT나 GPT-3보다 뛰어난 결과를 보이는 등, 더 나은 GPT 모델일수록 MT 결과도 더 우수했습니다.

GPT 모델과 주요 NMT 엔진의 영어-스페인어 쌍에 대한 자동 번역 품질 비교
GPT 모델과 주요 NMT 엔진의 영어-독일어 쌍에 대한 자동 번역 품질 비교

대규모 언어 모델을 믿고 전문 번역을 맡길 수 있을까?

생성형 AI는 아직 초기 단계이며 개발의 여지가 있습니다. 그렇다 보니 일부 핵심 영역에서 한계를 보이기도 합니다. 라이온브리지는 챗GPT 및 로컬라이제이션 백서에서 챗GPT가 사실을 말하지 못하고, 실제 세계에 대해 알지 못하며, 계산 능력이 없다는 사실을 밝혔습니다. 과연 이러한 기술을 믿을 수 있을지 찬찬히 생각해 볼 필요가 있습니다.

기업은 잠시 멈춰서 다음과 같은 문제를 생각해 봐야 합니다.

화면을 보고 있는 사람의 옆모습

가변성

당사가 평가한 바에 따르면 GPT의 번역 결과는 가변적입니다. 즉, GPT를 실행할 때마다 결과가 달라질 수 있습니다. 그림 2와 3에서 이를 확인할 수 있는데, 1차 실행과 2차 실행의 결과가 다릅니다.

예상했던 결과입니다. 그럼에도 불구하고 전문 번역에 LLM을 사용할지 여부를 검토할 때는 반드시 이러한 가변성을 고려해야 합니다. 예측 가능성이 무엇보다도 중요하기 때문입니다.

기업에서 콘텐츠를 번역할 때는 무작위성이 개입할 여지를 남겨서는 안 됩니다. MT가 산출하는 결과는 현재 생성형 AI가 산출하는 결과보다 훨씬 확정적이어야 합니다. 전문 MT 및 기타 전문적인 용도에 쓰이는 LLM은 일관성을 갖춰야 합니다.

완전히 확정적인 결과는 생성형 모델의 본질을 거스릅니다. 생성형 모델은 어느 정도의 창의성이나 가변성을 가정하고 전제하기 때문입니다. 이러한 특성이 아무런 문제가 되지 않고 오히려 바람직한 경우도 있지만 항상 그런 것은 아닙니다. LLM의 '온도' 설정, 즉 '창의성' 수준을 통제하기 위한 설정을 사용하는 일 외에 가변성을 관리할 수 있는 추가 메커니즘이 필요합니다.

생성형 모델의 가변성을 통제하는 최적의 방법이 무엇인지는 아직 명확하지 않습니다. 사용자가 일부 프롬프트를 사전 정의하고 특정 작업의 설정 몇 가지를 조합함으로써 이 문제를 해결할 수 있지만 보다 구체적인 해결책이 필요합니다.

예측성이 결여된 모델은 우수한 비즈니스 애플리케이션에 적용하기 어렵습니다.

API 불안정성

현재 LLM이 안고 있는 또 다른 문제는 API(애플리케이션 프로그래밍 인터페이스)의 불안정성입니다.

대부분의 생성형 AI 애플리케이션은 아직 배포 초기 단계에 있습니다. 엄청난 수요로 인해 API의 사용도 급증하고 있지만 이러한 요인들이 결합되면 문제가 생길 수 있습니다. 안정적인 다른 기술보다 이러한 애플리케이션에서 더 많은 문제가 발생하는 것에서도 이러한 사실을 확인할 수 있습니다.

오류

NMT 결과에서는 찾아볼 수 없거나 있더라도 발생 빈도가 매우 낮은 정확도 문제가 LLM MT 결과에서 발생했습니다.

여기에는 용어를 만들어 내거나 원문에 없는 용어가 나타나는 환각 문제, 텍스트 내의 호응과 관련된 용어 일치 문제 등이 있습니다. 문법상의 성이 여성인 형용사 또는 한정사가 문법상 남성인 명사와 짝을 이루거나 혹은 그 반대의 경우도 이와 같은 문제에 포함될 수 있습니다.

표 1을 보면 LLM은 스페인어를 대상 언어로 번역할 때 사용 빈도가 매우 낮고 지나치게 구어체적 용어인 “marketeros”를 사용했습니다. 정확한 번역은 “responsables del marketing”(마케팅 담당자)입니다. LLM은 대상 언어가 독일어와 중국어일 때도 유사한 실수를 저질렀습니다. 오류의 심각성에 따라 브랜드의 평판을 해치거나 재정적 또는 법적으로 타격을 받을 수 있으므로 MT에 치명적인 오류가 없는지 반드시 확인해야 합니다.

표 1. LLM MT 결과에서 나타난 '만들어진' 용어 또는 '환각' 용어의 예

원문 As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.
번역 Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.
비고 “responsables del marketing”으로 번역해야 함
원문 Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions
번역 Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.
비고 "Vermittler" 및 "bankähnlichen"으로 번역해야 함
원문 See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.
번역 看看本田如何利用推特的即时赢取功能为一个好事业赢得提升,同时也获得购买意向和品牌可喜度的提升。
비고 "公益事业" 및 "好感度"로 번역해야 함
표 1. LLM MT 결과에서 나타난 '만들어진' 용어 또는 '환각' 용어의 예
언어 원문 번역 비고
영어를 스페인어로 번역(EN-ES) As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture. Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera. “responsables del marketing”으로 번역해야 함
영어를 독일어로 번역(EN-DE) Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben. "Vermittler" 및 "bankähnlichen"으로 번역해야 함
영어를 중국어로 번역(EN-ZH) See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability. 看看本田如何利用推特的即时赢取功能为一个好事业赢得提升,同时也获得购买意向和品牌可喜度的提升。 "公益事业" 및 "好感度"로 번역해야 함

표 2에 나타난 바와 같이 LLM에서 세 가지 대상 언어로 번역한 결과, 일치 오류 또는 문자 오류가 발생했습니다. 예를 들어 "other"를 스페인어로 번역하면 남성형이 되어야 하는데 여성형으로 번역했습니다. 이러한 유형의 실수는 브랜드에 대한 소비자의 신뢰를 떨어뜨릴 수 있습니다.

표 2. 일치 오류 및 문자 오류의 예

범주 일치 오류
원문 The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.
번역 El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.
비고 남성형(“otros”)으로 번역해야 함
범주 일치 오류
원문 Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.
번역 Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.
비고 비한정 목적격("Reiniger")으로 번역해야 함
범주 문자 오류
원문 Handle the fiber with care as damage may occur if struck or bent sharply.
번역 小心處理纖維,因為如果受到撞擊或急劇彎曲可能會損壞。
비고 중국어 번체 문자
표 2. 일치 오류 및 문자 오류의 예
범주 언어 원문 번역 비고
일치 오류 영어를 스페인어로 번역(EN-ES) The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music. El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna. 남성형(“otros”)으로 번역해야 함
일치 오류 영어를 독일어로 번역(EN-DE) Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand. Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen. 비한정 목적격("Reiniger")으로 번역해야 함
문자 오류 영어를 중국어로 번역(EN-ZH) Handle the fiber with care as damage may occur if struck or bent sharply. 小心處理纖維,因為如果受到撞擊或急劇彎曲可能會損壞。 중국어 번체 문자

결론: NMT 패러다임의 종말이 시작된 것일까?

아직 NMT 패러다임의 종말이 시작된 것은 아닙니다. 앞서 언급했듯 NMT가 성숙기에 접어들었다는 징후와 MT 패러다임의 변화 가능성은 한동안 공존해 왔습니다. 지금 우리는 그 끝을 향해 나아가고 있습니다.

그림 4는 2018년 5월부터 2022년 12월까지 독일어, 스페인어, 러시아어, 중국어에 대해 역편집 거리를 사용하여 상위 5개 NMT 엔진의 번역 품질을 측정한 결과를 나타낸 도표입니다. 여기서도 볼 수 있듯, 상위 5개 NMT 엔진이 큰 진전 없이 평탄한 품질을 보이면서 현재 우위를 차지하고 있는 NMT 패러다임이 끝나가는 것은 아닌지 의문이 들기 시작했습니다.

NMT 엔진의 성능

NMT에 앞서 MT의 중심 패러다임이던 통계적 패러다임이 끝날 때와 마찬가지로 2022년 NMT의 품질이 거의 개선되지 않음에 따라 당사는 NMT도 정체기에 도달했다는 결론을 내렸습니다. 업계에서 가장 오랜 기간 동안 주요 MT 엔진을 측정해 온 라이온브리지 기계번역 추적 도구는 5가지 NMT 엔진의 성능에 대해 더 많은 정보를 제공합니다.

최근 생성형 AI 모델이 번역 품질 개선에 기여하면서 NMT 패러다임의 종말이 앞당겨질 가능성도 커졌지만 생성형 AI 기술에는 아직 해결해야 할 문제가 많습니다.

생성형 AI 애플리케이션은 아직 배포 초기 단계에 있다는 사실을 다시 한번 강조할 필요가 있습니다. 위에서 확인한 것과 같은 문제는 반드시 해결해야 하고 지금도 해결하고 있는 상태로, 급속도로 개선이 이루어지고 있습니다. 최근 당사가 실시한 챗GPT-4 테스트 결과, 이러한 문제 중 일부가 수정된 것으로 나타났습니다. LLM이 보여주는 놀라운 개선 속도는 LLM이 기계번역의 차세대 패러다임이 될 것이라는 주장을 뒷받침합니다.

패러다임이 진화함에 따라 NMT 제공업체가 현재의 패러다임을 뒤엎고 LLM으로 완전히 대체하기보다는 LLM의 일부 특성을 NMT 아키텍처에 통합할 것으로 예상됩니다. MT 업계가 규칙 기반 MT(RBMT)에서 통계적 MT(SMT)로 전환할 때도 두 방식이 혼합된 시기를 거쳤습니다.

번역사는 생성형 AI의 번역 성능에 충격을 받았을까?

일반 번역사는 생성형 AI에 대해 어떻게 생각할까요? NMT 엔진과 LLM의 성능을 비교, 평가해 본 번역사들은 현재 드러난 NMT 엔진의 단점에도 불구하고 여전히 LLM보다 NMT의 번역 결과를 선호한다고 밝혔습니다. 중국어 번역 결과를 평가한 번역사들을 포함해 모든 평가자가 한결같이 NMT 결과를 선호했습니다.

생성형 AI가 계속 발전할 것이라는 데는 의심의 여지가 없습니다. 라이온브리지는 빠르게 진보하는 기술에 뒤처지지 않고 함께 발전할 수 있도록 고객을 지원합니다.

문의하기

라이온브리지 블로그에서 챗GPT의 번역 성능 및 로컬라이제이션의 미래에 미칠 영향에 대해 자세히 알아보세요.

지금 바로 라이온브리지에 문의하여 기계번역을 효과적으로 활용할 수 있는 방법을 알아보세요.

linkedin sharing button

Rafa Moral, Janette Mandell
작성자
Rafa Moral, Janette Mandell
  • #translation_localization
  • #ai
  • #generative-ai
  • #blog_posts