search

라이온브리지 게임즈로 이동

언어 선택:

Two separate sets of couples collaborate in a work setting

기계번역 맞춤화와 기계번역 학습 비교

필요에 따른 적절한 활용으로 기계번역 품질 개선

현재 기계번역(MT)에 주목하는 기업이 그 어느 때보다 늘고 있으며 앞으로도 계속 증가할 것으로 예상됩니다. 이러한 추세는 기계번역 결과물의 예측성이 높아진 것과 더불어, 동일한 예산 또는 더 적은 예산으로 더 많은 콘텐츠를 여러 언어로 신속하게 번역해야 하는 시장의 압박 때문으로 볼 수 있습니다. MT 기술을 활용하면 인간의 능력으로는 따라갈 수 없는 속도와 비용 효율성으로 번역을 해낼 수 있지만 품질 문제 또한 해결해야 합니다. 날로 확장하는 디지털 시장에서 입지를 굳히려면 분야별로 특정 어조에 맞게 개인화된 다국어 콘텐츠를 제공하고, 모든 채널에서 일관된 브랜드 보이스를 유지해야 합니다.

어떻게 하면 MT의 장점을 최대한 끌어내어 이러한 목표를 훌륭히 달성할 수 있을까요? 기계번역의 효율을 높이는 데는 두 가지 방법이 있습니다. 바로 기계번역 맞춤화와 기계번역 학습입니다. 두 방법 모두 기계번역 결과물의 품질을 개선하고 사후 편집의 필요성을 줄이는 데 유용합니다. 그러나 MT 맞춤화와 MT 학습을 호환해 사용할 수는 없습니다.

아래에서 두 방법의 작동 방식과 차이점, 필요에 따라 더 적절한 방식을 선택하는 방법에 대해 알아보세요.

기업이 일반 MT에만 의존할 수 없는 이유

기업에서 Google NMT, Bing NMT, Amazon, DeepL, Yandex와 같이 학습되지 않은 일반 MT 엔진을 사용하여 간단한 일상 콘텐츠를 기계번역할 경우 대체로 원하는 결과를 얻을 수 있습니다. 그러나 번역 품질은 떨어질 수 있습니다.

그 이유는 일반 엔진은 생명과학이나 법률과 같이 고도로 전문화된 콘텐츠 및 이러한 특정 분야에서 쓰이는 용어는 번역하지 못하는 경우가 많기 때문입니다. 두 가지 의미를 지닌 단어의 경우 어떤 의미를 어느 경우에 적용하는 것이 옳은지 파악하지 못합니다. 또한 고유한 브랜드 보이스를 일관되게 유지할 수 없으며 고객층에 메시지를 전달할 때 격식체와 비격식체 중 어느 게 더 적절한지 판단하지 못합니다.

MT 맞춤화와 MT 학습은 이러한 문제를 해결하여 일반 엔진으로는 충족되지 않는 특정 요건에 부응하는 우수한 번역을 제공합니다.

MT 맞춤화란?

MT 맞춤화는 기계번역 결과의 정확도를 높이기 위해 기존 기계번역 엔진에 번역 용어집과 번역 제외(DNT) 목록을 적용하는 것입니다. (번역 용어집은 기업에서 사용하는 주요 용어와 이를 번역한 용어를 모아놓은 목록입니다. DNT 목록은 기업이 번역을 원치 않는 용어를 정리해 놓은 모음집입니다.)

번역 엔진을 실행하기 전에 이러한 원문 용어 및 해당 번역 목록을 업로드해 두면 MT 맞춤화가 적용됩니다. MT 엔진은 이 목록을 통해 용어를 어떻게 번역해야 할지, 또는 번역하면 안 되는 용어는 무엇인지 파악합니다. 이러한 개입을 통해 엔진에서 제안하는 번역을 개선하는 한편 브랜드의 고유성을 유지하고, 용어집을 따르며, 지역별 변이를 번역에 반영할 수 있습니다. 번역 품질이 우수하면 사후 편집의 필요성도 줄어듭니다.

대체로 MT 맞춤화가 MT 학습보다 구현하기 쉽지만 구현 시 몇 가지 주의해야 할 사항이 있습니다. 기계번역 시스템에 용어집을 업로드하기는 어렵지 않습니다. 그러나 올바른 용어를 선택하는 것은 어려울 수 있습니다. MT 맞춤화의 성공 여부는 MT 전문가의 기술 수준과 함께 입력 및 출력 정규화 규칙, DNT 목록, 용어집을 관리할 수 있는 능력에 따라 크게 좌우되며, 이 모두는 기계번역 품질 개선에 상당한 영향을 미칩니다. 경험이 부족한 콘텐츠 작성자의 경우 의도치 않게 질 낮은 MT 결과를 유발해 전반적인 품질에 부정적인 영향을 미칠 수 있습니다.

MT 학습이란?

MT 학습은 말뭉치 및 번역 메모리(이전에 번역된 콘텐츠)에서 추출한 방대한 양의 이중 언어 데이터를 사용하여 MT 엔진을 구축 및 학습시켜 기계번역 결과의 정확도를 높이는 과정을 말합니다.

MT 학습은 일반 MT 엔진을 기업 고유의 이중 언어 말뭉치로 학습시키는 방식으로 이루어집니다. 내보내기 방식을 통해 다양한 형식의 데이터가 입력되며 그중 번역 메모리(TM) 형식이 주를 이룹니다. 번역 메모리에는 이전에 승인된 번역뿐 아니라 해당 세그먼트의 번역 시점과 번역한 사람을 비롯해 정확한 일치(exact match), 정확도(less-than-precise) , 부분 일치(fuzzy match) 등 중요한 메타 데이터가 저장되어 있습니다. 번역 엔진은 이 데이터를 통해 기업이 번역에서 기대하는 요건을 학습할 수 있습니다. 원문을 어떻게 번역해야 할지 추정한 대로 일반 번역을 생성하는 대신 말뭉치를 토대로 맞춤화된 번역을 생성합니다.

MT 학습으로 보다 일관된 번역을 생성할 수 있으므로 기업 고유의 브랜드 보이스나 스타일이 유지되도록 번역 결과를 정교하게 다듬을 수 있습니다. 또한 일반 MT 엔진의 기본 설정대로 격식체를 사용해 번역하는 대신 비격식체를 사용해 부드럽게 번역할 수도 있습니다. MT 맞춤화와 마찬가지로 MT 학습에서도 오류가 줄어 번역의 정확도가 높아지므로 기업은 사후 편집에 드는 리소스를 줄이면서 원하는 결과를 얻을 수 있습니다.

MT 학습이 이루어지는 동안 기업은 가능한 한 많은 지식을 번역 엔진에 제공합니다. 각 세그먼트의 품질이 높으면 전체 번역 품질도 좋아집니다. 성공적인 MT 학습을 위해 기업은 불일치 세그먼트나 중복 번역 세그먼트가 없는 고품질의 고유한 언어쌍 세그먼트를 최소 15,000개 이상 제공해야 합니다. 기업이 이러한 최소 요건을 충족하지 못할 경우 MT 학습이 번역 결과에 거의 또는 아예 영향을 미치지 못할 수 있습니다.

MT 맞춤화와 MT 학습의 차이점

두 방식 모두 MT 결과를 개선하고 사후 편집 과정을 줄이는 역할을 하지만 이것 외에는 유사한 점이 없습니다. 이 둘은 호환해 사용할 수 없습니다.

MT 맞춤화는 기존 MT 엔진에 용어집과 번역 제외(DNT) 목록을 등록하여 MT 엔진을 맞춤 설정하는 반면, MT 학습은 말뭉치와 번역 메모리에서 추출한 많은 양의 이중 언어 데이터를 사용하여 엔진을 처음부터 구축하고 학습시킨다는 점에서 차이가 있습니다.

MT 맞춤화는 MT 학습보다 더 다양한 용도로 활용할 수 있으며 기업의 요건을 대부분 충족하는 번역을 생성할 수 있습니다. 그러나 맞춤화를 구현할 경우 MT 엔진에 들어가는 프로필을 업데이트할 때 일회성 비용이 발생합니다. 지속적으로 용어집을 유지하기 위한 추가 비용도 발생합니다.

MT 학습은 콘텐츠가 고도로 전문화되어 있으며 사용 사례가 복잡한 기업에 가장 적합합니다. MT 학습을 구현할 경우 최초 학습 때 비용이 발생하며 추가 학습을 진행하게 될 때도 비용이 발생할 수 있으므로 이 방식은 시간을 두고 MT 성과를 모니터링하여 개선의 여지가 있는 경우에 고려해 볼 수 있습니다.

A geographic pattern overlays a cityscape at night

기업에서 MT 맞춤화나 MT 학습의 도입을 고려해야 할 시점

과학 자료나 하이테크 기술문서 번역이 필요한가요? 고유한 브랜드 보이스를 유지해야 하나요? 이러한 질문에 대한 답변에 따라 MT 맞춤화나 MT 학습 중 무엇을 사용하는 것이 가장 적절할지 판단할 수 있습니다.

MT 맞춤화가 적합한 경우

MT 맞춤화가 적합한 두 가지 주요 사용 사례가 있는데, 다음과 같은 경우입니다.

  • 용어를 정확하게 번역해야 하는 경우
  • 미국 영어와 영국 영어처럼 지역별 변이가 있으나 학습에 필요한 데이터가 충분하지 않은 경우

기술 콘텐츠나 세부 사항이 중요한 콘텐츠는 용어를 올바르게 번역하는 것이 중요하므로 MT 맞춤화가 적합합니다. MT 맞춤화는 데이터가 불충분해 MT 학습을 효과적으로 진행할 수 없는 경우 선호되는 접근 방식입니다.

MT 학습이 적합한 경우

MT 학습이 적합한 두 가지 주요 사용 사례가 있는데, 다음과 같은 경우입니다.

  • 사후 편집의 필요성을 줄이면서 고유의 브랜드 보이스, 어조, 스타일을 유지해야 하는 경우
  • 스위스 프랑스어와 프랑스 프랑스어처럼 대상 언어에 지역별 변이가 있으며 학습에 필요한 데이터가 충분한 경우

마케팅 및 크리에이티브 콘텐츠의 경우 고유의 브랜드 보이스, 어조, 스타일이 매우 중요하므로 이러한 유형의 콘텐츠를 번역할 때는 MT 학습을 선택하는 것이 좋습니다. 단, 엔진을 학습시키기에 충분한 데이터를 보유하고 있어야 합니다.

하이브리드 방식

때로는 두 가지를 결합해서 사용하는 하이브리드 방식이 최상의 결과를 만들어 내기도 합니다. 예를 들어 기업에서 맞춤화 기능을 일부 추가하여 MT 학습을 강화함으로써 번역 결과를 더욱 개선할 수 있습니다.

라이온브리지는 당사의 고객이 하이브리드 방식을 간단히 구현할 수 있도록 지원합니다. 고객은 라이온브리지의 엔터프라이즈급 MT 솔루션인 Smart MT™ 포털을 통해 MT를 맞춤화하는 동시에 라이온브리지의 전문가팀이 제공하는 전문 MT 학습 서비스를 구매할 수도 있습니다. 이러한 전문가팀과 협력하게 되면 대개 기업은 보다 종합적으로 MT에 접근하고, 종종 MT 학습과 MT 맞춤화를 결합해 사용하여 최상의 결과를 얻기도 합니다. 다양한 테스트를 통해 최고의 결과를 산출하는 방법이 무엇인지 파악하고 기업에 맞는 MT 접근 방식을 선택할 수 있습니다.

MT 맞춤화와 MT 학습 중 더 나은 전략은?

MT 결과를 개선할 수 있는 최적의 접근 방식은 기업의 상황에 따라 다릅니다. 여러 옵션을 검토하다 보면 MT 학습이 MT를 최대한 활용할 수 있게 해 줄 최고이자 유일한 방법처럼 여겨질 수 있습니다. 또는 지속적인 학습에 관한 지나친 홍보에 귀가 솔깃해질 수도 있습니다. 다음은 옵션을 조사할 때 염두에 두어야 할 사항입니다.

피해야 할 함정 #1: MT 학습을 유일한 솔루션으로 채택

MT 학습은 MT 결과물의 품질을 개선하는 데 매우 효과적인 도구지만 문제가 확인되고 구체화된 경우에 한합니다.

MT의 사용이 증가하면서 대다수 제공업체가 고객에게 가치 있는 결과물을 제공할 최고의 솔루션으로 MT 학습을 채택하고 있습니다. 그러나 경우에 따라 이 방식으로 인해 역효과가 날 수도 있습니다. MT 결과의 품질 개선을 기대하며 MT 학습만 사용하다가 비용편익분석을 실시한 후 이 솔루션에 실망한 일부 기업이 라이온브리지를 찾았습니다. 이들 기업은 엔진에서 생성한 번역에 만족하지 못하고 비용 효율이 더 나은 솔루션을 찾고 있었습니다. 왜 만족하지 못했을까요? 간단히 말해, 기업이 당면한 특정 상황에 따라 그에 맞는 더 나은 방식이 있기 때문입니다.

라이온브리지와 같은 혁신적인 MT 제공업체는 적절한 상황에는 MT 학습을 채택하지만, MT 학습보다 저렴한 비용으로 원하는 MT 결과를 얻고자 할 때는 MT 맞춤화에 크게 의존합니다.

피해야 할 함정 #2: MT 학습 중 지속적인 학습에 관한 과대 광고

MT 솔루션을 조사하다 보면 개별 프로젝트가 완료된 후에도 엔진이 지속적으로 학습된다는 식으로 홍보하는 제공업체를 볼 수 있습니다. 이러한 주장을 섣불리 믿어서는 안 됩니다. 지속적인 학습은 계속해서 업데이트가 필요한 맞춤형 엔진에서만 가능합니다.

다시 강조하지만, MT 학습에 성공하기 위해서는 개별 프로젝트에 엔진을 학습시킬 수 있는 고유 세그먼트가 최소 15,000개 이상 있어야 합니다. 데이터가 충분하지 않은 경우 기업은 프로젝트 콘텐츠를 사용하여 대부분의 경우 '학습'이라고 하는 맞춤 기능을 업데이트할 수 있습니다.

결론

MT 맞춤화는 MT 학습보다 더 많은 상황에 사용할 수 있으며 기업의 요건을 대부분 충족하는 번역을 생성할 수 있습니다. MT 맞춤화를 사용하면 브랜드 이름을 유지하고 용어집 용어를 준수하여 사후 편집자가 이를 확인하는 데 드는 시간을 줄여 주므로 MT 번역을 충분히 개선할 수 있습니다. MT 엔진에 입력한 프로필의 업데이트에 필요한 일회성 비용 및 지속적인 용어집 유지에 드는 비용은 일반적으로 MT 학습에 드는 비용보다 저렴합니다.

A geographic pattern overlays a cityscape at night

MT 맞춤화의 모범 사례

MT 맞춤화를 구현할 때는 다음 모범 사례를 참고하세요.

입력 및 출력 정규화 규칙

사용 빈도가 높은 언어의 입력 및 출력 정규화 규칙 라이브러리를 설치하여 MT 엔진에 입력되는 콘텐츠를 제어하고 번역 결과를 개선하세요. 이러한 규칙을 통해 기업이 원하는 특정 요구사항을 충족할 수 있습니다.

예를 들어 프랑스어로 번역할 때 입력 정규화 규칙을 적용하여 MT 엔진이 큰따옴표[“...”] 대신 겹화살괄호[« … »]를 사용하도록 지정할 수 있습니다. 프랑스어 사용자는 큰따옴표가 아닌 겹화살괄호 표시에 익숙하므로 이러한 규칙을 사용하면 프랑스어 번역 품질을 개선할 수 있습니다. 이처럼 기업은 벨기에 프랑스어, 캐나다 프랑스어, 아프리카 프랑스어 등과 같이 특정 언어의 지역별 변이어를 처리할 때 유사한 입력 및 출력 정규화 규칙을 적용하여 번역 결과를 수정할 수 있습니다.

번역 제외 용어 목록과 규칙

번역하지 않으려는 용어의 목록과 번역 제외(DNT) 용어를 모두 토큰으로 대체하는 규칙을 만든 다음 이를 기계번역 엔진에 입력하세요. 규칙이 적용되면 엔진에서 DNT 용어가 보이지 않으므로 번역되지도 않습니다. 번역 작업이 처리되어 MT 결과물이 생성되면 출력 정규화 규칙을 설정하여 토큰을 DNT 용어로 대체하세요.

용어집 준비

정확하고 일관된 번역을 위해 용어집을 면밀히 준비하세요. 표 1에서 설명한 주요 요소를 고려하여 용어집에 포함할 용어를 결정하세요.

용어집 작성을 위한 일반 가이드라인

고려사항 질문사항 용어집 포함 여부*
빈도 원본 텍스트에 해당 용어가 얼마나 자주 등장하는가? 자주 사용되지 않는다면 제외합니다.
모호성 의미가 여러 개 있거나 다른 단어와 혼동하기 쉬운 용어인가? 용어의 의미가 모호하다면 포함합니다. (참고: 원문 텍스트에서 해당 용어가 다른 의미로 사용되는 경우가 거의 없어야 합니다.)
전문 용어 특정 분야나 주제 영역에서 고유하게 사용되는 용어인가? 그렇다면 포함합니다.
일관성 과거에 이 용어가 일관되게 번역되었는가? 그렇다면 제외합니다.
중요성 텍스트 전반의 의미상 얼마나 중요한 용어인가? 텍스트에서 의미상 중심이 되는 용어라면 포함합니다.
복잡성 의미가 복잡하고 기계번역 시스템에서 정확하게 번역하기 어려운 용어인가? 그렇다면 포함합니다.

표 1. 용어집 작성 시 고려해야 할 요소

*이 일반 가이드라인에는 예외가 있을 수 있습니다.

허용 및 제외 사항

용어집을 만들 때 다음과 같은 허용 또는 제외 사항도 고려하는 것이 좋습니다.

  • 단일 단어, 동사, 형용사 등 MT 엔진이 잘 처리하지 못하고 전반적인 품질을 비롯해 문장 구성, 일치, 어순에 부정적인 영향을 미칠 수 있는 일반 용어는 제외합니다.
  • 긴 용어를 분할하지 않습니다.
  • 충돌하는 용어는 제외합니다.
  • 중복되는 용어는 제외합니다.
  • 소스 언어당 하나의 용어 항목만 사용합니다.
  • 여러 단어로 된 어구를 사용합니다.
  • 특정 제품 이름은 사용합니다.
  • DNT 용어는 사용합니다.

라이온브리지는 MT 맞춤화나 MT 학습을 어떻게 구현하나요?

라이온브리지는 고객이 당사의 Smart MT 포털을 통해 MT 맞춤화를 손쉽게 구현하고, 당사의 기술을 사용하여 여러 MT 엔진에서 동시에 맞춤화를 실행할 수 있도록 지원합니다. MT 용어집과 DNT 목록을 작성하고 이를 업로드하면 모든 MT 엔진에 적용됩니다. 이 기술을 사용하면 특정 엔진에 얽매이지 않고 언제든지 엔진을 변경하여 최적의 결과를 얻을 수 있습니다.

또한 당사의 MT 전문가가 제공하는 관련 서비스로 MT 기술을 쉽게 보완할 수 있습니다. 라이온브리지는 기업이 가장 효과적인 MT 전략과 최적의 전략 수행 방안을 찾을 수 있도록 지원합니다.

기업이 이제 막 MT 활용 방안을 모색하기 시작했든, 맞춤화를 통해 기존 MT를 개선하려는 중이든, 콘텐츠 작성량 증가로 MT 학습을 도입할 여건이 조성되었든, 라이온브리지는 기업의 요구를 충족할 수 있는 솔루션을 마련해 드립니다.

기계번역 맞춤화와 기계번역 학습의 세부 비교

표 2에서 MT 학습과 MT 맞춤화를 한눈에 비교해 보고 어떤 방법이 귀사의 콘텐츠에 적합한지 알아보세요.

기계번역 맞춤화와 기계번역 학습 비교

  MT 맞춤화 MT 학습
정의 및 작동 방식 기존 기계번역 엔진에 용어집 및 번역 제외(DNT) 목록을 적용하여 기계번역 결과의 정확도 개선 말뭉치 및 번역 메모리(TM)에서 추출한 방대한 양의 이중 언어 데이터를 사용하여 MT 엔진을 구축 및 학습시켜 기계번역 결과의 정확도 개선
효과 MT가 제공하는 번역을 개선하여 결과물의 정확도를 높이고 사후 편집의 필요성을 줄임 MT가 제공하는 번역을 개선하여 결과물의 정확도를 높이고 사후 편집의 필요성을 줄임
구체적인 이점 기업이 브랜드 이름 및 용어 일관성을 유지하고 지역별 변이를 번역에 반영할 수 있도록 지원 기업이 고유의 브랜드 보이스, 어조, 스타일을 유지하고 지역별 변이를 번역에 반영할 수 있도록 지원
사용 시 우려사항 제대로 구현하지 못할 경우 MT가 질 낮은 번역을 제공하여 전반적인 품질에 부정적인 영향을 미칠 수 있음 엔진 학습에 필요한 양질의 데이터가 충분치 않을 경우 MT 학습이 번역 결과에 영향을 미치지 못할 수 있음. 콘텐츠 작성자가 경험 부족으로 용어를 잘못 사용할 경우 MT가 질 낮은 번역을 생성하여 전반적인 품질에 부정적인 영향을 미칠 수 있음
적합한 경우 기술 콘텐츠나 상세 설명 콘텐츠, 다음에 해당하는 모든 콘텐츠에 적합
*용어를 정확하게 번역해야 하는 경우
*지역별 변이가 있으나 MT 학습에 필요한 데이터가 충분치 않은 경우
고도로 전문화된 콘텐츠나 마케팅 및 크리에이티브 콘텐츠, 다음에 해당하는 모든 콘텐츠에 적합
*고유의 브랜드 보이스, 어조, 스타일을 유지해야 하는 경우
*지역별 변이가 있으며 MT 학습에 필요한 데이터가 충분한 경우
성공 요인 입력 및 출력 정규화 규칙, 용어집, DNT를 원활히 관리할 수 있는 숙련된 MT 전문가의 존재 여부 충분한 엔진 학습에 필요한 최소 15,000개 이상의 고유 세그먼트 보유 여부
비용 관련 고려사항 MT 엔진에 들어가는 프로필의 업데이트 시 일회성 비용 및 지속적인 용어집 유지에 비용 발생. 잠재적 이점을 고려할 때 비교적 저렴한 편이며 일반적으로 MT 학습보다 비용이 적게 듬 최초 학습 시 및 추가 학습을 진행하게 될 경우 비용 발생. 시간을 두고 MT 성과를 모니터링하여 개선의 여지가 있다면 검토해 볼 수 있음. 잠재적 이점을 고려할 때 특정한 경우에는 MT 학습에 투자 가치가 있을 수 있음

표 2. MT 맞춤화와 MT 학습 비교

문의하기

지금 바로 라이온브리지에 문의하여 기계번역을 최대한 활용할 수 있는 방법을 알아보세요.

linkedin sharing button

Thomas McCarthy, Janette Mandell
작성자
Thomas McCarthy, Janette Mandell
  • #ai
  • #blog_posts
  • #translation_localization