search

라이온브리지 게임즈로 이동

언어 선택:

Modern technology with bright lights

효과적인 MT 활용에 도움이 되는 언어의 기계 번역 용이성 순위

기계 번역이 용이한 언어를 파악한 후 기계 번역을 시작할 때의 이점

기업이 콘텐츠를 더 빨리 번역해야 한다는 압박감에 시달리게 되면서 기계 번역(MT)은 이를 해결하는 방안의 필수 요소로 자리매김했습니다. 어떤 엔진이 기업의 요구 조건에 가장 부합하는지 알아보려면 Google NMT, Bing NMT, Amazon, DeepL, Yandex와 같은 주요 MT 엔진의 성능을 비교해 보는 것이 좋습니다. 실제로 라이온브리지는 당사의 기계 번역 추적 도구를 통해 매월 MT 엔진의 성능을 분석하여 최장 기간 동안 주요 MT 엔진을 측정해 왔습니다. 분석 결과, 현재 주요 MT 엔진의 성능이 유사한 것으로 나타났으며 이에 따라 추가적인 평가가 중요해졌습니다. 

MT를 최대한 활용하기 위해서는 MT 엔진에서 번역하기 쉬운 언어쌍은 무엇인지, 즉 언어의 기계 번역 용이성을 조사해보는 것도 좋습니다. 언어 비교를 돕기 위해 라이온브리지에서는 영어를 원본으로 하여 상위 28개 대상 언어의 기계 번역 용이성을 측정해 순위를 매겼습니다(표 1 참고).

언어쌍의 기계 번역 용이성을 검토해야 하는 이유

언어쌍의 기계 번역 용이성을 파악하면 어떤 언어쌍을 번역할 때 더 많은 노력이 드는지 알 수 있으므로 언어별로 번역 비용을 계획하고 예산을 할당할 때 유용합니다. 

언어 복잡성에 대한 분석이 이루어지면 이를 토대로 비즈니스 결정을 내리고 다음 질문에도 답할 수 있습니다.

  • 복잡한 언어쌍의 경우 사후 편집에 더 많은 예산을 할당해야 하나?
  • 예산이 빠듯할 경우 일부 언어에서 약간의 사후 편집 또는 콘텐츠의 주요 부분만 수정하는 집중 사후 편집을 진행하는 것으로 충분한가? 어떤 언어쌍에 이러한 사후 편집 기법을 적용해야 하나?
  • 회사에서 최적의 예산 배분 방식을 고려할 때 특히 저예산 프로젝트의 경우 비즈니스 및 문화 요소에 언어 순위를 추가해야 하나? 낮은 품질 수준을 수용하는 문화권의 경우, 기계 번역 용이성 순위가 낮은 언어로 번역해야 하나?
Digital stream of information

기계 번역 용이성 계산 방식

언어의 기계 번역 용이성은 간단하게 파악할 수 있는 것이 아닙니다. 언어마다 해결해야 하는 문제가 다양하게 존재하기 때문입니다. 게다가 한 언어에서는 훌륭한 성능을 발휘하는 엔진이 다른 언어에서는 부적격 판정을 받기도 합니다. 그러나 몇 가지 측정지표를 활용하면 이를 측정할 수 있습니다. 

예를 들어 최종 번역 결과가 사람이 번역했을 때와 동일한 수준의 품질에 이를 수 있도록 사후 편집 과정에서 가한 변경 횟수를 의미하는 편집 거리가 있습니다. 이 측정지표는 언어 간 비교에 자주 사용되지는 않지만 이를 근거로 언어의 복잡성을 파악할 수 있으므로 각 언어쌍의 기계 번역 용이성 측정에 도움이 됩니다. 

라이온브리지의 기계 번역 용이성 검토 결과: 언어 순위 결과 및 이유

라이온브리지는 수백만 개의 문장을 처리한 결과를 바탕으로 28개 대상 언어의 기계 번역 용이성 순위를 매겼습니다. 

이 결과를 보면 언어 복잡성과 어족(語族) 사이에 상관관계가 있음을 알 수 있습니다.  

로망스어

포르투갈어, 스페인어, 프랑스어, 이탈리아어 등 라틴어에서 분화된 대부분의 로망스어는 영어를 해당 언어로 번역할 때 고품질 수준을 유지하기 위해 수정해야 할 사항이 많지 않습니다. 이들 언어는 기계 번역으로 처리하기도 가장 쉬운 것으로 나타났으며, 당사의 기계 번역 용이성 순위에서 1위부터 4위까지 차지했습니다. 

특기할 점은 로망스어족에 속하는 또 다른 언어인 루마니아어는 순위가 낮아서 10위에 랭크되었다는 사실입니다. 이 결과는 번역 빈도가 적은 로망스어의 경우 MT 엔진을 학습시키는 데 사용할 수 있는 이중 언어 말뭉치가 적고 루마니아어의 문법이 라틴어와 다소 유사한 수준으로 복잡하기 때문으로 추정됩니다.   

중국어 간체자

중국어 간체자는 영어와 상당히 다른 언어임에도 불구하고 순위 목록에서 상위 네 개의 로망스어에 이어 5위를 차지했습니다. 중국어 간체자가 이처럼 높은 순위를 차지한 것은 지난 5년간 지속된 MT 추적 결과에서도 볼 수 있듯이 이 기간에 영어-중국어 간체자 언어쌍의 기계 번역 데이터가 수시로 업데이트 및 개선되었기 때문으로 보입니다. MT 회사들은 영어-중국어 간체자 언어쌍의 비즈니스 이익이 높아지자 더 높은 실적을 거두기 위해 이 언어쌍에 더 많이 투자하고 있습니다. 

복잡한 언어

우랄어에 해당하는 헝가리어와 핀란드어는 상당히 복잡한 언어로, 당사의 순위 목록에서 가장 낮은 27위와 28위를 차지했습니다. 같은 어족에 속하는 복잡한 언어인 에스토니아어는 24위를 차지했습니다. 

한국어는 거의 최하위에 가까운 25위에 랭크되었습니다.

Person working on computer with analytical data

기계 번역 용이성을 통해 얻을 수 있는 이점

각 언어를 비교하는 데는 한계가 있지만 이러한 순위를 비롯해 복잡성과 어족의 상관관계를 분석해 보면 다국어 프로젝트 관리 개선에 도움이 되는 정보를 얻을 수 있습니다.

표 1

언어의 기계 번역 용이성 순위

순위 대상 언어(원어: 영어) 순위 대상 언어(원어: 영어) 순위 대상 언어(원어: 영어)
1 포르투갈어 11 태국어 20 중국어(번체)
2 스페인어 12 노르웨이어 21 리투아니아어
3 프랑스어 13 독일어 22 체코어
4 이탈리아어 14 스웨덴어 23 아랍어
5 중국어(간체) 15 터키어 24 에스토니아어
6 네덜란드어 16 슬로바키아어 25 한국어
7 덴마크어 17 히브리어 26 러시아어
8 일본어 18 라트비아어 27 헝가리어
9 그리스어 19 폴란드어 28 핀란드어
10 루마니아어        

표 1

언어의 기계 번역 용이성 순위

순위 대상 언어(원어: 영어)
1 포르투갈어
2 스페인어
3 프랑스어
4 이탈리아어
5 중국어(간체)
6 네덜란드어
7 덴마크어
8 일본어
9 그리스어
10 루마니아어
11 태국어
12 노르웨이어
13 독일어
14 스웨덴어
15 터키어
16 슬로바키아어
17 히브리어
18 라트비아어
19 폴란드어
20 중국어(번체)
21 리투아니아어
22 체코어
23 아랍어
24 에스토니아어
25 한국어
26 러시아어
27 헝가리어
28 핀란드어

문의하기

지금 바로 라이온브리지에 문의하여 고객이 원하는 번역 요건에 부합하는 효과적인 MT 전략 개발에 라이온브리지가 어떤 지원을 제공할 수 있는지 알아보세요.

linkedin sharing button
  • #technology
  • #blog_posts
  • #translation_localization

Rafa Moral, Janette Mandell
작성자
Rafa Moral, Janette Mandell