웨비나
임상연구의 포용성 증진: COA 개발 및 번역
라이온브리지 TRUST 프레임워크
신뢰할 수 있는 AI 구축
생성형 AI
- AI 번역 서비스
- 콘텐츠 리믹스
AI 학습
- Aurora AI Studio™
기계번역
- MT 추적 도구
Smart Onboarding
번역 서비스 모델
콘텐츠 서비스
- 기술문서 작성
- 교육 및 이러닝
- 재무 보고서
- 디지털 마케팅
- 검색엔진 최적화(SEO) 및 콘텐츠 최적화
번역 서비스
- 동영상 로컬라이제이션
- 소프트웨어 로컬라이제이션
- 웹사이트 로컬라이제이션
- 규제 관련 기업을 위한 번역
- 통역
- 즉석 통역
- 라이브 이벤트
- 언어 품질관리 서비스
테스트 서비스
- 기능 QA 및 테스트
- 호환성 테스트
- 상호 운용성 테스트
- 성능 테스트
- 접근성 테스트
- UX/CX 테스트
언어 선택:
생성형 AI(GenAI)와 대규모 언어 모델(LLM) 기술이 정확히 무엇일까요? 챗GPT와 같은 GenAI와 LLM의 등장은 번역 및 로컬라이제이션 업계에 어떤 혼란을 야기할까요? LLM을 어떻게 활용해야 글로벌 콘텐츠 워크플로를 업그레이드할 수 있을까요?
생성형 AI와 대규모 언어 모델을 주제로 다룰 웨비나 시리즈의 첫 번째 편에서는 라이온브리지(Lionbridge)의 제품 및 개발 부문 부서장인 Vincent Henderson이 이러한 질문 등 다양한 질문에 답했습니다.
실시간 웨비나를 놓치셨다면 온디맨드 웨비나를 시청해 보세요.
바로 시청할 시간이 없다면 웨비나에서 논의된 몇 가지 주제를 정리한 이 블로그를 읽어보세요.
생성형 AI와 LLM은 인터넷상의 말뭉치를 통해 사람이 텍스트를 작성하는 방식을 학습한 인공지능(AI) 엔진입니다. 이 엔진에 텍스트를 입력하면 학습한 정보 중에서 다음에 올 가능성이 가장 높은 텍스트를 사용해 주어진 텍스트를 완성하게 됩니다.
새로운 AI를 토대로 구축된 이 기술은 방대한 양의 학습 데이터를 전부 활용하여 어떤 답을 제공할지 결정합니다.
주어진 텍스트에 가장 자연스럽게 이어질 만한 텍스트를 결정하는 것이 별것 아닌 것처럼 보여도 실제로는 매우 까다로운 작업입니다. 텍스트가 입력되면 언어 모델은 이를 전체적으로 살펴보고 문맥 전반에서 해당 텍스트가 얼마나 잘 어울리는지 파악하여 답변을 작성합니다. 또한 프롬프트와 학습한 말뭉치에서 어떤 부분이 가장 중요하며 어디에 주의를 기울여야 하는지도 판단합니다.
그 결과 LLM은 사람이 쓴 것처럼 보이는 텍스트를 만들어 내는 엄청난 능력을 갖게 되었습니다. 이 기술은 마치 사람의 의도를 이해하고 사람처럼 생각하고 행동하는 것과도 같습니다.
챗GPT와 같은 LLM은 학습한 내용을 기반으로 다음과 같은 작업을 수행할 수 있습니다.
챗GPT와 같은 LLM이 번역 및 로컬라이제이션에 긍정적인 영향을 미치는 이유를 이해하기 위해 먼저 신경망 기계번역(NMT)을 사용한 자동 번역과 관련된 몇 가지 문제를 살펴보겠습니다.
지금까지 기업에서 사용된 기계번역(MT) 엔진은 고도로 전문화된 대규모 언어 모델로, 단어 문자열을 가져와 이에 해당하는 번역을 결정하는 데 최적화되어 있습니다. 일반 MT 엔진을 사용할 경우 최적의 결과물이 생성되지 않으므로 이러한 엔진을 사용하는 기업은 수만 개의 관련 데이터를 이용하여 엔진의 학습을 정교하게 조정함으로써 결과를 개선할 수 있었습니다.
이 작업은 비용이 많이 들기 때문에 MT 엔진을 사용하는 기업은 신제품 출시나 마케팅 활동과 같은 새로운 계획을 시작할 때마다 인력과 비용을 들여 엔진을 재교육할 가치가 있는지 지속적으로 판단해야 합니다.
반면, LLM은 이미 많은 정보를 습득한 상태이므로 몇 가지 예제만 입력하면 기업이 기대하는 결과를 학습할 수 있습니다. 학습한 내용을 새로운 작업에 적용할 수도 있습니다. 결과적으로 방대한 규모의 데이터를 동원해야 하는 작업별 모델 학습 없이 훨씬 간단한 상황 인식 프롬프트를 통해 원하는 번역 결과를 얻을 수 있습니다.
그러나 현시점에서 볼 때 이러한 기능을 갖춘 LLM은 엄청난 수요 압박을 받고 있지만, 산업 규모의 방대한 콘텐츠 로컬라이제이션을 처리하기에는 아직 미흡합니다. 이러한 상황은 곧 개선될 것으로 보이나 그 시기는 불확실합니다.
MT 엔진과 견주었을 때 LLM의 원시 번역 성능은 어느 정도일까요? 라이온브리지는 주요 MT 엔진과 GPT 모델을 이용해 영어 문장을 중국어, 스페인어, 독일어로 번역하여 번역 품질을 비교해 보았습니다.
일반적으로 GPT는 최신 MT 엔진만큼 성능이 우수하지는 않습니다. 그러나 LLM은 이 수준에 근접했습니다. 일례로 그림 1에서 볼 수 있듯이 GPT-4는 영어-중국어 쌍의 번역에서 Yandex MT 엔진보다 좀 더 우수한 성능을 보였습니다.
그 밖에 다양한 도메인과 언어를 대상으로 엔진을 비교한 결과는 자동 번역의 전반적인 성능을 가장 오랫동안 측정해 온 라이온브리지 기계번역 추적 도구에서 확인해 보세요.
GPT와 같은 LLM은 구체적인 지침이 없는 경우 주요 MT 엔진보다 더 일상적인 용어를 사용해 번역합니다. 이러한 방식은 전문 번역사의 작업 방식과 상충할 수 있으며 오류로 간주되는 경우도 있습니다. 또한 GPT는 종종 번역사가 피하는 새로운 표현이나 신조어를 만들어 내기도 합니다.
LLM에서 특정 용어를 사용하도록 만들려면 그냥 요청하기만 하면 됩니다. 반면, MT 엔진에 이러한 용어를 포함시키려면 MT 엔진을 훈련시키거나 MT 엔진에 상부 구조를 구축하여 결과물이나 원문에 용어를 추가하는 등 여러 작업이 필요합니다. 보통 이러한 방식은 용어 활용이나 일치 관련 문제를 일으킵니다.
GPT는 언어 이해력이 높아 일치 오류와 같은 언어적 오류를 거의 일으키지 않습니다. GPT는 일반적으로 요청을 받으면 자동으로 수정합니다.
LLM은 다재다능합니다. 대상 텍스트를 개선하는 것뿐만 아니라 원문을 개선하는 데도 사용할 수 있습니다. 또한 빈도, 분량, 길이와 같은 정량적 측정을 넘어 품질 평가 및 자동 개선으로 분석 범위를 확장할 수 있습니다. 원하는 결과를 산출하도록 특정 방식으로 작업을 수행하라고 LLM에 지시하면 됩니다.
챗GPT는 다음 용도로 사용할 수 있습니다.
LLM을 사용하여 콘텐츠를 읽기 쉽게 작성하면 잠재고객이 더욱 편하게 콘텐츠를 접할 수 있습니다. 또한 원문을 개선하고 단어 수를 줄여 로컬라이제이션 비용을 절감할 수 있습니다.
전문 번역사에게 요청하듯 LLM에도 번역의 사후 편집을 요청할 수 있습니다. LLM이 사후 편집을 잘할 수 있을까요? 한 분석에 따르면 문장을 수정하여 최종 번역 결과를 얻는 데 드는 노력, 즉 편집 거리가 48%에서 32%로 크게 줄어든 것으로 나타났습니다. 또한 LLM은 불필요한 공백과 같은 오류를 찾아내고, 더 나은 단어를 제안하며, 재작성을 통해 대상 텍스트를 개선할 수 있습니다.
생성형 AI는 다국어 콘텐츠의 워크플로를 송두리째 뒤바꿀 것입니다. 라이온브리지는 이러한 변화와 관련된 서비스를 제공할 수 있습니다.
다국어 콘텐츠까지 생성해 내는 LLM의 능력이 로컬라이제이션 업계에 미칠 파급력은 번역 메모리(TM)의 도입 이후 가장 클 것으로 보입니다.
LLM으로 다국어 콘텐츠를 처음부터 생성하는 방법은 이렇습니다. 먼저 LLM에 정보를 입력한 다음 이 정보를 토대로 파생 콘텐츠를 작성하고 해당 콘텐츠를 처음부터 다국어로 작성하도록 요청하면 됩니다.
기업은 LLM을 활용하여 이미 보유한 데이터를 기반으로 제품 설명, 트윗 및 기타 자료를 생성할 수 있으므로 LLM에 실제 상황에 대해 질문했을 때 그럴듯한 오답을 제공하는 환각과 같은 오류가 발생할 위험이 없습니다.
지금까지 글로벌 콘텐츠 워크플로는 각기 국내 콘텐츠, 글로벌 콘텐츠를 작성하는 두 개의 워크플로를 따로 실행하는 방식으로 이루어졌습니다. 그러나 LLM을 사용할 경우 이제는 먼저 작가를 고용하여 원어로 콘텐츠를 작성한 다음 로컬라이제이션 워크플로를 시작하는 식의 파생 콘텐츠를 만들 필요가 없습니다. 원하는 모든 언어로 파생 콘텐츠를 만든 다음, 현지 언어를 포함해 각각의 언어로 사후 편집을 거치면 됩니다.
라이온브리지는 대규모의 번역사 풀을 보유하고 있으므로 다국어로 제작된 콘텐츠의 사후 편집 서비스를 문제없이 제공할 수 있습니다.
LLM을 사용하여 다국어 콘텐츠를 작성하려면 신속한 엔지니어링이 필요한데, 이는 시간이 오래 걸리고 시행착오가 따르는 경우가 많습니다. 라이온브리지는 로컬라이제이션 서비스의 일환으로 기업이 적절한 프롬프트를 구축할 수 있도록 지원합니다.
또한 라이온브리지는 백엔드 개발을 통해 AI 사용을 간소화하고 고객이 운용 중인 다국어 생성형 AI 이니셔티브에 예제 및 프롬프트로 사용할 콘텐츠 유형을 선별할 수 있도록 지원합니다.
GPT는 번역 메모리(TM) 및 스타일 규칙과 같은 언어 자산을 수정할 수 있습니다.
라이온브리지는 GPT-4를 활용하여 프랑스어 번역 메모리(TM) 전체를 비형식화하여 이전보다 더 경제적인 방식으로 고객의 요건에 맞춰 어조와 스타일을 조정했습니다.
로컬라이제이션 작업에 LLM을 사용하여 더욱 쉽고, 빠르고, 저렴하게 사후 편집을 진행함으로써 전체 번역 워크플로를 훨씬 효과적이고 비용 효율적으로 실행합니다.
로컬라이제이션 워크플로를 개선하면 기업은 모든 것을 로컬라이즈한다는 개념을 더욱 쉽게 구현할 수 있습니다.
LLM으로 인해 로컬라이제이션 업계가 당장은 혼란스럽겠지만 머지않아 LLM 덕에 워크플로가 단순해질 것입니다.
기업은 국내 시장과 글로벌 시장을 나누어 별도의 워크플로를 운영하는 대신 다양한 언어별로 콘텐츠 목표를 정의하고 콘텐츠 계획을 수립하여 즉시 콘텐츠를 생성할 수 있게 됩니다.
새로운 기술이 등장하면 이러한 기술에 밀려 일자리를 빼앗길지 모른다는 불안감이 들 수도 있지만 라이온브리지는 LLM이 언어서비스 제공업체(LSP)를 대체하거나 번역사 수요가 줄어들 가능성이 있다는 데 대해서는 크게 우려하지 않습니다.
기업이 LLM을 사용하여 다국어 콘텐츠를 작성하더라도 기계가 내놓은 결과물을 검토하려면 여전히 업계 전문가가 필요합니다. 이것이 바로 기계번역의 사후 편집입니다. 이 작업은 향후 다른 이름으로 바뀔 수 있습니다.
"모든 언어 관련 업계는 LLM이 내민 도전장에 응해야 합니다. 무척 흥미진진합니다. 바야흐로 LLM 기술을 적용할 수 있는 사례가 폭발적으로 증가하는 시기가 도래하고 있으니까요."
- Vincent Henderson, 라이온브리지 제품 언어서비스 부문 부서장