영어와 한국어 간 ChatGPT 성능 격차의 원인 5가지
1. 학습 데이터
GPT 모델의 학습 데이터는 웹사이트, 기사, 책 등 다양한 출처에서 제공됩니다. 영어는 인터넷에서 가장 널리 사용되고 사용되는 언어이므로 영어로 된 고품질의 다양한 콘텐츠가 상당량 존재합니다. 예를 들어, 10만 개의 기사가 포함된 데이터셋으로 모델을 학습시켰다면, 이 모델에는 영어로 된 기사가 8만 개, 한국어로 된 기사가 5,000개만 있을 수 있습니다. 이러한 콘텐츠의 양적 차이는 당연히 한국어 쿼리에 비해 영어 쿼리의 성능이 더 우수할 수밖에 없습니다.
2. 언어 모델
AI 개발자와 연구자들은 언어 모델을 구축하고 최적화할 때 인터넷에서 가장 널리 사용되는 언어이자 사용자 기반이 더 많은 영어를 우선시하는 경우가 많습니다. 예를 들어, 관용적 표현에 대한 모델의 이해도를 향상시키기 위해 연구하는 경우, 한국어와 같은 다른 언어의 관용구로 넘어가기 전에 "break a leg" 또는 "barking up the wrong tree"와 같은 일반적인 영어 관용구를 먼저 다룰 수 있습니다. 이렇게 영어에 집중하면 한국어와 같은 다른 언어에 비해 영어 실력이 향상될 수 있습니다.
3. 언어의 복잡성
한국어는 주어-목적어-동사(SOV) 어순과 같은 독특한 문법 구조와 화자와 청자의 관계에 따른 다양한 수준의 격식을 갖추고 있습니다. 이러한 복잡성으로 인해 모델이 이해하고 생성하는 데 어려움이 있을 수 있습니다. 예를 들어 영어에서는 "I am eating"이라고 말하지만, 한국어에서는 "저는 먹고 있어요" 라고 정중하게 표현하거나 "나는 먹고 있어" 라고 캐주얼하게 표현할 수 있습니다. 모델이 한국어로 정확하고 적절한 응답을 생성하려면 이러한 뉘앙스를 이해해야 합니다.
4. 토큰화
토큰화란 텍스트를 개별 단어 또는 토큰이라는 단위로 분해하는 과정을 말합니다. 한국어는 응집 문법과 복합어의 존재로 인해 영어보다 토큰화가 더 복잡할 수 있습니다. 예를 들어 "학교"를 뜻하는 한국어 단어 "학교"는 "배우다"를 뜻하는 "학"과 "장소"를 뜻하는 "교"의 형태소로 구성된 합성어입니다. 한국어를 정확하게 토큰화하려면 이러한 형태소적 측면을 이해해야 하는데, 이는 모델에 어려움이 될 수 있습니다.
ChatGPT 토큰 테스트 : https://platform.openai.com/tokenizer
5. 커뮤니티 피드백
AI 연구 커뮤니티와 사용자 기반은 주로 영어를 사용하기 때문에 영어 버전의 모델에 대한 피드백 및 미세 조정이 더 필요할 수 있습니다. 예를 들어, 사용자가 모델의 영어 구문 이해에 문제가 있는 것을 발견하면 이를 보고할 수 있으며, 개발자는 해당 피드백을 사용하여 모델의 성능을 개선할 수 있습니다. 반면에 한국어를 사용하는 사용자가 피드백을 제공하는 수가 적어 한국어 성능 개선이 더디게 진행될 수 있습니다.