[2024년 04월 08일자 Tech잇슈, Biz Trend Letter에서 발췌]

네이버는 대한민국 빅테크 기업의 자존심이자, ‘네카라쿠배’의 가장 큰 형님 격이라 할 수 있는데요. 이들이 얼마 전, 자체 대형 언어 모델인 하이퍼클로바X의 연구/개발 소식을 전해왔습니다. 다양한 항목에서 글로벌 모델과 비교했을 때 가장 우수한 성적을 기록했다고 발표하기도 했습니다. 해당 내용 자세히 살펴보죠

다른 모델보다 성능 좋은 하이퍼클로바X

news-8

이미지 출처: 네이버

2024년 04월 02일, 네이버클라우드 하이퍼클로바X 팀이 아카이브를 통해 테크니컬 리포트를 공개했습니다. 이 리포트에는 하이퍼클로바X가 영어, 수학, 코딩 분야에서 경쟁력을 갖추고 있으며, 한국 문화에 맞춘 대규모 언어 모델로 한국어에 특화된 성능을 보유하고 있다고 설명하고 있습니다. 더 나아가 일본어, 아랍어 등 다국어 능력과 안정성 측면에서도 높은 지표를 보유했다는 것을 강조했습니다.
참고 기사: 미라클 AI, 네이버클라우드 “하이퍼클로바X 성능 14개 모델 중 1위”

특히, 현시점에서 가장 뛰어난 성능을 자랑하고 있는 Llama2, GPT-4, SOLAR 등을 비교군으로 선정하여 다양한 지표에서 이들보다 높은 성능을 갖추었다고 소개했는데요, 대표적으로 몇 가지 살펴보면 다음과 같습니다.

news-8

이미지 출처: ⓒ HyperclovaX Technical Report (수치가 작을수록 효율적)

먼저, 토크나이저 지표입니다. 한국어를 잘 이해하고 처리할 수 있는 언어 모델을 만들기 위해서는 ‘토큰화’라는 과정이 매우 중요합니다. 토큰화는 문장을 의미 있는 작은 단위로 나누는 것을 말하는데요. 한국어는 그 구조상 단어가 변형되기 쉽고, 같은 단어라도 문맥에 따라 의미가 달라질 수 있기 때문에 이 과정이 특히 중요합니다.

예를 들어, 한국어에서는 같은 명사에 추가되는 어미에 따라 동사가 될 수도, 형용사가 될 수도 있습니다. 글로벌 기업들은 각 나라별 언어적 특성을 완벽히 파악하기 쉽지 않아, 토큰화 과정에서 어려움을 겪는 경우가 많은데요. 이로 인해, 같은 의미를 가진 문장이라 할지라도 영어로 답변을 받았을 때보다 한글로 답변을 받았을 때 인코딩이 비효율적인 경우가 많았습니다. 네이버는 이를 효과적으로 처리할 수 있도록 연구했고, 더 적은 비용으로 더 좋은 성능을 발휘할 수 있게 됐습니다.

news-8

이미지 출처: ⓒ HyperclovaX Technical Report

다음으로는 생성형 AI의 성능을 평가하는 핵심 항목을 바탕으로 주요 오픈소스 모델들과 비교한 성능 지표를 살펴보겠습니다. 영어 성능 지표에서 라마2에 살짝 뒤처질 뿐, 수학, 코딩 등을 포함한 나머지 지표에서는 하이퍼클로바X가 모두 앞서는 모습을 확인할 수 있습니다.

빛좋은 개살구?

벤치마크 결과에서 아무리 높은 성능을 보였더라고 하더라도 사용되지 못하면 의미가 없습니다. 하이퍼클로바X가 적용된 ‘큐(Cue:)’ AI 검색 서비스는 지난 2023년 9월에 베타 서비스를 시작했지만, 7개월이 지난 지금까지도 정식 서비스 출시는 요원한 상태입니다. 현재 대기명단을 등록하고 승인받아야만 사용이 가능한 상태로, 아직까지 일반 대중들의 접근이 어려운데요. 그 사이 ChatGPT가 출시한 지는 벌써 1년 6개월이라는 시간이 훌쩍 지나갔습니다.

news-8

이미지 출처: 네이버 큐 (작성하고 있는 24년 04월 10일 기준 아직도 베타 서비스 중)

또한, 지금의 성능을 갖춘 상태로 서비스가 출시한다고 하더라도 과연 좋은 반응을 이끌어낼지도 미지수입니다. 이미 네이버가 발표하기 전에도 GPT-4의 성능을 뛰어넘었다고 발표한 곳은 몇몇 있었습니다. OpenAI의 최대 경쟁사로 불리는 ‘Anthropic’의 ‘Cluade 3(Opus ver.)’는 GPT-4를 넘어선 것은 물론 AI 최초로 IQ 테스트에서 100점을 넘는 성적을 기록했다고 알려졌습니다. 특히, 네이버와 마찬가지로 검색 엔진 기반의 포털인 구글 역시도 뛰어난 성능의 제미나이를 발표했지만 사람들은 여전히 ChatGPT를 선호하고 있습니다. 왜 그럴까요?

결국은 선점 효과로 인한 익숙함

news-8

이미지 출처: ⓒ IoT Analytics

여기에는 ChatGPT가 누린 초기 선점 효과와 그로 인해 이미 익숙해진 UI/UX가 중요한 역할을 했는데요. 그러나 이보다 더 큰 요인은 대다수의 사용자들이 현재 제공되는 ChatGPT의 성능으로도 충분히 만족하고 있다는 점입니다. 물론, 조금 더 고차원적인 답변을 위해서 더 뛰어난 성능을 가진 모델이 필요로 할 수 있지만, 이런 사용자층은 전체 시장에서 차지하는 비중이 작아 대세에 큰 영향을 주기 어렵습니다.

네이버가 한국에서 높은 포털 점유율을 보유하고 있는 지금, 로컬라이제이션이 잘 되어 있는 모델을 기반으로 한 AI 서비스를 출시된다면, 한국을 한정해 많은 관심을 끌 수 ‘있을 수도’ 있습니다. 그러나 여기에는 서비스를 무료로 제공해야 한다는 전제 조건이 붙습니다. 현재 제공되고 있는 무료 서비스들도 충분히 우수한 상황이기에 네이버가 결정적인 와우포인트 없이 유료 서비스를 선보인다면, 사용자의 관심을 끌기 어려울 것으로 보입니다.

그러나 문제는 이러한 대형 언어 모델의 서비스 운영비용은 굉장히 높다는 점인데요. 무료로 서비스를 제공하자니, 금액적인 리스크를 네이버가 감당해야 한다는 딜레마에 빠질 수밖에 없습니다.

LLM? 이미 시장의 눈은 더 높은 곳에…

앞서 언급했듯, 대형 언어 모델 간의 성능 비교는 이제 크게 중요하지 않게 됐습니다. 냉정히 말하면, 상향 평준화된 LLM 시장에 이제야 네이버가 비슷한 수준에 도달했다고 볼 수 있습니다. 이렇듯 네이버가 모든 역량을 LLM 모델에 집중하는 동안, 글로벌 경쟁사들은 ‘멀티모달(Multi-Modality: 여러개의 데이터형식을 가지고 수행하는 AI, 대표적으로 텍스트, 이미지, 음성, 영샹 등)’ 기능, 즉 더 높은 목표를 향해 나아가고 있습니다. 이제 생성형 AI 경쟁력은 단순한 텍스트 기반 서비스에서 갈리는 것이 아니라, 이미지, 음성, 영상까지 다양한 형태의 입력과 출력을 제공하는 능력에 의해 결정될 예정입니다.

OpenAI는 ‘DALL-E’를 활용해 이미지를 생성하고, ‘SORA’를 활용해 동영상을 생성하며, ‘Voice Engine’을 통해 음성까지 복제할 수 있는 능력까지 보유하게 됐습니다. 그리고 궁극적으로는 이 모든 기능을 ChatGPT로 통합 구축할 것으로 예상되는데요. 이 말은, 앞으로는 음성로 그림을 그려달라고 할 수 있으며, 이미지를 보여주고 설명을 듣거나 토론을 할 수 있으며, 대본을 주고 영상을 만들어 달라고 할 날이 머지않았다는 의미입니다.

상황이 이렇게까지 전개되었지만, 아쉽게도 이번 네이버의 발표에서 멀티모달 역량에 대한 내용을 찾아볼 수 없었습니다. 리포트 중간에 앞으로 멀티모달 역량에 집중하겠다는 계획을 보여주는 것이 전부였습니다.

그럼에도 아직 기회는 있다

사실 네이버는 애초에 B2C 시장을 어느 정도 포기한 것으로도 보입니다. 그동안 공식석상에서도 AI 활용 전략에 대한 질문에 대해, 대부분 커머스 분야의 고도화나 B2B 클라우드 서비스의 경쟁력을 끌어올리는 데 활용하겠다는 답변이 대부분이었습니다. 이는 상대적으로 외산 AI 제품이 한국 서비스에 적용되기 어려운 점을 공략하겠다는 의미로 풀이되는데요. 실제로 이러한 전략은 과거부터 유용하게 활용된 것으로, 현재 네이버가 국내에서 AI 기술력이 가장 우수하다고 평가받고 있는 만큼, 이번에도 이 전략은 통할 수 있을 것으로 기대됩니다.

또한, 이번 리포트 발표에서 아랍어 등의 다국어 능력을 강조했던 점은 네이버가 ‘소버린 AI’ 사업에 대한 의지가 강하다는 것을 시사합니다. ‘소버린 AI’ 사업이란, 상대적으로 AI 기술력이 낮은 국가를 대상으로 현지 언어와 문화에 최적화된 AI 모델을 구축해 주는 사업을 말하는데요. 최근 사우디 아람코와 체결한 ‘아랍어 LLM 기반 소버린 AI 개발 협약’은 이러한 전략의 일환이라고 볼 수 있습니다. 이 경우 기업이 아닌 국가를 상대로 사업을 펼치기 때문에 사업 규모 측면에서 상대적으로 볼륨이 클 수 있다는 장점이 있습니다.

비록 다소 부정적인 전망이 담겨 있었지만, 그럼에도 네이버가 이만큼까지 기술력을 끌어올린 것은 정말 대단한 업적이라 평가할 수 있습니다. 대형 언어 모델을 자체적으로 보유한 국가 자체도 몇 없을뿐더러, 그중에서도 글로벌 경쟁을 이어나가고 있는 기업은 더더욱 귀합니다.

다만, 앞서 말씀드렸던 것처럼 네이버는 한국 빅테크 기업의 자존심이라 할 수 있기에, 더욱 힘을 냈으면 하는 바람입니다. 특히, 단순히 한국어에 특화된 모델이 아니라, 기술력과 사용성에 중점을 둔 범용 모델로 발전시켜 글로벌 시장에서도 경쟁력을 지속적으로 발휘해 나가길 바래봅니다.

댓글남기기