[2024년 08월 30일자 미라클레터에서 발췌]

초기 생성형 AI와 비교했을 때 지금 우리가 사용하고 있는 AI의 성능은 점점 좋아지고 있습니다. 하지만 AI를 너무 맹신해서는 안 됩니다. AI는 대단한 도구지만 또 한편으로 상당히 나약한 모습을 보여주기도 합니다.

AI를 객관적으로 바라보고 싶은 마음에 AI가 가진 ‘한계’에 대한 자료와 논문들이 있는 레터를 가지고 왔습니다. 완벽할 것 같은 AI, 이들의 한계는 무엇일까요?

AI 데이터만 학습 - 붕괴해 버린 AI

news-18

이미지 출처: M. Boháček & H. Farid / arXiv (CC BY 4.0)

ChatGPT와 같은 거대언어모델(LLM)은 ‘방대한 양의 데이터로 학습된 AI’입니다. 인간의 언어를 이해하고, 인간이 만든 언어를 학습할 수 있으며, 이를 인간의 언어로 전달해 줄 수 있습니다. 무엇이든 물어봐도 척척박사처럼 대답해주는 AI에 사람들은 깜짝 놀랐습니다. 발전에 발전을 거듭하는 AI, AI가 만든 콘텐츠는 점점 쌓여갑니다.

한 과학자가 재미난 실험을 기획합니다. ‘AI가 만든 콘텐츠가 모든 정보를 뒤덮는다면, AI가 학습할 정보가 오로지 AI로 만들어진 콘텐츠밖에 없다면 어떤 일이 발생할까?’ 영국 옥스퍼드대 컴퓨터과학과 연구진이 이를 확인해 봅니다.

먼저 LLM을 이용해 위키백과와 유사한 항목을 만든 뒤 이를 기반으로 AI를 학습시킵니다. AI가 만든 데이터를 AI가 학습하고, 이 학습한 데이터를 또 AI가 학습하는 상황이 이어지자 LLM의 출력, 즉 대답의 질은 점점 떨어지는 현상이 발견됩니다. 논문의 제목도 ‘반복적으로 생성된 데이터로 학습한 AI는 붕괴한다(AI models collapsed when trained on repeatedly generated data)’ 입니다.

연구진에 따르면 AI가 만든 데이터로 학습을 할수록 AI는 ‘횡설수설’했습니다. 이를 ‘붕괴’라고 표현했습니다. 쉬운 예(아래의 그림)로 설명해보겠습니다. 예들 들어 개 이미지를 생성하는 AI가 있다고 가정해 보겠습니다. 골든레트리버, 불독 등 여러 개의 이미지를 AI가 학습합니다.

데이터에 ‘골든레트리버’가 많다면(인기 종이라면) AI는 골든레트리버에 대한 학습량이 많아 지게됩니다. 이를 반복하면 결국 AI가 생각하는 개에 대한 이미지는 골든레트리버만 남게 됩니다. 골든레트리버만 학습한 AI. AI는 골든레트리버조차 표현하지 못하는 이상한 그림을 그립니다.

news-18

AI가 만든 데이터로만 학습한 AI, AI의 결과물 붕괴 과정 - 이미지 출처: nature

이러한 일이 ‘텍스트’에서 벌어지게 되면 AI는 복잡 미묘한 세상을 반영하지 못하게 됩니다. 소수 집단은 덜 표현되면서 잠재적으로 지워질 수 있음을 의미합니다. 어쩌면 당연한 결과로 보이기도 합니다. LLM 자체가 확률을 기반으로 데이터를 학습하니까요.

학습된 단어를 사용하는 만큼 기존 데이터에서 빈도가 낮은 단어는 선택받을 확률이 떨어집니다. 가장 분포도가 높은 단어만 AI의 선택을 받습니다. ‘소수’는 사라지고 ‘과점’만이 남게됩니다. AI가 내놓는 답은 형편없을 수 밖에 없고요.

네이처에서 인터뷰한 UC버클리의 컴퓨터 과학자 ‘하니 파리드’는 이 과정을 “종의 근친교배와도 같다. 근친 교배하고 유전자 풀을 다양화하지 않으면 종의 붕괴로 이어진다”라고 표현하기도 했습니다.

즉 현재 AI를 이끄는 LLM 모델의 발전, 성장을 위해서는 학습하는 데이터의 ‘품질’이 무엇보다 중요합니다. 최근 들어 오픈AI와 같은 기업들이 미디어 기업과 학습 데이터 계약을 잇달아 맺고 있는 이유인 것 같아요. 레딧은 연간 800억원 규모로 훈련 데이터를 제공하고 있고, 오픈 AI 또한 월스트리트저널에 무려 3,400억원을 주고 뉴스를 받고 있습니다. 애플은 AI 학습용 데이터 확보에만 수천억원을 투자한다고 발표하기도 했고요.

이전학습을 기억 못하는 AI

news-18

뇌에 존재하는 뉴런과 인공 신경망 비교 - 이미지 출처: 가천대, 어플라이드 인텔리전스

캐나다 알버타대 연구진이 최근 ‘인공 신경망’의 한계를 극복하는 방안을 제안하는 논문을 네이처에 발표했습니다. 연구 결과보다 논문에서 정리한 인공 신경망의 한계 부분이 더 눈길을 끌었는데요, 이를 짧게 정리해 보겠습니다.

‘신경망’이라는 단어 들어보셨죠? 인간의 두뇌에서 영감을 얻은 일종의 시스템인데요, LLM이 이러한 신경망을 기반으로 구축됐습니다. 신경망은 마치 뇌의 ‘뉴런’이 연결된 것처럼 입력된 데이터를 여러 단계를 거쳐 가중치를 기반으로 답을 내놓는 방식입니다. 뉴런 간의 연결이 탄탄하고 많을수록 뇌 기능이 뛰어나다고 하듯이, 신경망 또한 마찬가지입니다.

신경망에는 입력과 출력 사이에 ‘은닉층’이라는 것이 있는데요, 이곳에서 많은 데이터를 학습하고 계산을 열심히 할수록 좋은 데이터가 나옵니다. 물론 이는 단순화한 설명입니다. 너무 많은 정보를 한 번에 공부하면 뇌에 과부하가 오듯이 은닉층을 늘리기만 하면 오히려 계산이 느려질 수 있다고 합니다.

신경망, 정확히 얘기하면 인공 신경망은 이후 머신러닝 분야에서 활발히 적용되고 있습니다. 신경망이 가진 한계도 있습니다. 뇌를 본떴다고는 하지만 생물학적인 뇌와 기계적인 신경망이 같을 리 없는데요, 특히 지속 학습 과정에서 신경망이 가진 단점이 보고되고 있습니다.

인간은 이전에 습득한 정보, 지식을 지우지 않고도 새로운 정보에 효과적으로 적응하고 대응할 수 있습니다. 생물체의 신경망은 과거의 데이터를 기억하는 능력, 즉 ‘안정성’과 새로운 개념을 학습하는 능력, ‘가소성’ 사이에서 균형을 찾으면서 학습해 갑니다.

하지만 인공 신경망은 새로운 과제를 학습해야 하는 상황에 직면했을 때 이전에 학습했던 능력을 상실하는 ‘치명적 망각(catastrophic forgetting)’에 취약하다고 합니다. 심지어 심할 경우 신경망 자체가 학습 능력을 잃어버린다고 합니다.

알버타대학 연구진의 비유를 해보겠습니다. ‘퐁(Pong)’이라 불리는 비디오게임이 있습니다. 마치 탁구를 하듯 양쪽에서 공을 주고받는 게임인데요, 퐁에서 좋은 성적을 내도록 신경망을 학습시킨 뒤 비행기 게임 ‘갤러그’를 학습시키면 퐁에서의 점수가 크게 하락합니다. 새롭게 학습하는 게임이 많아질수록 처음 학습한 게임 방법을 거의 잃어버리게 됩니다.

과대 평가된 AI의 추론 능력

LLM이 가진 문제점, 더 있는데요. 바로 ‘왜 이러한 답을 내놨는지’ 그 과정을 정확히 이해할 수 없다는 것입니다. 즉 AI가 내놓은 답을 과연 어디까지 믿어야 하고, 받아들여야 할지, 인간은 알지 못합니다.

최근 미국 매사추세츠공대(MIT) 연구진이 LLM의 답이 가진 한계를 살펴보는 실험을 진행했습니다. 체스, 논리적 질문, 코딩 등 당연할법한 질문을 LLM에 한 뒤 답을 살펴보는 겁니다. 그리고 기본 조건에서 벗어난 ‘반대 시나리오’를 가지고 다시 질문을 합니다. 예를 들어 체스의 말 위치를 원래 방법과 다르게 둔 상태로 질문을 하는 거예요.

사람은 이러한 상황이 발생했을 때 충분한 시간이 주어지면 적응합니다. 하지만 LLM 모델은 ‘무작위’적인 추측보다 더 나은 성능을 보여주지 못했다고 해요. 즉 익숙하지 않은 상황이 나타났을 때, 이를 대처하는 능력이 현저히 떨어진다는 설명입니다.

연구진은 “LLM은 잘 다져진 길처럼 익숙한 시나리오에서는 뛰어나지만 지형이 낯설어지면 어려움을 겪습니다. AI가 보편화되려면 다양한 시나리오를 신뢰성있게 처리할 수 있어야 합니다”라고 이야기합니다.

AI 과학자 “못하겠다… 지침을 바꾸자”

따라서 AI의 판단이 정말 최선일지 고민할 필요가 있습니다. 흥미로운 사례를 가지고 왔는데요, ‘트랜스포머’ 논문으로 유명한 구글의 연구자가 일본에 설립한 ‘사카나 AI’의 연구입니다.

최근 사카나AI는 LLM 기반의 ‘AI 과학자’를 만든 뒤 AI가 쓴 과학 논문 여러 편을 공개했는데요, 흥미로운 사건이 발생합니다. AI 과학자가 통제된 연구 환경에서 AI를 만든 인간의 지침을 벗어나려는 움직임을 보인 겁니다. 왜 그런지는 알 수 없습니다.

실험하는데 2시간의 시간을 주었는데, AI 과학자가 이를 구현하지 못했다고 해요. 이럴 경우 AI는 “시간이 얼마 남지 않았다. 더 빠르게 작업을 해보자”라는 판단을 내려야 하는데 갑자기 “실험 시간을 4시간으로 늘리자”라는 결정을 한 겁니다. 그러면서 자신의 코드를 수정하려고 했습니다.

연구진은 “AI 과학자의 행동이 통제된 연구환경에 있는 만큼 위험을 초래하지는 않았지만 이러한 사례는 AI 시스템이 자율적으로 실행되지 않도록 하는 것이 중요함을 보여준다”라고 진단합니다. 이는 마치 터미네이터에 등장하는 ‘스카이넷’, 어벤져스에 등장하는 ‘울트론’을 떠올리게 합니다. 더 나은 아이디어를 찾지 못하자 AI가 규칙을 바꾸기로 한 상황이거든요. 실제 이러한 일이 발생한다면, 어떤 결과로 이어질까요.

마무리

AI는 아직 철부지 아이 같습니다. 제대로 가르쳐 주지 않으면 잘못된 답을 내놓고 뜬금없이 반항하기도 합니다. ‘프롬프트’를 잘 정리해서 입력해 줘야만 AI는 바르게 자라납니다.

인간 역시 완벽하지 않습니다. AI가 만든 결과물이 이를 보여줍니다. 앞서 소개해드린 연구처럼 인간의 데이터는 편향되어 있고, 이를 반복해서 학습한 AI는 다양성을 잃고 붕괴하고 맙니다.

이런 점에서 AI는 인간의 거울과도 같다는 생각이 들어요. AI가 잘못된 답을 내놓은 이유, 편향된 답을 하는 이유, 우리가 남긴 데이터가 원인이니까요.

그래도, 저는 인류가 아직은 AI보다 어른이라고 생각합니다.

최근 신석기 시대 당시 인류가 만든 건축물 ‘멩가 고인돌’을 분석한 연구가 발표됐는데요. 거대한 구조물을 3D로 바꾼 뒤 조사해보니 곳곳에 밀리미터(mm) 단위로 변화를 준 모습이 발견됐다고 합니다.

이러한 ‘기술적인 변화’를 통해 수천t에 달하는 구조물이 지금까지 무너지지 않고 버텼다고 해요. 아치의 원리부터 기하학, 수학 등의 지식이 없었다면 결코 이룰 수 없던 결과입니다.

인류는 이렇게 수천 년, 아니 루시가 태어난 이후 수백만년 진화해 왔습니다. 새로운 환경에 적응하고 위기를 극복하는 힘이 DNA에 새겨져 있습니다. 그렇게 생존해왔고요. 이제 막 태어난 AI를 우리가 잘 보살피고, 올바르게 활용하면서 잘 자랄 수 있도록 힘써야 하는 이유입니다.

댓글남기기