안녕하세요. IT 칼럼니스트 최호섭입니다. 오픈AI의 새로운 인공지능 모델 GPT-4o가 공개됐습니다. GPT-4o는 질문에 거침없이 대답하고, 목소리에 온갖 감정을 담아서 대화를 만들어 갑니다. 스마트폰 카메라를 켜서 수학 문제를 함께 풀기도 하고, 강아지가 귀엽다는 말도 합니다. 멀리 떨어진 기술 이야기가 아니라 당장 몇 주 안에 우리가 스마트폰에서 누릴 수 있는 서비스에 대한 이야기입니다.
20분이 조금 넘는 이 짧은 발표는 명확하고 강렬했습니다. 인공지능과 나누는 대화라는 이질감보다 자연스러운 일상의 수다 같은 이야기들이 이어졌고, 이제까지 우리가 챗GPT를 통해서 하던 일들도 더 빠르고 매끄럽게 해냈습니다. 어쩌면 이는 오랫동안 음성 비서, 인공지능 어시스턴트라고 부르던 수많은 서비스들이 만들어내고자 했던 모습이 아닐까요?
Siri에서 시작한 인공지능과의 대화
시간을 거슬러 올라가 봅시다. 2011년 9월, 아이폰 4s는 이전에 없던 스마트폰의 기능을 보여줍니다. 바로 시리였죠. 필립 실러 부사장은 ‘말로 원하는 것들을 얻을 수 있는 인텔리전트 어시스턴트’라고 시리를 소개합니다. 시리는 음성으로 날씨를 알려주고, 알람을 설정합니다. 주가 정보를 보여주고 메시지에 답을 하는 것도 손을 쓰지 않고 말로 가능합니다.
시리는 매우 똑똑했고, 많은 일을 해낼 수 있었습니다. ‘기계와 자연스러운 대화를 할 수 있다’는 것이 시리의 충격이었습니다. 그리고 시리를 꺼내 놓으면서 아이폰은 하드웨어 뿐 아니라 소프트웨어와 서비스로 이전에 없던 다음 세대 스마트폰의 방향성을 제시했다는 평가를 받았습니다.
아이폰 4s는 스티브 잡스가 세상을 떠나고 난 뒤 처음 공개되는 아이폰이었습니다. 세상은 ‘스티브 잡스 없는 애플은 없다’는 색안경을 끼고 새 아이폰의 발표를 지켜봤고 안테나로 말썽을 겪은 이전 세대 아이폰4와 닮은, 조금 더 빠른 아이폰 정도를 기대했습니다.
시리 이전에도 인공지능으로 휴대폰을 제어하는 시도는 많이 있었습니다. 지금 돌아보면 지금의 인공지능 기술과도 큰 관계가 없고, 기능적으로도 차이가 많았지요. 대부분 음성을 미리 녹음하고 같은 주파수의 소리가 들어오면 그 명령어라는 판단을 내리고 행동을 따라하는 정도였습니다. 사실상 경험이 썩 좋지 않았고 작동도 매끄럽지 않았습니다. 무엇보다 버튼으로 입력하는 것보다 편하지 않았습니다.
그렇게 음성인식, 그리고 인공지능 기술들은 많은 시도와 함께 사라졌죠. 시리는 그 묻혀 있던 경험을 다시 궤도에 올려뒀습니다. 깊이 따져보면 뉘앙스의 음성 인식 엔진을 이용한 것이지만 애플은 대화 내용을 방대하게 학습시켰고, ‘시리’라는 브랜드를 붙여서 대화의 대상이 기계가 아니라 하나의 주체라는 인식을 주기도 했습니다. 지금도 시리는 알파고와 함께 인공지능을 대표하는 친근한 이미지로 자리를 잡았습니다.
시리는 음성인식의 가능성을 확인시켜주었고, 그 뒤로 거의 모든 IT 기업들이 이 시장에 뛰어들었습니다. 제가 갖고 있는 인공지능 스피커만 해도 열 대가 넘습니다. 아마존과 구글은 이 시장을 통해 독보적인 기회를 얻어내기도 했습니다. 이제 사람들은 기계와 대화하는 게 어색하고 창피한 일이라고 생각하지 않습니다.
GPT-4o의 방향성
그 흐름을 바꾼 것이 챗GPT입니다. 물론 2011년 이후 음성 인식 기술은 놀랄 만큼 발전을 했습니다. 심지어 음성을 이해하는 인공지능 모델의 성능이 좋아지고 모바일 기기에 인공지능 처리 유닛들이 대중화되면서 음성을 클라우드로 전송하지 않고 기기 자체에서 처리하는 온 디바이스 처리도 자연스러워졌습니다. 애플의 시리나 구글 어시스턴트 역시 오프라인 기능들을 늘려갔고, 이를 통해 반응 속도를 높이고 더 많은 일들을 할 수 있도록 진화가 이어졌습니다.
하지만 2022년 말 등장한 챗GPT는 언어모델의 규모를 엄청나게 늘렸습니다. 대규모 언어 모델(LLM, Large Language Models)은 막대한 언어 데이터를 학습시키고, 이를 통해서 말을 자연스럽게 이어가는 기술로 시작했습니다. ‘말이 되는 말’을 만드는 것이 애초의 목표였습니다. 그런데 그 학습 데이터는 이미 우리 세상의 모든 지식과 정보를 담고 있었기 때문에 단순히 말이 아니라 의미가 담긴 말을 할 수 있는 가능성이 생겨났습니다.
그렇게 챗GPT는 정보를 담은 말들을 매끄럽게 만들어냈습니다. 기술적으로는 주제에 대해서 사람들이 이런 단어 다음에 저런 단어를 붙이고, 그 뒤에 또 어떤 단어를 붙여갈 확률이 높다는 것을 바탕으로 단어를 이어가면서 문장을 완성하는 것이지만 그 기반이 사람들의 습관이기 때문에 우리는 결국 사람과 대화하는 것 같은 답을 만나게 됩니다.
LLM은 기본적으로는 시리와 비슷하지만 학습 데이터의 규모에 큰 차이가 있고, 질문에 대한 대답을 문장 단위로 준비하지 않으면 꺼내놓기 어려웠던 기존 방식에 비해 더 자유롭게 어떤 답이든 만들어낼 수 있습니다. 이해와 생성의 단위가 문장이 아니라 단어의 조합이기 때문입니다. 그래서 실제로 있지 않은 말을 지어내기도 하고 거짓 정보도 만들어냅니다. 환각(Hallucination)이라는 말로 통하는 현상이지요.
GPT-4o는 기술적으로 단순하게 뜯어볼 수 있습니다. 언어를 완성해내는 GPT 모델과 쉽게 채팅(chat)할 수 있는 서비스가 챗GPT였다면, 이를 다시 음성을 비롯해 이미지나 소리 등으로 확장하는 것이 GPT-4o의 방향성입니다.
‘내용’만큼 중요한 ‘대화’의 과정,
다음 세대의 인공지능 어시스턴트의 갈 길
GPT-4o에 세상이 놀란 것은 그 답의 내용이 아닙니다. 답을 꺼내놓는 방법이지요. GPT-4o는 사람의 말이 끝나기 무섭게 답을 합니다. 으레 인공지능 어시스턴트는 길게는 몇 초, 짧아도 약간의 지연이 있습니다. 기기적으로 처리를 하는 것은 물론이고, 클라우드를 통해서 문맥을 정확하게 이해하는 과정이 필요하기 때문입니다.
오픈AI는 이를 극적으로 줄였습니다. 기술적으로는 복잡한 과정이 있었겠지만 지연 속도를 줄이는 것만으로 우리는 사람과 직접 대화하는 것 같은 느낌을 받게 됐습니다. 질문을 하고 답을 받는 경험이 아니라 인공지능과 대화, 아니 수다를 하면서 원하는 결과에 치밀하게 접근해가는 인상을 받습니다. 시리의 등장 만큼이나 충격적인 기계와 대화하는 방법의 변화인 셈입니다.
여기에 GPT-4o는 감정 표현을 더 싣습니다. 말을 그냥 건조하게 하는 것은 하나의 밈(meme)으로 오랫동안 통해 왔습니다. 감정 없이 건조하게 말하는 건 로봇의 언어에 대한 상징같았습니다. 감정을 섞는 것은 목소리의 톤을 바꾸는 것 뿐 아니라 말하는 속도, 숨소리, 그리고 웃음을 비롯한 감탄사들이 더해져서 완성해내는 것이기 때문에 이를 구현하는 것이 쉽지는 않았습니다.
하지만 이 역시 인공지능의 기계 학습을 통해 처리할 수 있습니다. ‘사람들이 그러더라’는 것이지요. 그리고 GPT-4o는 이를 일반 서비스에 매끄럽게 적용했습니다. 실제로 공감을 받을 수 있는 수준일지는 공개 이후 판단할 수 있겠지만 적어도 지금으로서는 말의 맥락과 분위기를 바탕으로 감정을 흉내내는 정도라고 보면 됩니다. ‘인공지능이 사람처럼 감정을 갖기 시작했다’고 겁 먹지 않아도 된다는 이야기입니다.
돌아보면 GPT-4o의 진화는 인공지능의 기술적인 발전보다도 사람과 기계가 대화를 하는 방법을 바꾸어 놓았다는 쪽에 더 큰 의미가 있습니다. 그 동안 우리는 대화의 결과물에만 집중했다면 이제는 대화의 과정도 중요해졌고, 이를 풀어낼 수 있는 기술적인 토대가 마련됐다는 것이지요.
그리고 이런 대화의 방법에 대한 흐름은 곧이어 나온 구글의 개발자 컨퍼런스를 통해서도 확인이 됐고, 아직 소문이 무성한 시리의 진화와도 관련이 있을 겁니다.
많은 사람들이 GPT-4o의 시연을 보고 아이언맨의 비서 ‘자비스’나 <그녀>의 ‘사만다’를 떠올립니다(편집자 주: GPT-4o 공개 이후 ‘사만다’를 연기한 스칼렛 요한슨 목소리 모방 논란이 일었습니다). 어쩌면 우리가 원하던 인공지능 어시스턴트의 방향성이 이런 생생한 대화였던 걸지도 모르겠습니다. 인공지능과 나누는 대화의 결과물은 계속 좋아질테고, 말 뿐 아니라 감각을 흉내내는 센서들을 이용해 더 풍부한 대화 내용을 만들 겁니다. 그리고 이제는 기술이 그 접점, 과정, 대화 그 자체에 관심을 갖기 시작했다는 점을 주목하면 좋겠네요. 중요한 것은 사람과 대화라는 본질이었으니까 말이지요.
About Author
최호섭
지하철을 오래 타면서 만지작거리기 시작한 모바일 기기들이 평생 일이 된 IT 글쟁이입니다. 모든 기술은 결국 하나로 통한다는 걸 뒤늦게 깨닫고, 공부하면서 나누는 재미로 키보드를 두드립니다.