영화 아이언맨 '자비스 시대' 성큼성큼

LLM 다음 정거장은 AI 에이전트

2025-09-22     소유빈 전자공학 연구원

2022년 챗GPT가 출시됐을 때를 기억하는가? 세상이 요동치는 순간이었다. 출시 두 달 만에 사용자 1억 명을 확보, 역사상 가장 빠르게 성장하는 소비자 소프트웨어가 됐다. 하지만 챗GPT나 제미나이 같은 LLM을 쓰면 쓸수록 아직은 사람이 필요하다는 것을 절실하게 느낄 수밖에 없었다. 그런데 입력에 맞는 출력만을 내뱉는 것을 넘어 필요한 작업들을 알아서 수행하는 AI가 나오기 시작했다. 우리는 이것을 ‘AI 에이전트’라고 부른다.

영화 ‘아이언맨’ 속 자비스는 현대 기술로는 불가능한, AGI(일반인공지능)을 초월한 ASI(초인공지능)이다. 자비스 같은 것을 AI 에이전트로 보면 된다.

‘아이언맨’ AI비서 자비스

챗GPT나 제미나이 같은 LLM(Large Language Model 거대언어모델: 방대한 데이터를 학습해 인간 언어를 이해하고 생성하는 AI 모델) 서비스들이 나오면서, 사람들은 일자리를 잃게 되는 것 아니냐는 구체적인 위협을 느끼기 시작했다. 실제로 필자 주위에는 LLM 등장 이후 일거리가 줄어든 사람들이 꽤 많이 있다.

하지만 한계가 있었다. LLM은 똑똑하고 많은 것을 알려줄 수 있지만 직접 행동을 하지는 못하기 때문이다. 코드를 뽑아버리면 뭘 할 수 있겠는가? 혼자 메일도 못 보내고 다음 주에 치과 예약 있는 것도 모르는데….

그런데 이제 단순히 대답만 하는 수준을 넘어 직접 일을 처리하는 AI 에이전트 단계로 진입했다. 메일 전송, 논문 조사, 보고서 작성, 데이터 정리까지 API(Application Program Interface)를 통해 다양한 프로그램을 제어하는 것이 가능해졌다. 영화 ‘아이언맨’의 AI 비서 자비스를 떠올리면 이해가 빠를 것이다.

일자리와 산업 변화 몰고 올 괴물

AI 에이전트에게는 이메일을 보내라고 하거나 맛집을 예약하라고 명령하는 것도 가능하다. 논문 혹은 시장 자료를 조사해서 통찰을 도출하고 표나 그래프를 그려 PPT를 만들어 줄 수도 있다. 비즈니스적으로는 고객 서비스 및 응대를 자동화하거나 재무 및 회계 프로세스를 처리하는 데 쓰일 수 있다.

아직은 부족하다. 하지만 잠재력만큼은 어마어마하다. 기억, 맥락 유지나 낯선 환경 대응에 대해서는 부족하지만 다중 에이전트 협업(A2A)이나 인간 개입(Human-in-the-loop) 같은 방식으로 빠르게 개선되고 있다.

다양한 작업을 수행하는 능력까지 갖춘 AI 에이전트가 제대로 등장하게 된다면 LLM을 뛰어넘는 생산성 혁신을 불러올 것이다. LLM보다 훨씬 거대한, 일자리와 산업 변화를 몰고 올 ‘괴물’이 바로 AI 에이전트다.

영화 ‘아이언맨’ 속 자비스는 현대 기술로는 불가능한, AGI(일반인공지능)을 초월한 ASI(초인공지능)이다. 자비스 같은 것을 AI 에이전트로 보면 된다.

지금까지 위너는 마누스

AI 에이전트는 두 가지 방식으로 나뉜다.

첫 번째는 개발자를 위한 도구로 오토GPT, 랭체인(LangChain), 랭그래프(LangGraph) 같은 것들이다. 이들은 ‘에이전트를 만들 수 있는 제작 키트’에 가깝다. 레고 블록을 조립하듯, 개발자가 원하는 기능을 조합해 맞춤형 에이전트를 만드는 것이다. 예를 들어 한 기업이 "우리 내부 데이터를 자동 분석해 보고서를 뽑아 달라"는 요구를 하면, 개발 회사는 오토GPT 같은 툴을 이용해 그 회사만의 전용 에이전트를 구축한다. 실제로 SKT 다니는 지인도 요즘 이런 일을 하고 있다.

두 번째는 일반 사용자를 위한 서비스다. 바로 쓸 수 있는 ‘완제품 비서’라고 보면 된다. 대표적인 것이 마누스(Manus)와 젠스파크( GenSpark), 그리고 2025년 7월 새로 공개된 챗GPT의 에이전트 모드다.

필자는 이 세 가지를 직접 사용해 봤다. 논문을 검색해 리포트를 작성하게 하거나, 발표용 프레젠테이션을 만들고, 전기요금 데이터를 엑셀로 정리한 뒤 메일까지 보내 달라고 했다.

결과는 흥미로웠다. 프레젠테이션은 챗GPT보다 마누스와 젠스파크가 훨씬 자연스럽게 만들었다. 스프레드시트 작업에서 젠스파크는 무한루프에 빠져 실패했다. 리포트 작성은 마누스가 가장 완성도가 높았고, 챗GPT는 조금 부족했다.

메일 보내기는 더 재미있었다. 챗GPT가 네이버 메일에서 ‘내게 쓰기’를 시도했는데, ‘저장’ 버튼을 ‘보내기’로 착각해 실패했다. 낯선 화면에 약한 모습을 보여준 셈이다. 반대로 마누스는 대부분의 작업을 무난하게 처리했다.

AI끼리 소통해서 작업 완수

AI 에이전트는 활발히 연구되고 있지만 아직 사람을 넘어설 정도의 성능을 갖추지는 못했다. 작업 흐름이 길어질수록 예전 맥락을 잊어버리기도 하고 익숙하지 못한 상황에서 대처 능력이 떨어진다. 이를 개선하기 위해 더 효율적인 ‘기억 방법의 연구’는 매우 중요하다. AI 학계에서도 이 방향으로 여러 연구가 진행되고 있다.

최근 논문에 따르면 기억 연구는 세 갈래로 발전하고 있다. 사람처럼 오래된 경험을 요약하고 규칙을 뽑아내 새로운 상황에 잘 적응할 수 있는 심리학적 관점, 시행착오를 저장하고 데이터로 저장해 AI가 같은 실수를 반복하지 않는 자기 진화 관점, 마지막으로 실용적 응용이다.

개인 비서형 에이전트가 사용자 취향을 기억하거나, 일관된 성격을 유지하려면 메모리 모듈이 필수다. 또한 단일 에이전트 시스템보다 다중 에이전트 시스템이 더 성능이 좋다는 것이 알려졌다. 즉 전체를 지휘하는 에이전트가 있고 각 작업별로 특화 에이전트들이 있어서 지휘 에이전트가 특화 에이전트들에게 특정 작업을 하도록 명령하는 것이다. 이를 위해서는 에이전트들 간에도 소통이 필요한데 이에 쓰이는 것이 A2A(Agent2Agent)다.

AI 에이전트는 LLM을 기본으로 훨씬 진화된 서비스 모델이다.

성능 완벽해질수록 인류 위협

배달앱으로 음식 주문할 때를 생각해 보자. 내가 직접 식당, 라이더, 결제 시스템과 각각 통화하는 게 아니라, 배달 앱이 대신 여러 주체들과 대화를 하면서 음식이 내 집 앞에 오게 한다. 여기서 앱이 ‘총괄 에이전트’라면, 식당·결제·배달이 ‘전문 에이전트’이고, 이들이 서로 메시지를 주고받으며 전체 프로세스를 완성한다.

즉 인간 사회의 ‘분업+소통’을 디지털 세계에서 복제한 것이라 보면 된다. 여기서 가장 중요한 것 중 하나가 바로 안전성이다. 에이전트가 처리할 수 있는 행동 범위가 넓어짐에 따라 그만큼 리스크도 커지기 때문이다.

AI가 아직 사람에 비해 부족한 면이 있기 때문에 단계마다 적절하게 사람의 개입을 배치하는 하이브리드 방식이 앞으로 많이 발전할 것이다. 물론 사람의 개입이 필요 없을 정도로 AI 에이전트 성능이 완벽에 가까워진다면 그때부터는 인류는 더 위협받을 것이다. 

결국 LLM 데이터 싸움

에이전트의 두뇌는 결국 LLM이다. 어떤 모델을 쓰느냐에 따라 에이전트 성능이 결정된다. 겉으로는 다양한 에이전트 서비스가 쏟아져 나오지만, 그 밑바탕에는 결국 LLM을 만든 회사들(오픈AI, 앤트로픽, 구글 등)이 있다. 에이전트가 얼굴이라면, LLM은 뇌다. 뇌가 똑똑해질수록 얼굴이 보여주는 능력도 빛나게 된다. 따라서 이러한 서비스가 많이 사용될 수록 자연스럽게 그 서비스에 쓰이는 LLM를 소유한 회사들이 돈을 벌 수 밖에 없다. 현재는 대화형 인공지능 회사인 마누스, 젠스파크 같은 스타트업이 앞서지만, 결국 방대한 데이터와 생태계를 가진 구글과 오픈AI가 주도권을 가져갈 것이다.