연구원도 깜짝 놀란 덩크슛...AI 로봇의 진화

구글 가세한 AI 로봇전쟁

2025-03-17     이태현 공학박사

구글에서 드디어 로봇 관련 소식이 나왔다. 지난 13일 구글의 AI 조직인 구글 딥마인드가 제미나이 로보틱스(Gemini Robotics)를 발표했다. 정확하게는 로봇 그 자체가 아니라 로봇을 좀 더 똑똑하고 유연하게 만드는 AI 모델을 발표한 것이다. 구글 역시 휴머노이드(인간형) 로봇 쪽으로 접근하고 있다. 특히 언어·시간, 물리적 행동까지 통합해서 현실에서 정교한 작업을 할 수 있는 AI를 지원하고 있다. 구글은 로봇공학 회사 앱트로닉과 협력, 해당 AI가 탑재된 휴머노이드 로봇인 앱트로닉의 아폴로를 통해 테스트 결과를 발표했다.

블록 글자 맞추기를 하는 제미나이 로보틱스. /구글 마인드 캡처

구글도 AI산업에 본격 동참

구글은 제조업체가 아니지만 제미나이 같은 경우 멀티 모달리티(multimodality: 텍스트·이미지·비디오 등 여러 의사소통 모드) 관련해서는 이미 상당한 호평을 받고 있다.

제미나이 로보틱스는 제미나이 2.0을 기반으로 제작됐다고 발표한 점에서 기존의 강점을 더욱 발전시켜 내놓았음을 엿볼 수 있었다. 구글은 특히 ‘월드 언더스탠딩’(World Understanding)을 강조했는데, 세계와 상호작용할 수 있는 거대한 모델을 만드는 것이 목표임을 드러내고 있다.

오픈AI가 치고 나가는 바람에 묻힌 바가 없지 않지만, 구글은 전방위적 AI 연구가 진행되던 선두 기업이었다. 타깃도 검색부터 에이전트, 휴머노이드 등을 모두 커버하고 자본과 능력도 뒷받침되는 회사다. 그만큼 구글의 저력은 무시할 수 없고, 이제 드디어 시작인가 하는 느낌이다.

사람 지시에 따라 종이접기 성공. /구글 마인드 유튜브 캡처

제미나이 로보틱스,현실세계에 강점

이번에 발표된 것은 두 가지로 제미나이 로보틱스와 제미나이 로보틱스-ER 이다.

제미나이 로보틱스는 VLA(Vision Language Action, 비전 랭귀지 액션 모델, 즉 눈으로 보고 말도 하면서 행동까지 옮길 수 있는)모델로 로봇공학으로 이어지는 AI다. 인간이 직접 손으로 하는 청소·요리·수술 등 여러가지 섬세한 동작들을 학습시켜, 로봇이 그대로 따라하며 스스로 불필요한 동작들을 없애면서 효율화시키는 방식이다.

현재 소비자들한테는 LLM(Large Language Model:거대 언어모델) 기반으로 코딩을 할 때는 클로드(Claude: 오픈AI에서 퇴사한 사람들이 만든 AI)가 좋고, 일반적으로는 GPT를 쓰는 게 좋다, 혹은 다양한 애플리케이션 측면에서는 제미나이가 낫더라 등등 각각의 장점들과 포지션들을 평가하는 부분이 있다. 하지만 피지컬 월드(Physical World: 현실 같은 물리적 세계)로 가져왔을 때는 제미나이 로보틱스는 확실히 다른 두 AI보다 높은 점수를 받은 것을 볼 수 있었다.

제미나이 로보틱스-ER은 공간적인 이해를 좀 더 강화시키고 3차원적 인식을 더욱 증강시켰다. 기존의 제미나이에 비해서 전체적인 제어 성공률이 2배~ 3배까지 높아졌다고 보고 있다.

/구글 마인드 유튜브

블록도 맞추고 덩크슛도 하고

구글은 안드로이드 OS처럼 휴머노이드 로봇을 돌릴 때 찾는 기본적인 AI가 되는 것을 목표로 하고 있는 듯하다. 모델 자체가 대규모 데이터셋을 통해 이미지와 텍스트, 행동 등을 모두 학습한 다음 진행된다. 사람이 직접 움직이면 그 움직임을 따라하는 것을 기반으로 자신이 어떻게 해야겠다는 데이터를 확보해 학습하는 것이다.

구글이 공개한 시연 영상들을 보면 빵처럼 부서지기 쉬운 물건을 아주 섬세하게 잡는 모습을 볼 수 있다. 한 로봇은 여러 개 알파벳이 놓인 블록을 앞에 두고 지시에 따라 단어를 조립했다. 다른 로봇은 가방 지퍼를 열고 도시락 가방을 넣는가하면 지시에 따라 종이접기도 했다. 특히 작은 장난감 농구 코트를 설치하고 덩크슛을 해보라고 하자 플라스틱 공을 집어 골대에 넣었다.

제미나이 로보틱스를 탑재한 로봇의 경쟁자는 피규어 AI나 테슬라 옵티머스 또는 보스턴 다이내믹스 등이 될 수도 있다. 피규어 AI와 테슬라는 AI와 하드웨어를 둘 다 자체적으로 통합해 만들고 있다. 반면 현대의 보스턴 다이내믹스는 하드웨어 제조에는 강하지만 범용적인 AI 모델을 갖고 있지 않다 보니 조금 뒤떨어지는 것이 아닌가 하는 시각도 있다. 하지만 최근 굉장히 빠르게 발전하는 모습을 보이고 있다.

구글은 위의 로봇 기업들과는 차별화된다.하드웨어를 만드는 것이 아니라 AI 소프트웨어를 서비스하겠다는 방향으로 가고 있기 때문이다. 앱트로닉이나 애자일 로봇, 보스턴 다이내믹스 등과 협력하는 이유는 ‘당신들은 하드웨어에 집중하고 우리는 소프트웨어에 집중하겠다, 우리 걸 사용해라’는 의미로 받아들여진다.

덩크슛 성공은 지시했던 연구원도 놀래킨 결과였다. /구글 마인드 유튜브

구글의 저력은 어마어마한 데이터

구글은 이미 안드로이드라는 OS를 통해 전 세계 스마트폰 운영체제 점유율 40%를 달성하고 있는 빅테크 기업이다. 안드로이드를 통해 무수히 많은 데이터를 수집했을 것이고, 구글이라는 검색엔진 자체로도 굉장한 데이터를 수집하고 있다. AI 성능은 아직은 학습된 데이터 양과 비례한다. 그러니 구글의 저력은 무시할 수 없다.

구글은 항상 모험적인 움직임보다는 최적화된 서비스 준비를 차근차근 해오는 기업이기 때문에 다른 기업에 비해 훨씬 유연성이 높다. 새로운 로봇이 등장하거나 다른 제조업체에서 만든 로봇이라 하더라도, 구글 측은 자신의 소프트웨어로 협력 방안을 내놓을 것이다.

이런 유연성을 강점으로 구글은 점차 파트너십을 확대할 것으로 예상한다. 구글은 제조 회사와 하드웨어 기업의 정보들을 피드백 받아 AI 모델을 좀더 고도화시킬 수 있는 쪽으로 가고 있다. 이렇게 제미나이 로보틱스를 넓게 상용화하면 구글도 로봇시장 점유에 유력하지 않을까 싶다.

로봇용 앱 생길 가능성도

스마트폰이 등장한 후 스마트폰을 중심으로 사업이 재편됐다. 구글도 플랫폼 강자로 커왔다. 앞으로 휴머노이드 로봇에 본인들의 소프트웨어를 베이스로 제공하게 되면, 상상을 조금 보태보면, 개인용 로봇들에도 앱스토어 비슷한 것이 생길 수 있을 것이다.

예를 들어 특정 요리를 로봇이 수행할 수 있는 앱을 다운 받으면 로봇이 그 요리를 할 수 있게 되고, 호신술 앱을 다운 받으면 로봇이 집을 지킬 수 있다든가 하는 식이다. 구글은 그 플랫폼 시장의 점령을 목표로 하고 있는 것이 노골적으로 보인다.

로봇의 발전은 AI 발전과 분야가 같기에 항상 주목해 봐야 할 가치가 충분하다. 로봇으로는 안되던 것이 AI를 탑재함에 따라 되는 것이 점점 많아지고 있다. 이런 것들이 폭발하는 시대가 다가오고 있는 것이 피부로 느껴진다. 인류의 지성을 합친 것보다 더 뛰어난 초인공지능이 출현하는 시점인 특이점(singularity)이 기어이 올 것 같다.