테슬라 '인간형 로봇' 진화
2021년 테슬라 행사에서였다. 옵티머스 휴머노이드 로봇을 만들었다며 사람이 슈트를 입고 우스꽝스러운 춤을 추던 장면을 기억하는 사람들이 있을 것이다. 그때만 해도 모두 비웃고 비판하기 바빴다. 그러나 이후 불과 몇 년 만인 지난 14일 X(옛 트위터) 테슬라 계정으로 그 옵티머스가 진짜 춤추는 42초 분량의 영상이 공개됐다. 영상을 직접 본 소감으로는 ‘벌써 이렇게 되는구나, 너무 빠른 것 아닌가?’ 싶을 정도로 놀라웠다.
발레에서부터 셔플 댄스까지
영상에서 옵티머스는 처음엔 고풍스러운 발레처럼 우아한 춤을 추다가 음악의 변화에 맞춰 셔플댄스를 췄다. 부드러운 움직임과 과격한 움직임을 동시에 보여주기 좋은 춤으로 고른 듯했다. 제자리에서 앞으로 가지도 않고 무게중심을 이동하는 장면은 장관이었다.
미국 일렉트로니카 힙합 듀오인 LMFAO의 셔플댄스 뮤직비디오에 나오는 안무와 비교해도 나쁘지 않은 수준이었다. 그 다음으로는 허우적거리는 듯한 이상한 춤을 춘다. 어디서 본 듯 낯익다 싶었는데, 일론 머스크가 기분 좋을 때 추던 정체불명의 그 춤이었다.
불과 몇 달 전 X에서 테슬라가 공개한 16초의 짧은 영상이 있었다. 바로 지금 춤추는 로봇과 동일한 옵티머스가 테니스공을 자연스럽게 낚아채는 장면이었다. 그때도 놀라운 기술력에 해당 영상을 주제로 칼럼을 쓴 바 있다. 그런데 공을 낚아챈 지 불과 5개월 만에 이제는 춤까지 춘다.
대부분의 사람들은 그까짓 공 잡고 춤추는 게 뭔 대수냐 할 것이다. 그리 호들갑 떨 일인가 할 것이다. 영상으로만 볼 수 있기 때문에 충분히 그런 생각을 할 만하다.
하지만 깊게 보면 이번 테슬라 로봇이 보여준 행동은 다른 로봇들과 격이 다르다. 예전 로봇들은 엔지니어들이 달라붙어서 밤새 머리 싸매고, 오른팔은 30도 움직이고 동시에 왼다리는 좌로 15도 움직이고 각각 속도는 초당 0.2m와 0.5로 움직이며… 이런 식으로 일일이 코딩해서 나온 결과물이다.
엔지니어들이 미리 많은 시행착오를 겪은 후 완성된 코딩을 재생하면 그저 시키는 대로 움직이기만 하는 깡통이 예전 로봇들이었다. 그래서 단순히 로봇이 경례하고 인사하는 것을 봐도 공학도들은 그 뒤에 얼마나 많은 노력이 있었는지 알아보며 박수 치고 경의를 표했던 것이다.
가상현실 공간에서 시뮬레이션 학습
그런데 옵티머스는 자율성과 학습 능력에 있어서 독보적인 발전을 보여줬다. 테슬라 옵티머스 엔지니어링의 수석인 밀란 코박(Milan Kovac)은 해당 춤추는 영상에 대해 본인의 X에 부연 설명을 했다.
첫 번째로 이 영상은 전부 실시간이고 CG가 아니라는 것이다. 미리 짠 코딩을 따라 하는 것이 아니다. 두 번째로 시뮬레이션에서 학습해 현실로 ‘제로 샷(zero-shot) 이전’을 했다는 것이다. 이것이 이번 영상의 핵심이다. 춤을 추길래 필자도 처음에는 이 정도는 누구나 할 수 있겠다 여겼는데, 코박의 부가 설명을 보고 생각이 바뀔 수밖에 없었다.
로봇의 움직임 훈련 방법은 계속 진화하고 있지만, 처음에는 엔지니어들의 엄청난 수작업을 통해 진행됐다. 비교적 최근에는 ‘원격조정 모방학습’이 이뤄졌다. 사람이 움직임을 감지하는 모션 캡처 슈트 같은 것을 입고 직접 움직이며 로봇에게 그 움직임을 학습시켰다.
그런데 이제는 가상현실에 운동장처럼 활동하기 좋은 공간을 만들고, 그 안에 옵티머스 수십 수백만 대를 풀어놓는다. 그리고는 A라는 움직임을 주고, 너희들끼리 A를 완벽하고 최적으로 구현할 수 있도록 알아서 마스터해, 이렇게 명령을 내리면 끝이다. 이게 바로 시뮬레이션 학습이다. 상당히 비인륜적지만 효과적이며 효율적이다. 하기야 로봇이니 인륜적일 필요도 없다.
현실 격차 삭제, 가상현실 그대로
이 영상의 핵심인 ‘제로 샷 이전’은 훈련에서 겪어보지 못한 객체·행동·환경 패턴을 추가 학습 없이 동적으로 인식하고 대응하는 능력이라고 보면 된다.
시뮬레이션 학습을 통해 완벽하게 마스터했다 하더라도, 가상현실의 물리법칙이 아무리 완벽하다고 해도, 현실에 나오면 미묘한 차이 때문에 버벅대는 현상들이 있다. 이것을 현실 격차(reality gap, 리얼리티 갭)라고 한다.
현실에서의 변수는 주로 바닥 재질이 달라서 미세하게 다른 마찰력, 부품 무게의 오차 그리고 중력 변화와 센서 노이즈 등 시뮬레이션 상에서 예상치 못한 작은 변수들 때문에 생겨난다. 그래서 시뮬레이션에서 학습한 대로 움직이지 못하는 경우가 태반이었다.
하지만 테슬라는 현실 격차를 아예 삭제시켜 버렸다. 가상현실에서 추던 그 어렵고 복잡한 춤을 현실에서 거의 오차 없이 그대로 한 번의 시도만에 해낸 것이다.
물론 이러한 시도는 다른 회사들에서도 계속 해오고 있다. 엔비디아 영상을 보면 여러 기업들이 시뮬레이션 학습한 것을 현실의 로봇으로 옮기는 작업을 꾸준히 하고 있다. 그런데 그들이 하는 건 기껏해야 물건 하나 들어 옮기기나 걷기 정도 수준이었다. 반면 테슬라는 현란하고 복잡한 춤사위를 그것도 제로 샷으로 현실에 때려박았다. 차원이 다른 것이다.
도메인 무작위화로 극한 상황에도 대처
심지어 이것이 끝이 아니다. ‘도메인 무작위화’ 기술이 들어갔다고 한다. 최대한 간단하게 설명하자면, 테슬라가 자율주행 훈련을 할 때 항상 맑은 날 정돈된 아스팔트 위만 달리는 것이 아닌 것은 당연하다. 갑자기 비가 오기도 하고 눈보라가 치기도 하고 안개가 끼기도 하고 길이 울퉁불퉁 비포장도로일 수도 있다. 이처럼 극한의 예측 불가능한 상황을 다 넣고 학습시키는 것이 도메인 무작위화이다.
이렇게 함으로써 로봇이 예측 불가능한 상황에 처해도 현실 격차 때문에 당황하는 것이 아니라 자연스럽고 유연하게 대처하는 능력이 생긴다. 시뮬레이션 안에서 깔끔한 바닥뿐 아니라 비포장도로와 얼음판, 비가 퍼붓고 천둥 번개가 치는 열악한 상황에서 춤을 추다 왔으니 현실의 웬만한 오차는 여유롭게 대처하게 된다.
그래서 테슬라가 단순히 로봇 춤추는 거 자랑하려고 영상을 올린 것인가? 당연히 아니다. 진짜 테슬라의 프리젠테이션은, 이렇게 어려운 춤동작까지 완벽하게 해낸다는 건 바로 ‘전이학습’이 가능하다는 걸 보여준 것이다. 단순히 춤을 추는 게 목적이 아니다. 춤을 추면서 학습한 정교한 균형 감각이나 부드러운 움직임, 주변 환경에 대한 인식 및 대응능력을 보여준 다.
이렇게 어려운 동작을 한다는 건 공장에서 물건 나르고 조립하고 선반에 물건을 정리하고 계단을 오르내리는 등, 인간이 하는 거의 모든 육체 노동을 훈련시켜 쉽게 적응할 수 있게 되는 것이다. 춤 하나 마스터 했더니 갑자기 온갖 잡무를 다 할 수 있게 되는 일이 벌어지는 것이다.
중국 춤추는 로봇과는 격이 달라
요새 중국 유튜브를 보면 로봇이 춤추는 건 당연하고, 공중제비나 백플립 같은 화려한 동작과 무술동작도 하고 로봇 배틀도 한다. 그러면 중국이 더 대단한 것 아니냐 생각할 수도 있다.
사람의 눈길을 휘어잡는 대단한 퍼포먼스인 것은 인정한다. 하지만 알고 보면 속 빈 강정이다. 대부분 사람이 뒤에서 원격 조정한 것이거나, 특정 동작 하나만 수천 수만 번 학습시켜서 제일 잘 나온 베스트 컷 하나를 보여주는 경우가 대부분이다.
테슬라처럼 AI가 시뮬레이션에서 스스로 학습하고 자율적으로 구현한 것과는 근본적으로 기술의 결이 다르다. AI 기술력의 급 자체가 다른 것이다. 솔직히 이 정도로 차이날 줄 몰랐는데, 테슬라는 소프트웨어 두뇌에서는 확실히 세계의 선두주자 자리에 있는 것 같다. 아무래도 여태까지 해온 자율주행의 노하우가 그대로 녹아나는 것 같다.
확실한 것은 테슬라에서 제안한 옵티머스(대당 5000만 원)는 인간의 단순노동을 당장에라도 대체할 수 있다는 것이다. 기술적으로도 경제적으로도 충분하다. 로봇은 인간과 다르게 5000만 원 한 번만 투자하면, 식사 시간도 쉬는 시간도 파업도 휴가도 없이 24시간 365일 몇 년이고 군말없이 일할 것이다.
머스크의 계획은 이 로봇을 대량 생산해 2000만 원까지 가격을 낮춰 가정에도 보급한다는 것이다. 이래서 테슬라를 자동차 기업이 아닌 AI나 로봇 기업이라고 하는 것이다.
