구글이 이끄는 'AI 혁신'

지난 20일 미국 캘리포니아주 마운틴뷰에서 2025 구글 I/O 발표가 있었다. 구글 I/O(Google I/O)는 한 해 한 번 개최하는 개발자 지향 콘퍼런스다. 이 날 발표 이전과 이후가 다르다고 할 정도로 엄청난 임팩트와 혁신, 비전이 소개됐다. 매번 무슨 발표마다 혁신이다, 이번엔 다르다 하니 호들갑으로 느낄 수도 있다. 그런데 현재 인류가 그런 시대에 살고 있다. 하루가 한 달이고 일주일이 1년처럼, AI 발전속도는 따라잡기가 벅차고 가속도까지 붙고 있다. 오늘 자고 일어나면 어제와 확연히 다른 내일을 맞이하는 그런 AI 시대이다.

20일 미국 실리콘밸리에서 열린 구글 ‘I/O 2025’에서 순다 피차이 구글 CEO가 기조연설을 하고 있다. /AP=연합
20일 미국 실리콘밸리에서 열린 구글 ‘I/O 2025’에서 순다 피차이 구글 CEO가 기조연설을 하고 있다. /AP=연합

소리도 생성하는 영상 생성 모델 Veo 3

이번 발표에서 가장 많은 관심이 집중된 것은 영상 생성 모델 Veo 3이다. 이전 AI 영상 제작은 영상을 만들고 음향을 따로 제작한 후 립싱크 모델을 통해 억지로 영상에 입히는 최소 3단계를 거쳤다. Veo 3를 이용하면 한 번에 가능하다. 마우스 딸깍 한 번에 소리까지 포함된 완전한 영상이 나온다.

무엇보다 AI 영상 특유의 ‘불쾌한 골짜기’가 사라졌다. 현실과는 미묘하게 다른 물리 효과 때문에 인간이 느끼던 불쾌한 골짜기를 정복한 것이다. 진흙탕 위를 달리는 트럭 영상을 보면 물이 튀기는 방향과 트럭 자체의 무게감 등 현실과 구분이 힘들어졌다.

AI 영상 편집 도구 플로(Flow)와 네이티브 보이스 음성 생성기도 같이 묶어 발표했다. 플로를 통해서는 완성된 영상에서 마음에 들지 않는 부분을 정확히 짚어 수정이 가능하다. 네이티브 보이스는 AI가 말하는 것인지 사람이 말하는 것인지 구분이 가지 않을 정도로 정교해졌다.

뭐든 척척, AI 비서 아스트라

작년에 발표했던 AI 비서 아스트라가 어느 정도까지 진화했는가에 대한 데모 영상도 공개됐다. 필자는 1분55초짜리 이 영상에 가장 열광했다.

한 남성이 자전거를 고치는 데 아스트라의 도움을 받는다. 남자는 아스트라에게 자전거 브랜드 모델을 불러주며, 온라인에서 해당 모델의 사용자 매뉴얼을 찾아달라고 한다. 이에 아스트라는 찾았다고 말하고 무얼 원하냐고 묻는다. 남자는 브레이크 부분을 찾아 스크롤을 내려달라고 한다. 그러자 실시간으로 화면에 해당 자전거의 매뉴얼이 스크롤링 되면서 해당 페이지를 검색한다. 제품 설명서를 다운받는 것에서 그치지 않고 직접 스크롤을 탐색해 필요한 부분을 찾아준다.

이어 남성이 브레이크 고치는 영상을 틀어달라고 하자, 아스트라는 유튜브를 열고 수리 영상까지 재생해 준다. 남자는 필요한 부품이 무엇인지 물어본 후 가까운 자전거 가게에 전화해 재고를 확인해 달라고 명령한다. 아스트라는 전화를 해서 주문까지 해준다.

아스트라는 조건에 맞는 집 찾기 같은 작업도 깔끔하게 수행한다. 예를 들면 ‘부동산 관련 정보가 올라오는 XX사이트에서 우리 임대 계약이 끝날 때까지 매주 새로운 집을 찾아줘, 나 포함 두 명이 함께 살 예정이고, 예산은 보증금 3000만 원 이하 월세 70만 원 이하, 세탁기와 에어컨은 있어야 하고 도보 몇 분 거리에 지하철역이 있어야 해’ 같은 명령을 해두면 원하는 조건을 만족하는 부동산을 실시간으로 새로 올라올 때마다 알려준다.

구글 I/O 2025에 참가자들이 AI를 이용한 검색을 해보고 있다. /AP=연합
구글 I/O 2025에 참가자들이 AI를 이용한 검색을 해보고 있다. /AP=연합

수학·과학의 ‘왕’ 제미나이 2.5 프로

제미나이 2.5 프로에서는 딥싱크(Deep Think)라는 새로운 모델을 공개했다. 그 모델은 수학 분야와 코딩 그리고 멀티모달리티 분야에서 역대 최고 점수를 찍으면서 누가 왕인지 서열 정리를 해버렸다. 복잡한 문제 해결을 위한 강화된 사고력을 제공하며, 수학 및 과학 분야의 주요 벤치마크에서 경쟁 모델보다 우수한 성과를 보였다. 값비싼 프로 모델 말고 가성비 좋은 플래시(Flash) 모델도 공개했는데, 성능은 기존 AI들보다 높으면서도 훨씬 저렴해 경쟁력을 충분히 갖췄다.

새 언어 모델 제미나이 디퓨전(Diffusion)도 같이 공개했다. 전체 텍스트를 한 번에 생성하고 조금씩 고치는 방법을 사용하고 있는데, 성능도 괜찮고 무엇보다 속도가 어마무시하다. 역대급으로 빠르다. 구글 I/O에서 디퓨전을 시연하면서 사람들이 데모 작동을 미처 볼 수 없어 속도를 늦춰야 할 정도였다.

코딩 무식자도 프로그램 제작

코딩을 모르는 사람들도 프로그램을 만들 수 있다. 구글이 발표한 AI 모델 스티치(Stitch)는 순식간에 디자인과 UI를 제작한다. 웹 페이지든 모바일 페이지든 명령어 한 줄로 결과물이 나온다. 결과물도 매우 다양하다. 이제는 디자이너도 필요가 없게 된 것이다.

제미나이 2.5 프로 기반의 AI 코딩 에이전트 줄스(Jules)도 같이 공개했는데, 공학도로서 공부했던 내 자신의 지나간 시간이 아깝다는 생각이 들 정도였다. 직관적이고 단순해서 일반인도 충분히 사용할 수 있고 성능도 훌륭하다. 테스팅 툴은 물론 디버그와 코딩 최적화까지 해주어, 이제는 엔지니어들의 피와 눈물로 프로그램이 만들어지는 것은 옛말이 되고 있다.

구글이 삼성과 협업해 만들어낸 XR 글래스.

내가 쓴 것처럼 이메일 답장

구글의 메인 기능인 검색에도 AI를 적극 도입했다. AI가 결과를 내주는 퍼플렉시티(Perplexity: AI 기반 연구 및 대화형 검색 엔진) 같은 도구를 적용한 것이다. 대화하듯 긴 의문형 문장을 넣어도 상세하게 검색해 기존의 다른 모델보다 2~3배 더 디테일한 결과를 내준다.

화상회의 도구인 구글 미트(Google Meet)에는 실시간 번역 기능이 생겼다. 자막이 아니라 동시 통역 수준의 음성 통역 서비스를 제공한다. 네이티브 보이스 음성 기능을 적용해 매우 자연스럽고 사람이 실시간으로 통역하는 퀄리티이다. 이제는 통역사라는 것이 점점 필요 없어지는 시대가 다가오고 있는 것이 실감됐다.

위의 새 모델들은 얼핏 일반인들과는 그리 상관없어 보일 수 있겠다. 그렇지만 전 세계적으로 사용자가 많은 이메일인 지메일(Gmail)이라면 얘기가 다르다. 사용자가 실제로 체감할 수 있는 기능들이 추가됐다.

개인용 스마트 답장 기능이 추가됐는데, 제미나이가 여러 구글 앱의 세부 정보를 가져와 작성자 본인의 필체에 맞는 방식으로 글을 쓴다. 이메일, 구글 시트, 드라이브 등 사용자의 정보들을 종합해 말투나 성향을 카피, 본인이 직접 답장하는 것처럼 하는 기능이다.

삼성과 협업 안드로이드 XR 글래스

XR 글래스에 대해서는 현실화가 아직 멀지 않았나 라는 칼럼을 쓴 것이 불과 몇 달 전이다. 이걸 구글이 해냈다. 겉보기엔 일반 안경과 비슷하다. 하지만 제미나이가 동작할 수 있게 카메라와 스피커, 배터리가 모두 안에 들어가 있는데도 엄청 가볍다.

직접 착용해 보면 6시 방향에 작게 현재 시간과 온도가 표기된다. 네비게이션 UI도 지원하고 현재 화면에 보이는 것의 정보를 검색해 띄워주는 등 필자가 아직은 불가능할 것이라고 생각한 모든 기능들이 구현돼 있다.

구글의 발표 전후로 AI가 달라졌다는 말은 절대 허언도 호들갑도 아니다. 하지만 가장 염려되는 것은 이런 좋은 기술들이 좋은 곳에만 쓰였으면 하는 것이다. 

저작권자 © 자유일보 무단전재 및 재배포 금지