구글, 돌고래 언어모델 AI '돌핀젬마' 공개

돌고래는 인간을 좋아한다(고 인간들은 생각한다). 그래서 인간들은 돌고래가 궁금하다. 제주 바다에서 떼지어 유영하는 돌고래 무리를 보며 그들이 내는 휘파람 소리가 무슨 뜻인지 알고 싶어진다. 돌고래의 커뮤니케이션, 그 답의 일부를 구글이 내놓았다. 돌고래 소리를 해독할 수 있는 AI를 발표한 것이다. 지난 14일 구글의 깜짝 발표를 통해 세상에 알려진 그 AI의 이름은 ‘돌핀젬마’(DolphinGemma)다.

언어 분석의 대상인 대서양점박이돌고래. /구글
언어 분석의 대상인 대서양점박이돌고래. /구글

40년 돌고래 연구기간과 협력

‘돌핀젬마’는 구글이 조지아공대, 그리고 야생 돌고래 프로젝트(Wild Dolphin Project:WDP)와 협력해서 진행한 연구의 결과다.

1985년 시작한 WDP는 돌고래만 연구하는 과학자들이 모인 단체다. 그들은 돌고래에 관한 연구를 40년간 해오면서 이미 수많은 데이터를 축적했다. 질적으로나 양적으로나 충분한 WDP의 데이터는 강력한 AI를 만드는 데 보장된 재료였다. 예를 들면 다른 종의 돌고래와 상호작용할 때 쓰이는 반복적인 음향신호, 아기 돌고래와 엄마 돌고래가 소통할 때 내는 음향신호 같은 수많은 소리 샘플들이 분류까지 된 상태로 있었다.

WDP는 돌고래들이 서로를 찾을 때 고유한 휘파람 소리가 있는 것을 발견했다. 그 휘파람의 뜻을 모르던 우리였지만 구글의 도움을 받아 돌고래 소리들을 AI로 분석하게 된 것이다. 이들은 돌고래가 내는 소리를 이미지 형태로 바꿔 분석한 후 AI에 학습시켰다. 이어 돌고래와 유사한 새로운 소리를 만들어 돌고래와 직접 소통하는 것도 개발 중이다.

구글 픽셀 9으로 물속 실험

돌핀젬마 시연 영상을 보면 구글의 스마트폰 픽셀 9이 탑재된 장비를 들고 물속에서 돌고래와 상호작용을 한다.

물속에서는 페이딩이라는 간섭에 의해 음성 커뮤니케이션이 잘 되지 않는다. 페이딩 현상은 물속에서 어떤 말을 하든 마치 가글하는 것처럼 제대로 들리지 않는 현상을 말한다. 이 페이딩 때문에 돌고래들은 초음파를 이용해 커뮤니케이션할 수 있도록 진화된 것이다.

물속에서는 모바일 통신도 지상보다 원활하지 못하다. 그래서 돌고래와의 대화를 위해서는 통신이 안되는 환경에서도 구동되는 AI가 있어야 하고, 그 AI를 담을 수 있는 장비가 필요하다. 이런 조건이어야 돌고래가 실시간으로 내뱉는 초음파를 해석하고, 우리의 의사도 역으로 돌고래에게 전달할 수 있는 것이다.

오프라인에서도 작동하는 소형 LLM, 즉 구글의 젬마는 돌고래와 대화하기에 최적의 조건을 가지고 있다. 그리고 젬마를 충분히 담을 수 있는 스마트폰인 구글의 픽셀 9이 있다. 모든 톱니바퀴가 잘 맞아떨어진 것이다.

어미 돌고래가 먹이를 찾는 새끼를 관찰하고 있다. 어미는 새끼가 먹이를 다 먹으면 특유의 휘슬을 불어 새끼를 다시 불러들인다(왼쪽) 이때의 휘슬을 시각화한 스펙트로그램(오른쪽). /구글
어미 돌고래가 먹이를 찾는 새끼를 관찰하고 있다. 어미는 새끼가 먹이를 다 먹으면 특유의 휘슬을 불어 새끼를 다시 불러들인다(왼쪽) 이때의 휘슬을 시각화한 스펙트로그램(오른쪽). /구글

초음파를 시각화→숫자화

돌고래가 내는 소리를 분석하는 데는 스펙트로그램을 사용한다. 시간에 따라 어떠한 주파수의 음이 크게 들렸는가를 분석해 시각적으로 표현된 것을 바로 해석하는 것이다. 사람의 귀로 들으면 1차원적이지만 시간에 따라 어떤 주파수에서 어떤 음이 들렸냐를 분석할 수 있다.

이것을 다시 언어 베이스로 바꾸는 작업은 사운드 토크나이저을 통해서 한다. 토큰은 AI 모델이 데이터를 이해하고 분석하는 데 사용하는 단위인데, 토크나이저는 소리를 이 토큰으로 환산해 주는 프로그램이다. 수많은 데이터가 쌓인 돌고래들의 음향 데이터를 토큰화 하는 것이다. 구글은 이미 4년 전에 이 음성 토크나이저에 대한 논문을 낸 바 있다. 구글은 놀이터를 찾지 못했을 뿐 모든 준비가 다 되어 있던 것이다.

돌고래 소리를 분석하는 것이 1단계라면 분석한 것을 숫자로 변형하는 것이 2단계다. 위에서 말한 스펙트로그램, 사운드 토크나이저 같은 것들을 극단적으로 요약하자면 ‘어떠한 것을 숫자화 시키는 것’이라고 보면 된다. 당장 우리가 알아듣기는 어렵겠지만 숫자로 표현하면 해석이 가능한다.

시간이 얼마나 걸리느냐의 문제지만 결국엔 특정한 시퀀스가 나올 것이다. 이렇게 해석된 시퀀스를 통해 향후 과학자들이 인공적인 소리를 만들어 돌고래들끼리 사용하는 소리로 특정 의미를 공유하고 단어를 만들어 전달할 수 있게 될 것이다.

돌고래와 소통할 제 3의 언어 창조

구글은 조지아공대와 함께 CHAT(Cetacean Hearing and Telemetry)라는 시스템도 개발했다. 목표는 돌고래의 복잡한 자연 언어를 직접 해독하는 건 어려우니 조금 더 간단하게 공유된 어휘를 구축한다는 것이다.

연구자는 CHAT 시스템을 이용해 자연적인 돌고래 소리와는 조금 다른 합성된 소리를 만들어 낸다. 이 합성 소리를 돌고래가 좋아하는 특정 물체, 예를 들어 해조류 같은 것들을 연관시킨 다음 돌고래들이 그 소리를 모방해 해당 물체를 요구하도록 유도한다는 것이다. 돌고래 조련이 아닌가 하는 개인적인 의구심도 있지만, CHAT 자체도 나름 20년이 넘은 연구라고 한다.

재미있는 주제와 기대되는 연구였지만, 결론부터 말하자면 아직은 갈 길이 멀다. 논문에서 읽어본 현재까지의 단계는 실시간 번역까지는 아니고, 단순히 소리의 패턴을 ‘토큰화 했다’까지다. 그리고 그것을 받쳐주는 디바이스인 구글의 픽셀 9 스마트폰이 소형 독립 LLM 젬마와 시너지를 일으켜 잘 작동했더라, 이런 이야기다. 픽셀 9이 NPU(인공지능 칩)을 탑재해 이런저런 연구들이 잘 되더라는 홍보효과와 함께 연구 진행 상황을 보여준 것이다.

아직 돌고래 휘파람의 뜻을 알 수 없다고 상심할 필요는 없다. 단지 빅데이터가 더 필요할 뿐 향후 동물들의 눈빛·행동·울음소리 등 데이터가 계속 쌓이면 돌고래뿐 아니라 다른 동물들과의 커뮤니케이션도 가능한 날이 올 것이다.

구글은 "우리는 단순히 돌고래 소리를 듣기만 하는 데 그치지 않는다"며 "앞으로 인간과 돌고래가 의사소통을 할 수 있을 것"이라고 자신만만하다. 구글은 올해 여름 돌핀젬마 모델을 오픈소스로 공개할 예정이다.

구글의 돌핀젬마가 탑재된 픽셀9을 이용한 수중 분석 장비. /구글
구글의 돌핀젬마가 탑재된 픽셀9을 이용한 수중 분석 장비. /구글

구글 AI가 다른 기업과 다른 이유

이번 발표는 AI에 관한 한 구글만한 최강자가 없다는 것을 보여주는 듯했다. 접근 방식 자체도 일반적이지 않다. 구글은 다른 기업들이 하지 못하는 새로운 접근을 통해 창의적으로 발전하고 있는 것으로 보인다.

엔지니어들에게 필요한 것이 단지 공학만이 아니라는 것을 구글은 알고 있는 것 같다. 인문학적 소양을 기반으로 철학적으로 접근하고 연구하는 것에 대한 중요성을 알고 있는 것이다.

딥러닝 모델인 트랜스포머라는 것도 구글이 가장 먼저 발견했고, 어텐션이라는 개념도 구글에서 나온 것이다. 구글이 꾸준히 오래전부터 이런 것들에 대한 지원을 계속하는 것을 보면 엉뚱하지만 진보된 마인드를 볼 수 있다. 여러 학문들이 서로 엮이면서 더 많은 창의성이 발현된다는 것을 아는 것이다. 이런 구글의 정신은 엔지니어로서 부러운 부분이다.

결국 구글이 인류 미래의 한 부분을 이끌고 있다고 해도 과언이 아니다. AI와 공존할 미래 사회에 구글이 선한 영향력을 꾸준히 비추는 등대가 됐으면 하는 바람이다.

저작권자 © 자유일보 무단전재 및 재배포 금지