중국 인공지능(AI) 기업인 문샷AI가 최근 대형언어모델(LLM) ‘키미 K2 씽킹’을 선보였다. 이 모델의 훈련비용은 오픈AI와 비교할 수 없을 정도로 적지만, 세계 최고 수준의 성능을 보여 지난 1월 ‘딥시크’에 이어 글로벌AI업계에 충격을 주고 있다. /연합

중국이 ‘딥시크’에 이어 ‘키미 K2 씽킹’을 내놓으면서 글로벌 인공지능(AI) 업계의 주목을 끌고 있다. 알리바바와 텐센트가 투자한 중국 인공지능(AI) 기업 문샷AI가 최근 선보인 오픈소스 대형언어모델(LLM) ‘키미 K2 씽킹(Kimi-K2-Thinking)’은 공개 직후 주요 국제 벤치마크에서 챗GPT 5.0과 앤트로픽의 ‘클로드 소네트 4.5’를 잇따라 제쳤다. 특히 ‘키미 K2 씽킹’은 성능뿐만 아니라 모델 훈련비가 올해 초 ‘딥시크(V3)’를 공개하며 시장을 뒤흔든 딥시크보다도 낮아 저비용·고효율 모델 가능성을 키우고 있기 때문이다.

문샷AI는 지난 6일 홈페이지를 통해 키미 K2 씽킹을 공식 공개했다. 지난 7월 ‘키미 K2’를 발표한 뒤 넉 달 만에 업그레이드 버전을 다시 내놓은 것으로, 문샷AI가 지난해부터 강조해온 ‘효율 최적화 모델’ 전략이 본격적으로 속도를 내는 모습이다. 국내 이용자도 키미 사이트에 접속하면 곧바로 사용해볼 수 있다. 대화형 모델 기반이라 챗GPT와 사용 방식은 비슷하며 한국어 처리에 불편이 없다.

공개된 성능 지표를 보면 상승 폭은 더 눈에 띈다. 다양한 분야의 추론·창의적 사고 능력을 평가하는 HLE 테스트에서 ‘키미 K2 씽킹’은 ‘도구 사용 모드’ 기준 44.9점을 기록했다. 같은 조건에서 챗GPT 5.0은 41.7점, 클로드 소네트 4.5는 32.0점, 딥시크 V3.2는 20.3점이었다. 웹 검색 능력을 평가하는 ‘브라우즈콤프’에서도 K2 씽킹은 60.2점으로 챗GPT 5.0(54.9점)과 클로드 소네트 4.5(24.1점)를 앞섰다. 최신 정보를 얼마나 잘 수집하는지를 평가하는 ‘Seal-0’ 테스트에서도 두 모델보다 높은 점수를 기록했다고 문샷AI는 밝혔다.

다만 코딩 능력을 평가하는 SWE 벤치마크에서는 여전히 챗GPT 5.0과 클로드 소네트 4.5에 못 미치는 점수를 받았다. 기술 업계에서도 "추론과 검색에 최적화된 모델"이라는 평가와 함께 "범용성 면에서는 아직 판단을 더 유보해야 한다"는 신중론이 병존한다.

문샷AI의 훈련비용이 화제를 모은다. CNBC는 소식통을 인용해 키미 K2 씽킹의 훈련 비용이 460만 달러(약 67억 원) 수준이라고 전했다. 이는 수십억 달러 규모로 추정되는 오픈AI의 모델 훈련 비용은 물론 딥시크가 밝힌 560만 달러보다도 적은 금액이다. 다만 전문가들은 "해당 비용이 전체 연구개발비인지 특정 학습 라운드 비용인지 명확하지 않다"며 "훈련비만 놓고 모델 효율성을 단정하기는 어렵다"고 지적한다. 그럼에도 업계에서는 키미 K2 씽킹이 제시한 ‘성능 대비 효율’이라는 메시지에 주목하는 분위기다. 중국 AI의 약진이 다시 한번 확인됐다는 해석이 나온다.

반면 일부에서는 "벤치마크 성능이 실제 사용자 만족도나 서비스 품질과 반드시 비례하는 것은 아니다"라며 "K2 씽킹이 글로벌 AI 지형을 바꿀 모델인지 판단하려면 시간이 더 필요하다"고 평가했다.

저작권자 © 자유일보 무단전재 및 재배포 금지