제2의 딥시크될까...중국 AI ‘키미 K2 씽킹’ 주목

2025-11-19     양철승 기자
알리바바와 텐센트가 투자한 중국 AI 기업 문샷AI가 최근 내놓은 오픈소스 대형언어모델(LLM) ‘키미 K2 씽킹(Kimi-K2-Thinking)’이 글로벌 업계의 시선을 끌고 있다. /홈페이지 캡처

중국 인공지능(AI) 기업 문샷AI가 공개한 오픈소스 대형언어모델(LLM) ‘키미 K2 씽킹(Kimi-K2-Thinking)’이 글로벌 벤치마크에서 챗GPT 5.0을 잇달아 앞서며 업계의 주목을 받고 있다. 공개 직후 ‘제2의 딥시크’, ‘저비용·고성능 LLM의 재부상’이라는 평가가 나오며 미국의 GPU 제재 속에서도 중국 AI 기술력이 가파르게 성장하다는 분석이 나온다.

문샷AI는 지난 6일 홈페이지를 통해 키미 K2 씽킹을 공식 공개했다. 지난 7월 ‘키미 K2’를 발표한 뒤 넉 달 만에 업그레이드 버전을 다시 내놓은 것으로, 문샷AI가 지난해부터 강조해온 ‘효율 최적화 모델’ 전략이 본격적으로 속도를 내는 모습이다.

국내 이용자도 키미 사이트에 접속하면 곧바로 사용해볼 수 있다. 대화형 모델 기반이라 챗GPT와 사용 방식은 비슷하며 한국어 처리에서도 큰 불편은 없는 것으로 보인다.

공개된 성능 지표를 보면 상승 폭은 더 눈에 띈다. 다양한 분야의 추론·창의적 사고 능력을 평가하는 HLE 테스트에서 ‘키미 K2 씽킹’은 ‘도구 사용 모드’ 기준 44.9점을 기록했다. 같은 조건에서 챗GPT 5.0은 41.7점, 클로드 소네트 4.5는 32.0점, 딥시크 V3.2는 20.3점이었다.

웹 검색 능력을 평가하는 ‘브라우즈콤프’에서도 K2 씽킹은 60.2점으로 챗GPT 5.0(54.9점)과 클로드 소네트 4.5(24.1점)를 앞섰다. 최신 정보를 얼마나 잘 수집하는지를 평가하는 ‘Seal-0’ 테스트 역시 두 모델보다 높은 점수를 기록했다고 문샷AI는 밝혔다.

다만 모든 영역에서 우위에 선 것은 아니다. 코딩 능력을 평가하는 SWE 벤치마크에서는 여전히 챗GPT 5.0과 클로드 소네트 4.5에 못 미치는 점수를 받았다. 기술 업계에서도 ‘추론과 검색에 최적화된 모델’이라는 평가와 함께 범용성 면에서는 아직 판단을 더 유보해야 한다는 신중론이 병존한다.

문샷AI의 훈련비용도 화제를 모았다. CNBC는 소식통을 인용해 키미 K2 씽킹의 훈련 비용이 460만달러(약 67억 원) 수준이라고 전했다. 이는 수십억달러 규모로 추정되는 오픈AI의 모델 훈련 비용은 물론 딥시크가 밝힌 560만달러보다도 적은 금액이다.

다만 전문가들은 "해당 비용이 전체 연구개발비인지 특정 학습 라운드 비용인지 명확하지 않다"며 "훈련비만 놓고 모델 효율성을 단정하기는 어렵다"고 지적한다.

그럼에도 업계에서는 키미 K2 씽킹이 제시한 ‘성능 대비 효율’이라는 메시지에 주목하는 분위기다. 중국 AI의 약진이 다시 한번 확인됐다는 해석도 있다.

반면 일부에서는 벤치마크 성능이 실제 사용자 만족도나 서비스 품질과 반드시 비례하는 것은 아니라며 K2 씽킹이 글로벌 AI 지형을 바꿀 모델인지 판단하려면 시간이 더 필요하다고 평가했다.