인공지능(AI) 산업은 폭발적인 성장 이면에 ‘엔시티피케이션’(Enshittification)과 ‘데이터 고갈’이라는 두 가지 중대한 위기에 직면해 있다.
AI 모델의 성능을 기하급수적으로 향상하는 데 필요한 고품질 데이터가 수년 내에 고갈될 것이라는 예측이 지배적이고, 이는 AI 발전의 근본적인 한계로 작용할 수 있다. AI 기술, 특히 거대언어모델(LLM)의 발전 속도가 인류가 생성하는 데이터의 증가 속도를 추월하면서 ‘데이터 절벽’도 가시화되고 있다.
AI 연구기관 에포크 AI는 현재 추세가 계속될 경우, AI 학습에 필수적인 고품질 공개 텍스트 데이터가 2026년에서 2032년 사이에 완전히 소진될 것으로 예측했다. 특히, 모델 성능 극대화를 위해 데이터를 반복 학습하는 ‘과잉 훈련’(Over training)을 고려하면 데이터 고갈 시점은 2026년, 혹은 그 이전으로 앞당겨질 수도 있다고 한다.
실제로 AI 모델이 소모하는 데이터의 양은 폭발적으로 증가했다. 2020년 오픈AI의 GPT3는 약 3000억 개의 토큰을 학습했지만, 2023년 GPT4는 12조 개, 2024년 메타의 라마3는 15조 개가 넘는 토큰을 학습한 것으로 추정된다. 불과 4년 만에 학습 데이터양이 50배나 증가한 것이다. 반면, AI 훈련에 사용할 수 있는 고품질 언어 데이터의 연간 증가율은 7%에 그쳐 수요와 공급의 불균형이 심화하고 있다.
고품질 데이터의 희소성과 편중 문제는 단순히 데이터의 양이 아니라 ‘질’에 있다. AI 모델의 성능을 결정하는 것은 철자나 문법 오류가 없고, 편향되지 않았으며, 풍부한 표현을 담은 고품질 데이터다. 그러나 인터넷에 존재하는 방대한 정보 중 고품질 데이터는 10% 미만에 불과하다. 대부분의 데이터는 소셜 미디어 게시물이나 저화질 이미지처럼 AI 학습에 부적합하거나, 오히려 편견이나 허위 정보를 학습시킬 위험이 있는 저품질 데이터다.
이러한 데이터 부족 현상은 영어가 아닌 다른 언어권에서 더욱 심각하게 나타난다. 특히 한국어 경우, 사용자 인구가 적어 확보 가능한 데이터의 총량 자체가 절대적으로 부족하다. 국내 주요 기업들의 데이터를 모두 합쳐도 글로벌 빅테크 기업의 6~7% 수준에 불과한 형편이다. 이에 따라 국내 AI 기업들은 학습 데이터 확보에 막대한 비용을 지출하거나, 해외 데이터를 구매해 여러 차례 번역하는 비효율을 감수하고 있다.
엔시티피케이션은 캐나다의 작가 코리 닥터로우(Cory Doctorow)가 2022년에 만든 신조어로, 온라인 플랫폼이나 서비스가 시간이 지남에 따라 점차 품질이 저하되는 현상을 의미한다. 엔시티피케이션의 근본 원인은 네트워크 효과가 강한 산업의 본질적인 속성과 관련이 있다.
초기엔 사용자를 모으기 위해 품질에 투자하지만, 일단 시장 지배력을 확보하면 경쟁의 압력이 사라지므로 주주 이익 극대화를 위해 사용자 가치를 희생시킨다. 결국 규제 부재의 독점 구조가 플랫폼이 품질 개선 경쟁 없이도 사용자를 묶어둘 수 있게 만드는 핵심 요인이다.
데이터 고갈과 엔시티피케이션은 서로를 악화시키는 악순환 관계에 있다. 엔시티피케이션은 고품질 데이터의 공급을 막고, 데이터 고갈은 AI를 통한 저품질 콘텐츠 생산을 부추겨 엔시티피케이션을 심화시킨다. AI가 학습할 데이터의 품질이 저하되면, 결과적으로 AI 모델의 성능과 신뢰성도 함께 떨어질 수밖에 없다. 현재 기술 수준에서 AI가 생성하는 콘텐츠는 종종 부정확하거나 편향된 정보를 포함하며, 인간이 만든 고품질 콘텐츠를 대체하기 어렵다.
데이터 고갈에 대한 불안감은 일단 모든 데이터를 저장하고 보자는 ‘저장 우선’ 접근 방식을 취하게 만든다. 이에 따라 수집 후 전혀 사용되지 않는 ‘다크 데이터’(dark data)가 기하급수적으로 증가하고 있다.
이제 기존 데이터를 최대한 효율적으로 활용하는 ‘데이터 정제 기술의 개발’과 독점을 해소하고 건전한 경쟁을 촉진해 플랫폼의 품질을 회복시키는 근본적인 해결책 모색이 시급하다.
