뇌졸중 진단, 의사 평균 오진율 9% VS '닥터 AI' 정확도 93%
AI가 의사 대신할까
AI 기술이 날로 발전하면서 점점 이 기술을 의료에 접목하는 분야가 많아지고 있다. 하지만 여전히 사람들은 인공지능을 이용한 진단에 위화감을 느끼며 불안해하고 있다. 사실 사람보다 AI로 금방 대체될 것으로 거론됐던 직업 중 상위권에 속한 직업이 예상외로 의사다. 의사의 가장 커다란 무기는 경험에서 오는 빅데이터이기 때문이다. 빅에이터 면에서 의사는 결코 AI를 이길 수 없다. 인간은 죽었다 깨어나도 인공지능의 학습 능력을 따라갈 수 없다. 또한 열에 아홉의 의료사고는 휴먼 에러에서 나온다.
의사와 AI 뇌졸중 진단
어느 날 갑자기 자신이 뇌졸중으로 쓰러졌다고 해보자. 뇌혈관이 막히거나 출혈이 생겨 산소와 포도당이 뇌로 공급되지 않는 상태를 뇌졸중이라 한다. 인간의 뇌에는 약 1000억 개의 뇌세포가 있는데, 1분마다 190만 개의 뇌세포가 손실되며 한 시간이 지날 때마다 뇌는 3.6년의 노화를 겪는다. 전 세계적으로는 2초, 우리나라에서는 20분에 한 명씩 뇌졸중으로 쓰러지고 있다. 그만큼 뇌졸중은 무섭고도 흔한 질병이다.
뇌졸중 환자가 병원에 도착했을 때, 의사는 선택을 해야 된다. 혈전용해제라는 약을 투여해야 되나 하지 말아야 하나. 이 혈전용해제는 4.5시간 이내에만 효과적이고 부작용이 적다고 한다. 그래서 쓰러진 정확한 시간을 알 수 없을 때는 전적으로 의사의 경험과 진단에만 의존해 결정해야 하는 상황이 오는 것이다. 의사는 환자의 언어 장애나 팔다리 마비 등이 발생한 시간과 뇌 촬영 영상 등을 바탕으로 추정 진단을 내릴 수밖에 없다.
숙달된 의사는 높은 정확도로 진단할 것이지만, 안타깝게도 모든 경우가 그렇지가 못하다. 존스홉킨스 대학에 따르면 뇌졸중의 평균 오진율은 9%에 달한다. 흔한 질병인 뇌졸중 환자 10명 중 1명은 오진일 수도 있다는 소리다. 숙련된 의료 인력이 부족한 지역에서는 이런 문제가 더욱 커질 수밖에 없다.
이에 비해 현재 뇌경색 발병 시간 추정 소프트웨어의 정확도는 93%에 도달했다고 한다. 의사들의 오진률이 9%라고 하면 충분히 숙련된 의사 몫을 비슷하게 한다는 것이다.
의료계에서 활약중인 AI
예로 든 것은 뇌졸중 한 가지였지만, 우리가 겪을 수 있는 많은 질환에서 나타날 수 있는 문제다. 지금까지는 윤리적인 문제와 정치적인 문제 등으로 AI가 의료계에 직접적으로 영향을 주는 것에 대해 꺼려하는 분위기였다. 하지만 이제는 SF영화 속 기계닥터, 자동치료장치 등이 더이상 꿈 같은 이야기가 아니게 된 것이다. 실제로 사람에 대한 직접적인 진단 단계까지는 아니지만 이미 의료계에서는 AI를 많이 활용하고 있고, 많은 문제들을 해결하고 있는 중이다.
대표적으로 2024년 노벨화학상은 구글의 딥마인드 알파폴드(Alpahfold)를 개발한 3명에게 돌아갔다. 우리 몸속의 단백질은 구조에 따라 어떤 기능을 하는지 결정되는데 이 단백질의 3차원 구조를 예측해 질병을 분석하는 것이 핵심적인 문제였다. 인류에겐 수십 년간 어려운 도전과제 중 하나였는데 AI 알파폴드로 이를 해결한 것이다. 몇 년에 걸쳐야 해결했던 단백질 구조 예측을 단 몇 시간 만에 처리하면서 신약 개발에 소요되는 시간을 줄여 버린 것이다.
IBM의 ‘아이즈 오브 왓슨’은 암환자의 유전자 데이터를 분석해 개인 맞춤형 치료법을 추천하고 의료진이 놓칠 수 있는 복잡한 정보를 분석해 치료 전략을 제시한다. 또 구글의 딥마인드 헬스는 안구 질환을 조기에 발견하고 치료 경과를 예측해서 의료진의 결정을 돕고 있다.
위의 예들은 모두 현재 진행 중인 프로젝트이고 인류의 삶 속에 잘 녹아들어와 이미 활약하고 있는 훌륭한 의료 AI 모델들이다. 현재 우리 인류는 공상과학 속 의료 장치가 실제 현실이 되는 갈림길에 서 있는 목격자인 것이다.
한국 닥터앤서 2.0 개발중
그렇다면 전 세계적으로 변화하고 있는 의료계 AI에서 우리나라는 어디까지 왔을까?
대한민국 의학계는 최근 ‘닥터앤서(Dr. Answer) 2.0’이라 불리는 AI정밀의료솔루션 개발 성과에 대해 발표했다.이 발표회가 한국 의료계 AI의 현주소를 보여준다. 윤석열 대통령이 취임하면서 약속했던 것처럼, AI를 통한 의료기술 개발에 대한 성과가 나온 것이다.
닥터앤서 2.0은 과학기술정보통신부와 정보통신산업진흥원이 지원하고 전국 30개 상급종합병원과 19개 ICT 기업이 참여한 대형 프로젝트다. 위암·간암·폐렴·뇌경색 등 총 12개의 질환에 대한 AI 솔루션 개발을 목표로 한다. 질병의 예측 분석부터 진단, 치료 그리고 예후, 관리까지 진료의 전 과정을 지원하는 24개의 AI소프트웨어가 개발되고 있다. 이를 통해 지역에 따른 의료 격차를 줄이는 것은 물론 사람보다 더 빠르고 정확한 진단으로 환자의 생존률을 높이고 의료비 절감 등 경제적 효과를 기대할 수 있다.
뇌졸중 경우도 24개의 AI소프트웨어 중 뉴냅스(Nunaps)라는 뇌경색 발병 시각 추정 소프트웨어를 통해 뇌세포 손상이 진행된 시간을 분석한다. 4.5시간이라는 골든타임 여부를 의사보다 빠르게 판가름할 수 있고, 의사가 놓치기 쉬운 미세혈관 출혈도 빠르게 찾아준다.
사람과 AI 결정의 차이
하지만 AI가 무조건 의사보다 뛰어나다고 단정할 수는 없다. 과연 우리는 빅데이터에만 의존하는 AI의 진단과 치료를 신뢰할 수 있을까?
이 질문은 ‘AI가 인간이 가진 윤리의식과 감정을 이해할 수 있을까’라는 철학적인 질문으로 넘어간다. 만약에 어린아이가 다리를 크게 다쳤다고 가정하자. AI는 다리를 원상복구 시키는 확률을 5%로 계산하고 95%는 절단을 통한 치료를 계산했다고 하자. 만약 사람이라면 빚을 져서라도 이 어린아이가 다시 뛰어놀 수 있도록 1%에 모든 것을 걸고 최선을 다할 것이다. 왜냐고? 그것이 사람이니까.
하지만 AI도 과연 똑같이 환자를 대해줄까? 의문이 든다. 앨런 튜링은 컴퓨터가 인간처럼 지능이 생겼다고 판단할 기준으로 튜링테스트를 제시했다. 인간과 컴퓨터에게 같은 질문을 하고 답변을 받는 것이다. 그래서 누가 컴퓨터이고 누가 인간인지 구별할 수 없다면 컴퓨터가 진짜 지능이 생겼다고 보는 것이다.
여태껏 모든 AI 모델들은 튜링테스트를 통과하지 못했다. 챗GPT의 도덕적 능력을 평가하기 위해 진행된 튜링테스트에서는 놀랍게도 인간보다 더 도덕적이고 완벽한 답변을 내놓았다. 하지만 오히려 뛰어난 답변 때문에 인공지능이라는 것이 드러났다. 마치 강박적인 완벽함을 추구하는, 튜링테스트를 통과하는 목적 하나만 가지고 쓴 답변처럼 말이다. 결론적으로 앞에서 제시한 문제는 안타깝지만 당장 결론을 낼 수 없다.
현재 인류의 선택 하나 하나가 미래에 나비효과가 되어 어떻게 변할지는 누구도 예측하기 힘든 상황이다. 진단 정확도에 대한 걱정은 조금은 내려두어도 될 것이다. 인공지능이 우리를 지배하는 도구가 아니라 우리 모두가 사용할 수 있는 친구가 되도록 닥터앤서 2.0과 같은 인공지능의 발전을 더욱 관심을 갖고 지켜봐야 하지 않을까 싶다.