의료AI ‘무한진화’...진단·판독 너머 질병 예측·관리

연세암병원·KAIST 공동연구팀 성과
방사선치료 정확도 2배 높인 AI 개발
C형 간염 합병증 고위험군 환자 선별
수술 전 마취 위험 예측 모델도 나와

의료계에 최근 눈부시게 발전하고 있는 인공지능(AI)을 결합한 신의료기술이 등장하고 있다. 현재 헬스케어 분야에서 활발하게 AI가 적용되고 사례로는 상담이나 진료를 위한 AI 챗봇, 이미지 인식을 중심으로 한 진단 분야이지만 최근에는 진단·판독에서 더 나아가 AI의 특별한 응용 분야 중 하나는 예측 모델링 분야에서 발전을 거듭하고 있다. AI 모델이 진단 보조를 넘어 질병 예측과 관리 영역까지 확산하면서 의료기관도 AI 기술을 도입하여 의료 현장에 적용하고 있다.

이들은 최근 방사선치료 정확도를 2.36배 높일 수 있는 치료 계획 수립 AI를 만들었다. [세브란스병원 제공]

“LLM, 실제 진료 적용 가능 사례”

8일 의료계에 따르면 박상준·김진성 연세암병원 방사선종양학과 교수와 KAIST 김재철AI대학원의 예종철 교수·오유진 연구원의 공동 연구팀은 최근 방사선치료 정확도를 2.36배 높일 수 있는 치료 계획 수립 AI를 만들었다.

방사선치료는 고선량의 방사선을 조사해 암세포를 죽이는 항암치료다. 문제는 암세포 주변의 정상조직도 함께 파괴될 수 있다는 것이다. 이러한 부작용를 줄이는 동시에 치료 효과를 높이는 것이 치료 계획 수립에서 관건이다.

방사선치료 계획을 세우기 위해서는 의료진이 환자 정보와 컴퓨터단층촬영(CT) 등 영상검사 결과를 토대로 정상 장기와 암조직의 윤곽을 구별하는 과정을 거친다. 일일이 수작업으로 진행하는 만큼 시간 소모가 크다는 한계가 있었다. 연구팀은 GPT와 같이 방대한 양의 데이터를 학습해 문제를 해결하는 거대언어모델(LLM)을 활용해 방사선치료 계획을 세우는 AI를 개발했다.

이번에 개발한 AI의 특징은 멀티모달 모델을 활용했다는 것이다. 텍스트는 물론 이미지, 오디오, 비디오 등 다양한 유형의 데이터를 처리할 수 있는 멀티모달 모듈을 통하면 영상 정보 외에 언어 정보 등을 반영할 수 있다. 영상검사 결과에만 의존했던 기존 방사선치료 모델과 다르게 환자의 병기, 질병 위치, 수술 방법 등을 계획 수립 때 추가로 고려할 수 있다. 연구팀이 AI 성능 검증을 한 결과 외부 검증과 전문가 평가에서 기존 AI 모델 대비 각각 1.9배, 2.36배 높은 점수를 나타났다.

AI와 의료진이 종양이라고 선정한 볼륨(CTV)이 얼마나 일치하는지 확인하는 외부 검증에서 연구팀의 AI는 의료영상만 활용한 AI에 비해 1.9배 높은 점수를 획득했다. 보통 AI 모델은 학습기관이 아닌 외부기관 데이터로 검증할 때 점수가 낮아지는게 일반적인데 우수한 성적을 확인할 수 있었다. 방사선종양학과 전문의가 평가한 정확도 검사에서도 점수는 2.36배 뛰어났다. 박 교수는 “이번 연구는 LLM 기술이 실제 환자 진료에 어떻게 적용할 수 있는지를 보여주는 중요한 사례”라며 “앞으로 더 많은 연구를 통해 의료 현장에서 AI의 적용 범위를 넓혀갈 계획”이라고 밝혔다.

“간 관련 합병증 예측 정확도 86%”

만성 C형 간염 완치 이후에 간 관련 합병증을 보일 수 있는 고위험군 환자를 선별할 수 있는 AI도 개발됐다. 세브란스병원 소화기내과의 김승업·이혜원 교수 연구팀이 이 같은 성과를 냈다.

C형 간염은 완치 후 간경변증이 없으면 간세포암종 발생 위험이 무시되는 경향이 있다. 하지만 간경변증이 없어도 일부 완치자 중에서 간세포암종 등 심각한 합병증을 보일 수 있어서 주의가 필요하다. 복부초음파 등으로 진단되는 간경변증이 없는 경우에는 그 위험성을 인지하기 어렵기 때문에 이를 예측하는 것은 매우 중요하다. 연구팀은 C형 간염 완치자 중 간경변증이 없는데도 간세포암종이 발생하는 등 예후가 좋지 않는 고위험군을 선별할 수 있는 AI를 개발하고 그 성능을 검증했다.

먼저 세브란스병원에서 항바이러스 치료제로 치료받은 간경변증이 없는 C형 간염 환자 913명 자료를 활용해 AI를 만들었다. AI는 간 탄력도 값, 나이, 성별, 혈소판수·빌리루빈 수치 등을 확인할 수 있는 6개의 혈액검사 결과를 활용해 중증 합병증 발생 여부를 예측한다. 이어서 홍콩·프랑스 환자 1264명 데이터를 이용해 간세포암종, 비대상성간경변증, 간이식, 사망 간 관련 합병증을 예측하는 정확도를 테스트했다. 1에 가까울수록 높은 예측 성능을 뜻하는 ‘C-index(인덱스)’ 수치는 0.86을 기록했다. AI의 예측 정확도가 86%라는 의미다. 김 교수는 “만성 C형 간염은 항바이러스제로 쉽게 치료할 수 있지만 완치 후에도 간세포암종 등 중증 합병증을 경험할 수 있다”며 “이번 연구에서 개발한 AI를 이용하면 완치 이후에도 정기적인 추적 관찰이 필요한 고위험군을 선별할 수 있다”고 말했다.

“전문의 예측보다 특이도·민감도 높아”

수술 천 마취 위험을 예측할 수 있는 AI 모델도 나왔다. 서울대병원 마취통증의학과의 이형철·윤수빈 교수와 이현훈 국가전략기술 특화연구소 교수의 공동 연구팀은 최근 71만 여명의 수술 데이터를 바탕으로 이를 개발했다. 수술 전 마취 위험을 평가하는 과정은 환자의 안전을 위해 매우 중요하다. 국내 의료 현장에서는 환자의 전반적인 건강상태를 1등급(건강한 환자)부터 6등급(뇌사 상태)으로 구분하는 ‘미국마취과학회 신체상태 분류(ASA-PS)’를 도입해 마취 위험과 전반적인 수술 위험의 예측 도구로 널리 활용하고 있다.

그러나 ASA-PS 체계는 중증도 기준이 주관적이어서 의료진 간 ASA-PS 등급 분류가 불일치하는 문제가 종종 발생했다. 연구팀은 이런 문제를 해결하기 위해 2004~2023년 서울대병원에서 수술받은 대규모 환자 데이터를 학습시켜 ASA-PS 등급을 자동 분류하는 LLM을 개발했다. 이 모델은 사람의 언어를 이해하는 챗GPT처럼 자연어처리 기술을 기반으로 하는 AI로, 특히 의료 기록과 개인정보 보안에 특화되어 있다.

이 LLM을 활용하면 환자의 건강상태, 기저질환 등을 간략하게 서술한 ‘마취 전 평가 요약문’을 바탕으로 ASA-PS 등급을 신속하고 객관적으로 분류할 수 있다. 따라서 임상 현장에서 의사소통의 효율성과 환자 안전을 증진하는 데 도움이 될 수 있다는 것이 연구팀의 설명이다. 환자 460명의 데이터를 바탕으로 분류 성능을 평가한 결과, 모든 ASA-PS 등급에 대한 이 모델의 평균 예측 정확도(AUROC)는 0.915로 매우 높았다. 이 수치가 1에 가까울수록 완벽한 예측을 했음을 의미한다.

이른바 ‘빅5’ 외에 다른 대형병원에서도 AI 도입이 활발해지고 있다. 한강성심병원 등을 산하로 둔 한림대의료원도 2020년부터 빠르게 의료 AI 예측모델 개발에 나서고있다. 한림대의료원은 자체적으로 42개 AI 예측모델을 만들어 의료현장에 적용시키고있는데 이는 국내 의료기관 중 최다 개발 ·적용 건수이며 평균 예측률은 87%라고 발혔다. 이에 대해 전자의무기록(EMR)에서 평균 10년치의 환자 데이터와 나이, 성별, 진료요일, 진단코드 등 학습변수(데이터)를 분석·가공해 최적화된 머신러닝 알고리즘에 적용해 예측률이 높다고 한림대의료원은 설명했다.

김태열 건강의학선임기자

kty@heraldcorp.com