[메디게이트뉴스 박도영 기자] 유방암 검진에 인공지능(AI)을 활용하면 불필요한 재검진을 줄이고 의사의 업무를 크게 줄일 수 있을 것으로 기대된다. 실제로 최근 다양한 연구에서 AI 보조 소프트웨어가 판독의 정확도를 높이고 오류를 감소시킨다는 것이 확인됐다. 스웨덴과 영국에서 진행된 연구에서는 의료진과 유사한 수준의 암 검출률을 보였다.
이러한 근거를 바탕으로 루닛의 유방암 영상 검출·진단 보조 소프트웨어 '루닛 인사이트 MMG'는 보건복지부 고시를 통해 평가 유예 신의료기술로 선정됐다.
메디게이트뉴스는 여러 논문 자료를 바탕으로 AI 알고리즘의 성능이 어느 정도이고, 실제 의료 현장에 어떤 영향을 미칠 수 있을지 알아봤다.
이 연구는 검진 센터에서 선별 검사로 발견된 이상 소견에 대해 추가 유방 촬영술을 받기 위해 소환된 여성 793명을 대상으로 했다.
그 결과 판독자 평균 판독 정확도(AUROC)가 AI 보조 후 0.79에서 0.89로 개선됐다. AI 보조 전후 판독자 평균 특이도는 각각 41.9%, 53.9%였다. 평균 민감도는 AI를 사용지 않은 판독과 사용한 판독 간에 통계적으로 차이가 없었다. AI 보조를 사용하면 판독자 평균 소환율이 60.4%에서 49.5%로 감소했다.
연구팀은 "연구 결과에 따르면 일반 영상의학과 전문의가 추가 판독을 위해 소환한 여성 793명 중 평균 60.4%가 유방 전문 영상의학과 전문의의 후향적 재판독에 의해 소환됐으며, 시뮬레이션에서 민감도 손실 없이 AI 보조를 통해 이 수치가 49.5%로 더 낮아졌다"면서 "AI 잠재력은 음성 사례를 효율적으로 진단하는 방법을 제공해 업무량 감소로 이어질 수 있다"고 밝혔다.
순천향대부천병원 영상의학과 이은혜 교수팀은 유방 전문 영상의학과 전문의(BSR)와 일반 영상의학과 전문의(GR)로 구성된 판독자 10명이 유방 촬영 이미지를 평가한 뒤 AI를 사용한 판독과 사용하지 않은 판독 간의 차이를 분석해대한영상의학회지에 발표했다.
연구 결과 AI 단독과 BSR, GR 그룹의 AUROC는 각각 0.915, 0.813, 0.684로 나타났다. AI를 사용했을 때 AUROC는 BSR과 GR 그룹에서 각각 0.884, 0.823으로 크게 증가했다. 민감도는 두 그룹 모두에서 AI 보조로 개선됐지만 특이도는 큰 차이가 없었다. 평균 판독 시간은 BSR은 AI 지원으로 크게 감소했지만 GR은 증가했다.
연구팀은 "AI 보조는 영상의학과 전문의의 경험과 샘플의 특성에 관계없이 진단능을 향상시켰다. AI는 상대적으로 판독 시간이 길었던 BSR의 효율성을 높이고, GR이 병변을 세밀하게 초점을 맞출 수 있도록 도와 판독 시간을 늘렸다"면서 "AI의 높은 특이도는 특이도를 잃지 않으면서 영상의학과 전문의의 성과를 개선하는 데 도움이 될 수 있다"고 설명했다.
AI, 의료진과 유사한 수준의 성능 입증…숙련도 상관없이 민감도 유의하게 개선
북미영상의학회저널(Radiology)에 게재된 후향적 연구에서는 AI 진단능이 평균적인 인간 판독자와 비슷하다는 결과가 나왔다. 연구팀은 영국의 건강보험공단 유방암검진프로그램(NHSBSP)에서 정기적으로 사용하는 유방 촬영술 개인 판독 성능(PERFORMS) 체계를 사용해 AI 알고리즘의 성능을 평가했다.
이 연구는 2018년 5월부터 2021년 3월까지 각각 60개의 까다로운 사례로 구성된 두 개의 PERFORMS 테스트 세트를 인간 판독자가 평가하고, 2022년에 AI 알고리즘이 평가하도록 설계됐다. 두 가지 테스트 세트를 판독한 인간 판독자는 총 552명이었다.
AI 판독과 비교한 결과 AI와 인간 판독자 간 AUC에는 차이가 관찰되지 않았다(각각 0.93 및 0.88). 민감도는 AI와 인간 판독자 각각 84%, 90%로 차이가 관찰되지 않았지만 특이도는 AI가 89%로 인간 판독자 76%보다 더 높았다. 소환 임계값을 사용해 평균 인간 판독자 성능(민감도 90%, 특이도 76%)과 일치시켰을 때 AI는 민감도 91%, 특이도 77%로 차이를 보이지 않았다.
덴마크 연구팀은 선별되지 않은 연속적으로 유방 촬영을 받은 대규모 대표 표본을 활용한 연구 결과를 유럽영상의학회저널(European Radiology)에 발표했다. 이 연구는 덴마크 유방암 검진 데이터를 바탕으로 유방 영상의학과 전문의의 이중 판독을 통한 최초 판독과 AI 판독을 비교한 것이다. 샘플에는 검진 약 25만건과 유방암 2000여 건이 포함됐다.
분석 결과 AI는 첫 번째 판독자의 표준과 동등한 수준의 정확도로 유방암을 검출할 수 있었다. AI는 1차 판독자보다 훨씬 적게 선별로 감지된 암(screen-detected cancers)을 발견했지만 여러 하위 그룹에서 다양한 유형의 암을 발견해 더 많은 중간 암(interval cancer)을 검출해냈다.
또한 유방 영상의학과 전문의의 훈련 및 경험기간과 상관없이 민감도를 유의하게 개선시켰다. 숙련그룹에서 민감도는 AI를 사용하지 않았을 때 0.82, AI를 사용했을 때 0.88이었고, 비숙련그룹에서는 각각 0.81, 0.91이었다.
이 연구는 스웨덴 카피오 세인트괴란 병원(Capio Sankt Göran Hospital)에서 인구 기반 검진에 참여한 40~74세 여성을 대상으로 전문의 1명에 AI를 사용한 이중판독과 전문의 2명에 의한 표준 진료 이중 판독을 비교 평가했다. 더불어 AI 단독 판독과 전문의 2명에 AI를 더한 삼중 판독도 비교 평가했다.
그 결과 유방 촬영술 검진을 받은 5만명 가운데 269명이 초기 양성 판독을 바탕으로 선별검사에서 유방암으로 진단 받았는데, 전문의 1명과 AI의 이중 판독(암검출 261건)은 전문의 2명이 이중 판독(암검출 250건)과 비교해 암 검출에 열등하지 않았다. AI에 의한 단일 판독(암검출 246건)과 AI 및 전문의 2명의 삼중 판독(암검출 269건)도 전문의 2명에 의한 이중 판독보다 열등하지 않은 것으로 나타났다.
연구팀은 "여성 10만 명 검진 인구에서 영상의학과 전문의 1명을 AI로 대체하면 영상의학과 전문의 판독 건수가 10만건 줄고 합의 토론이 1562건 증가한다. 합의 토론이 단독 판독보다 5배 더 오래 걸리더라도 업무량 감소 효과는 상당할 것이다"고 말했다.
또한 "합의 토론과 후속 진단 조사에는 여전히 영상의학과 전문의가 참여하지만, AI 단일 판독은 선별 검사 워크플로우 전반에 걸쳐 업무량을 크게 감소시킬 것이다"고 덧붙였다.
댓글보기(0)