MEDI:GATE NEWS AI 신약개발 위한 데이터 공유 활성화 방안은? 연합학습 기술 활용

기사입력시간 23.05.19 13:03최종 업데이트 23.05.19 13:03

사진 = 카이스트 예종철 교수 [메디게이트뉴스 서민지 기자] 제약바이오 기업들이 보다 높은 성공률로 빠르게 신약을 개발하기 위해 인공지능(AI), 빅데이터 활용하려는 움직임이 일고 있으나, 여전히 개인정보 보호나 보안 문제 등으로 인해 적극적인 활용에 어려움을 겪고 있는 실정이다. 카이스트 예종철 교수는 19일 'AI 주도 신약개발, 제약바이오 혁신의 새로운 시대'를 주제로 한국제약바이오협회가 주최한 제약바이오 혁신 포럼에서 이 같은 문제를 지적하면서, '연합학습을 이용한 분산학습'을 대안으로 제시했다. 예 교수는 "의료현장에서 인공지능을 활용하는 모델이 계속 나오고 있으며, 제약사들은 환자 중심의 신약개발을 위해 의료데이터를 활용하려고 하고 있다"면서 "그러나 현재 자율적인 데이터 시장이 부재하고, 중앙 집중된 빅데이터 플랫폼과 AI훈련 방식으로 인해 현장 수요를 대응하기가 어렵다"고 말했다. 이어 "이 같은 중앙 집중적인 방식의 가장 큰 문제는 의료데이터의 경우 가장 민감한 정도인데, 연구과정에서 데이터와 환자 개인정보가 유출될 가능성이 높다는 것"이라고 부연했다. 실제 제약협회의 기업 설문조사와 전문가 자문 결과, 민간 데이터는 신규성이 강점이나 집중 연구로 데이터가 소량화돼 있고 편향적이며, 지재권 등 이슈가 존재한다. 공공 데이터는 방대하나 신규성 부족과 보안 이슈로로 활용이 미진하다. 이 같은 이유로 신약개발 현장과 공공에 축적된 데이터를 AI에 활용하지 못하고 있기 때문에 민간 데이터를 활용할 방안을 마련하는 게 중요한 이슈가 됐다. IT산업 경쟁은 핵심 기술 선점과 직결되는데, 특정 국가가 먼저 새로운 핵심 기술을 선점하면 시장의 파급력이 엄청나고 글로벌 표준(기준, 스탠다드)이 되기 때문이다. 예 교수는 "이 같은 문제를 해결하기 위해서 제약협회 등에서는 '연합 학습(Federated Learning)'에 대해 관심을 갖고 있다. 최근 5G, 6G, 엣지 컴퓨팅, 클라우드와 같은 분산 컴퓨팅 기술로 분산 데이터의 보호와 AI 데이터 활용이 가능한 '연합학습'은 정보보호와 AI 시대의 핵심 기술로 구글, 애플, 메타, NVIDIA, IBM 등 글로벌시장에서 주목하고 있다"고 말했다. 연합학습은 개별기업의 자산인 데이터를 안전하게 보호하면서도, 다기관 간 데이터 학습을 가능케해 개별 기업이 가지는 한계를 극복하고 데이터 활용 성과를 극대화할 수 있는 기술이다. 사진 = FeSTA 분산학습 방식 모식도(카이스트 예종철 교수 발표자료) 예 교수는 "국내 의료 분야에서 진행된 대표적 연합학습 사례는 CDM이다. 쉽게 보면 중앙 서버에 데이터를 보내고 각 병원들이 분석할 수 있도록 하는 시스템"이라며 "기존에 병원마다 다른 포멧으로 전자의무기록을 모아오면서 약물 효과 등에 대한 팔로업이 어려웠는데, 동일한 포맷으로 데이터를 모아 다양한 분야에서 분석, 활용하는 것"이라고 밝혔다. 다만 이 역시 많은 병원들에 파급되지 않았고 대형병원들의 경우 활용이 제한적이라는 한계점이 있으며, 이를 극복하기 위해 스왐러닝이나 블락체인 등을 활용하는 사례들이 나오고 있다고 부연했다. 예 교수는 "코로나19 팬데믹 당시 응급실 환자를 빠르게 분류하는 게 중요해지면서 X-레이 데이터를 통해 스크리닝하는 AI연구가 많이 이뤄졌다. 문제는 여러 병원에 데이터가 흩어져 있어 해당 인공지능 모델 활용이 제한적이었다"면서 "이것이 연합학습이 필요한 이유를 방증한다. 여러 병원의 방대한 양의 빅데이터를 자기주도학습을 통해 정확도 높은 AI모델을 개발한 후, 각 병원별 환자들에게 적용하는 하는 것이다. 즉 모든 사람이 활용가능한 바디 형태의 AI만들고, 개별적으로 활용하는 방식으로 가는 것"이라고 설명했다. 제약사에서 AI신약개발을 할 때도 공동으로 사용할 수 있는 연합학습의 데이터 플랫폼을 구축한 후, 회사별로 니즈에 맞춰 활용할 수 있도록 로컬 데이터 트레이닝을 하는 방식으로 가는 것이다. 특히 연합학습의 트랜스포머 모델을 제안하면서, 다중 학습 뿐 아니라 분할학습에도 적합한 분리에 용이한 모델디자인을 갖는 점에 착안해 FeSTA 프레임워크를 개발했다고 밝혔다. 예 교수는 "적은 데이터로도 다양한 외부 검증상황에서 안정적인 일반화 성능을 보이는 다중학습 비전 트랜스 모델 연구를 수행했고, 이를 통해 코로나19 진단을 위한 다중학습 비전 트랜스 모델 개발에 성공했다"면서 "모델 개발 과정의 환자 데이터 유출 위험을 최소화하고, 다중 학습비전 트랜스포머 구조를 효율적으로 활용할 수 있는 FeSTA 분산학습 방식을 제약사에서도 활용하면 좋을 것"이라고 했다. 각 여러 제약사들이 공유할 수 있는 공유모델과 각 회사별 니즈에 따른 모델을 연합학습하면 서로 상생하는 방식으로 갈 수 있다는 의미다. 이날 제약바이오협회 노연홍 회장도 "인공지능 기술은 제약바이오 산업에서 새로운 시대를 여는 열쇠다. 정부에서 지난 2월 ‘바이오헬스 신시장 창출전략’을 통해 제약바이오산업의 디지털 전환을 지원하기로 발표했고, 연합학습 기반 신약개발 가속화 지원사업인 K-MELLODDY 프로젝트를 추진하기로 했다"고 말했다. 노 회장은 "연합학습 기반 AI 모델이 단독 AI 모델에 비해 성능개선 효과가 있다는 것은 이미 유럽연합(EU) MELLODDY 프로젝트에서 확인됐다"면서 "제약바이오산업계는 한국형 MELLODDY 프로젝트를 기반으로 연합학습 기술을 상용화하고 신약개발 데이터 협력 시스템을 구축해 신약개발의 생산성을 크게 높여나갈 것"이라고 강조했다. 연합학습 기반 신약개발 가속화 프로젝트(K-MELLODDY)는 물리적 데이터 공유 없이 다기관 데이터 활용·협력이 가능한 플랫폼을 기반으로 신속하고 효율적인 AI 신약개발 방법론 개발하는 것을 목적으로 한다. 연합학습(Federated Learning) 기반의 다기관 데이터의 안전 공유 체계를 구축하고, 데이터의 공유·융합을 통한 AI 고도화로 신약개발 경쟁력을 향상하며, 국가 차원의 연합학습 기술 산업화 주도로 시장 선점 및 기술적 해자를 확보하려는 취지다. 제약협회 측은 K-MELLODDY를 통해 국가경쟁력을 높일 수 있는 획기적 AI 신약개발 방법론을 확보할 수 있을 것으로 내다봤다. 무엇보다도 국내 제약기업의 신약개발 R&D 투자비를 절감하고, 데이터 노출 이슈를 극복해 공공데이터와 민간데이터 활용을 활성화하는 한편, AI를 활용해 신약개발을 가속화할 것으로 기대했다. 이날 보건복지부 박민수 제2차관은 "신약개발에 인공지능 활용을 확대해 신약개발에 소요되는 시간을 단축시키고 신약개발 성공 가능성을 높일 수 있다"면서 "앞으로도 산업계와 현장 소통을 강화하고 AI 신약개발 생태계 조성을 위해 지속적으로 지원할 것"이라고 밝혔다.

제보 공유

AI 신약개발 위한 '데이터 공유 활성화' 방안은? 연합학습 기술 활용

카이스트 예종철 교수 제안…제약협회 노연홍 회장도 한국형 K-MELLODDY 프로젝트 필요성 강조와 참여 당부

[메디게이트뉴스 서민지 기자] 제약바이오 기업들이 보다 높은 성공률로 빠르게 신약을 개발하기 위해 인공지능(AI), 빅데이터 활용하려는 움직임이 일고 있으나, 여전히 개인정보 보호나 보안 문제 등으로 인해 적극적인 활용에 어려움을 겪고 있는 실정이다.

카이스트 예종철 교수는 19일 'AI 주도 신약개발, 제약바이오 혁신의 새로운 시대'를 주제로 한국제약바이오협회가 주최한 제약바이오 혁신 포럼에서 이 같은 문제를 지적하면서, '연합학습을 이용한 분산학습'을 대안으로 제시했다.

예 교수는 "의료현장에서 인공지능을 활용하는 모델이 계속 나오고 있으며, 제약사들은 환자 중심의 신약개발을 위해 의료데이터를 활용하려고 하고 있다"면서 "그러나 현재 자율적인 데이터 시장이 부재하고, 중앙 집중된 빅데이터 플랫폼과 AI훈련 방식으로 인해 현장 수요를 대응하기가 어렵다"고 말했다.

이어 "이 같은 중앙 집중적인 방식의 가장 큰 문제는 의료데이터의 경우 가장 민감한 정도인데, 연구과정에서 데이터와 환자 개인정보가 유출될 가능성이 높다는 것"이라고 부연했다.

실제 제약협회의 기업 설문조사와 전문가 자문 결과, 민간 데이터는 신규성이 강점이나 집중 연구로 데이터가 소량화돼 있고 편향적이며, 지재권 등 이슈가 존재한다. 공공 데이터는 방대하나 신규성 부족과 보안 이슈로로 활용이 미진하다.

이 같은 이유로 신약개발 현장과 공공에 축적된 데이터를 AI에 활용하지 못하고 있기 때문에 민간 데이터를 활용할 방안을 마련하는 게 중요한 이슈가 됐다.

IT산업 경쟁은 핵심 기술 선점과 직결되는데, 특정 국가가 먼저 새로운 핵심 기술을 선점하면 시장의 파급력이 엄청나고 글로벌 표준(기준, 스탠다드)이 되기 때문이다.

예 교수는 "이 같은 문제를 해결하기 위해서 제약협회 등에서는 '연합 학습(Federated Learning)'에 대해 관심을 갖고 있다. 최근 5G, 6G, 엣지 컴퓨팅, 클라우드와 같은 분산 컴퓨팅 기술로 분산 데이터의 보호와 AI 데이터 활용이 가능한 '연합학습'은 정보보호와 AI 시대의 핵심 기술로 구글, 애플, 메타, NVIDIA, IBM 등 글로벌시장에서 주목하고 있다"고 말했다.

연합학습은 개별기업의 자산인 데이터를 안전하게 보호하면서도, 다기관 간 데이터 학습을 가능케해 개별 기업이 가지는 한계를 극복하고 데이터 활용 성과를 극대화할 수 있는 기술이다.

사진 = FeSTA 분산학습 방식 모식도(카이스트 예종철 교수 발표자료)

예 교수는 "국내 의료 분야에서 진행된 대표적 연합학습 사례는 CDM이다. 쉽게 보면 중앙 서버에 데이터를 보내고 각 병원들이 분석할 수 있도록 하는 시스템"이라며 "기존에 병원마다 다른 포멧으로 전자의무기록을 모아오면서 약물 효과 등에 대한 팔로업이 어려웠는데, 동일한 포맷으로 데이터를 모아 다양한 분야에서 분석, 활용하는 것"이라고 밝혔다.

다만 이 역시 많은 병원들에 파급되지 않았고 대형병원들의 경우 활용이 제한적이라는 한계점이 있으며, 이를 극복하기 위해 스왐러닝이나 블락체인 등을 활용하는 사례들이 나오고 있다고 부연했다.

예 교수는 "코로나19 팬데믹 당시 응급실 환자를 빠르게 분류하는 게 중요해지면서 X-레이 데이터를 통해 스크리닝하는 AI연구가 많이 이뤄졌다. 문제는 여러 병원에 데이터가 흩어져 있어 해당 인공지능 모델 활용이 제한적이었다"면서 "이것이 연합학습이 필요한 이유를 방증한다. 여러 병원의 방대한 양의 빅데이터를 자기주도학습을 통해 정확도 높은 AI모델을 개발한 후, 각 병원별 환자들에게 적용하는 하는 것이다. 즉 모든 사람이 활용가능한 바디 형태의 AI만들고, 개별적으로 활용하는 방식으로 가는 것"이라고 설명했다.

제약사에서 AI신약개발을 할 때도 공동으로 사용할 수 있는 연합학습의 데이터 플랫폼을 구축한 후, 회사별로 니즈에 맞춰 활용할 수 있도록 로컬 데이터 트레이닝을 하는 방식으로 가는 것이다.

특히 연합학습의 트랜스포머 모델을 제안하면서, 다중 학습 뿐 아니라 분할학습에도 적합한 분리에 용이한 모델디자인을 갖는 점에 착안해 FeSTA 프레임워크를 개발했다고 밝혔다.

예 교수는 "적은 데이터로도 다양한 외부 검증상황에서 안정적인 일반화 성능을 보이는 다중학습 비전 트랜스 모델 연구를 수행했고, 이를 통해 코로나19 진단을 위한 다중학습 비전 트랜스 모델 개발에 성공했다"면서 "모델 개발 과정의 환자 데이터 유출 위험을 최소화하고, 다중 학습비전 트랜스포머 구조를 효율적으로 활용할 수 있는 FeSTA 분산학습 방식을 제약사에서도 활용하면 좋을 것"이라고 했다.

각 여러 제약사들이 공유할 수 있는 공유모델과 각 회사별 니즈에 따른 모델을 연합학습하면 서로 상생하는 방식으로 갈 수 있다는 의미다.

이날 제약바이오협회 노연홍 회장도 "인공지능 기술은 제약바이오 산업에서 새로운 시대를 여는 열쇠다. 정부에서 지난 2월 ‘바이오헬스 신시장 창출전략’을 통해 제약바이오산업의 디지털 전환을 지원하기로 발표했고, 연합학습 기반 신약개발 가속화 지원사업인 K-MELLODDY 프로젝트를 추진하기로 했다"고 말했다.

노 회장은 "연합학습 기반 AI 모델이 단독 AI 모델에 비해 성능개선 효과가 있다는 것은 이미 유럽연합(EU) MELLODDY 프로젝트에서 확인됐다"면서 "제약바이오산업계는 한국형 MELLODDY 프로젝트를 기반으로 연합학습 기술을 상용화하고 신약개발 데이터 협력 시스템을 구축해 신약개발의 생산성을 크게 높여나갈 것"이라고 강조했다.

연합학습 기반 신약개발 가속화 프로젝트(K-MELLODDY)는 물리적 데이터 공유 없이 다기관 데이터 활용·협력이 가능한 플랫폼을 기반으로 신속하고 효율적인 AI 신약개발 방법론 개발하는 것을 목적으로 한다.

연합학습(Federated Learning) 기반의 다기관 데이터의 안전 공유 체계를 구축하고, 데이터의 공유·융합을 통한 AI 고도화로 신약개발 경쟁력을 향상하며, 국가 차원의 연합학습 기술 산업화 주도로 시장 선점 및 기술적 해자를 확보하려는 취지다.

제약협회 측은 K-MELLODDY를 통해 국가경쟁력을 높일 수 있는 획기적 AI 신약개발 방법론을 확보할 수 있을 것으로 내다봤다.

무엇보다도 국내 제약기업의 신약개발 R&D 투자비를 절감하고, 데이터 노출 이슈를 극복해 공공데이터와 민간데이터 활용을 활성화하는 한편, AI를 활용해 신약개발을 가속화할 것으로 기대했다.

이날 보건복지부 박민수 제2차관은 "신약개발에 인공지능 활용을 확대해 신약개발에 소요되는 시간을 단축시키고 신약개발 성공 가능성을 높일 수 있다"면서 "앞으로도 산업계와 현장 소통을 강화하고 AI 신약개발 생태계 조성을 위해 지속적으로 지원할 것"이라고 밝혔다.

오탈자 신고 스크랩 인쇄 제보 공유

서민지 기자 (mjseo@medigatenews.com)

이 기자의 다른 기사 보기