美FDA, 신약 개발에 사용되는 AI 첫 지침 발표…규제 결정 지원 데이터 생성 권장사항 담겨
위험 기반 신뢰성 평가 프레임워크 제안…"AI에 대한 엄격한 기준 유지하는 정책 계속 개발할 것"
[메디게이트뉴스 박도영 기자] 미국 식품의약국(FDA)이 의약품 개발을 위해 사용되는 인공지능(AI)에 관한 첫 지침을 공개했다. 약물의 안전성 또는 유효성, 품질에 대한 규제 의사 결정을 지원하는 정보 또는 데이터를 생성하는 데 AI를 어떻게 활용할지에 대한 권장사항을 담았다.
FDA는 '의약품 및 생물학적 제제의 규제 의사결정을 지원하는 AI 사용에 대한 고려사항' 지침 초안을 6일(현지시간) 발표했다.
FDA는 "약물 개발 및 규제 평가에 AI 모델링을 적절하게 적용하기 위한 핵심은 특정 사용 맥락에서 AI 모델 성능에 대한 신뢰, 즉 모델의 신뢰성을 확보하는 것이다"면서 "사용 맥락은 AI 모델이 관심 있는 특정 질문을 해결하는 데 어떻게 사용되는지를 의미한다"고 말했다.
FDA는 지침을 통해 위험 기반 신뢰성 평가 프레임워크를 제안했다. 이는 7단계 과정으로 구성돼 있다.
1단계로 AI 모델이 다루게 될 관심 질문을 정의한다. 2단계에서는 AI 모델의 사용 맥락(COU)을 정의하고, 3단게에서 AI 모델의 위험을 평가한다. 4단계로 COU 내에서 AI 모델 결과의 신뢰성을 확립하기 위한 계획을 수립하며, 5단계에서 계획을 실행한다. 6단계에서는 신뢰성 평가 계획의 결과를 문서화하고 계획과의 차이점에 대해 논의하고, 마지막으로 COU에 대한 AI 모델의 적절성을 결정한다.
지침에서는 임상 개발에서의 AI 사용과 제조에서의 AI 사용 예를 통해 관심 질문, COU 정의, 모델 위험을 평가하는 방법을 설명했다.
임상 개발에서 관심 질문을 정의하는 예로, 약물 A가 개발 중이며 생명을 위협하는 약물 관련 부작용과 관련 있는 경우를 들었다. 이전의 임상시험에서 모든 참가자가 이 부작용에 대한 우려로 투약 후 24시간 동안 입원 환자 모니터링을 받았다. 그러나 일부 참가자는 이 부작용에 대한 위험이 낮았다.
새로운 연구에서 스폰서는 AI 모델을 사용해 이 부작용을 경험할 위험에 따라 24시간 입원 환자 모니터링을 위해 환자를 계층화하는 전략을 모색했다. 스폰서는 부작용 위험이 낮은 참가자는 투약 후 외래 환자 모니터링을 위해 집으로 보내는 것을 제안했다. 이 예에서 관심의 대상이 되는 질문은 '투약 후 입원 환자 모니터링이 필요하지 않은, 위험도가 낮은 참가자는 누구인가?'다.
제조 측면에서는 다회용 바이알에 분배되는 비경구 주사제 약물 B에서 관심 있는 질문을 정의하는 사례를 들었다. 용량은 약물 B 바이알 출시에 있어 중요한 품질 속성이다.
한 제조업체가 바이알의 충전 수준을 100% 자동 평가하고, 시각 분석 시스템의 성능을 향상시키며, 편차를 식별하기 위해 AI 기반 시각 분석 시스템을 구현할 것을 제안했다. 이 예에서 관심의 대상이 되는 질문은 '약물 B 바이알이 정해진 충전 용량 사양을 충족하는가?'다.
관심 있는 질문에 답하기 위해 인비트로(in vitro) 검사, 인비보(in vivo) 동물실험, 임상시험, 제조 공정 검증 연구에서 생성된 근거를 AI 모델에서 생성된 근거와 함께 사용할 수 있다. 다양한 근거의 출처는 2단계에서 AI 모델의 COU를 설명할 때 명시돼야 하고, 3단계에서 평가된 모델의 영향력을 결정할 때 관련 있다. 근거 출처가 불확실하다면 FDA와 조기에 논의해야 한다.
이 접근방식은 FDA 심사관이 AI 구성 요소를 포함하는 의약품 및 생물학적 제제 신청서를 검토하는 방식과 일치한다. 또한 스폰서가 AI 신뢰성 평가 또는 인간 및 동물 의약품 개발에 AI를 사용하는 것과 관련해 FDA와 조기에 협의할 것을 권장한다.
프레임워크의 2단계는 AI 모델의 COU를 정의하는 것이다. 약물 A 사례에서 AI 모델의 역할은 참가자를 부작용 저위험군과 고위험군으로 구분하는 것이며, AI 모델의 범위는 참가자가 저위험군으로 간주되는지, 투약 후 입원 또는 외래 모니터링 여부를 결정하는 데 국한된다.
약물 B 사례에서도 AI 기반 모델은 용량 편차가 발생했는지 여부를 판단하는 역할을 하며, 제품 출시를 결정하는 유일한 요소가 되지 않는다.
3단계 모델 위험 평가 측면에서 A 사례의 경우, AI 모델은 어떤 유형의 환자가 모니터링을 받을 것인지 결정하는 유일한 요인이 되므로 모델의 영향력은 높은 것으로 추정된다. 또한 입원 모니터링이 필요한 환자가 외래 모니터링에 포함되면 잠재적으로 생명을 위협할 수 있는 부작용이 발생할 수 있기 때문에 결정 결과에 대한 모델 영향이 높다고 간주된다. 따라서 이 COU에 대한 모델 위험은 높다고 할 수 있다.
반면 B 사례에서 측정 오류는 제품 품질에 큰 영향을 미칠 수 있기 때문에 이 결정은 매우 중요하나, 제조업체가 출하 테스트로 충전량을 측정하면 AI 모델의 영향을 줄일 수 있으므로 모델의 영향은 낮다고 판단된다. 완화 조치로 결정 결과가 높고 모델 영향이 낮다고 간주될 때 이 COU에 대한 모델 위험은 중간이 된다.
제약사들은 FDA와의 초기 상담을 위해 관심 질문과 COU, 모델 위험에 근거한 신뢰성 평가 활동을 담은 신뢰성 평가 계획을 제출해야 한다. 특정 저위험 모델에서는 최소한의 정보를 요청할 수 있으나, 고위험 모델은 정해진 범주에서 모든 정보를 요청할 수 있고, COU에 따라 추가 정보가 필요할 수 있다.
이 외에도 지침에서는 특정 사용 환경에서 AI 모델 결과의 신뢰성을 유지하기 위한 고려 사항은 무엇인지에 대해서도 기술하고 있다.
FDA 국장인 로버트 칼리프(Robert M. Califf) 박사는 "FDA는 혁신을 촉진하고 FDA의 강력한 과학 및 규제 기준을 충족할 수 있도록 위험 기반의 민첩한 프레임워크를 제공함으로써 의료 제품 개발에 대한 혁신적인 접근 방식을 지원하기 위해 최선을 다하고 있다"면서 "적절한 안전장치가 마련돼 있다면 AI는 임상 연구를 발전시키고 의료 제품 개발을 가속화해 환자 치료를 개선할 수 있는 혁신적인 잠재력을 가지고 있다"고 말했다.
FDA는 "AI관리에 강력한 원칙, 표준 및 모범 사례를 기반으로 구축된 위험 기반 규제 프레임워크가 필요하다는 것을 인식하고 있다"면서 "AI 분야가 발전함에 따라 FDA는 혁신을 지원하고 안전성과 효과에 대한 엄격한 기준을 유지하는 정책을 계속 개발할 것이다"고 밝혔다.
댓글보기(0)