모듈러 RAG 적용으로 자료 분석·취합 작업 효율화 높여…"환각 현상은 최소화하고 보안은 강화했다"
[메디게이트뉴스 이지원 기자] 제약업계에 특화된 생성형 AI 솔루션이 나왔다. 정보 검색 솔루션으로 파편화된 연구 자료를 빠르고 정확하게 찾아 업무 효율성을 높인다는 것이다.
피닉스랩이 17일 서울시 광진구 그랜드 워커힐 호텔에서 '케이론(Cheiron)'의 런칭 행사를 개최했다. 케이론은 의사·약사·제약 기업 연구원 등 제약 업계 관계자를 대상으로 개발한 생성형 AI 솔루션이다.
회사에 따르면 케이론은 검색 증강 생성(RAG)의 장점인 ▲실시간 검색을 통한 학습 비용 감축 ▲보안 ▲자연어 처리 기술로 질문 의도에 기반한 데이터만 선별 등을 통해 신뢰도 높은 데이터로 답변을 구성하고, 자체 재검증을 거쳐 환각 현상(Hallucination)을 완화하도록 설계해 거대 언어 모델(LLM)의 약점을 보완했다.
모듈형 검색 증강 생성(Modular RAG)를 통해 내부 모듈이 동일한 입출력 값을 가질 수 있도록 구현했다. 기존 RAG와 달리 모듈형 RAG는 유연하고 간편한 모듈 연결을 통해 고품질 답변을 신속하게 생성할 수 있다. 특히 기업 니즈에 맞춰 데이터 종류와 형태를 설정하고, 데이터별로 최적화된 저장소 선택이 가능해 보안 수준을 높였다.
피닉스랩은 케이론의 특화된 장점으로 ▲제약업계 특화 ▲원스톱 검색 ▲의미 기반 검색 ▲워크플로우 자동화 ▲주요 언어 지원 등을 꼽았다.
구체적으로 의학학술정보분류체계인 메쉬(MeSH) 키워드를 이해할 수 있도록 구현했다. 또 펍메드(PubMed), 시맨틱 스칼라(Semantic Scholar) 등 다양한 학술 검색 플랫폼과 일반 검색 엔진, 공개 소스, 기업 내부 문서 등 넓은 범위의 검색을 한 번에 할 수 있다.
키워드 일치(사용자-키워드 기반 검색) 여부와 관계없이 의도 파악이 가능한 자연어 처리(사용자-자연어 기반 검색) 기술도 적용했다. 사용자가 입력한 질문 외에도 RAG를 기반으로 한 추가 질문을 생성해 정확한 제공을 제공한다. 이뿐 아니라 검색 결과를 기반으로 데이터 정리, 문서 생성 등 자동화된 워크플로우를 제공한다. 한국어를 비롯해 영어, 일본어 등 주요 국가 언어도 지원해 의료 전문 용어 번역의 정확성을 높였다.
박지호 CPO는 "제약 회사의 연구원은 펍메드, 구글, 스칼라 등에서 기존에 편찬된 논문이나 리서치를 검색하고 읽는데 업무 시간의 상당량을 사용한다. 기존 연구를 이해하고 통찰을 얻는 것이 연구의 출발점이기 때문"이라고 말했다.
배민석 대표는 "기업이 AI를 도입할 때 필수로 만족해야 하는 필요조건은 사용 목적에 완전히 부합(customizability), 완벽한 신뢰도의 답변(Credibility), 엄격한 보안(Security) 등이다. 하지만 이 조건이 모두 충족된다고 해서 바로 도입할 수 있는 것은 아니다. 좋은 솔루션이라도 투자수익률(ROI)을 충족해야 실제 도입으로 이어질 수 있다"고 설명했다.
배 대표는 이를 충족할 수 있는 기술이 RAG라 봤다. RAG는 기업 내·외부 데이터가 연결돼 있고, 연결된 데이터에서 검색을 진행하고, 이를 바탕으로 답변을 생성하기 때문에 데이터 호환이 가능하다는 것이다.
그는 "검색 결과만을 바탕으로 답변을 생성하기 때문에 환각 현상을 최소화할 수 있다. 하지만 RAG가 기업용 AI의 해답은 아니다. 기업에서는 수많은 데이터 소스, 문서 유형, 구조, 용도를 다뤄야 한다. 현재(기타 생성형 AI 솔루션)는 수작업으로 최적화하고 있어 구축 기간도 길어지고 ROI도 크게 감소한다. 하지만 피닉스랩은 모듈화된 RAG를 통해 최적화 기간을 경쟁사 대비 4분의 1로 줄였다"고 전했다.
이어진 데모 세션에서는 배 대표와 박 CPO가 케이론 시연을 진행했다. 챗GPT와의 차별화된 점도 강조했다.
박 CPO는 케이론과 챗GPT에 똑같은 질문을 던지고 도출되는 답변의 차이를 소개하며 "주목할 점은 케이론은 최신 논문을 반영했다는 점"이라고 밝혔다.
그는 "사용자가 학계의 최신 연구를 일일이 살펴보지 않고도 최신 연구 동향을 정확하고 빠르게 파악할 수 있도록 돕는다"라며 "사용자는 신뢰할 수 있는 최신 정보에 기반해 의사결정을 내릴 수 있다. 케이론의 모듈러 레벨은 최신 논문과 엄격한 학술 데이터를 바탕으로 정확하고 시의성 있는 답변을 제공하는 것을 목표로 한다"고 전했다.
답변의 출처를 표기해 질문자가 크로스 체크할 수 있다는 점 역시 차별화된 포인트다. 무료로 공개된 논문의 경우 요약, 번역, 분석 기능도 제공한다.
내부 데이터를 활용하는 케이론의 보안 정책에 대한 질의에 하르싯 굽타(Harshit Gupta) CTO는 "내부 데이터는 일반 데이터와 다른 클라우드를 사용한다. 케이론은 많은 모듈이 있는데, 이를 각각 배치해 활용할 수 있다"며 "개별적으로 모듈화할 수 있어 보안을 강화할 수 있다. 또 내부 데이터는 밖으로 나가지 않도록 설정할 수 있다"고 설명했다.
이어진 기자간담회에서 배 대표는 첫 진출 시장을 제약 업계로 선택한 이유에 대해 "피닉스랩은 신생 조직이다. 처음부터 크고 모두가 공감할 수 있는 문제를 풀기보다 크기는 작더라도 니즈가 큰 산업을 눈여겨봤다. 금융이나 법조계 등 타 산업에 대한 탐구도 진행했다. 그 중 제약 산업이 정보 검색이 굉장히 필요하다는 니즈를 느꼈다. 피닉스랩은 파편화된 정보를 하나로 통합해 효율적인 정보 검색 솔루션을 제공할 수 있는 만큼 제약 업계에 먼저 제공하면 의미가 있을 것으로 생각했다"고 말했다.
데이터가 많은 기업에서만 활용될 수 있다는 지적에 박 CPO는 "케이론은 연구원이 연구 자료를 찾는 것이 아닌 실제 연구에 집중할 수 있도록 하는 것을 목표로 한다"며 "이 때문에 사내 데이터가 없더라도 외부 데이터에 집중할 수 있는 환경을 만들 수 있다"고 답했다.
LLM에서 발생하는 환각 현상을 제거한 방법에 대해서는 "논문을 10개, 20개 가져오는데, 근거에 한해서만 답변을 제공하는 형태로 파인튜닝(fine tuning)이 이뤄지고 있다. 또 근거에만 의존해 답변을 제시했는가를 평가하는 모델도 있다. 점수를 측정해 가며 근거에만 기반해 답변을 제공하는 LLM 파인튜닝이 이뤄지고 있다"고 언급했다.
댓글보기(0)