기사입력시간 24.10.31 14:19최종 업데이트 24.10.31 14:19

제보

의료·바이오산업에서 카카오클라우드 영역 확대 시동

카카오엔터프라이즈, 한국생명정보학회 정기학술대회서 유전체 분석 교육 워크숍 진행


카카오엔터프라이즈가 22일~25일 한국생명정보학회 정기학술대회 '바이오인포 2024(이하 BIOINFO 2024, 2024 Annual Conference of Korean Society for Bioinformatics)'에서 카카오클라우드에 기반한 유전체 빅데이터 분석 교육 워크숍을 진행했다고 밝혔다.

의료・바이오산업 분야에서 카카오클라우드 사용 확대 및 연구 기술 고도화를 위한 이번 워크숍에 약 30여 명의 병원 관계자, 연구원, 대학생 등이 참여했다. 워크숍은 ▲카카오클라우드 소개 ▲GATK(유전체 분석 툴킷, Genome Analysis Tool Kit) 파이프라인 구성 및 개요 ▲빅데이터 분석 실습 등의 내용으로 구성됐다.

이번 워크숍에서는 미국 국립표준기술연구소(NIST) 주도의 GIAB(Genome In A Bottle) 컨소시엄이 제공하는 고품질 참조 유전체(Genome)인 골드 스탠다드 유전체(유전체 식별 고유번호 NA12878)를 활용해 '인구 내 유전체 변이 발생 빈도', '유전체 변이와 질병 간 관계 및 임상적 해석', '유전체 변이가 단백질 및 유전자 기능에 미치는 해로운 영향 예측'을 위한 분석 실습을 진행했다.

효과적인 유전체 분석을 위해 지난 7월 고려대 의과대학과 체결한 업무 협약의 연장선에서 제공되는 GATK 파이프라인이 활용됐다. 유전체 분석에 널리 사용되고 있는 오픈소스 GATK가 충분한 성능을 발휘할 수 있도록 카카오클라우드의 분산 데이터 처리 프레임워크인 하둡 에코(Hadoop Eco) 기반으로 분산・병렬 연산 아키텍처를 최적화했다고 회사 측은 설명했다.

의료 빅데이터의 핵심 자원으로 주목받고 있는 유전체 데이터는 염기 서열 분석, 변이 식별 등 복잡한 계산을 필요로 한다. 예를 들면 사람 1명의 유전체 데이터는 약 30억 개의 염기쌍(유전 정보를 담고 있는 기본 단위)으로 이뤄져있으며 약 2만 개의 유전자로 구성돼 있다.

이 데이터를 저장하려면 전장 유전체(한 사람의 전체 유전자 정보)는 약 120GB, 전사체(유전자 활동에 관한 정보)는 약 10GB, 메타지놈(미생물 정보)은 약 20GB가 필요하다. 이렇듯 높은 복잡도를 가진 대량의 유전체 데이터를 효과적으로 처리하기 위해선 클라우드 기반 분석 도구가 필수 불가결하다.

카카오엔터프라이즈 최광묵 사업개발TF장은 "이번 워크숍을 통해 카카오클라우드 환경에서 유전체 변이 관련 발생 빈도, 임상 정보, 유해성 예측 등 다양한 데이터 분석 실습이 성공적으로 진행됐다"며 "카카오클라우드는 의료・바이오산업 분야에서 클라우드를 더욱 원활하게 사용할 수 있도록 적극 지원하고 있으며 업계 전문가들과 지속적인 기술 교류 및 협력을 이어가고 있다"고 강조했다.

이지원 기자 (jwlee@medigatenews.com)
댓글보기(0)

전체 뉴스 순위

칼럼/MG툰

English News

전체보기

유튜브

전체보기

사람들