MEDI:GATE NEWS 유전체 데이터, 쓰레기더미 전락 우려

기사입력시간 17.07.31 05:57최종 업데이트 17.07.31 10:33

사진출처: 게티이미지뱅크 바야흐로 빅데이터 세상이 됐다. 의료계뿐만 아니라 학계, 산업계 및 정계에서도 빅데이터와 함께 나름대로 장밋빛 미래를 그리고 있다. 특히, 미국의 오바마 전 대통령이 '정밀의학'을 캐치프레이즈로 환자 맞춤형 치료를 하겠다고 선언한 이후 정밀의학 시장에 엄청난 자금이 흘러들어가고 있다. 구글, IBM등 IT 공룡 기업들이 앞다퉈 정밀의학 시장을 선점하고자 총성 없는 전쟁을 시작했고, 국내에서도 여러 유관기관들이 정밀의료와 관계된 다양한 국가과제를 기획하고 연구비 수주를 기다리고 있다. 정밀의학의 핵심은 유전체데이터, 그리고 이것과 연결된 환자의 임상데이터다. 현재 임상데이터는 일차적으로 병원이 보유하고 있고, 병원이 보유한 데이터를 간소화해 심평원과 건강보험공단이 보유하고 있는데 환자의 임상 정보를 시계열에 따라 트래킹할 수 있다는 점에서 매우 가치 있는 데이터다. 최근에는 병원들이 공통으로 사용할 수 있는 데이터 모델이 등장해 적어도 정형데이터에서만은 부분적으로라도 기관 간에 데이터 호환이 가능해졌다. 반면, 현재 문제가 되는 것은 정밀의학의 핵심이 되는 유전체 데이터다. 유전체 연구분야는 전통적으로 생물정보학 연구의 핵심 연구 분야로 의료계 보다는 비의료계를 중심으로 놀랍게 발전해 왔다. 인간게놈프로젝트 (Human Genome Project)를 통해 한사람의 유전체를 완벽하게 해독하던 시대가 엊그제 같은데 이제는 반나절이면 과거보다 훨씬 더 정확하게 유전체를 분석할 수 있는 시대가 됐다. 생성된 데이터를 분석하기 위핸 수많은 분석 도구가 등장했고, 지금은 이 많은 분석 도구 중에 도대체 어떤 것을 사용할지를 고민해야 하는 시기가 됐다. 유전체 데이터를 이용해 환자에게 맞는 최적의 약물을 추천해 주거나 부작용을 예측하는 알고리즘이 등장했는가 하면 새로운 적응증 발굴을 통해 신약을 개발하거나, 임상시험 대상자를 선별해 주는 방법론이 등장했다. 그리고, 유전체를 기반으로 한 인공지능 의사가 만들어져 실제 가천대 길병원을 비롯한 몇몇 병원에서는 이미 유전체에 기반을 두고 환자 진료를 돕고 있기도 하다. 이 외에도 암 임상유전체 분야에서 차세대유전체분석기술(NGS: Next Generation Sequencing)에 대해 올해 초 국내 의료수가가 매겨졌다. 그 덕분에 50개에서 150여 개의 암 관련 유전자에 대해 50만 원에서 100만 원 가량의 비용으로 암을 진단하고 적절한 치료법을 시도할 수 있게 됐다. 하지만, 국내에 아직 유전체 분석과 그 결과를 해석하는 방법에 대한 컨센서스가 없으며 이를 위한 거버넌스도 존재하지 않는다. 서로 같은 질병 조직을 가지고 유전체 분석을 하더라도 서로 다른 결과가 나올 수 있고, 유전체분석 수탁기관의 질 관리 방법도 업체별로 다르다. 서로 다른 시퀀싱 기계를 사용하고, 서로 다른 분석 도구를 사용하며, 서로 다른 유전체 지식 데이터베이스(Genome Knowledge Base)를 사용해 해석한다. 결국, 엄청난 비용을 들여 병원마다 유전체 분석 파이프라인을 구축해 놓았지만 한 기관을 떠난 유전체데이터는 더 이상 이용 가치가 떨어진다. 또한, 유전체 데이터의 구조는 그 속성상, 임상데이터가 추구하는 데이터모델과는 사뭇 차이가 있다. 임상데이터는 관계형 데이터베이스 환경에서 많은 부분이 SQL을 통해 연구가 수행되지만, 유전체데이터는 관계형 데이터베이스 구조와는 사뭇 다른 파일시스템의 형태를 따르고 있다. 그래서 두 데이터의 호환성에는 문제가 많다. 이를 위해 최근 유전체데이터를 데이터베이스관리시스템(DBMS)에 저장하기 위한 모델이 등장하기도 했지만, 이 또한 진료정보 교류를 위한 방법이지 유전체를 분석해 의학연구의 새로운 창발 가치를 만들고자 하는 시도는 아니다. 현재, 병원이 보유하게 될 유전체 데이터의 유전자 수는 기껏해야 50개에서 150개 정도다. 인간의 유전체가 2만에서 3만 개 정도 있다고 가정할 때 이 숫자는 기껏해야 전체 유전체 중 1%도 안 되는 매우 미약한 숫자에 불과하다. 암 분야는 그나마 알려진 유전자들이 많으므로 지금의 기술로 이 정도 수준이면 충분히 임상적 가치를 얻을 수 있다. 그러나 당뇨와 같이 아직 유전체에 대해 잘 알려지지 않은 만성질환 연구에서는 아직 풀어야 할 숙제가 많다. 향후 유전체 분석 기술 비용이 더 감소할 경우 인간의 전체 유전자를 수집할 수 있는 시대가 도래할지도 모른다. 지금이라도 유전체 분석에 대한 민간 혹은 공공 거버넌스를 구축하고 임상데이터와 호환 가능한 유전체 저장 데이터 모델을 만들 필요성이 있다. 이것이 더 늦어질 경우 데이터의 질에 문제가 제기돼 유전체데이터가 아무도 믿지 못하는 쓰레기 더미로 전락할지도 모른다.

제보 공유

유전체 데이터, 쓰레기더미 전락 우려

거버넌스 구축하고, 임상데이터와 호환 시급

[칼럼] 아주의대 의료정보학과 한현욱 교수

바야흐로 빅데이터 세상이 됐다. 의료계뿐만 아니라 학계, 산업계 및 정계에서도 빅데이터와 함께 나름대로 장밋빛 미래를 그리고 있다.

특히, 미국의 오바마 전 대통령이 '정밀의학'을 캐치프레이즈로 환자 맞춤형 치료를 하겠다고 선언한 이후 정밀의학 시장에 엄청난 자금이 흘러들어가고 있다.

구글, IBM등 IT 공룡 기업들이 앞다퉈 정밀의학 시장을 선점하고자 총성 없는 전쟁을 시작했고, 국내에서도 여러 유관기관들이 정밀의료와 관계된 다양한 국가과제를 기획하고 연구비 수주를 기다리고 있다.

정밀의학의 핵심은 유전체데이터, 그리고 이것과 연결된 환자의 임상데이터다.

현재 임상데이터는 일차적으로 병원이 보유하고 있고, 병원이 보유한 데이터를 간소화해 심평원과 건강보험공단이 보유하고 있는데 환자의 임상 정보를 시계열에 따라 트래킹할 수 있다는 점에서 매우 가치 있는 데이터다. 최근에는 병원들이 공통으로 사용할 수 있는 데이터 모델이 등장해 적어도 정형데이터에서만은 부분적으로라도 기관 간에 데이터 호환이 가능해졌다.

반면, 현재 문제가 되는 것은 정밀의학의 핵심이 되는 유전체 데이터다.

유전체 연구분야는 전통적으로 생물정보학 연구의 핵심 연구 분야로 의료계 보다는 비의료계를 중심으로 놀랍게 발전해 왔다. 인간게놈프로젝트 (Human Genome Project)를 통해 한사람의 유전체를 완벽하게 해독하던 시대가 엊그제 같은데 이제는 반나절이면 과거보다 훨씬 더 정확하게 유전체를 분석할 수 있는 시대가 됐다. 생성된 데이터를 분석하기 위핸 수많은 분석 도구가 등장했고, 지금은 이 많은 분석 도구 중에 도대체 어떤 것을 사용할지를 고민해야 하는 시기가 됐다.

유전체 데이터를 이용해 환자에게 맞는 최적의 약물을 추천해 주거나 부작용을 예측하는 알고리즘이 등장했는가 하면 새로운 적응증 발굴을 통해 신약을 개발하거나, 임상시험 대상자를 선별해 주는 방법론이 등장했다. 그리고, 유전체를 기반으로 한 인공지능 의사가 만들어져 실제 가천대 길병원을 비롯한 몇몇 병원에서는 이미 유전체에 기반을 두고 환자 진료를 돕고 있기도 하다.

이 외에도 암 임상유전체 분야에서 차세대유전체분석기술(NGS: Next Generation Sequencing)에 대해 올해 초 국내 의료수가가 매겨졌다. 그 덕분에 50개에서 150여 개의 암 관련 유전자에 대해 50만 원에서 100만 원 가량의 비용으로 암을 진단하고 적절한 치료법을 시도할 수 있게 됐다.

하지만, 국내에 아직 유전체 분석과 그 결과를 해석하는 방법에 대한 컨센서스가 없으며 이를 위한 거버넌스도 존재하지 않는다.

서로 같은 질병 조직을 가지고 유전체 분석을 하더라도 서로 다른 결과가 나올 수 있고, 유전체분석 수탁기관의 질 관리 방법도 업체별로 다르다. 서로 다른 시퀀싱 기계를 사용하고, 서로 다른 분석 도구를 사용하며, 서로 다른 유전체 지식 데이터베이스(Genome Knowledge Base)를 사용해 해석한다.

결국, 엄청난 비용을 들여 병원마다 유전체 분석 파이프라인을 구축해 놓았지만 한 기관을 떠난 유전체데이터는 더 이상 이용 가치가 떨어진다. 또한, 유전체 데이터의 구조는 그 속성상, 임상데이터가 추구하는 데이터모델과는 사뭇 차이가 있다.

임상데이터는 관계형 데이터베이스 환경에서 많은 부분이 SQL을 통해 연구가 수행되지만, 유전체데이터는 관계형 데이터베이스 구조와는 사뭇 다른 파일시스템의 형태를 따르고 있다. 그래서 두 데이터의 호환성에는 문제가 많다.

이를 위해 최근 유전체데이터를 데이터베이스관리시스템(DBMS)에 저장하기 위한 모델이 등장하기도 했지만, 이 또한 진료정보 교류를 위한 방법이지 유전체를 분석해 의학연구의 새로운 창발 가치를 만들고자 하는 시도는 아니다.

현재, 병원이 보유하게 될 유전체 데이터의 유전자 수는 기껏해야 50개에서 150개 정도다. 인간의 유전체가 2만에서 3만 개 정도 있다고 가정할 때 이 숫자는 기껏해야 전체 유전체 중 1%도 안 되는 매우 미약한 숫자에 불과하다.

암 분야는 그나마 알려진 유전자들이 많으므로 지금의 기술로 이 정도 수준이면 충분히 임상적 가치를 얻을 수 있다. 그러나 당뇨와 같이 아직 유전체에 대해 잘 알려지지 않은 만성질환 연구에서는 아직 풀어야 할 숙제가 많다.

향후 유전체 분석 기술 비용이 더 감소할 경우 인간의 전체 유전자를 수집할 수 있는 시대가 도래할지도 모른다.

지금이라도 유전체 분석에 대한 민간 혹은 공공 거버넌스를 구축하고 임상데이터와 호환 가능한 유전체 저장 데이터 모델을 만들 필요성이 있다. 이것이 더 늦어질 경우 데이터의 질에 문제가 제기돼 유전체데이터가 아무도 믿지 못하는 쓰레기 더미로 전락할지도 모른다.

오탈자 신고 스크랩 인쇄 제보 공유

윤영식 기자 (column@medigatenews.com)

이 기자의 다른 기사 보기