MEDI:GATE NEWS 분당서울대학교병원-마크로젠, 동북아시아 최대 규모 참조 유전체 DB 구축

기사입력시간 19.11.18 16:00최종 업데이트 19.11.18 16:00

동북아시아인 어드믹스쳐 분석 결과. 분당서울대병원과 마크로젠 공동 연구팀은 동북아시아 최대 규모의 동북아시아인 참조 유전체 데이터베이스(Northeast Asian Reference Database, NARD)를 공개했다고 18일 밝혔다. 이번 연구 결과는 오픈 액세스 저널인 '유전체 의학(Genome Medicine, 영향력 지수 10.886)' 온라인판에 지난달 22일 자로 게재됐다. 나드(NARD)는 아담이 낙원에서 챙겨 나온 향나무에서 채취한 향유로 귀중하고 값진 것으로 묘사되는데 연구진은 이 참조 유전체 데이터베이스의 중요성을 나타내기 위해 이와 같이 명명했다. 이번 연구 결과는 우리나라가 두각을 나타내고 있는 바이오 빅데이터 기반 의료산업에서 중요한 역할을 할 수 있을 것으로 기대된다. 동북아시아인 참조 유전체 데이터베이스에는 한국인 850명을 포함한 몽골인 384명, 일본인 396명, 중국인 91명, 홍콩인 58명 등 총 1779명의 전장 유전체 분석(Whole-genome Sequencing, WGS) 정보와 유전변이 정보가 포함돼 있다. 이는 한국, 몽골, 일본, 중국 등 동북아시아 4개국을 대표할 수 있는 참조 유전체 데이터베이스 중 최대 규모이며 현재까지 국내외에서 공개된 참조 유전체 데이터베이스 중 동북아시아인 유전체 분석에서 정확도를 크게 높일 수 있는 것으로 나타났다. 참조 유전체(Reference Database)는 수천 명에서 수만 명에 이르는 사람들의 전장 유전체 염기서열 정보로 구성된 데이터베이스로 전장 유전체 연관성 분석(Genome-wide Association Study, 이하 GWAS) 연구에서 사용된다. 특히 결실값 예측 기법(임퓨테이션, imputation)에서 결과의 정확도를 높이는 중요한 역할을 하는 것으로 알려져 있다. 결실값 예측기법이란 참조 유전체를 활용해 유전변이 정보를 통계적으로 유추해낼 수 있는 기법으로 이를 활용하면 적은 비용으로 한 개인의 유전체 정보 대부분을 확인할 수 있다는 장점이 있다. 이때 참조 유전체에 포함된 개인의 샘플 수가 많을수록 그리고 참조 유전체와 연구대상자의 인종이 일치할수록 결실값 예측기법의 정확도는 향상되며 유의미한 연구 결과 또한 도출해낼 수 있다. 그러나 동북아시아인을 위한 참조 유전체 데이터베이스는 턱없이 부족한 실정이다. 현재까지 세계에서 가장 큰 참조 유전체 데이터베이스로 알려진 하플로타입 레퍼런스 컨소시엄(Haplotype Reference Consortium, HRC)에서 구축한 데이터베이스는 대부분 유럽인종으로 구성돼 있다. 동북아시아인의 비중은 약 1%에 불과해 이들을 대상으로 한 전장 유전체 연관성 분석 연구에서 높은 정확도를 얻기가 매우 힘든 상황이다. 이에 대규모의 동북아시아인 참조 유전체 데이터베이스에 대한 필요성이 꾸준히 제기돼 왔다. 공동 연구팀은 이번에 구축한 동북아시아 최대 규모의 참조 유전체 데이터베이스가 결실값 예측기법의 정확도를 향상할 뿐만 아니라 나아가 다중유전자위험점수(Polygenic Risk Score, PRS) 기반의 질병 예측에 중요한 역할을 할 것으로 예상하고 있다. 다중유전자위험점수는 2018년 MIT가 뽑은 10대 혁신기술 중 하나로 결실값 예측기법을 통해 도출한 특정 질환에 영향을 미치는 수백 개 유전자의 위치 및 해당 질환의 위험성을 수치화해 발병 위험을 예측하는 방법이다. 대규모 참조 유전체 데이터베이스를 활용한 결실값 예측기법의 정확도가 높으면 다중유전자위험점수에서도 정확도 높은 결과를 산출할 수 있다. 이를 통해 이번에 구축한 데이터베이스가 동북아시아인의 유전체 정보 기반 정밀의료 실현에 중요한 역할을 할 것이라는 게 연구진의 설명이다. 공동 연구팀은 이번 연구를 통해 동북아시아 4개국에서 각각 특이적으로 나타나는 유전체 특성이 있다는 것을 세계 최초로 규명했다. 동북아시아인 참조 유전체 데이터베이스에 주성분 분석(principal component analysis)과 어드믹스쳐(admixture) 분석을 진행한 결과 한국인, 일본인, 중국인, 몽골인은 서로 다른 유전체 구성을 보였으며 특히 한국인의 유전체 구성은 다른 동북아시아인의 유전체 구성과 뚜렷하게 구분되는 것으로 나타났다. 이는 동북아시아인과 같은 대륙별 인종뿐 아니라 국가별 인종에 대한 참조 유전체 구축이 필요함을 나타내며 무엇보다 한국인에 대한 참조 유전체 데이터베이스의 필요성과 유의성을 과학적으로 입증한 중요한 결과다. 새롭게 구축한 동북아시아인 참조 유전체 데이터베이스는 'NARD 임퓨테이션' 사이트를 통해 누구나 자유롭게 이용할 수 있다. 분당서울대병원 서정선 석좌교수는 "이번 연구를 통해 동북아시아인의 유전적 특성을 확인했을 뿐만 아니라 전 세계적으로 독보적인 정확도를 자랑하는 참조 유전체 데이터베이스를 구축하는 데 성공했다"면서 "현재 1만 명 규모의 동북아시아인 2차 참조 유전체 데이터베이스 분석이 마무리돼 내년 초 추가로 공개할 예정이며, 이를 통해 동북아시아인 질병 관련 유전자 발굴 및 질병 예측에 크게 기여할 수 있을 것으로 기대한다"고 밝혔다.

제보 공유

분당서울대학교병원-마크로젠, 동북아시아 최대 규모 참조 유전체 DB 구축

한국·몽골·일본·중국 4개국 1779명의 전장 유전체 분석 정보와 유전변이 정보 포함

분당서울대병원과 마크로젠 공동 연구팀은 동북아시아 최대 규모의 동북아시아인 참조 유전체 데이터베이스(Northeast Asian Reference Database, NARD)를 공개했다고 18일 밝혔다.

이번 연구 결과는 오픈 액세스 저널인 '유전체 의학(Genome Medicine, 영향력 지수 10.886)' 온라인판에 지난달 22일 자로 게재됐다.

나드(NARD)는 아담이 낙원에서 챙겨 나온 향나무에서 채취한 향유로 귀중하고 값진 것으로 묘사되는데 연구진은 이 참조 유전체 데이터베이스의 중요성을 나타내기 위해 이와 같이 명명했다.

이번 연구 결과는 우리나라가 두각을 나타내고 있는 바이오 빅데이터 기반 의료산업에서 중요한 역할을 할 수 있을 것으로 기대된다.

동북아시아인 참조 유전체 데이터베이스에는 한국인 850명을 포함한 몽골인 384명, 일본인 396명, 중국인 91명, 홍콩인 58명 등 총 1779명의 전장 유전체 분석(Whole-genome Sequencing, WGS) 정보와 유전변이 정보가 포함돼 있다.

이는 한국, 몽골, 일본, 중국 등 동북아시아 4개국을 대표할 수 있는 참조 유전체 데이터베이스 중 최대 규모이며 현재까지 국내외에서 공개된 참조 유전체 데이터베이스 중 동북아시아인 유전체 분석에서 정확도를 크게 높일 수 있는 것으로 나타났다.

참조 유전체(Reference Database)는 수천 명에서 수만 명에 이르는 사람들의 전장 유전체 염기서열 정보로 구성된 데이터베이스로 전장 유전체 연관성 분석(Genome-wide Association Study, 이하 GWAS) 연구에서 사용된다.

특히 결실값 예측 기법(임퓨테이션, imputation)에서 결과의 정확도를 높이는 중요한 역할을 하는 것으로 알려져 있다. 결실값 예측기법이란 참조 유전체를 활용해 유전변이 정보를 통계적으로 유추해낼 수 있는 기법으로 이를 활용하면 적은 비용으로 한 개인의 유전체 정보 대부분을 확인할 수 있다는 장점이 있다.

이때 참조 유전체에 포함된 개인의 샘플 수가 많을수록 그리고 참조 유전체와 연구대상자의 인종이 일치할수록 결실값 예측기법의 정확도는 향상되며 유의미한 연구 결과 또한 도출해낼 수 있다.

그러나 동북아시아인을 위한 참조 유전체 데이터베이스는 턱없이 부족한 실정이다. 현재까지 세계에서 가장 큰 참조 유전체 데이터베이스로 알려진 하플로타입 레퍼런스 컨소시엄(Haplotype Reference Consortium, HRC)에서 구축한 데이터베이스는 대부분 유럽인종으로 구성돼 있다.

동북아시아인의 비중은 약 1%에 불과해 이들을 대상으로 한 전장 유전체 연관성 분석 연구에서 높은 정확도를 얻기가 매우 힘든 상황이다. 이에 대규모의 동북아시아인 참조 유전체 데이터베이스에 대한 필요성이 꾸준히 제기돼 왔다.

공동 연구팀은 이번에 구축한 동북아시아 최대 규모의 참조 유전체 데이터베이스가 결실값 예측기법의 정확도를 향상할 뿐만 아니라 나아가 다중유전자위험점수(Polygenic Risk Score, PRS) 기반의 질병 예측에 중요한 역할을 할 것으로 예상하고 있다.

다중유전자위험점수는 2018년 MIT가 뽑은 10대 혁신기술 중 하나로 결실값 예측기법을 통해 도출한 특정 질환에 영향을 미치는 수백 개 유전자의 위치 및 해당 질환의 위험성을 수치화해 발병 위험을 예측하는 방법이다.

대규모 참조 유전체 데이터베이스를 활용한 결실값 예측기법의 정확도가 높으면 다중유전자위험점수에서도 정확도 높은 결과를 산출할 수 있다. 이를 통해 이번에 구축한 데이터베이스가 동북아시아인의 유전체 정보 기반 정밀의료 실현에 중요한 역할을 할 것이라는 게 연구진의 설명이다.

공동 연구팀은 이번 연구를 통해 동북아시아 4개국에서 각각 특이적으로 나타나는 유전체 특성이 있다는 것을 세계 최초로 규명했다.

동북아시아인 참조 유전체 데이터베이스에 주성분 분석(principal component analysis)과 어드믹스쳐(admixture) 분석을 진행한 결과 한국인, 일본인, 중국인, 몽골인은 서로 다른 유전체 구성을 보였으며 특히 한국인의 유전체 구성은 다른 동북아시아인의 유전체 구성과 뚜렷하게 구분되는 것으로 나타났다.

이는 동북아시아인과 같은 대륙별 인종뿐 아니라 국가별 인종에 대한 참조 유전체 구축이 필요함을 나타내며 무엇보다 한국인에 대한 참조 유전체 데이터베이스의 필요성과 유의성을 과학적으로 입증한 중요한 결과다.

새롭게 구축한 동북아시아인 참조 유전체 데이터베이스는 'NARD 임퓨테이션' 사이트를 통해 누구나 자유롭게 이용할 수 있다.

분당서울대병원 서정선 석좌교수는 "이번 연구를 통해 동북아시아인의 유전적 특성을 확인했을 뿐만 아니라 전 세계적으로 독보적인 정확도를 자랑하는 참조 유전체 데이터베이스를 구축하는 데 성공했다"면서 "현재 1만 명 규모의 동북아시아인 2차 참조 유전체 데이터베이스 분석이 마무리돼 내년 초 추가로 공개할 예정이며, 이를 통해 동북아시아인 질병 관련 유전자 발굴 및 질병 예측에 크게 기여할 수 있을 것으로 기대한다"고 밝혔다.

오탈자 신고 스크랩 인쇄 제보 공유

박도영 기자 (dypark@medigatenews.com)더 건강한 사회를 위한 기사를 쓰겠습니다

이 기자의 다른 기사 보기