2,000만개 논문 뒤져 '가상인체' 설계

▲ ▲ 이도헌교수 ⓒ뉴데일리

식품이나 의약품을 개발하기 위해 컴퓨터로 ‘가상인체’를 만든다는 구상이 얼른 이해되지 않았다. 그 복잡한 인체의 대사와 세포와 조직 또는 기관들의 움직임을 어떻게 컴퓨터로 모형을 만들 수있겠는가 하는 의문이다.

카이스트 이도헌 교수(바이오및뇌공학과)에게 이 질문을 던졌을 때 이 교수는 “지금까지 전세계의 생물학 화학 의학 교수들이 내 놓은 과학적 지식을 집대성하면 가능하다”고 설명했다.

가상인체를 만들기 위해 사용하는 과학적 지식의 양은 생각보다 훨씬 많다. 첫 번째로 14만개의 생체회로 모델을 사용한다. 두 번째로 220만개의 수학공식을 사용하고, 여기에다 2,000만개의 관련 논문을 뒤진다.

생체회로 모델이란 예컨대 피가 간을 지나갈 때 피의 어느 성분이 간 속의 어떤 성분과 무슨 반응을 일으켜 어떤 물질을 생성하는지 혹은 어떤 현상을 일으키는지 하는 내용을 알기 쉽게 회로도를 그린 것이다. 전자회로를 생각하면 비슷하다. 이런 회로도가 무려 14만개나 된다.

220만개의 수학공식은 예를 들어 피가 간을 지나갈 때 속도나 양 등을 유체역학을 사용해서 계산하는 수학 공식 등을 말한다. 이런 공식이 무려 220만개나 된다. 마찬가지로 2,000만개의 논문은 천연물의 어떤 성분이 무슨 효과를 내는지 하는 것을 전세계의 수많은 과학자들이 지금까지 써놓은 논문을 따져보니 무려 2,000만개가 된다는 것이다.
▲ ▲ 중간정도 복잡한 생체회로. 이런 회로가 14만개이다. ⓒ카이스트
▲ ▲ 몸 안에서 일어나는 현상을 정리한 반응식. 무려 220만개가 있다. ⓒ카이스트

카이스트 '유전자 동의보감 사업단' (단장 이도헌 교수)은 이같이 전세계 과학자들이 수 십 년 또는 수 백 년간 갈고 닦은 연구성과를 바탕으로 IT기술을 활용해 '가상인체'를 만들고 있다.

이쯤 되면 이 가상인체가 어느 정도 과학적인 근거를 갖고 활용될 것이라는 확신을 심어줄 만 하다. 이 모든 것은 컴퓨터가 대량 정보를 처리해주기 때문에 가능해졌다. 데이터 마이닝(data mining) 기술을 이용해서 그 산더미 같은 자료에서 원하는 자료를 캐내는 기술을 이용한다.

그렇다면 가상인체가 왜 필요한 것일까?

보통 신약을 개발하기 위해서 세계적인 다국적기업들은 무려 200만개의 후보물질을 탐색한다. 이들 중에서 고르고 골라서 그리고 각종 실험과 임상시험을 통과해서 실제 신약으로 개발되는 목표에 도달하는 것은 불과 한 두개 밖에 안된다. 시간이 매우 많이 걸리는데다 비용도 엄청나게 들어간다.

더욱 신약개발을 힘들게 하는 것은 2가지 이상 성분이 인체에 복합적으로 작용할 때의 상황이다. 2개 성분을 동시에 투여하면 예상하지 못한 효과가 증가한다.

신약 한가지 개발하기에도 힘이 드는데 이렇게 두세가지 약효 성분이 동시에 작용할때 일어날 상황을 기존 방식으로 예측하고 실험하는 것은 생각만해도 복잡하다.

바로 이럴 때 가상인체를 이용하면 훨씬 쉽고 간편하다. 가상인체에 들어있는 14만개의 생체회로도, 220만개의 수학공식, 2,000만개의 각종 논문이 이 역할을 해주는 것이다. 그러니 가상인체라는 것이 별에서 날라온 외계인이 아니라 과학자들의 땀이 스민 연구성과물을 모두 활용하는 지극히 정상적인 방법이라는 점에 동감할 수 있을 것 같다.

이도헌 교수가 단장을 맡고 있는 '유전자 동의보감 사업단'은 여기에 한가지 장치를 또 이용했다. 새로운 물질을 발굴해서 그 효능을 검사하기 보다 수 백 년, 수 천 년동안 인류가 사용해 온 천연물을 이용한 것이다.

예를 들어 인삼의 사포닌이 건강에 좋다는 것은 누구도 부인하지 못하는 경험적 지식이다. 이 교수팀은 그렇다면 이미 효과가 있다고 인정받는 사포닌 성분이 인체에서 어떤 작용을 일으키는지를 가상인체를 통해서 광범위하고 정확하게 확인할 수 있다.
“우리 사업단이 하는 일은 천연물의 복합성분이 인체에서 작용하는 원리를 가상인체 컴퓨터모델로 규명하여 새로운 식품과 약품소재를 발굴하는 기술입니다.
천연물 안에는 여러 가지 화학성분이 들어있어요. 우리가 생각하기에 이런 성분은 인체에 복합적으로 작용합니다. 어떤 성분이 인체 내부에서 어떻게 작용하는지 하는 내용을 생물학적 실험을 가지고 하려면 너무 힘들고 비용이 많이 들어요.”
바로 이 같은 난제를 해결하기 위해 가상인체를 만들려는 것이다. 그렇다면 여기에서 이런 질문이 생긴다. 가상인체 모델이 실제 인체에서 발생하는 현상과 어느 정도 일치하느냐? 하는 질문이다.

가상인체의 오차범위를 물었을 때 이 교수는 몇 개의 지도 사진을 보여줬다. 지금 봐도 상당히 정확한 대동여지도를 비롯해서, 콜롬버스로 하여금 신대륙 탐험을 가능하게 한 아주 엉성하기 짝이 없는 세계지도가 나왔다. 그리고 구글에서 검색한 우리나라 지도와 세계지도도 같이 모니터에 띄웠다.
“지금 만들려는 가상인체는 콜롬버스스가 보았던 바로 그 세계지도 수준이라고 보면 됩니다. 아직은 초보단계여서 부족한 점이 많습니다.
그러나 이런 지도가 있느냐와 없느냐의 차이는 엄청나게 크죠.”

초보적인 수준이건 엉성하건 간에 지도가 있으면 그 자체로 상당한 효용성을 낸다. 세계지도라는 개념도 어떤 모양도 없다면 그 차이는 엄청나다.

그러니 가상인체의 존재가치는 얼마나 사람안에서 벌어지는 현상을 얼마나 ‘정확하게’ (exact) 보여주느냐 하는 것이 아니라, 얼마나 ‘유용한’(useful) 지도인가 하는 점에 모아져야 한다.

사업단은 이미 시작단계이기는 하지만, 가상인체 컴퓨터모델을 가지고 천연물에서 나온 성분에 대한 몇 가지 실험을 하고 있다. 항암제 A, B, C를 복합적으로 사용했을 때 나타날 수 있는 부작용을 줄이는 연구를 가상인체를 통해서 미리 한 다면 결과를 얻기가 더욱 쉽고 빨라진다. 물론 기능성 식품 소재를 발굴하거나 화학적으로 합성해서 새로운 신물질을 만드는 연구도 쉬워진다.

인체에서 벌어지는 현상은 여러 수준에서 생각할 수 있다. 가장 하위가 분자 수준의 현상이다. 그 위는 세포들끼리 서로 상호작용한 것이고, 다음 단계는 세포가 모여 생긴 조직과 조직 사이의 상호작용에 관한 것이다.

다음 단계는 조직이 여러 개 겹쳐서 구성된 간 신장 허파 등 기관에서 발생하는 현상이 될 것이다. 이들 기관들이 모인 예컨대 호흡 시스템, 신경시스템 등 시스템 차원에서 발생하는 현상이 있을 것이다.

우리 신체의 몸 안에는 수만개의 유전자들이 서로 조절을 한다. 한 유전자가 활성화하면 많은 수의 다른 유전자도 활성화된다. 이런 것들은 과학자들이 모두 다 수식으로 밝혀놓았다. 비과학자가 보기에 그런 것도 수식으로 정리가 되는가? 라고 할 내용이다. 이렇게 만들어놓은 수식이 무려 220만개라고 하니 정말 놀라운 일이 아닐 수 없다.

이렇게 수식도 많고 생체회로도 적지 않다 보니 이것을 한군데 잘 모아놓는 것도 일이 됐다. 수많은 생물학자와 의학자들이 수 백 년 동안 만든 이런 복잡한 수식들을 한 군데 모아놓은 것이 유럽의 EBI, 미국의 NCBI이다. 대형 데이터 베이스에 전세계 과학자들은 자기들이 연구한 생체회로를 이곳에 등록해놓았다. 이런 생체회로도가 무려 14만개라는 것이다 간에서 포도당이 분해되는 과정, 암세포에 약물이 도달했을 때 회로 등등이 들어있다.

유전자 숫자도 많고 인체내부에서 일어나는 반응도 한 두 가지가 아니다 보니 이제는 이런 지식들을 꿰는 지식이 더욱 중요해졌다. 이런 연구를 말하는 신조어가 오믹스(Ome +ics = omics)이다. 실험할 때 여러 개의 유전자들이 각각 어떻게 활동하는지 하나 하나 따지는 게 지루하고 복잡하다 보니 세포 안에 들어 있는 모든 유전자 단백질이 현재 상태에서 어떻게 활성화 되어 있는지, 세포 안에 유전자 3만 개 중 몇 개가 활성화됐는지 측정하는 기술이다.

단백질에 대한 것은 프로테오믹스라고 부르고 대사물질은 메타볼로믹스라고 부른다. 이런 식으로 대량으로 측정하는 오믹스 기술이 지난 15년 사이에 보편화되었기에 가상인체가 가능해졌다.

여기에 컴퓨터 기계학습기술을 동원해서 오믹스 데이터로부터 생체반응식을 자동으로 추출한다. 사업단은 여기에 보완장치를 하나 더 넣었다. 이미 나와 있는 생물의학분야의 수많은 논문중에서 믿을 만한 논문을 모아놓은 것이 펍메드(Pubmed)라고 미국 정부에서 관리하는 종합도서관이다.

이 안에는 중요한 저널에 실린 논문이 다 올라와 있다. 사업단은 컴퓨터가 이 논문들을 자동으로 읽게 한다. 그리고 논문 안에 있는 정보를 추출하고, 반응식도 자동 추출한다. 이렇게 퍼브메드에 저장된 2000만개의 논문에서 컴퓨터는 생체반응에 해당하는 문장을 읽어서 수식으로 표현한다. 이런 텍스트 마이닝 (text mining)기술이 또한 중요한 연구수단이다.
▲ ▲ 유전자동의보감 사업단 ⓒ카이스트

이 정도의 배경이 있기 때문에 가상인체가 상당한 정확성을 가질 수 있다. 거대한 가상인체 안에 들어갈 수학 공식은 한 축에는 오믹스 데이터를 기계학습 방법으로 추출하고, 또 한 축에서는 논문에 들어있는 반응식을 추출하고 컴퓨터로 모아놓은 것이 가상인체 컴퓨터 모델이다.

가상인체 지도가 지금은 콜롬버스가 이용했던 엉성한 세계지도 같아 보이지만, 시간이 지날수록 더욱 정교해질수록 쓸모 있는 지도로 바뀌는 것이다.

지금 사업단은 초보수준에서 당뇨치료제의 원리가 가상인체시스템에서 어떻게 작동하는지 검증하는 중이다.

사업단이 시도하는 또 하나의 도전은 이미 효능이 검증돼서 오랫동안 사용해 온 천연물의 약효성분을 집대성하는 일이다. 사업단은 이에 대한. 대규모 데이터베이스를 구축하고 있다. 지금까지 알려진 천연물 소재의 분자성분과 효능을 집대성하는 일이다.

특허청에서 국책사업으로 데이터베이스화한 천연물 데이터베이스를 비롯해서, 중국에서 만든 전통 천연물 데이터베이스, 미국과 유럽에서 발굴한 화합물 데이터 베이스를 엮어서 코코넛(COCONUT)이란 이름의 종합 데이터베이스를 만드는데 2014년 가을에 첫 버전이 완성된다.

사업단은 이 데이터베이스를 뒤져서 천연물에 들어있는 약효 있는 성분을 가상인체에 적용해서 효능을 규명하고 분석하게 될 것이다. 물론 우리나라 자생식물에서 나오는 천연물을 우선적으로 조사할 것이다. 이미 약효가 전통적인 방법으로 어느 정도는 증명된 것이므로 이 교수는 “어느 정도 안전한 길로 가는 방법”이라고 전망했다. 천연물 성분이 어느 정도 효능을 발휘하는지가 관건이지, 효능은 이미 검증됐다는 것이다.

이것은 새로운 도전이기도 하지만, 기존의 신약개발 방식과는 아주 다른 길이어서 성공은 보장된 방법이라고 할 수 있다. 다만 어느 정도의 성공이 가능한가가 남았을 뿐이다.

물론 이 같은 연구개발방식은 컴퓨터가 아니면, 시스템 생물학이 아니면 생각하기 힘든 방식이다. 컴퓨터의 대용량 정보처리 기술이나 인공지능 기술의 특징이 아주 잘 발휘되는 분야이다. 동시에 생물학과 약리학에 대한 깊은 이해가 없이 컴퓨터 프로그램만 해서는 안된다.
▲ ▲ 천연물 복합성분 반응 개념도 ⓒ카이스트

인체는 너무나 복잡한 시스템이라 모델링을 잘 하려면 바이오에 대한 이해와 컴퓨터 기술이 함께 융합되어야 한다. 지금 데이터베이스에 들어가 있는 천연물 개수 만 수 만 개가 넘는다. 넘어야 할 장애물은 또 있다. 한국 중국 유럽 미국 등 서로 다른 소스에서 온 데이터이다 보니 같은 식물이라고 해도 이름이 다르고, 같은 화학물질에 대해서도 부르는 명칭이 달라서 이를 조정하는 작업이 보통이 아니다. 이 역시 국제적으로 표준화된 용어로 바꿔야 하는데 이것 또한 ‘데이터 마이닝’ 기술이 아니면 어렵다.

이렇게 골라내려면 고도의 소프트웨어 알고리즘이 필요하므로 알고리즘 특허도 출원하게 될 것이다.
사업단은 최종 목표가 실제 산업에 응용되도록 기술이전하는 것으로 잡고 있다. 지금 식품회사나 제약회사하고 네트워킹을 형성해서 기술이전 하기 좋은 소재후보를 발굴해서 작용기전도 규명하는 등 공동개발도 추진중이다.

이 같은 시스템은 워낙 방대하다 보니 어느 한 나라가 모든 천연물을 다 맡을 수가 없어서 나라별로 나눠서 진행한다. 우선 모든 국가가 공통으로 쓸 수 있는 인체가상지도를 만든 다음, 나라별로 어느 요소를 조립해서 쓸 것인가는 선택하게 된다. 이중 천연물 복합성분 분석을 위해 가상인체를 쓰는 나라는 우리나라 뿐이다.

이 교수는 “내년 쯤 이 기술을 응용한 상품을 출시할 예정”이라고 말했다.

2,000만개 논문 뒤져 '가상인체' 설계

관련기사

이 시각 주요뉴스