Research Interests

(in English)

INTRODUCTION

우리 계산생물학 연구실에서는 컴퓨터를 이용한 계산으로 생물학을 연구하며, 여기에서 얻어진 지식을 새로운 분자를 엔지니어하는 데 응용한다. 여기서는 계산생물학에 대한 일반적인 소개를 주로 다룰 것이며, 본 연구실에서 수행하고 있는 과제는 아래 링크에서 찾아보기 바란다.

화학과 계산생물학

생물학은 생물을 대상으로 하는 학문이고, 화학은 화합물을 연구하는 학문이므로 언뜻 생각하기에 두 학문 사이에 밀접한 관련이 없는 것처럼 느껴질 수도 있다. 그렇지만 조금만 생각해보면 생물은 물질로 구성되어 있고, 물질은 기본적으로 화합물이니 두 학문의 깊이가 깊어지면서 서로 만날 수밖에 없다는 것도 이해할 수 있을 것이다. 실제로 20세기동안 화학의 발전은 생물학의 발전에 지대한 역할을 하였으며, 21세기에는 더욱 큰 기여를 할 것으로 기대된다.

계속 늘어나고 있는 생물학의 지식과 정보, 컴퓨터 테크놀로지의 발달 등으로 인해 기존의 정보를 활용하여 새로운 지식과 정보를 창출하는 생물정보학이라는 새로운 분야가 탄생하였다. 나는 생물정보학이라는 용어보다 더 넓은 의미의 계산생물학이라는 말을 개인적으로 더 선호한다. 생물정보학은 생물정보를 잘 분석, 활용해서 새로운 정보를 창출한다는 것으로 들리지만, 계산생물학은 생물정보와 더불어 생물에 대한 보다 근원적인 물리, 화학적 이해도 함께 이용하는 학문이기 때문이다. 실제로 계산생물학과 생물정보학이라는 용어는 혼용되기도 한다. 계산생물학은 분자생물학, 물리화학, 구조 생물학, 생화학, 통계학, 수학, 컴퓨터 과학 등의 전통적으로 분류되는 여러 학문들 사이에 존재하는 학제간 분야이며, 화학은 이들 여러 학문과 직접적으로 연결될 수 있는 중심적인 위치에 있다고 할 수 있다.

relation diagram

계산생물학은 생물학 연구에서 얻은 무수한 정보를 이용한다.

화학에서는 모든 화합물이 그 대상이지만, 생물학의 대상은 생물이라는 시스템에 제한되어있다. 서로 다른 생물은 고등 생물이든 하등 생물이든 그 생물을 구성하는 화학 분자들에 있어서 공통점이 많다. 예를 들면 모든 생물은 핵산, 단백질, 탄수화물 등으로 구성되어 있다. 서로 다른 생물은 어떤 면에서는 비슷한 종류의 부품으로 만들어진 서로 다른 기능을 하는 기계에 비유할 수 있을 것이다. 서로 다른 기계는 정확히 어떤 부품이 어떻게 조립되어 있느냐에 따라 다른 기능을 하듯이, 서로 다른 생물은 정확히 어떤 분자가 어떻게 상호작용 하느냐에 따라 다른 표현형을 나타낸다. 생물에서 정확히 어떤 분자가 (예를 들면 어떤 단백질이) 만들어지는가는 유전정보에 의해 정해진다. 그리고 서로 다른 분자가 물리적으로 어떻게 상호작용 하는가는 물리법칙에 의해 정해진다.

유전정보는 세포핵 속에 위치하고 있는 염색체의 DNA 염기서열에 저장되어 있고, 이 정보에 의해 생물에서 직접 활동하는 부품이라고 할 수 있는 단백질을 만드는데 이용된다. DNA의 염기서열은 정확히 어떤 단백질을 만들 것인가에 대한 일종의 암호이다. 실제 생물에서는 DNA의 유전정보가 먼저 RNA로 전해지고, RNA의 염기서열이 단백질의 아미노산 서열로 번역된다.

생물정보라고 하면, DNA 염기서열을 먼저 떠올리게 된다. 현재 인간을 비롯한 여러 종의 게놈의 DNA 서열이 알려져 있다. 이것뿐만 아니라 단백질 서열, 환경에 따른 mRNA 표현 데이터, 단백질간의 상호작용, 단백질의 구조와 기능, 생체 내 대사과정이나 생체 기능 조절 네트워크에서부터 더 넓게는 계통학, 생태학 등에 이르기까지 막대한 생물정보가 존재한다. 이러한 많은 생물 정보를 활용하여 생물을 구성하는 분자들이 어떻게 서로 상호작용해서 생명체라는 전체를 이루는가를 알아내는 것이 계산생물학 또는 생물정보학의 큰 과제라고 할 수 있다.

단백질의 삼차원 구조를 아는 것은 생체 기능의 원리를 이해하고 조절하는데 필수적이다.

적절하지 않은 면도 있지만 단백질이 생명체라는 기계의 주된 부속품이라는 비유를 계속 사용하겠다. 단백질이라는 부속품은 특별한 기능이 있고 (예, 헤모글로빈은 피 속에서 산소를 운반하는 기능을 한다), 이 기능을 위해서는 특이한 공간 구조를 가져야 한다. (예, 산소와 결합하기 위해 특정한 구조를 가져야 한다). 따라서 단백질의 삼차원 공간 구조를 아는 것이 생체에서 일어나는 현상을 분자 수준에서 이해하는데 아주 중요하고, 생체 기능을 조절하는 의약 등을 개발하는데 필수적이다. 일단 유전 정보에 의해 단백질의 아미노산 서열이 정해지면 이 단백질의 공간 구조가 어떠한가와 이 단백질 분자가 어떤 다른 분자와 상호작용하고 어떤 기능을 하는가는 물리법칙에 의해 정해진다.

단백질은 20가지 다른 아미노산이 일차원으로 연결되어 만들어지며, 아미노산이 어떤 순서로 연결되느냐에 따라 다른 단백질이 된다. 즉 단백질의 아미노산 서열은 단백질에서 각 원자가 어떻게 연결되어있나 하는 일차원적인 정보만을 준다. 실제 단백질이 기능을 하는 삼차원 공간에서는 일차원적인 화학결합뿐만 아니라 공간적으로 가까운 원자들 사이에 물리적인 힘이 작용한다. 수소를 매개로 하는 수소결합, 서로 다른 전하를 띤 부분들 간의 염다리 형성, 물을 싫어하는 소수성 그룹간의 인력 (세포는 일종의 수용액이므로 물을 싫어하는 부분은 단백질 내부로 들어간다) 등이 그 예이다.

interation maintaining tertiary structure

컴퓨터로 단백질의 삼차원 구조를 예측한다.

단백질의 구조는 X선 결정학이나 핵자기공명(NMR)과 같은 실험적인 방법으로 결정할 수 있다. 이 분야의 공로로 여러 개의 노벨상이 이미 수상되었다. 이런 실험적인 방법에서는 단백질에 특정한 파장의 빛을 쪼여주어서 이 빛과 단백질과 상호작용의 결과 얻어지는 빛의 세기와 파장을 분석하여 역으로 단백질의 구조를 유추해낸다. 이렇게 실험적인 방법으로 단백질의 구조를 알아내기 위해서는 먼저 단백질을 합성, 분리, 정제하고 분석해야하는 번거로움이 있다. 현재 천만 개 정도의 유전자가 알려져 있으나, 이 모두에 대한 단백질 구조를 실험적으로 밝히는 것은 요원한 일일 것이다. (각 유전자는 그에 해당하는 단백질의 아미노산 서열에 대한 암호를 가지고 있다.) 현재까지 알려진 단백질 구조의 개수는 3만개 정도뿐이고, 유전자 서열을 밝히는 작업이 단백질 구조를 밝히는 작업보다 훨씬 빠르므로 알려진 유전자 수와 알려진 단백질 구조의 차이는 점점 더 늘어날 것으로 예상된다. 따라서 실험적인 방법이 아닌 계산으로 단백질 구조를 예측할 수 있다면 생물을 전체로서 이해하는데 큰 도움이 될 것이다.

주어진 단백질에서는 아미노산 서열이 정해져 있고, 따라서 이 단백질을 이루는 원자들 사이에 어떤 힘이 작용할지는 자연의 물리법칙에 의해 정해진다. 단백질 내부에 작용하는 여러 힘의 영향으로 단백질은 특정한 공간구조를 지니게 된다. (만약 아미노산을 임의의 순서로 연결하면 생체에서 기능을 하는 단백질처럼 특정한 구조를 가지지 않고 무질서한 구조를 가지게 될 확률이 훨씬 많다. 이는 임의의 단백질에서는 작용하는 여러 힘이 특정한 구조를 가지게끔 맞아떨어지지 않기 때문이다. 이는 생체 단백질은 생물체에 유리한 구조와 기능을 하도록 진화되어왔음을 내포한다.) 우리는 20세기 물리학과 화학의 발전으로 원자들 사이에 작용하는 힘에 대해 근원적으로 이해하고 있고, 작은 분자에 대해서는 이 이해를 바탕으로 구조를 비교적 정확히 예측할 수도 있다. 구조를 예측하기 위해서는 물리법칙에 대한 복잡한 수식을 컴퓨터로 풀어야 한다. (여기에는 양자역학이라는 물리학적 방법이 쓰인다.) 이것은 현대 컴퓨터 테크놀로지의 발달에 힘입어 가능하게 된 것이다. 그렇지만 현재 컴퓨터의 성능으로는 단백질과 같은 큰 분자를 양자역학적 방법으로 푸는 것은 불가능하고, 따라서 단백질의 구조를 알아내기 위해서 여러 가지 근사적인 방법을 쓰고 있다.

현실적으로 단백질의 구조를 컴퓨터로 예측하는 데에는 이미 알려진 단백질의 구조도 많이 활용된다. 진화적으로 서로 연관이 있는 단백질은 아미노산 서열이 비슷하고, 따라서 구조도 비슷하다. 따라서 비슷한 단백질의 구조가 이미 알려져 있다면 이를 이용하여 구조를 예측할 수 있다. 뿐만 아니라 이미 알려진 많은 단백질의 서열과 구조와의 상관관계로부터 어떤 서열의 단백질은 어떤 구조를 가지는가에 대한 경험적인 법칙을 얻기도 한다. 이렇게 알려진 구조에 대한 정보와 경험적인 법칙이 근사적인 물리학적 방법과 함께 단백질의 구조를 예측하는데 활용되고 있다. 이미 알려진 단백질과 유사도가 큰 경우에는 알려진 구조정보를 더 많이 이용하고, 유사도가 작을수록 물리, 화학적 지식을 보다 적극적으로 활용한다. 현재로서는 유사도가 큰 경우에는 비교적 정확한 구조를 예측할 수 있으나 유사도가 떨어질수록 예측의 정확도가 떨어진다. 그렇지만 유사도가 작은 경우에도 예측의 정확도를 높이는 방법들이 지속적으로 개발되고 있으며, 그리 멀지 않은 시일 내에 신뢰할 수 있는 결과를 얻을 수 있을 것으로 기대된다. 이러한 연구도 계산생물학의 한 분야이며, 물리, 화학, 생물학에 대한 다양한 지식과 이해를 필요로 하는 분야이다.

단백질의 구조를 아는 것은 생체 내 여러 기능을 이해하는 데에 필수적이고, 또한 생체 기능을 조절하여 질병을 치료하는 의약을 개발하는 데에도 큰 도움을 줄 수 있다. 약으로 쓰이는 작은 화합물 중에는 자연계에 존재하는 화합물도 있고 자연계에 존재하지 않는 것을 화학자가 만들어 낸 것들도 있다. 이러한 화합물을 찾아내고 실제로 만들어내는 것도 화학자의 일이다.

화학공간은 방대하며 화학자는 이 공간에서 새로운 물질을 창출한다.

원자들이 어떻게 결합하여 여러 분자들을 만들고, 이 분자들의 성질과 반응이 어떠한지를 이해하는 것은 화학의 핵심적인 연구과제이다. 또한, 이러한 이해를 바탕으로 유용한 성질을 가지는 새로운 물질을 창출해내는 것 또한 화학 연구가 사회에 공헌할 수 있는 중요한 일 중의 하나이다.

새로운 물질 또는 화합물들이 이루는 공간을 화학공간이라는 가상의 공간이라고 한다면, 이 화학공간은 실로 방대하다. 여기서 화학공간이라 함은 여러 원자들의 조합으로 만들어질 수 있는 화합물의 집합을 말한다. 여러 다른 종류의 원자들을 여러 다른 방식으로 결합시킬 수 있는 가짓수는 엄청나게 많다. 예를 들어 분자량 500이하 정도의 비교적 작은 유기화합물의 개수는 1050개 정도로 추정된다. (유기화합물은 주로 탄소, 산소, 수소, 질소 등의 원소로 이루어져 있다.) 이 중에서 생명체가 그 생명을 유지하는데 사용되고 있는 화합물의 개수는 아주 작은 부분에 지나지 않는다. 생체 내의 대사나 신호전달 등에 사용되는 작은 유기화합물(글루코스, ATP, 호르몬 등)의 종류는 아주 단순한 미생물의 경우는 100개 정도이고, 인간의 경우에도 몇 천개에 불과하다. 작은 유기화합물들 외에 생명을 유지하고 조절하는데 필수적인 분자로는 아미노산으로 이루어진 고분자 화합물인 단백질이 있다. 인간의 몸에 존재하는 단백질의 종류는 몇 만개 정도로 추정되고 있지만, 20가지 아미노산의 가능한 모든 조합으로 만들어질 수 있는 단백질의 종류는 10390개 정도가 된다. 그리고 지금까지 언급한 유기화합물에 국한되지 않고 보다 다양한 원소로 이루어진 전체 화학공간을 생각한다면 더더욱 넓은 공간이 될 것이다.
molecules in vivo
이렇게 화학공간은 우주공간에 비유될 수 있을 정도로 방대하며, 이 화학공간에서 우리에게 유용한 목적으로 사용될 가능성이 있는 화합물은 실제로 자연계에 존재하는 화합물보다 훨씬 많을 것이다. 물론 만들어질 수 있는 모든 화합물이 쓸모 있는 것은 아니다. 그렇지만 이 넓은 화학공간에서 어떤 화합물들은 칠흑의 우주공간을 밝혀주는 별들처럼 인류에게 희망과 생명을 가져다 줄 수 있을 것이다. 이미 많은 천연화합물이나 인간이 만든 합성화합물들이 우리 일상생활에 이용되고 있고, 또한 질병으로 고통 받고 있는 많은 사람들에게 혜택을 주고 있다. 화학공간에서 새롭고 진기한 구조와 기능을 가진 물질들을 찾아내는 것이 실제로 현재 많은 화학자들의 연구과제이다. 질병이 일어나는 화학반응 과정을 막는 화합물을 찾아 의약을 만든다든지, 에너지 문제나 환경문제 해결에 도움을 줄 수 있는 화합물을 만들어낸다든지, 더 작고 더 빠른 컴퓨터 칩을 만들 수 있는 재료를 개발한다든지 하는 것들이 그 중요한 예이다.

화학공간의 천문학적인 방대함을 생각한다면 이 공간을 탐색하는데 컴퓨터를 이용한 방법이 효과적일 것이라는 짐작을 할 수 있을 것이다. 실제로 신약개발을 위해 다양한 화합물을 가상 검색하는 방법이 대부분의 세계적 수준의 제약회사에서 사용되고 있다. 작은 화합물의 탐색뿐만 아니라 단백질 공간을 탐색하여 진기한 나노바이오 물질을 개발하려는 단백질 디자인 분야도 발달하고 있다. 천문학적 수의 가능한 아미노산 서열을 탐색하는데 컴퓨터를 이용한 생물정보학적, 물리화학적 방법이 훌륭한 수단이 됨은 말할 나위가 없다.

계산생물학의 과제: 생물을 컴퓨터 안에서 연구한다.

지금까지 계산생물학의 분야로서 단백질의 구조를 계산으로 예측하거나 단백질과 여러 화합물간의 상호작용을 예측하는 분야에 대해 소개하였다. 계산을 이용한 방법은 실험에 비해 비용과 시간이 훨씬 절감되고, 실험으로 알아내기 힘든 복잡한 분자 레벨의 디테일에 대해 알 수 있으며, 실험으로 다루기 어려운 여러 가지 가능성에 대해 시뮬레이션을 할 수 있다는 장점이 있다. 계산생물학이 더 발전할수록 힘들고 시간과 비용이 많이 드는 생물학과 화학 실험을 점점 더 줄일 수 있을 것이다. 그렇지만 앞으로도 계산생물학자들이 넘어야 할 산들은 많다. 실험에 비하여 계산결과의 신뢰도가 아직 만족할만한 수준이 않다는 것이 큰 문제점이다. 물리화학적 효과의 효율적인 적용, 생명정보의 효과적인 이용 등에 있어서 앞으로도 많은 발전이 필요하다. 그렇지만 원칙적으로 분자세계를 지배하는 원리에 대해 알고 있고, 복잡한 계에 대해 이를 적용하는 방법에 많은 발전이 계속되고 있다는 사실과, 컴퓨터 테크놀로지의 발달이 가속되고 있다는 사실을 고려하면 미래의 전망은 아주 밝다고 할 것이다.

계산생물학자의 큰 꿈은 가장 복잡한 화학계인 생명체를 가상실험을 통해 이해, 예측하는 것이다.
Biology in silico

CURRENT PROJECTS

그룹에서 개발한 소프트웨어