건강

인간 게놈 퍼즐 완전 해독: 인간 게놈 프로젝트가 못 푼 8%의 반복 DNA 의 해독과정

Zigzag 2022. 4. 2. 14:14
반응형

* 역자 주: 국제 과학자 컨소시엄인 '텔로미어-투-텔로미어'(T2T)는 인간 게놈 프로젝트에서 누락된 부분을 완전히 해독했다고 3월 31일 '사이언스'(Science)를 통해 밝혔다. 인간 게놈 프로젝트의 유전자 지도는 혼란스러운 반복 영역으로 인해 인간 게놈을 완전히 해독할 수 없었다. 이러한 반복 영역의 해독은 최근 기술의 발전으로 극복 가능해졌다. 이 글은 코네티컷 대학교 분자세포생물학 박사 후보자 Gabrielle Hartley의 The Conversation 3월 31일 자 기사 The Human Genome Project pieced together only 92% of the DNA – now scientists have finally filled in the remaining 8%의 번역으로 그동안 완전한 유전자 해독을 방해해온 반복 DNA 퍼즐이 어떻게 풀리게 됐는가를 분석하고 있다.

인간 게놈 프로젝트는 DNA의 92%만 결합했다. 이제 과학자들은 마침내 나머지 8%를 채웠다

인간 게놈의 절반 이상은 기능이 아직 완전히 이해되지 않은 반복 DNA 서열을 포함한다. 사진: Malte Mueller/fStop via Getty Images

인간 게놈 프로젝트(Human Genome Project)가 2003년에 첫 번째 인간 게놈을 완성했다고 발표했을 때, 그것은 중요한 성과였다. 처음으로 인간 생명의 DNA 청사진이 공개되었다. 하지만 여기에는 문제점이 뒤따랐다. 이 프로젝트는 실제로 게놈의 모든 유전 정보를 모을 수 없었다. 거기에는 채워지지 않은, 너무 혼란스러워서 함께 묶을 수 없는 종종 반복적인 영역(repetitive region)들로 인한 공백이 있었다.

이러한 반복 서열(repetitive sequence)을 처리할 수 있는 기술의 발전으로 과학자들은 마침내 2021년 5월에 그 격차를 메웠고 3월 31일에 최초의 종단 간(end-to-end) 인간 게놈이 공식적으로 발표되었다.

나는 반복적인 DNA 염기서열을 연구하는 게놈 생물학자로 진화사를 통해 게놈이 어떻게 형성되는지를 연구한다. 나는 게놈에서 누락된 반복 시퀀스를 특성화하는 데 도움을 주는 팀의 일원이었다. 그리고 이제 진정으로 완전한 인간 게놈과 함께 이러한 반복적인 영역이 마침내 처음으로 완전히 탐구되고 있다.

사라진 퍼즐 조각들

독일 식물학자 한스 빙클러(Hans Winkler)는 1920년에 "게놈"(genome)이라는 단어를 만들어냈는데, 이것은 "gene"이라는 단어와 "완전한 세트"를 의미하는 접미사 "-ome"을 결합하여 각 세포에 포함된 전체 DNA 서열을 묘사한다. 연구원들은 한 세기가 지난 후에도 유기체를 구성하는 유전 물질을 언급하기 위해 이 단어를 사용한다.

게놈이 어떻게 생겼는지 설명하는 한 가지 방법은 그것을 참고서와 비교하는 것이다. 이 비유에서 게놈은 생명에 대한 DNA 지침이 포함된 선집이다. 이것은 염색체(장, chapters)에 포장된 방대한 뉴클레오티드(문자, letters) 배열로 구성된다. 각 염색체에는 유기체가 기능하도록 하는 특정 단백질을 암호화하는 DNA 영역인 유전자(단락, paragraphs)가 들어 있다.

유전 물질은 염색체에 단단히 포장된 DNA로 구성된다. 게놈에서 DNA의 일부 영역만 단백질을 코딩하는 유전자를 포함한다. 사진: VectorMine/iStock via Getty Images Plus

모든 살아있는 유기체에는 게놈이 있지만 그 게놈의 크기는 종에 따라 다르다. 코끼리는 자신이 먹는 풀과 내장의 박테리아와 동일한 형태의 유전 정보를 사용한다. 그러나 정확히 닮은 게놈은 없다. 곤충에 사는 박테리아 나수이아 델토케팔리니콜라(Nasuia deltocephalinicola)의 게놈처럼 11만 2천 개의 뉴클레오티드에 걸쳐 137개의 유전자만 있는 것도 있다. 파리 자포니카(Paris japonica) 현화식물(flowering plant)의 1490억 개의 뉴클레오티드와 같은 어떤 것들은 너무 길어서 얼마나 많은 유전자가 들어있는지 알기 어렵다.

그러나 전통적으로 단백질을 암호화하는 DNA의 구간들로 이해되어 온 유전자는 유기체 게놈의 작은 부분에 불과하다. 사실, 그들은 인간 DNA의 2% 미만을 구성한다.

인간 게놈에는 약 30억 개의 뉴클레오티드와 20,000개 미만의 단백질 코딩 유전자가 포함되어 있으며 이는 게놈 전체 길이의 약 1%이다다. 나머지 99%는 단백질을 생산하지 않는 비암호화 DNA 서열이다. 일부는 다른 유전자가 작동하는 방식을 제어하는 ​​스위치보드로 작동하는 조절 구성 요소이다. 다른 것들은 유사 유전자(pseudogenes) 또는 기능 능력을 상실한 게놈 유물입니다.

그리고 인간 게놈의 절반 이상은 거의 동일한 염기서열을 여러 개 복사하여 반복적이다.

반복 DNA란 무엇인가?

반복 DNA의 가장 단순한 형태는 위성(satellite)이라고 하는 직렬로 반복해서 반복되는 DNA 블록이다. 주어진 게놈에 얼마나 많은 위성 DNA가 있는지는 사람마다 다르지만 종종 텔로미어(telomere, 말단 소립이라고 불린다 - 역자 주)라고 불리는 영역에서 염색체의 끝을 향해 클러스터링 된다. 이 영역들은 DNA 복제 중에 염색체가 분해되는 것을 방지한다. 그것들은 또한 염색체의 중심체에서도 발견되는데, 이 영역은 세포가 분열할 때 유전 정보를 온전하게 유지하는 것을 돕는다.

연구원들은 여전히 ​​위성 DNA의 모든 기능에 대한 명확한 이해가 부족하다. 하지만 위성 DNA가 사람마다 독특한 패턴을 형성하기 때문에 법의학자와 계보학자들은 범죄 현장 샘플을 대조하고 조상을 추적하기 위해 이 게놈 "지문"을 사용한다. 헌팅턴병을 포함하여 50개 이상의 유전 질환이 위성 DNA의 변이와 관련이 있다.

위성 DNA는 텔로미어에 있는 염색체의 끝을 향해 클러스터링되는 경향이 있다. 여기에서 46개의 인간 염색체는 흰색 텔로미어와 함께 파란색으로 표시된다. 사진: NIH Image Gallery/flickr, CC BY-NC

또 다른 풍부한 유형의 반복적 DNA는 게놈 주위를 이동할 수 있는 전이인자(transposable element) 또는 서열(sequence)이다.

어떤 과학자들은 결과를 떠나 게놈의 어느 곳에나 자신들을 삽입할 수 있기 때문에 그들을 이기적인 DNA라고 묘사했다. 인간 게놈이 진화함에 따라 많은 전이 서열이 돌연변이들을 수집했는데 이는 유해한 간섭을 피하기 위해 그들의 이동 능력을 억제한다. 그러나 일부는 여전히 이동할 수 있다. 예를 들어, 전이인자 삽입은 유전적 출혈 장애인 혈우병 A의 여러 사례와 관련이 있다.

그러나 전이인자들이 꼭 파괴적인 것만은 아니다. 그들은 다른 DNA 서열의 발현을 조절하는 데 도움이 되는 조절 기능을 가질 수 있다. 그들이 중심체에 집중되어 있으면 세포 생존에 기본적인 유전자의 무결성을 유지하는 데 도움이 될 수도 있다.

그들은 또한 진화에 기여할 수 있다. 연구자들은 최근에 발달에 중요한 유전자에 이식 전이인자를 삽입하는 것이 인간을 포함한 일부 영장류에 더 이상 꼬리가 없는 이유일 수 있음을 발견했다. 전이인자로 인한 염색체 재배열은 동남아시아의 긴팔원숭이와 호주의 왈라비와 같은 새로운 종의 기원과도 관련이 있다.

유전자 퍼즐 완성하기

최근까지 이러한 복잡한 지역 중 많은 부분이 달의 뒷면에 비유될 수 있었다. 즉, 존재하는 것으로 알려졌지만 보이지 않았다.

1990년 인간 게놈 프로젝트가 처음 시작되었을 때 기술적인 한계로 인해 게놈에서 반복적인 영역을 완전히 밝히는 것이 불가능했다. 사용 가능한 시퀀싱 기술은 한 번에 약 500개의 뉴클레오티드만 읽을 수 있었고 전체 시퀀스를 다시 생성하려면 이 짧은 단편이 서로 오버랩되어야 했다. 연구자들은 이 겹치는 부분을 이용해 염기서열에서 다음 뉴클레오티드를 식별해 게놈 조립체를 한 번에 한 조각씩 점진적으로 확장시켰다.

이러한 반복 간격 영역은 마치 구름이 잔뜩 낀 하늘의 1,000조각 퍼즐을 맞추는 것과 같았다. 모든 조각이 똑같아 보이는데, 구름의 시작점과 끝점을 어떻게 알 수 있겠는가? 많은 지점에서 거의 동일한 겹침 구간으로 인해 게놈의 완전한 염기서열을 단편적으로 분석하는 것은 불가능해졌다. 수백만 개의 뉴클레오티드가 인간 게놈의 첫 번째 반복에서 숨겨져 있었다.

그 이후로 서열 패치들이 점차 인간 게놈의 공백을 조금씩 메워왔다. 그리고 2021년, 인간 게놈 어셈블리를 처음부터 끝까지 완성하기 위해 노력하는 과학자들의 국제 컨소시엄인 Telomere-to-Telomere(T2T) 컨소시엄은 나머지 모든 공백이 마침내 채워졌다고 발표했다.

그리고 2021년, 인간 게놈 조립을 끝부터 끝까지 완성하기 위해 노력하는 과학자들의 국제 컨소시엄인 Telomere-to-Telomere(T2T)는 마침내 남아있는 모든 공백이 채워졌다고 발표했다.

이것은 수천 개의 뉴클레오티드의 긴 염기서열을 읽을 수 있는 향상된 염기서열 기술에 의해 가능해졌다. 더 큰 그림 안에 반복 서열을 배치하기 위한 더 많은 정보로, 게놈에서 그들의 적절한 위치를 확인하는 것이 더 쉬워졌다. 1,000조각짜리 퍼즐을 100조각짜리 퍼즐로 단순화하는 것처럼, 긴 판독 시퀀스를 통해 처음으로 큰 반복 영역을 조립할 수 있게 되었다.

긴 판독 DNA 서열 기술(long-read DNA sequencing technology)의 힘이 증가함에 따라 유전학자들은 처음으로 개체군과 종에 걸친 복잡한 반복 염기서열을 풀어내는 유전체학의 새로운 시대를 탐험할 수 있게 되었다. 그리고 완전하고 빈틈이 없는 인간 게놈은 연구자들이 유전 구조와 변이, 종의 진화 및 인간 건강을 형성하는 반복 영역을 조사할 수 있는 귀중한 자원을 제공한다.

그러나 하나의 완전한 게놈이 모든 것을 포착하지는 못한다. 지구 상의 인구와 생명체를 완전히 나타내는 다양한 게놈 참조를 만들기 위한 노력은 계속된다. 보다 완벽한 "말단 소립 간"(telomere-to-telomere) 게놈 참조로, DNA의 반복적인 암흑 물질에 대한 과학자들의 이해는 더욱 명확해질 것이다.

반응형