본문 바로가기
Bioinformatics

왜 Human Reference Genome은 Haploid 일까?

by 정현규 2023. 7. 23.

현재 Human Reference Genome(예: hg38)은 Haploid(반수체)입니다. 하지만 실제로 인간의 Genome은 Diploid(이배체)라는 것을 누구나 다 알고있습니다. 그렇다면 당연히 Human Reference Genome은 이배체여야 하는 것 아닐까요? 어머니, 아버지로 부터 물려받은 Nucleic acid sequence는 다를 것입니다. 또한 유전체의 크기와 유전자의 경우의 수를 증가시켜 Variation의 복잡성도 증가시킵니다. 더군다나 남자와 여자라는 성별 특이적인 Sequence도 존재하지 않을까요? (딱 봐도 구분할 정도인데 Sequence는 얼마나 다를까요?).

 

The Necessity of Diploid Genome Sequencing to Unravel the Genetic Component of Complex Phenotypes
- Fernando Aleman (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5641544/)

 현재의 Whole Genome Sequncing의 주요 약점 중 하나는 이배체에 대해 반수체 정보만 얻는다는 것입니다. Short Reads Sequncing이 보편화 되면서, 모든 염색체의 두 유전자 사본을 하나로 병합하여 상동 염색체의 유전적 변이 사이의 물리적 연결과 근접성을 잃게 됩니다. 두 대립유전자 서열을 하나인 것처럼 퉁쳐버리면 Structural Variation의 해석이 거의 불가능 합니다. 이로 인해 많은 유전자 및 경로 기반 연관성 연구의 힘이 감소됩니다(Mooney et al., 2014)

 

아버지로부터 하나, 어머니로부터 하나(https://www.pacb.com/blog/ploidy-haplotypes-and-phasing/)


그런데도 왜 Human Reference Genome은 Haploid 일까?

 Human Reference Genome은 어디까지나 Reference(참조)이기 때문입니다. 참조 유전체는 생물의 종을 대표하는 염기서열이며, 동일한 종에도 개체간의 변이가 있기 때문에 한 개체 염기서열 자체가 아닌(희귀한 변이를 최소화한) 여러명의 합성(mosaic)으로 반수체(haploid)를 재구성한 것입니다(참조 유전체 - 위키백과, 우리 모두의 백과사전 (wikipedia.org)). 그러니 Human Reference Genome은 구체적인 개인의 예가 아니라 보편적인 기준이 되어야합니다. 성별 특이적인 서열의 차이가 기술적, 비용적인 측면에서 무시된다고 생각할 수 있습니다. 기술적, 비용적 문제가 없었다면 단일 Sequence만 가질 필요는 없었겠죠(Reference Genome의 인종적 편향문제도 마찬가지의 이유라고 생각이 듭니다).

 

미래에는 Human Reference Genome이 한 쌍의 Sequence가 되지 않을까 생각해봅니다.