hanzok I - purps2014str자료를 토대로 snp 추정 haplo

앞의 자료는 snpbystr 추정을 위한 reference db의 자료를 하플로 3자로 합산하여 어족별로 재구성한 것인데 세부 하플로가 나뉘어 지지 않앗고 중국 한족자료는 인구규모에 비해 너무 빈약하여 할 수 없이 snpbystr추정 자료를 현 시점에서 살펴볼 필요가 있다. 본인의 방법론은 athey의 최빈값 방법론으로 이는 인터넷에 뒤져보면 알 것인데 이 방법론의 핵심은 str dys 별 좌위값의 최빈값의 빈도를 1로 설정하고 이 최빈값의 비율로 여러 좌위값을 백분화 한후 이들 빈도를 기하학적평균값(=fitness)으로 환산하여 가장 높은 fitness를 가진 하플로를 특정 str의 snp로 추정하는 것이다. 이 방법론은 일반적으로 사용하는 genetic distance에 대한 매우 정교화된 방법론으로 본인의 경험으로는 가장 신뢰성이 높다 할 것이다. 문제는 추정에 바탕이 돼는 reference db가 얼마나 실제를 반영하느냐 하는 것인데 어느정도 본인의 reference db가 서서히 안정화 돼고 있다는 판단(98%)하에 snpbystr자료를 공개하게 된 것이다.

본인의 reference db에는 Yfull 자료가 세부 하플로 추정에 바탕이 되고 있다. 따라서 2000년전에 탄생한 snp 자료도 추정이 가능하여 너무나도 번잡하여 이를 만여년전의  mrca의 확장 연대를 기준점으로 하여 하플로 7자로 끊어 자료를 제공한다.

이 자료를 볼 때 참고할 점은 기존의 str-snp자료에는 이렇듯 7자 레벨로 측정돼지 않았기에 하위하플로 str자료가 모두 반영돼지 않고 상위 하플로에 반영돼는 예가 많이 잇음에 유념하기 바란다. 하지만 이 자료를 보면 아직도 발견되지 않은 많은 snp와 snp내 str자료가 충분치 않다는 것을 절감한다. 하지만 큰 틀에서 보면 지장은 없을 것으로 보여... 

하여간 앞으로 당분간 hanzok str자료를 作亂해 볼 것이다.   

Count - haplo Population

haplo Han Minnan Han Total Result
C*-M130 0.29%
0.25%
C1a1-M8 0.15%
0.13%
C2-M217 0.29% 1.83% 0.50%
C2b-L1373 0.73% 0.92% 0.76%
C2b1a1-M48 0.15%
0.13%
C2e-Z1338 0.73% 0.92% 0.76%
C2e1a-K555 1.90%
1.64%
C2e1b-K700 0.88%
0.76%
C2e1b1a-CTS12347 0.15%
0.13%
C2e1b2-CTS3385 0.15%
0.13%
C2e2-F845 0.29%
0.25%
D*-M174 0.29% 0.92% 0.38%
D1a-M15 1.02%
0.88%
D1c1-P47 0.15%
0.13%
E*-M96 0.15%
0.13%
E1b1b1b-CTS1243 0.15%
0.13%
H1-M69 0.29% 0.92% 0.38%
J1a2b-P58 0.15%
0.13%
J2-M172 0.15%
0.13%
J2a1-L26 0.15%
0.13%
J2a1h-L24 0.15%
0.13%
N1-F1206 2.48% 2.75% 2.52%
N1b2-Z4784 0.15%
0.13%
N1b2a1-CTS7324 0.29%
0.25%
N1c1-Tat 0.44%
0.38%
N1c1b-F3331 0.73%
0.63%
N1c2a1-F1154 0.15%
0.13%
N1c2a1a-F2759 0.44% 0.92% 0.50%
N2a1-F1833 1.17%
1.01%
N2b-F2659
3.67% 0.50%
NO-M214 0.73% 0.92% 0.76%
O*-M175 0.58% 0.92% 0.63%
O1a-M119 5.84% 4.59% 5.67%
O1a1-P203 2.04% 3.67% 2.27%
O1a1a-F446 0.15%
0.13%
O1a1a1a-CTS2458 0.73% 0.92% 0.76%
O1a1b-CTS52 0.15%
0.13%
O1a1b1-K644 0.44% 0.92% 0.50%
O1a2-M50 0.15%
0.13%
O2-P31 1.90% 0.92% 1.76%
O2a1-PK4 0.88%
0.76%
O2a1a-M95 1.17% 0.92% 1.13%
O2a1a1-CTS10007 0.29%
0.25%
O2a1a2a-CTS4769 4.23% 0.92% 3.78%
O2a1a2b-M1280 0.15%
0.13%
O2a1b-CTS11792 0.15%
0.13%
O2a2-CTS10887 0.15%
0.13%
O2a2b-F779 0.44%
0.38%
O2b1a1a-CTS1102 0.29%
0.25%
O2b1a2a-K3 0.29%
0.25%
O2b1a2b-L682 0.15%
0.13%
O2b2-CTS3505 0.15%
0.13%
O3-M122 2.77% 3.67% 2.90%
O3a-M324 1.46% 0.92% 1.39%
O3a1-L465 6.28% 2.75% 5.79%
O3a1a1a-M121 0.29% 0.92% 0.38%
O3a1a1b-CTS11209 0.29%
0.25%
O3a1a1c-F2640 0.44%
0.38%
O3a1a2a-CTS1936 0.15%
0.13%
O3a1c-JST002611 8.03% 7.34% 7.93%
O3a1c1a-F11 3.36% 0.92% 3.02%
O3a1c1f-CTS12877 0.15%
0.13%
O3a1c2-F238 1.02%
0.88%
O3a2-P201 0.15%
0.13%
O3a2a1-CTS800 0.15%
0.13%
O3a2a1a-CTS1602 0.15%
0.13%
O3a2a2a-M7 3.50% 1.83% 3.27%
O3a2a2b-CTS201 1.02% 2.75% 1.26%
O3a2c-P164 2.19% 0.92% 2.02%
O3a2c1-M134 4.96% 3.67% 4.79%
O3a2c1a-F444 7.74% 6.42% 7.56%
O3a2c1b-M117 15.18% 40.37% 18.64%
O3a2c2a-F2472 0.15%
0.13%
Q*-M242 0.44%
0.38%
Q1-P36 0.58%
0.50%
Q1a1a1-M120 2.48%
2.14%
Q1a2-M346 0.15%
0.13%
Q1b1-L214 0.29%
0.25%
R-Z95 0.15%
0.13%
R1a1a1b-S224 0.44%
0.38%
R1b-M343 0.44%
0.38%
R1b1a2a-L23 0.29%
0.25%
R2a-L266 0.15%
0.13%
Total Result 100.00% 100.00% 100.00%
sample No 685 109 794

이 자료에 나오는 하플로별 대표 snp는 yfull tree(http://www.yfull.com/tree/)를 주로 참고하였지만 C2e-Z1388분지는 신경진 박사팀의 2015 논문에 나오는 M407의 상위 SNP CTS2657은 K555(K계열은 YoungMin JeongAhn이라는 젊은 미국 유학생이 명명한 것으로 ISOGG상에서도 yfull에서도 광범위하게 사용돼고 있다. 현재 ISOGG Otree의 contact person이다)로 Z8440은 K700으로 표시하였다.

하플로 N 분지는 최근에 발표된 The dichotomy structure of Y chromosome Haplogroup N을 참조하였다.
F444분지는 Refined phylogenetic structure of an abundant East Asian Y-chromosomal haplogroup O*-M134을 참조하엿으나 너무 번잡하여 추정은 하되 묶어서 자료 작성을 하였다.

위 자료를 보면 기존에 언급돼지 않앗던 새로운 snp들이 출현하는데 이는 하플로의 계층적 구조를 참조하면 될 것이다. 아직 이 새로운 snp 중 어디에 초점을 맞추어야 할지 앞으로의 과제다.



덧글

댓글 입력 영역