相信第一次看到Hardy-Weinberg equilibrium這名詞都是一頭霧水吧!
我想我應該是在看了第N之後才懂這是什麼(N>5),
簡單的說,這是一種假說來說明基因的分佈常態應該是如何分布的,
舉例來說:假設台灣全島的人口比例分布是這樣的話
閩南人、客家人、外省人和原住民的比例是4:3:2:1
我們怎麼知道收集了100個個案中(閩南人、客家人、外省人和原住民分
別是38:22:30:10),
族群的分佈跟上面是一樣的?若是不一樣的話,研究的結果可能會有誤差(bias),
就是選擇實驗對象的誤差,這尤其在基因的研究上是很重要的,
回到基因:
先看母親這邊出現A基因的機率是p,出現a的機率是q,
在與父親基因配對後(出現A基因的機率是p,出現a的機率是q),
後代出現AA(一個來自母親A一個來自父親A)的機率就是p*p=p2,
依此類推不同基因型的個體出現的頻率如下:
AA基因型的個體出現的頻率為:p2
Aa異基因型的個體出現的頻率為:2pq
aa基因型的個體出現的頻率為:q2
此為Hardy-Weinberg Principle,如果一族群真的能符合上述的所有假設,
則此族群在不同的世代間,不同的同基因座基因形(對偶基因)其基因頻率是不會改變的。
如果真有這種族群,則可以說,這種族群已經到達Hardy-Weinberg equilibrium。
而一個族群只能出現這三種基因型,即AA、Aa和aa,
所以三種機率相加一定等於1(就是100%),所以得到公式為:p2+2pq+q2=1,
但是如何應用在實際的個案中呢?
舉例來說:
2006年一篇探討mu-opioid receptor的一個SNP (A118G)
是否會影響術後morphine的使用量,先不管什麼是mu-opioid receptor或是SNP,
我們只看在118這個位置上的兩個胺基酸A和G,有可能的基因型為:AA AG 和GG,
在本試驗中作者的族群分布分別為(AA:43, AG:19, GG:18),
如何檢定是否符合Hardy-Weinberg equilibrium呢?
我們先把基因拆開來看,AA是由兩個A所組成的,所以43個病人基因是AA,
總共就有43*2=86個A;19個病人基因是AG,總共就有19個A和19個G;
18個病人基因是GG,總共就有18*2=36個G,
整理一下就知道在這80個病人中,總共有86+19=105個A,和19+36=55個G,
所以在這80個人中出現A的機會是105/160=0.656.......這就是上面那張圖的p,
出現G的機會是55/160=0.344.......這就是上面那張圖的q,
當然你也可以直接用1-0.656也是一樣的,所以若是根據Hardy-Weinberg equilibrium
AA基因型的個體出現的頻率為:p2
Aa異基因型的個體出現的頻率為:2pq
aa基因型的個體出現的頻率為:q2
則
出現AA的機率應該是等於p2 = 0.6562=0.431
出現AG的機率應該是等於2pq =2*0.656*0.344=0.451
出現GG的機率應該是等於q2 = 0.3442=0.118
按此實驗有80個人,
上面的機率分布AA的人應該有80*0.431=34人,AG=36人,GG=9人,
這和本試驗實際上的人數AA=43, AG=19, GG=18,是不是有顯著上的差異?
或是說有沒有符合Hardy-Weinberg equilibrium呢?
這時可以用卡方的適合度(chi-square goodness-of-fit test)檢定來檢驗看看
下面是用SPSS中文版18.0.0
先把資料輸入:
為了要讓SPSS分清楚人數是我們要計算的項目,
當然不是用中文打上"人數"它就知道了,必需要做一個"加權"的動作:
資料-->加權值觀察
然後把"人數"選到右邊的"觀察值加權依據"
接下來就可以分析資料,到分析-->無母數檢定-->卡方
把基因型選入右邊的欄位:
在下方分別輸入期望值,按照上面剛剛算出來的機率分別是:
AA=0.431, AG=0.451, GG=0.118
確定之後就可以得到:
報告可以寫成: the observations differ from the expectations to a
statistically highly significant degree (χ2 = 17.95, df = 2, P = 0.00).
就是說根據Hardy-Weinberg equilibrium,本試驗的基因分布並不符合,
這也不能因此說這樣的實驗是不準確的,只是可能此樣本無法代表整個群體,
最好這類的實驗中,作者都能提及此數據,並且在發表前再確定數據是否正確,
可能的話提出合理的解釋等等。詳見此