如何用SPSS中的goodness-of-fit test來檢定Hardy-Weinberg equilibrium－Sky的天空

相信第一次看到Hardy-Weinberg equilibrium這名詞都是一頭霧水吧！

我想我應該是在看了第N之後才懂這是什麼(N>5)，

簡單的說，這是一種假說來說明基因的分佈常態應該是如何分布的，

舉例來說：假設台灣全島的人口比例分布是這樣的話

閩南人、客家人、外省人和原住民的比例是4:3:2:1

我們怎麼知道收集了100個個案中(閩南人、客家人、外省人和原住民分

別是38:22:30:10)，

族群的分佈跟上面是一樣的?若是不一樣的話，研究的結果可能會有誤差(bias)，

就是選擇實驗對象的誤差，這尤其在基因的研究上是很重要的，

回到基因：

螢幕快照 2010-08-14 上午3.36.32.png

先看母親這邊出現A基因的機率是p,出現a的機率是q，

在與父親基因配對後(出現A基因的機率是p,出現a的機率是q)，

後代出現AA(一個來自母親A一個來自父親A)的機率就是p*p=p^2，

依此類推不同基因型的個體出現的頻率如下：

AA基因型的個體出現的頻率為：p²

Aa異基因型的個體出現的頻率為：2pq

aa基因型的個體出現的頻率為：q²

此為Hardy-Weinberg Principle，如果一族群真的能符合上述的所有假設，

則此族群在不同的世代間，不同的同基因座基因形（對偶基因）其基因頻率是不會改變的。

如果真有這種族群，則可以說，這種族群已經到達Hardy-Weinberg equilibrium。

而一個族群只能出現這三種基因型，即AA、Aa和aa，

所以三種機率相加一定等於1(就是100%)，所以得到公式為：p²+2pq+q²=1，

但是如何應用在實際的個案中呢？

舉例來說：

2006年一篇探討mu-opioid receptor的一個SNP (A118G)

是否會影響術後morphine的使用量，先不管什麼是mu-opioid receptor或是SNP，

我們只看在118這個位置上的兩個胺基酸A和G，有可能的基因型為:AA AG 和GG，

在本試驗中作者的族群分布分別為(AA:43, AG:19, GG:18)，

如何檢定是否符合Hardy-Weinberg equilibrium呢？

我們先把基因拆開來看，AA是由兩個A所組成的，所以43個病人基因是AA，

總共就有43*2=86個A;19個病人基因是AG，總共就有19個A和19個G;

18個病人基因是GG，總共就有18*2=36個G，

整理一下就知道在這80個病人中，總共有86+19=105個A，和19+36=55個G，

所以在這80個人中出現A的機會是105/160=0.656.......這就是上面那張圖的p，

出現G的機會是55/160=0.344.......這就是上面那張圖的q，

當然你也可以直接用1-0.656也是一樣的，所以若是根據Hardy-Weinberg equilibrium

AA基因型的個體出現的頻率為：p²

Aa異基因型的個體出現的頻率為：2pq

aa基因型的個體出現的頻率為：q²

則

出現AA的機率應該是等於p^{2 =}0.656²=0.431

出現AG的機率應該是等於2pq=2*0.656*0.344=0.451

出現GG的機率應該是等於q^{2 =}0.344²=0.118

按此實驗有80個人，

上面的機率分布AA的人應該有80*0.431=34人,AG=36人,GG=9人，

這和本試驗實際上的人數AA=43, AG=19, GG=18，是不是有顯著上的差異？

或是說有沒有符合Hardy-Weinberg equilibrium呢？

這時可以用卡方的適合度(chi-square goodness-of-fit test)檢定來檢驗看看

下面是用SPSS中文版18.0.0

先把資料輸入：

螢幕快照 2010-08-14 上午4.17.37.png

為了要讓SPSS分清楚人數是我們要計算的項目，

當然不是用中文打上"人數"它就知道了，必需要做一個"加權"的動作：

資料-->加權值觀察

螢幕快照 2010-08-14 上午4.20.25.png

然後把"人數"選到右邊的"觀察值加權依據"

螢幕快照 2010-08-14 上午4.20.59.png

接下來就可以分析資料，到分析-->無母數檢定-->卡方

螢幕快照 2010-08-14 上午4.22.44.png

把基因型選入右邊的欄位:

螢幕快照 2010-08-14 上午4.24.23.png

在下方分別輸入期望值，按照上面剛剛算出來的機率分別是：

AA=0.431, AG=0.451, GG=0.118

螢幕快照 2010-08-14 上午4.27.09.png

確定之後就可以得到：

螢幕快照 2010-08-14 上午4.27.51.png

報告可以寫成： the observations differ from the expectations to a

statistically highly significant degree (χ2 = 17.95, df = 2, P = 0.00).

就是說根據Hardy-Weinberg equilibrium，本試驗的基因分布並不符合，

這也不能因此說這樣的實驗是不準確的，只是可能此樣本無法代表整個群體，

最好這類的實驗中，作者都能提及此數據，並且在發表前再確定數據是否正確，

可能的話提出合理的解釋等等。詳見此

u402053

Sky的天空

u402053 發表在痞客邦留言(4) 人氣()

E-mail轉寄

Sky的天空

裡面有裝潢的大小事，我們一家人在西雅圖的生活，和在台灣的一點一滴

如何用SPSS中的goodness-of-fit test來檢定Hardy-Weinberg equilibrium

歷史上的今天

留言列表

我的連結

文章分類

文章搜尋

最新文章

最新留言

熱門文章

文章精選

新聞交換(RSS)

參觀人氣

QR Code

POWERED BY