Pola paling penting dalam frekuensi nukleotida ditemukan oleh Chargaff ( Elson dan Chargaff 1952 ).
Jauh sebelum sekuensing DNA tersedia, dengan menggunakan berat molekul, dia bertanya apakah nukleotida terjadi pada frekuensi yang sama. Dia menyebut ini hipotesis tetranukleotida. Kami akan menerjemahkannya menjadi menanyakan apakah pA = pC = pG = pT.Tetapi Chargaff hanya mempublikasikan persentase massa yang ada dalam organisme yang berbeda untuk masing-masing nukleotida.
load("ChargaffTable.RData")
ChargaffTable
## A T C G
## Human-Thymus 30.9 29.4 19.9 19.8
## Mycobac.Tuber 15.1 14.6 34.9 35.4
## Chicken-Eryth. 28.8 29.2 20.5 21.5
## Sheep-liver 29.3 29.3 20.5 20.7
## Sea Urchin 32.8 32.1 17.7 17.3
## Wheat 27.3 27.1 22.7 22.8
## Yeast 31.3 32.9 18.7 17.1
## E.coli 24.7 23.6 26.0 25.7
knitr::include_graphics("ChargaffTable.png")
Gambar diatas merupakan barplot untuk baris yang berbeda dalam ChargaffTable
str(ChargaffTable)
## num [1:8, 1:4] 30.9 15.1 28.8 29.3 32.8 27.3 31.3 24.7 29.4 14.6 ...
## - attr(*, "dimnames")=List of 2
## ..$ : chr [1:8] "Human-Thymus" "Mycobac.Tuber" "Chicken-Eryth." "Sheep-liver" ...
## ..$ : chr [1:4] "A" "T" "C" "G"
Data diambil dari sampel yang dapat diklasifikasikan ke dalam kotak yang berbeda: binomial untuk kotak biner Ya/Tidak dan distribusi multinomial untuk variabel kategori seperti A, C, G, T atau berbeda genotipe seperti aa, aA, AA. Namun mungkin kita mengukur dua (atau lebih) variabel kategoris pada satu set subjek, misalnya warna mata dan warna rambut. Kami kemudian dapat melakukan tabulasi silang jumlah untuk setiap kombinasi warna mata dan rambut. Kami memperoleh tabel jumlah yang disebut tabel kontingensi . Konsep ini sangat berguna untuk banyak tipe data biologi.
HairEyeColor
## , , Sex = Male
##
## Eye
## Hair Brown Blue Hazel Green
## Black 32 11 10 3
## Brown 53 50 25 15
## Red 10 10 7 7
## Blond 3 30 5 8
##
## , , Sex = Female
##
## Eye
## Hair Brown Blue Hazel Green
## Black 36 9 5 2
## Brown 66 34 29 14
## Red 16 7 7 7
## Blond 4 64 5 8
BUTA WARNA DAN JENIS KELAMIN
Deuteranopia adalah bentuk kebutaan warna merah-hijau karena fakta bahwa kerucut sensitif panjang gelombang menengah (hijau) hilang. Deuteranope hanya dapat membedakan 2 hingga 3 warna berbeda, sedangkan seseorang dengan penglihatan normal melihat 7 warna berbeda. Sebuah survei untuk jenis buta warna pada subjek manusia menghasilkan tabel dua arah yang menyilangkan buta warna dan jenis kelamin.
load("Deuteranopia.RData")
Deuteranopia
## Men Women
## Deute 19 2
## NonDeute 1981 1998
cara menguji hubungan antara jenis kelamin dengan terjadinya buta warna. Kami mendalilkan model nol dengan dua binomial independen: satu untuk jenis kelamin dan satu untuk buta warna. Di bawah model ini kita dapat memperkirakan probabilitas multinomial semua sel, dan kita dapat membandingkan jumlah yang diamati dengan yang diharapkan. Ini dilakukan melalui chisq.testfungsi di R
chisq.test(Deuteranopia)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: Deuteranopia
## X-squared = 12.255, df = 1, p-value = 0.0004641
Penggunaan multinomial dengan tiga tingkat yang mungkin dibuat dengan menggabungkan dua alel M dan N. Misalkan frekuensi keseluruhan alel M dalam populasi adalah p, sehingga dari N adalah q=1-p. Model Hardy-Weinberg melihat hubungan antaradanjika ada independensi frekuensi kedua alel dalam suatu genotipe, yang disebut kesetimbangan Hardy-Weinberg (HWE). Ini akan terjadi jika ada perkawinan acak dalam populasi besar dengan distribusi alel yang sama di antara jenis kelamin. Probabilitas ketiga genotipe tersebut adalah sebagai berikut:
pMM = p^2, pNN = q^2, pMN = 2pq
Fungsi log-likelihood untuk nilai yang berbeda dariuntuk baris ke-216 dari data Mourant 28 , dihitung dengan kode berikut :
library("HardyWeinberg")
## Loading required package: mice
##
## Attaching package: 'mice'
## The following object is masked from 'package:stats':
##
## filter
## The following objects are masked from 'package:base':
##
## cbind, rbind
## Loading required package: Rsolnp
## Loading required package: nnet
data("Mourant")
Mourant[200:216,]
## Population Country Total MM MN NN
## 200 America US 1412 424 730 258
## 201 America US 937 372 337 228
## 202 America US 610 154 298 158
## 203 America US 580 136 280 164
## 204 America US 500 119 242 139
## 205 America US 515 128 268 119
## 206 America Mexico 500 235 223 42
## 207 America Mexico 500 166 268 66
## 208 America Bolivia 2107 872 969 266
## 209 America Surinam 904 178 428 298
## 210 Oceania Australia 500 146 242 112
## 211 Oceania New Caledonia 558 51 229 278
## 212 Oceania New Guinea 1148 12 110 1026
## 213 Oceania West Irian 514 5 90 419
## 214 Oceania Micronesia 962 228 436 298
## 215 Oceania Micronesia 678 36 229 413
## 216 Oceania Tahiti 580 188 296 96
nMM = Mourant$MM[206]
nMN = Mourant$MN[206]
nNN = Mourant$NN[206]
loglik = function(p, q = 1 - p) {
2 * nMM * log(p) + nMN * log(2*p*q) + 2 * nNN * log(q)
}
xv = seq(0.01, 0.99, by = 0.01)
yv = loglik(xv)
plot(x = xv, y = yv, type = "l", lwd = 2,
xlab = "p", ylab = "log-likelihood")
imax = which.max(yv)
abline(v = xv[imax], h = yv[imax], lwd = 1.5, col = "blue")
abline(h = yv[imax], lwd = 1.5, col = "purple")
Gambar diatas merupakan plot kemungkinan log untuk data negara Meksiko.
Estimasi kemungkinan maksimum untuk probabilitas dalam multinomial juga diperoleh dengan menggunakan frekuensi yang diamati seperti dalam kasus binomial, namun perkiraan harus memperhitungkan hubungan antara tiga probabilitas. Kita bisa menghitung pMM, PMN, dan pNN menggunakan af fungsi dari paket Hardy-Weinberg.
phat = af(c(nMM, nMN, nNN))
phat
## [1] 0.693
pMM = phat^2
qhat = 1 - phat
Nilai yang diharapkan di bawah kesetimbangan Hardy-Weinberg
pHW = c(MM = phat^2, MN = 2*phat*qhat, NN = qhat^2)
sum(c(nMM, nMN, nNN)) * pHW
## MM MN NN
## 240.1245 212.7510 47.1245
Menggunakan HWTernaryPlot fungsi untuk menampilkan data dan membandingkannya dengan keseimbangan Hardy-Weinberg secara grafis
pops = c(1, 69, 128, 148, 206)
genotypeFrequencies = as.matrix(Mourant[, c("MM", "MN", "NN")])
HWTernaryPlot(genotypeFrequencies[pops, ],
markerlab = Mourant$Country[pops],
alpha = 0.0001, curvecols = c("red", rep("purple", 4)),
mcex = 0.75, vertex.cex = 1)
Gambar diatas merupakan Plot de Finetti, yang menunjukkan titik-titik sebagai barycenters dari tiga genotipe menggunakan frekuensi sebagai bobot pada setiap sudut segitiga. Model Hardy-Weinberg adalah kurva merah, wilayah penerimaan berada di antara dua garis ungu.Terlihat negara Uzbekistan adalah negara yang terjauh dari keseimbangan Hardy-Weinberg. Negara Meksiko berada terdekat dari Keseimbangan Hardy-Weinberg.