Dosen Pengampu : Prof. Dr. Suhartono, Mkom

UIN Maulana Malik Ibrahim Malang

Mata Kuliah Bioinformatika

Pola paling penting dalam frekuensi nukleotida ditemukan oleh Chargaff ( Elson dan Chargaff 1952 ).

Jauh sebelum sekuensing DNA tersedia, dengan menggunakan berat molekul, dia bertanya apakah nukleotida terjadi pada frekuensi yang sama. Dia menyebut ini hipotesis tetranukleotida. Kami akan menerjemahkannya menjadi menanyakan apakah pA = pC = pG = pT.Tetapi Chargaff hanya mempublikasikan persentase massa yang ada dalam organisme yang berbeda untuk masing-masing nukleotida.

load("ChargaffTable.RData")
ChargaffTable
##                   A    T    C    G
## Human-Thymus   30.9 29.4 19.9 19.8
## Mycobac.Tuber  15.1 14.6 34.9 35.4
## Chicken-Eryth. 28.8 29.2 20.5 21.5
## Sheep-liver    29.3 29.3 20.5 20.7
## Sea Urchin     32.8 32.1 17.7 17.3
## Wheat          27.3 27.1 22.7 22.8
## Yeast          31.3 32.9 18.7 17.1
## E.coli         24.7 23.6 26.0 25.7
knitr::include_graphics("ChargaffTable.png")

Gambar diatas merupakan barplot untuk baris yang berbeda dalam ChargaffTable

str(ChargaffTable)
##  num [1:8, 1:4] 30.9 15.1 28.8 29.3 32.8 27.3 31.3 24.7 29.4 14.6 ...
##  - attr(*, "dimnames")=List of 2
##   ..$ : chr [1:8] "Human-Thymus" "Mycobac.Tuber" "Chicken-Eryth." "Sheep-liver" ...
##   ..$ : chr [1:4] "A" "T" "C" "G"

Dua variabel kategoris

Data diambil dari sampel yang dapat diklasifikasikan ke dalam kotak yang berbeda: binomial untuk kotak biner Ya/Tidak dan distribusi multinomial untuk variabel kategori seperti A, C, G, T atau berbeda genotipe seperti aa, aA, AA. Namun mungkin kita mengukur dua (atau lebih) variabel kategoris pada satu set subjek, misalnya warna mata dan warna rambut. Kami kemudian dapat melakukan tabulasi silang jumlah untuk setiap kombinasi warna mata dan rambut. Kami memperoleh tabel jumlah yang disebut tabel kontingensi . Konsep ini sangat berguna untuk banyak tipe data biologi.

HairEyeColor
## , , Sex = Male
## 
##        Eye
## Hair    Brown Blue Hazel Green
##   Black    32   11    10     3
##   Brown    53   50    25    15
##   Red      10   10     7     7
##   Blond     3   30     5     8
## 
## , , Sex = Female
## 
##        Eye
## Hair    Brown Blue Hazel Green
##   Black    36    9     5     2
##   Brown    66   34    29    14
##   Red      16    7     7     7
##   Blond     4   64     5     8

BUTA WARNA DAN JENIS KELAMIN

Deuteranopia adalah bentuk kebutaan warna merah-hijau karena fakta bahwa kerucut sensitif panjang gelombang menengah (hijau) hilang. Deuteranope hanya dapat membedakan 2 hingga 3 warna berbeda, sedangkan seseorang dengan penglihatan normal melihat 7 warna berbeda. Sebuah survei untuk jenis buta warna pada subjek manusia menghasilkan tabel dua arah yang menyilangkan buta warna dan jenis kelamin.

load("Deuteranopia.RData")
Deuteranopia
##           Men Women
## Deute      19     2
## NonDeute 1981  1998

cara menguji hubungan antara jenis kelamin dengan terjadinya buta warna. Kami mendalilkan model nol dengan dua binomial independen: satu untuk jenis kelamin dan satu untuk buta warna. Di bawah model ini kita dapat memperkirakan probabilitas multinomial semua sel, dan kita dapat membandingkan jumlah yang diamati dengan yang diharapkan. Ini dilakukan melalui chisq.testfungsi di R

chisq.test(Deuteranopia)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  Deuteranopia
## X-squared = 12.255, df = 1, p-value = 0.0004641

Multinomial Khusus: Keseimbangan Hardy-Weinberg

Penggunaan multinomial dengan tiga tingkat yang mungkin dibuat dengan menggabungkan dua alel M dan N. Misalkan frekuensi keseluruhan alel M dalam populasi adalah p, sehingga dari N adalah q=1-p. Model Hardy-Weinberg melihat hubungan antaradanjika ada independensi frekuensi kedua alel dalam suatu genotipe, yang disebut kesetimbangan Hardy-Weinberg (HWE). Ini akan terjadi jika ada perkawinan acak dalam populasi besar dengan distribusi alel yang sama di antara jenis kelamin. Probabilitas ketiga genotipe tersebut adalah sebagai berikut:

pMM = p^2, pNN = q^2, pMN = 2pq

Fungsi log-likelihood untuk nilai yang berbeda dariuntuk baris ke-216 dari data Mourant 28 , dihitung dengan kode berikut :

library("HardyWeinberg")
## Loading required package: mice
## 
## Attaching package: 'mice'
## The following object is masked from 'package:stats':
## 
##     filter
## The following objects are masked from 'package:base':
## 
##     cbind, rbind
## Loading required package: Rsolnp
## Loading required package: nnet
data("Mourant")
Mourant[200:216,]
##     Population       Country Total  MM  MN   NN
## 200    America            US  1412 424 730  258
## 201    America            US   937 372 337  228
## 202    America            US   610 154 298  158
## 203    America            US   580 136 280  164
## 204    America            US   500 119 242  139
## 205    America            US   515 128 268  119
## 206    America        Mexico   500 235 223   42
## 207    America        Mexico   500 166 268   66
## 208    America       Bolivia  2107 872 969  266
## 209    America       Surinam   904 178 428  298
## 210    Oceania     Australia   500 146 242  112
## 211    Oceania New Caledonia   558  51 229  278
## 212    Oceania    New Guinea  1148  12 110 1026
## 213    Oceania    West Irian   514   5  90  419
## 214    Oceania    Micronesia   962 228 436  298
## 215    Oceania    Micronesia   678  36 229  413
## 216    Oceania        Tahiti   580 188 296   96
nMM = Mourant$MM[206]
nMN = Mourant$MN[206]
nNN = Mourant$NN[206]
loglik = function(p, q = 1 - p) {
  2 * nMM * log(p) + nMN * log(2*p*q) + 2 * nNN * log(q)
}
xv = seq(0.01, 0.99, by = 0.01)
yv = loglik(xv)
plot(x = xv, y = yv, type = "l", lwd = 2,
     xlab = "p", ylab = "log-likelihood")
imax = which.max(yv)
abline(v = xv[imax], h = yv[imax], lwd = 1.5, col = "blue")
abline(h = yv[imax], lwd = 1.5, col = "purple")

Gambar diatas merupakan plot kemungkinan log untuk data negara Meksiko.

Estimasi kemungkinan maksimum untuk probabilitas dalam multinomial juga diperoleh dengan menggunakan frekuensi yang diamati seperti dalam kasus binomial, namun perkiraan harus memperhitungkan hubungan antara tiga probabilitas. Kita bisa menghitung pMM, PMN, dan pNN menggunakan af fungsi dari paket Hardy-Weinberg.

phat  =  af(c(nMM, nMN, nNN))
phat
## [1] 0.693
pMM   =  phat^2
qhat  =  1 - phat

Nilai yang diharapkan di bawah kesetimbangan Hardy-Weinberg

pHW = c(MM = phat^2, MN = 2*phat*qhat, NN = qhat^2)
sum(c(nMM, nMN, nNN)) * pHW
##       MM       MN       NN 
## 240.1245 212.7510  47.1245

Perbandingan visual dengan keseimbangan Hardy-Weinberg

Menggunakan HWTernaryPlot fungsi untuk menampilkan data dan membandingkannya dengan keseimbangan Hardy-Weinberg secara grafis

pops = c(1, 69, 128, 148, 206)
genotypeFrequencies = as.matrix(Mourant[, c("MM", "MN", "NN")])
HWTernaryPlot(genotypeFrequencies[pops, ],
        markerlab = Mourant$Country[pops],
        alpha = 0.0001, curvecols = c("red", rep("purple", 4)),
        mcex = 0.75, vertex.cex = 1)

Gambar diatas merupakan Plot de Finetti, yang menunjukkan titik-titik sebagai barycenters dari tiga genotipe menggunakan frekuensi sebagai bobot pada setiap sudut segitiga. Model Hardy-Weinberg adalah kurva merah, wilayah penerimaan berada di antara dua garis ungu.Terlihat negara Uzbekistan adalah negara yang terjauh dari keseimbangan Hardy-Weinberg. Negara Meksiko berada terdekat dari Keseimbangan Hardy-Weinberg.