Pengantar

Bagi Anda yang baru mengenal R, berikut ini beberapa dasar analisis data yang perlu Anda ketahui sebelum menggunakan berbagai tools lebih lanjut.

Data yang digunakan dapat Anda peroleh pada laman di URL: http://bagusco.staff.ipb.ac.id/eksplorasi-data/ dengan nama MYOPIA. Data ini bersumber dari buku regresi logistik karya Hosmer dan Lesmeshow.

Mengimport File Data

Pada ilustrasi ini kita akan bekerja menggunakan data yang terdapat pada file CSV dengan nama “myopia.csv”. Untuk mengimport file tersebut menjadi suatu dataframe di R, kita dapat menggunakan fungsi read.csv() seperti di bawah ini.

data <- read.csv("D:/myopia.csv", header=TRUE)

Perintah di atas menghasilkan sebuah dataframe dengan nama data . Perintah-perintah di bawah ini digunakan untuk melihat banyaknya kolom, banyaknya baris, serta nama-nama kolom pada dataframe tersebut.

#menampilkan banyaknya kolom
ncol(data)
## [1] 19
#menampilkan banyaknya baris
nrow(data)
## [1] 618
#menampilkan nama-nama kolom
colnames(data)
##  [1] "X"         "id"        "studyyear" "myopic"    "age"       "gender"   
##  [7] "spheq"     "al"        "acd"       "lt"        "vcd"       "sporthr"  
## [13] "readhr"    "comphr"    "studyhr"   "tvhr"      "diopterhr" "mommy"    
## [19] "dadmy"

Berdasarkan hasil di atas terlihat bahwa data kita berisi 618 amatan dan 19 kolom. Nama-nama kolom dan penjelasannya adalah sebagai berikut:

Mendeskripsikan Peubah Kategorik

Pada data ini terdapat beberapa peubah kategorik, misalnya jenis kelamin, apakah siswa menderita miopi, dan apakah orang tua siswa menderita miopi. Deskripsi sederhana yang bisa dilakukan adalah melihat frekuensi masing-masing kategori. Misalnya untuk jenis kelamin, berapa banyak yang laki-laki dan berapa banyak yang perempuan.

Tabel frekuensi dapat diperoleh menggunakan fungsi table() seperti yang dicontohkan berikut

table(data$gender)
## 
## Female   Male 
##    302    316

Dengan mudah kita memperoleh informasi bahwa dari 618 siswa, terdapat 302 siswa perempuan dan 316 siswa laki-laki. Untuk menampilkan persentase-nya, kita dapat menggunakan fungsi prop.table() seperti di bawah ini atau membagi tabel frekuensi dengan banyaknya baris.

#cara 1
prop.table(table(data$gender))
## 
##    Female      Male 
## 0.4886731 0.5113269
#cara 2
table(data$gender) / nrow(data)
## 
##    Female      Male 
## 0.4886731 0.5113269

Selain dalam bentuk tabel, kita juga bisa menampilkan dalam bentuk pie-chart seperti berikut.

pie(table(data$gender))

Mendeskripsikan Peubah Numerik

Pada peubah numerik kita bisa melakukan pendeskripsian peubah numerik menggunakan berbagai statistik ringkasan seperti ukuran pemusatan dan ukuran penyebaran.

Kita akan coba terapkan pada data peubah waktu yang digunakan untuk aktifitas olahraga yaitu “sporthr”.

#menghitung rata-rata
mean(data$sporthr)
## [1] 11.95307
#menghitung median
median(data$sporthr)
## [1] 10
#menghitung simpangan baku
sd(data$sporthr)
## [1] 7.968296
#menghitung Kuartile Pertama (Q1)
quantile(data$sporthr, 0.25)
## 25% 
##   6
#menampilkan histogram
hist(data$sporthr)

#menampilkan boxplot
boxplot(data$sporthr, horizontal=TRUE)