Identitas Diri :

Nama : Fikri Aditya Rahman
NIM : 230605110073
Kelas : C
Mata Kuliah : Kalkulus
Dosem Pengampuh : Prof. Dr. Suhartono, M.Kom
Jurusan : Teknik Informatika
Lembaga : Universitas Islam Negeri Maulana Malik Ibrahim Malang

Kalkulus : Penggunaan Data Frame

Kebanyakan orang menemukan data dalam bentuk tabel cetak, seperti Bill of Mortality 1665 yang ditunjukkan di bawah ini. Tabel-tabel ini dikembangkan agar dapat dibaca oleh manusia dan menjadi kompak saat dicetak.

Meskipun diterbitkan lebih dari 350 tahun yang lalu, masih mungkin bagi manusia yang melek huruf untuk memilah apa yang dikatakan tabel tersebut. Tetapi volume data telah meledak di luar kemungkinan untuk mencetaknya. Sebaliknya, data saat ini disimpan dan diakses secara elektronik. Tetapi proses mengakses data semacam itu sangat berakar pada notasi “tabel,” meskipun tabel yang mengikuti seperangkat prinsip yang ketat. Kami akan menyebut tabel seperti bingkai data dan penting bagi Anda untuk mempelajari beberapa prinsip inti organisasi data.

Pertama, kenali bahwa data yang ditunjukkan pada Gambar 7.3 terdiri dari beberapa tabel yang berbeda. Tabel pertama, tepat di bawah judul, dimulai dengan

Tabel 7.1: Dua baris pertama dari tabel utama dari Bill of Mortality

Dikuburkan Wabah Dikuburkan Wabah
St Albans Woodstreet 100 121 St Clemens Eastcheap 18 20
St Alhallowes Gonggongan 514 330 St Diones Kembali gereja 78 27

Bentuk modern ini tidak tersebar di lebar halaman. Ini memiliki satu set kolom daripada set berulang berdampingan seperti pada Tabel 7.1.

Tabel 7.2: Dalam format modern, semua paroki terdaftar dalam satu kolom, sehingga setiap baris tabel sesuai dengan satu paroki.

paroki Dikuburkan Wabah
St Albans Woodstreet 100 121
St Clemens Eastcheap 18 20
St Alhallowes Gonggongan 514 330
St Diones Kembali gereja 78 27

Setiap kolom tabel modern disebut variabel. Jadi ada variabel “terkubur” yang berisi jumlah yang dikuburkan dan variabel lain “wabah” yang berisi jumlah yang meninggal karena wabah.

Setiap baris tabel disebut kasus, tetapi seringkali hanya baris yang digunakan. Untuk setiap tabel, semua kasus adalah hal yang sama, misalnya, di sini, sebuah paroki.

Tabel lain yang ditampilkan pada lembar itu berjudul, “Penyakit dan korban tahun ini.” Dalam tabel ini, kasusnya adalah penyakit atau penyebab kematian lainnya, yang kami letakkan dengan nama “kondisi.”

keadaan Kematian tahun
Abortive dan Stilborne 617 1665
Umur 1545 1665
Ague dan Feaver 5257 1665
Appoplex dan Tiba-tiba 116 1665
Bedrid 10 1665

Kami telah menambahkan variabel “tahun” dengan tujuan untuk mengkonsolidasikan bertahun-tahun Tagihan ke dalam satu tabel.

Sebuah organisasi modern untuk data yang disajikan dalam Bill of Mortality akan kembali ke catatan mentah yang dikumpulkan di lapangan, menumpuknya menjadi hanya dua tabel: Kematian dan Kelahiran. Tabel Kematian mungkin terlihat seperti Tabel 7.3.

Nama tanggal paroki Jenis kelamin umur sebab
Percivell Bullingham 1665-06-01 St Maria le Bow M 29 Wabah
Owin Swancott 1665-08-13 Trinitie M 2 Wabah
Winifred Romford 1665-11-09 St Swithings F 19 Tempat tidur anak
Elsebeth Masak 1665-06-29 St Ethelborough F 5 Wabah
Humfray Langham 1665-06-05 St Bennet Fynch M 53 Umur
Agnes Kirkwood 1665-11-22 St Bukit Maria F 21 Ague
Katherine Murton 1665-12-01 St Alholowes Lesse F 24 Tempat tidur anak
Bainbridge Fletcher 1665-03-17 St Martins M 2 Wabah
Cicely Ouston 1665-03-08 St Austin F 35 Wabah

Konsepsi data modern membuat perbedaan yang jelas antara data dan konstruksi ringkasan data itu untuk konsumsi manusia. Ringkasan semacam itu mungkin grafis, atau dalam bentuk fungsi model, atau bahkan dalam bentuk satu set tabel, seperti yang terlihat dalam Bill of Mortality. Mempelajari cara menghasilkan ringkasan semacam itu adalah tugas penting dalam statistik dan ilmu data. Konstruksi otomatis fungsi model (tanpa banyak campur tangan manusia) adalah bidang yang disebut pembelajaran mesin

Dalam tabel Kematian, yang akan memiliki 97.306 baris untuk tahun 1665, setiap kasus adalah “orang yang meninggal.” Tabel seperti itu saat ini dapat ditabulasikan ulang ke dalam tabel “penyakit dan korban”, atau rincian penguburan berdasarkan jenis kelamin, atau rincian paroki demi paroki. Tetapi ada banyak kemungkinan lain: melihat penyebab kematian berdasarkan usia dan musim tahun, atau dipecah berdasarkan jenis kelamin, dll.

7.2 Mengakses tabel data

Dalam kursus ilmu data Anda akan belajar beberapa cara menyimpan dan mengakses tabel data. Salah satu yang paling penting dalam penggunaan profesional adalah database relasional. (“Relasi” adalah kata lain untuk “tabel,” sama seperti fungsi adalah tentang hubungan antara input dan output.)

Data wrangling adalah istilah yang digunakan untuk menggambarkan bekerja dengan dan meringkas data. Ini termasuk menggabungkan beberapa bingkai data. Dalam Kalkulus MOSAIK, penggunaan data kita akan difokuskan pada membangun fungsi yang menunjukkan pola dalam data dan merencanakan data untuk mengungkapkan pola-pola itu kepada mata.

Untuk pekerjaan kami, Anda dapat mengakses bingkai data yang kami butuhkan langsung di R dengan nama. Misalnya, bingkai data (Tabel 7.4) mencatat karakteristik beberapa mesin pembakaran internal dengan berbagai ukuran:Engines

Tabel 7.4: Berbagai atribut mesin pembakaran internal, dari yang sangat kecil hingga yang sangat besar.
Mesin massa BHP .RPM Menanggung Stroke
Webra Kecepatan 20 0.25 0.78 22000 16.5 16
Enya 60-4C 0.61 0.84 11800 24.0 22
Honda 450 34.00 43.00 8500 70.0 58
Yakub R-775 229.00 225.00 2000 133.0 127
Daimler-Benz 609 1400.00 2450.00 2800 165.0 180
Daimler-Benz 613 1960.00 3120.00 2700 162.0 180
Nordberg 5260.00 3000.00 400 356.0 407
Cooper-Bessemer V-250 13500.00 7250.00 330 457.0 508

7.3 Nama variabel

Pertanyaan mendasar untuk ditanyakan pertama kali tentang kerangka data apa pun adalah:

  1. Apa yang dimaksud dengan baris?

  2. Apa variabelnya dan apa artinya?

Jawaban atas pertanyaan-pertanyaan ini, untuk bingkai data yang akan kita gunakan, tersedia melalui dokumentasi R. Untuk memunculkan dokumentasi untuk , misalnya, berikan perintah: Engines

?Engines
## No documentation for 'Engines' in specified packages and libraries:
## you could try '??Engines'

Ketika bekerja dengan data, adalah umum untuk melupakan sejenak apa variabelnya, bagaimana ejaannya, dan nilai seperti apa yang diambil setiap variabel. Dua perintah yang berguna untuk mengingatkan diri sendiri adalah (diilustrasikan di sini dengan):Engines

Engines <- read.csv("Artikel2.Rmd")
names(Engines) # the names of the variables
## [1] "X..."
## [1] "Engine"       "mass"         "ncylinder"    "strokes"      "displacement"
## [6] "bore"         "stroke"       "BHP"          "RPM"
head(Engines) # the first several rows
##                          X...
## 1      title: kalkulus mosaik
## 2 author: Fikri Aditya Rahman
## 3            date: 2023-10-24
## 4       output: html_document
## 5                         ---
## 6        **Identitas Diri :**
## # A tibble: 6 × 9
##   Engine              mass ncylinder strokes displace…¹  bore stroke   BHP   RPM
##   <chr>              <dbl>     <dbl>   <dbl>      <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1 Webra Speedy       0.135         1       2        1.8  13.5   12.5  0.45 22000
## 2 Motori Cipolla     0.15          1       2        2.5  15     14    1    26000
## 3 Webra Speed 20     0.25          1       2        3.4  16.5   16    0.78 22000
## 4 Webra 40           0.27          1       2        6.5  21     19    0.96 15500
## 5 Webra 61 Blackhead 0.43          1       2       10    24     22    1.55 14000
## 6 Webra 6WR          0.49          1       2       10    24     22    2.76 19000
## # … with abbreviated variable name ¹​displacement
nrow(Engines) # how many rows
## [1] 141
## [1] 39

Di RStudio, perintah ini berguna untuk menampilkan tabel data yang lengkap.View(Engines)