4 Data and data graphics
Dekade 1660-an sangat signifikan dalam kemunculan sains, meskipun tidak ada yang menyadarinya pada saat itu. 1665 adalah tahun wabah, wabah besar terakhir wabah pes di Inggris. Universitas Cambridge ditutup untuk menunggu wabah. Isaac Newton, yang saat itu seorang mahasiswa Cambridge berusia 24 tahun, pulang ke Woolsthorpe di mana dia tinggal dan bekerja dalam isolasi selama dua tahun. Penulis biografi James Gleich menulis: “Tahun wabah adalah transfigurasinya. Soliter dan hampir tidak bisa berkomunikasi, ia menjadi ahli matematika terpenting di dunia.” Selama tahun-tahun isolasinya, Newton mengembangkan apa yang sekarang kita sebut “kalkulus” dan, terkait dengan itu, teorinya tentang Gravitasi Universal. Dia menulis traktat tentang karyanya pada tahun 1669, tetapi menahannya dari publikasi sampai 1711.
Wabah adalah faktor pendorong dalam karya penting lainnya, yang diterbitkan pada tahun 1661, Natural and Political Observations … Dibuat atas Bills of Mortality oleh John Graunt (1620-1674). Bills of mortality, daftar jumlah dan penyebab kematian di London, telah diterbitkan sebentar-sebentar dimulai pada tahun wabah 1532, dan kemudian terus berlanjut dari awal wabah pada tahun 1603. Graunt, berprofesi sebagai haberdasher, melakukan apa yang sekarang kita sebut ilmu data, ekstraksi informasi dari data. Misalnya, Graunt adalah orang pertama yang mengamati tingginya angka kematian anak dan bahwa jumlah kematian yang dikaitkan dengan wabah diremehkan sekitar seperempat. Karya Graunt menyebabkan pemilihannya ke Royal Society, kelompok ilmuwan agustus yang sama di mana Isaac Newton adalah anggota (dan kemudian presiden). Graunt dianggap sebagai ahli demografi dan epidemiologi pertama.
Publikasi Graunt menandai dimulainya statistik. Dia membangun di atas satu abad kerja oleh kota London, mengumpulkan dan mentabulasi data tentang seperempat juta kematian. Memang kata “statistik” berasal dari “negara,” satu-satunya entitas yang cukup besar untuk mengumpulkan data tentang populasi dan ekonomi.
4.1 Data frames
Kebanyakan orang menemukan data dalam bentuk tabel cetak, seperti Bill of Mortality 1665 yang ditunjukkan di bawah ini. Tabel-tabel ini dikembangkan agar dapat dibaca oleh manusia dan menjadi kompak saat dicetak.
Meskipun diterbitkan lebih dari 350 tahun yang lalu, masih mungkin bagi manusia yang melek huruf untuk memilah apa yang dikatakan tabel tersebut. Tetapi volume data telah meledak di luar kemungkinan untuk mencetaknya. Sebaliknya, data saat ini disimpan dan diakses secara elektronik. Tetapi proses mengakses data semacam itu sangat berakar pada notasi “tabel,” meskipun tabel yang mengikuti seperangkat prinsip yang ketat.
4.2 Accessing data tables
Dalam kursus ilmu data Anda akan belajar beberapa cara menyimpan dan mengakses tabel data. Salah satu yang paling penting dalam penggunaan profesional adalah database relasional. (“Relasi” adalah kata lain untuk “tabel,” sama seperti fungsi adalah tentang hubungan antara input dan output.)
Data wrangling adalah istilah yang digunakan untuk menggambarkan bekerja dengan dan meringkas data. Ini termasuk menggabungkan beberapa bingkai data. Dalam Kalkulus MOSAIK, penggunaan data kita akan difokuskan pada membangun fungsi yang menunjukkan pola dalam data dan merencanakan data untuk mengungkapkan pola-pola itu kepada mata.
4.3 Variable names
pertanyaan mendasar untuk ditanyakan pertama kali tentang kerangka data apa pun adalah:
Apa yang dimaksud dengan baris? Apa variabelnya dan apa artinya? Jawaban atas pertanyaan-pertanyaan ini, untuk bingkai data yang akan kita gunakan, tersedia melalui dokumentasi R. Untuk memunculkan dokumentasi untuk , misalnya, berikan perintah :Engines
?Engines
## No documentation for 'Engines' in specified packages and libraries:
## you could try '??Engines'
Ketika bekerja dengan data, adalah umum untuk melupakan sejenak apa variabelnya, bagaimana ejaannya, dan nilai seperti apa yang diambil setiap variabel. Dua perintah yang berguna untuk mengingatkan diri sendiri adalah (diilustrasikan di sini dengan):Engines
Di RStudio, perintah ini berguna untuk menampilkan tabel data yang lengkap.View(Engines)
4.4 Plotting data
Kami hanya akan menggunakan satu format grafis untuk menampilkan data: plot titik. Dalam plot titik, juga dikenal sebagai “scatterplot,” dua variabel ditampilkan, satu pada setiap sumbu grafis. Setiap kasus disajikan sebagai titik, yang koordinat horizontal dan vertikalnya adalah nilai variabel untuk kasus itu
4.5 Functions as data
Pada bab-bab sebelumnya, kita telah menggunakan rumus untuk mendefinisikan fungsi. Hubungan antara fungsi dan rumus itu penting, tetapi sama sekali tidak penting untuk gagasan fungsi.
Bisa dibilang lebih penting dalam praktik untuk representasi fungsi adalah tabel dan algoritma. Perhitungan di balik perhitungan output fungsi seperti atau atau fungsi dasar lainnya yang kami perkenalkan di Bab 5 bergantung pada perangkat lunak komputer yang berulang dan berulang dan yang tidak terlihat oleh hampir semua orang yang menggunakannya. Sebelum munculnya komputasi modern, fungsi disajikan sebagai tabel cetak. Misalnya, fungsi logaritma, ditemukan sekitar tahun 1600, bergantung hampir lengkap pada tabel cetak Dalam Bab Ini kami memperkenalkan satu set kecil fungsi buku pola. Masing-masing fungsi memang pola yang bisa ditulis sekali dan untuk semua dalam bentuk tabel. Menghasilkan tabel seperti itu awalnya membutuhkan karya “komputer” manusia yang melakukan perhitungan aritmatika yang luas dan rumit dengan tangan. Apa yang dianggap sebagai mesin pertama yang dapat diprogram, perangkat mekanis yang dirancang oleh Charles Babbage (1791-1871) dan diprogram oleh Ada Lovelace (1815-1852), disusun untuk tujuan khusus menghasilkan tabel fungsi yang dicetak.
Sangat membantu untuk memikirkan fungsi, umumnya, sebagai semacam penyimpanan data dan perangkat pengambilan yang menggunakan nilai input untuk menemukan output yang sesuai dan mengembalikan output itu kepada pengguna. Perangkat apa pun yang mampu melakukan ini, seperti tabel atau grafik dengan penerjemah manusia, adalah cara yang cocok untuk mengimplementasikan suatu fungsi.
Untuk memperkuat gagasan ini, kami meminta Anda untuk membayangkan koridor panjang dengan urutan kantor, masing-masing diidentifikasi oleh nomor kamar. Input ke fungsi adalah nomor kamar. Untuk mengevaluasi fungsi input itu, Anda mengetuk pintu yang sesuai dan, sebagai tanggapan, Anda akan menerima selembar kertas dengan nomor untuk dibawa pergi. Angka itu adalah output dari fungsi.
Ini akan terdengar pada awalnya terlalu sederhana untuk menjadi kenyataan, tapi … Dalam fungsi matematika, setiap kantor memberikan nomor yang sama setiap kali seseorang mengetuk pintu. Jelas, menjadi pekerja di kantor seperti itu sangat membosankan dan tidak memerlukan keahlian khusus. Setiap kali seseorang mengetuk pintu pekerja, dia menuliskan nomor yang sama di selembar kertas dan menyerahkannya kepada orang yang mengetuk. Apa yang akan dilakukan orang itu dengan nomor itu sama sekali tidak menjadi perhatian pekerja kantor.