Metode Statistika
~ Pendahuluan ~
Nb: Untuk segala bentuk diskusi, kritik dan saran mengenai materi silahkan hubungi admin!
Alamat \(\space \rightleftharpoons\) | Sebagai Berikut : \(\downarrow\) |
dsciencelabs@outlook.com | |
https://www.instagram.com/dsciencelabs/ | |
RPubs | https://rpubs.com/dsciencelabs/ |
Github | https://github.com/dsciencelabs/ |
Telegram | @dsciencelabs |
Di era digital khususnya dimasa pandemi Covid-19 seperti sekarang ini, hampir semua kegiatan kita sehari-hari harus dilakukan secara online. Kegiatan seperti ibadah, bekerja, investasi, belajar, belanja, liburan, dan bahkan hangout dengan teman-teman dapat dilakukan secara virtual. Selain itu, baik pemerintah, perusahaan multinasional sampai usaha kecil dan menengah sekalipun, telah berupaya mengimplementasikan teknologi informasi dalam proses bisnisnya. Hal ini, mengakibatkan semakin banyak juga informasi atau data yang disimpan dan siap untuk dianalisis. Banyak perusahaan dan organisasi menginvestasikan dana yang besar untuk merekrut orang-orang terbaik yang bisa memformulasikan strategi bisnis yang dapat diandalkan, dengan menggunakan data historis yang sudah dikumpulkan atau bahkan melakukan pengumpulan data dari berbagai sumber (big data). Pertanyaan besarnya adalah bagaimana menggunakan data atau informasi tersebut sehingga dapat memberikan manfaat yang diharapkan bagi perusahaan maupun organisasi?. Satu-satunya kunci jawaban yang dapat menyelesaikan permasalahan itu adalah Sains Data (Data Science).
Apa itu Data Science? Data science adalah ilmu yang menggabungkan matematika, statisika dengan ilmu komputer dengan tujuan analisa data (data analysis) dari suatu himpunan data baik skala kecil (sampel) maupun besar (populasi) dengan mengaplikasikan algoritma tertentu untuk tujuan menggali data (data mining) dan mendapatkan pola data serta dapat melakukan prediksi data (prediction) dengan cukup akurat yang dapat membantu dalam pengambilan keputusan dan dapat digunakan untuk membuat sistem yang cerdas (AI) yang dapat terus belajar dengan sendirinya (machine learning).
Gabar 1: Data Science, sumber:dsciencelabs
Adapun hal mendasar yang harus dikuasai dalam proses data science adalah kemampuan untuk menerapkan berbagai metode statistika dalam kehidupan sehari-hari. Dalam hal ini, dapat menyelesaikan setiap permasalahan yang ada sesuai dengan jenis informasi atau data yang dimiliki suatu organisasi atau perusahaan tertentu. Sebagai pelajar, mahasiswa, pengajar, peneliti, dan praktisi sangat penting untuk mempelajari metode statiska dengan baik dan benar. Oleh karena itu, akan dijelaskan secara singkat pengertian mengenai data, Jenis-jenis data, Sampel dan Populasi, statistika, definisi hingga beberapa metode statistika yang akan dipelajari dalam kuliah ini.
Data
Data atau informasi merupakan elemen awal yang menjadi dasar pertimbangan pemutusan suatu kebijakan. Secara sederhana data adalah kumpulan dari fakta-fakta yang dapat memberikan gambaran luas suatu keadaan. Data dikumpulkan melalui cara-cara tertentu kemudian diolah sehingga menghasilkan suatu informasi yang jelas dan mudah dipahami. Data dibutuhkan dalam beragam bidang, mulai dari pergudangan, kependudukan, penjualan, penelitian dan sebagainya. Semakin kompleks data maka semakin rumit juga pengelolaannya.
Gambar 2: Ilustrasi data atau informasi, sumber:dataspark
Jenis-jenis Data
Data dikelompokkan menjadi berbagai jenis, diantaranya adalah berdasarkan sifatnya, berdasarkan sumbernya, berdasarkan waktu pengumpulannya, dan berdasarkan cara memperolehnya.
Cara Memperoleh
Data berdasarkan cara memperolehnya dibedakan menjadi 2, yaitu data primer dan data sekunder.
- Data Primer
Pengertian Data primer adalah data yang didapat dan dikumpulkan langsung dari objek yang diteliti oleh orang atau organisasi yang melakukan penelitian.
Contoh:
- Data hasil kuisioner terhadap responden
- Data hasil wawancara langsung
- Data hasil survey
- Data Sekunder
Pengertian Data sekunder adalah data yang diperoleh dari pihak atau sumber lain yang telah ada. Jadi penulis tidak mengumpulkan data langsung dari objek yang diteliti. Biasanya data sekunder diperoleh dari penelitian-penelitian terdahulu dan data diterima dalam bentuk jadi, seperti diagram, grafik, tabel.
Contoh:
- Data sensus penduduk oleh BPS
- Data penyakit kanker yang dikeluarkan oleh WHO
- Data startup di Indonesia yang dikeluarkan oleh Menteri Komunikasi dan Informasi
- Data Yahoo/Google finance
Sumbernya
Data berdasarkan sumbernya dibagi menjadi dua macam, yaitu data internal dan data eksternal.
- Data Internal
Data internal adalah data yang diperoleh langsung dari suatu organisasi atau tempat dilakukannya penelitian.
Contoh:
- Kebutuhan tenaga kerja di suatu perusahaan
- Jumlah karyawan di perusahaan
- Tingkat kepuasan karyawan di suatu institusi
- Data Eksternal
Data eksternal adalah data yang diperoleh dari luar lingkup organisasi atau tempat dilakukannya penelitian. Data eksternal ini biasnya digunakan sebagai pembanding antara organisasi lain dengan organisasi yang bersangkutan.
Contoh:
- Jumlah penganguran yang dikeluarkan oleh BPS
- Jumlah karyawan di perusahaan lain (kompetitor)
- Tingkat kepuasan karyawan yang dikeluarkan perusahaan lain (kompetitor)
Sifatnya
Jenis data berdasarkan sifatnya dibagi lagi menjadi dua, yaitu data kualitatif dan data kuantitatif.
- Data Kualitatif
Data kualitatif adalah data deskriptif atau data yang tidak berbentuk angka, biasanya dinyatakan dalam bentuk verbal, simbol, atau gambar. Data kualitatif dapat diperoleh melalui wawancara, kuisioner, observasi, studi literatur, dan lain sebagainya. Data kualitatif disebut juga sebagai data naratif, yang menjelaskan suatu fenomena atau penelitian berdasarkan hal-hal yang umumnya tidak dapat dihitung. Data kualitatif biasanya bersifat subjektif, sehingga setiap orang yang membacanya akan menimbulkan penafsiran yang berbeda. Karena kualitas umumnya tidak mampu dijelaskan dalam bentuk angka dan statistik maka data kualitatif umumnya disajikan dengan menggunakan penjelasan deskriptif.
Contoh:
- Kuisioner tentang tingkat kepuasan pelanggan di suatu ecommerce
- Kualitas pelayanan di hotel, restoran, rumah sakit dan lain-lain.
- Data Kuantitatif
Data kuantitatif adalah data yang dinyatakan dalam bentuk angka yang diperoleh dari suatu penelitian, pengukuran, atau observasi. Data kuantitatif ini bersifat objektif, sehingga setiap orang yang mebaca atau melihat data ini akan menafsirkannya pandang yang sama. Biasanya data kuantitatif diperoleh ketika melakukan penelitian yang bersifat statistik. Penelitian seperti ini mengumpulkan banyak data yang kemudian akan dianalisis menggunakan analisis statistika untuk menginterpretasi data tersebut menjadi sebuah alaisis statistik.
Contoh:
- Umur Pak Bakti adalah 30 tahun
- Tinggi badan rata-rata mahasiswa Universitas Matana adalah 172 cm
- Suhu maksimum di Kota Jakarta mencapai 37 derajat
- Pendapatan perkapita Indonesia mencapai 20 triliun,
- dan lain sebagainya.
Waktu Pengumpulan
Jenis data berdasarkan waktu pengumpulannya dibagi menjadi dua macam, yaitu data cross section dan data berkala (time series data) .
- Data Cross Section
Data cross section adalah data yang diambil pada 1 periode waktu tertentu sehingga ia membutuhkan data di waktu lain jika ingin melakukan perbandingan. Contoh sederhana: dalam sebuah desa ada 100 KK, dengan parameter tertentu 30% nya dikategorikan sebagai keluarga Miskin. Nah 30% nya itu adalah data yang dihasilkan dari data cross section karena hanya mencakup titik waktu itu saja. Untuk melakukan perbandingan apakah di desa tersebut angka kemiskinan menurut atau naik, maka ia membutuhkan data-data yang sebelumnya telah diteliti.
Contoh:
- Data penjualan suatu perusahaan pada bulan Februari 2018
- Data keuangan perusahaan pada bulan Mei 2015
- Data Berkala
Data berkala adalah data yang diambil secara kontinu dari waktu ke waktu untuk mengetahui perkembangan dari objek yang sedang diamati atau diobservasi. Data ini nantinya akan diamati pola perubahannya dari periode ke periode. Pola perubahan ini dapat digunakan untuk membuat perencanaan atau mengambil sebuah keputusan. Data berkala dapat diambil setiap hari, minggu, bulan, triwulan, atau setiap tahun.
Contoh:
- Data impor beras Indonesia tahun 2010 – 2020
- Jumlah penjualan perharai selama bulan Agustus 2019
- Hasil pertanian setiap bulan selama tahun 2019
Skala Pengukuran Data
Dengan mengetahuji jenis skala pengukuran, akan mempermudah anda dalam mengolah data penelitian yang sudah anda kumpulkan, baik berupa data kualitatif maupun data kuantitatif. Tabel berikut ini adalah ringkasan pengertian skala pengukuran data yang harus dipahami:
Skala | Jenis Data | Operasi | Fitur Pembeda | Tendensi Sentral |
---|---|---|---|---|
Nominal | Diskrit | \(=,\neq\) | Kategori saja | Mode/Modus |
Ordinal | Diskrit | \(=,\neq, \leq, \geq\) | Peringkat | Mode/Modus dan Median |
Interval | Kontinu | \(=,\neq, \leq, \geq,+,-\) | Interval | Mode/Modus,Median, dan Rata-rata |
Rasio | Kontinu | \(=,\neq\) | \(=,\neq, \leq, \geq,+,-,\times,\div\) | Pengukuran nilai NOL MUTLAK |
Skala nominal
Skala nominal merupakan jenis skala pengukuran yang termasuk kedalam kategori atau kelompok dari suatu subyek. Misalnya, dapat anda lihat pada variabel jenis kelamin, dimana pengelompokan umumnya hanya menjadi dua, yaitu laki-laki (L) dan perempuan(P) yang masing-masing diberi kode 1 dan 2. Angka tersebut hanya berfungsi sebagai label kategori, tanpa memiliki nilai numerik seperti angka sejati. Angka tersebut tidak memiliki sifat sebagaimana angka pada umumnya, sehingga pada variabel dengan skala nominal tidak dapat diterapkan operasi matematika seperti pengurangan, penjumlahan, perkalian, dll.
Contoh: Skala nominal
-Jenis kelamin (Laki-laki dan Perempuan)
-Tingkat kedewasaan (anak-anak, remaja, dan dewasa)
-Suku (Batak, Bugis Jawa dll)
-Golongan Darah (O, A, B, AB)
-Agama
-dll
Uji statistik yang sesuai dengan skala nominal adalah uji yang mendasarkan pada jumlah seperti modus dan distribusi frekuensi.
Skala ordinal
Skala ordinal merupakan salah satu jenis skala pengukuran dimana lambang-lambang bilangan hasil pengukurannya berupa urutan atau tingkatan. Uji statistik yang sesuai adalah modus, median, distribusi frekuensi dan statistik non-parametrik seperti rank order correlation.
Skala Interval
Merupakan jenis skala pengukuran yang mempunyai karakteristik mirip dengan skala ordinal yaitu memiliki urutan tertentu. Sifat lain yang melekat pada skala interval adalah adanya satuan skala (scale unit). Uji statistik yang sesuai adalah semua uji statistik kecuali uji yang mendasarkan pada rasio seperti koefisien variasi.
Skala rasio
Skala rasio adalah jenis skala pengukuran yang menghasilkan data dengan mutu yang paling tinggi. Perbedaan skala rasio dengan skala interval terletak pada keberadaan nilai nol (based value). Pada skala rasio, nilai nol bersifat mutlak, tidak seperti pada skala interval. Data yang dihasilkan oleh skala rasio adalah data rasio. Tidak ada pembatasan terhadap alat uji statistik yag sesuai.
Populasi dan Sampel
Populasi merupakan semua individu atau unit yang menjadi bagian dari objek penelitian atau ketertarikan. Sedangkan sampel merupakan sebagian kecil individu atau unit yang dipilih dari dari populasi. Mengapa kita membutuhkan sampel? Karena seringkali, populasi terlalu besar, dan tidak memungkinkan kita untuk melakukan pengukuran satu-persatu. Jadi, pengambilan sampel dilakukan dengan metode statistik tertentu agar sampel dapat benar-benar mewakili populasinya.
Gambar 3: Populasi dan Sampel, sumber:sigmamagic.com
Ada banyak contoh populasi dan sampel yang bisa kita temui dalam kehidupan sehari-hari. Berikut adalah contoh populasi dan sampel baik baik itu dalam konteks penelitian ilmiah maupun pemahaman awam.
Ketika membuat teh manis sebanyak satu teko, kita melarutkan gula ke dalam air teh yang ada di teko tersebut. Setelah itu, biasanya kita akan mencicipinya. Dalam hal ini, sampelnya adalah air teh yang kita cicip. Sedangkan populasinya adalah keseluruhan air teh dalam teko. Jadi, kita bisa menyimpulkan tingkat kemanisan air teh yang ada dalam teko hanya dengan mencicipi sampelnya saja.
Seorang penjual kue, menyediakan potongan-potongan kecil kuenya untuk dimakan calon pembeli secara gratis. Potongan kecil kue tersebut adalah sampel, sedangkan populasinya adalah kue yang dijual penjual kue tersebut. Jadi, calon pembeli bisa menyimpulkan bagaimana rasa kue yang dijual, tanpa harus membelinya terlebih dahulu.
Seorang penjual parfum menyediakan sampel dari berbagai jenis parfum yang dijualnya untuk bisa disemprotkan secara gratis oleh calon pembeli. Dalam hal ini, populasinya adalah parfum-parfum yang dijual oleh penjual tersebut. Jadi, pembeli bisa menyimpulkan bagaimana bau parfum yang dijual tanpa harus membelinya terlebih dahulu. Pembeli bisa memilih parfum mana yang akan dibeli yang cocok dengan dirinya.
Seorang peneliti akan meneliti tingkat pencemaran sungai dan meneliti zat-zat berbahaya yang terkandung dalam air sungai tersebut. Peneliti itu mengambil satu botol air sungai untuk dibawa ke laboratorium sebagai sampel. Jadi, populasinya adalah keseluruhan air sungai yang tercemar, sedangkan sampelnya adalah 1 botol air yang dibawa oleh si peneliti.
Seorang mahasiswa sedang melakukan penelitian kepada satu kelas siswa di suatu sekolahan. Mahasiswa tersebut meneliti tingkat pemahaman siswa atas materi yang disampaikan secara daring. Mahasiswa itu mengambil 10 orang anak untuk diwawancarai sebagai sampel penelitian. Dalam hal ini sampelnya adalah 10 orang anak. Sedangkan populasinya adalah seluruh siswa dalam kelas yang diteliti.
Statistika
Statistika adalah cabang dari ilmu matematika yang berhubungan dengan bagaimana cara merencanakan, mengumpulkan, menganalisis, menginterpretasikan, dan mempresentasikan data.
Gambar 4: Statistika, sumber: binghamton.edu
Metode Statistika
Metode statistika adalah prosedur-prosedur atau cara-cara penyajian dan penfasiran data.
- Penyajian data: Pengumpulan, pengorganisasian, peringkasan, dan penyajian data yang bersifat deskriptive (Statistika deskriptif). Statistika deskriptif kurang lebih merupakan metode untuk merangkum informasi yang telah kita kumpulkan. Rangkuman informasi yang biasa ditampilkan dalam bentuk grafik atau dalam bentuk nilai rata-rata, persentase dan lain sebagainya.
- Penafsiran data: Hipothesis/prediksi, pengujian hipothesis/prediksi dan penarikan kesimpulan yang bersifat inferensial (Statistika inferensial). Statistika inferensial dilakukan dengan membuat kesimpulan tentang suatu populasi berdasarkan sampel yang terbatas.
Kontrak Kuliah
Materi
Berikut adalah Materi yang akan dipelajari pada matakuliah Metode Statistika ini:
Pertemuan | Materi |
---|---|
Minggu 1 | Pendahuluan |
Minggu 2 | Pengenalan Dasar R dan Python |
Minggu 3 | Pra-pemrosesan data |
Minggu 4 | Visualisasi Data |
Minggu 5 | Analisis Data Eksplorasi |
Minggu 6 | Data dan Distribusi Sampling |
Minggu 7 | Eksperimen Statistik dan Pengujian Signifikansi |
Minggu 8 | UTS |
Minggu 9 | Analisis Regresi dan Prediksi |
Minggu 10-11 | Klasifikasi |
Minggu 12-13 | Machine Learning (Supervised) |
Minggu 14-15 | Machine Learning (Unsupervised) |
Minggu 16 | UAS |
Template Laporan
Berikut adalah template yang digunakan dalam setiap laporan yang akan anda kerjakan setiap pengerjaan tugas mingguan.
Kriteria Penilaian
Penilaian dilakukan sesuai dengan kriteria penilaian yang berlaku di Universitas Matana sebagai berikut:
Nilai huruf | Nilai Numerik | Nilai Bobot | Predikat |
---|---|---|---|
A | 4.00 | 81–100 | istimewa/sangat baik |
A- | 3.70 | 80-84 | hampir sangat baik |
B+ | 3.30 | 75-79 | lebih baik |
B | 3.00 | 70-75 | baik |
B- | 2.70 | 65-69 | hampir baik |
C+ | 2.30 | 60-69 | lebih dari cukup |
C | 2.00 | 55-59 | cukup |
C- | 1.70 | 50-54 | kurang |
D | 1.00 | 40-50 | tidak baik |
E | 0 | 0-40 | tidak lulus |
Contoh: persentase sistem penilaian yang berlaku:
-Ujian Akhir Semester = bobot 35%
-Ujian Tengah Semester = bobot 35%
-Tugas (dapat berupa makalah maupun tugas presentasi) = bobot 20%
-Kehadiran = 10%
Jika anda mendapat nilai sebesar:
-UAS : 86
-UTS: 75
-Tugas : 90
- Kehadiran : 100% (tidak pernah absen).
Maka perkiraan nilai akhirmu adalah, (86x0.35) + (75x0.35) + (90x0.2) + (100x0.1) = 84.35, atau bernilai A- dalam nilai huruf dan 3.70 dalam nilai numerik.
Aturan Pembelajaran & Ujian
- Kegiatan pembelajaran dimulai tepat waktu (sesuai jadwal), toleransi keterlambatan maksimal 15 menit.
- Selama pembelajaran/ujian berlangsung HP/gadget dimatikan (silent).
- Pengumpulan tugas individu sesuai jadwal. Bagi yang terlambat nilai hanya 50%; keterlambatan lebih satu minggu nilainya 0%.
- Tugas yang merupakan hasil copy paste tidak diterima.
- Aturan jumlah minimal kehadiran, berpakaian sopan, bersepatu dan aturan akademik lainnya tetap berlaku.
- Pada saat pelaksanaan ujian berlaku aturan tata tertib ujian yang diberlakukan di Universitas Matana
- Pada saat ujian, bila kedapatan berbuat curang, maka nilai ujian nol/dibatalkan.
- Bila komponen penilaian tidak lengkap tidak akan dapat nilai maksimal
- Tidak ada ujian susulan, kecuali bagi yang sakit dan opname, orang tua meninggal, atau ditugaskan oleh institusi kampus yang diperkuat dengan surat penugasan. Untuk hal ini perlu ada surat pengantar dari universitas untuk ujian susulan.
TUGAS 1
- Berikan pendapat anda mengenai Pengertian Data, Jenis-Jenis Data, dan mengapa data itu penting!
- Jelaskan Pengertian dan 4 Jenis Skala Pengukuran dalam Statistika, dan berikan masing-masing contohnya!
- Jelaskan pengertian Pupulasi dan Sampel!
- Tuliskanlah definisi, Statistika dan Metode Statistika menurut anda!
- Jelaskan perbedaan data Kuantitatif dan data kualitatif dari sisi penelitian!