Email             :
RPubs            : https://rpubs.com/aliciaarifin/
Jurusan          : Statistika
Address         : ARA Center, Matana University Tower
                         Jl. CBD Barat Kav, RT.1, Curug Sangereng, Kelapa Dua, Tangerang, Banten 15810.


1 Library

#install.packages("datatable")
library(MASS)
library(data.table)
library(dplyr)

2 Exercise


## Exercise 1

Find a point estimate of average university student Age with the sample data from survey!

# cari point estimate atau mean 'Age'
miu = mean(survey$Age, na.rm = T)
miu
## [1] 20.37451

Dari hasil di atas, didapatkan point estimate atau miu dari suatu sample adalah 20,37451 atau 20,37.


2.1 Exercise 2


Assume the population standard deviation \(\sigma\) of the student Age in data survey is 7. Find the margin of error and interval estimate at 95% confidence level.

# diketahui standar deviasi populasi
sigma = 7 # sigma = standar deviasi populasi
alpha = 0.05 # margin of error

interval.Age = na.omit(survey$Age)
n = length(interval.Age)
sem = sigma/sqrt(n) 
MOE = qnorm(0.975)*sem; MOE # z test menggunakan qnorm()
## [1] 0.8911934
CI = miu + c(-MOE, + MOE); CI
## [1] 19.48332 21.26571

Dari hasil di atas, ditemukan dengan sigma atau standar deviasi populasi sebesar 7, dan confidence interval atau selang kepercayaan dengan tingkat kepercayaan sebesar 95% adalah 19-21 tahun.


2.2 Exercise 3

Without assuming the population standard deviation \(\sigma\) of the student Age in survey, find the margin of error and interval estimate at 95% confidence level.

# standar deviasi populasi tidak diketahui
s = sd(interval.Age) ;s
## [1] 6.474335
SE = s/sqrt(n)
MOE = qt(.975, df=n-1) ;MOE # t test menggunakan qt()  
## [1] 1.970067
CI = miu + c(-MOE,MOE) ;CI
## [1] 18.40445 22.34458

Please explain something from your exercise result.

Dari soal tersebut, kita dapat ketahui bahwa standar deviasi populasi tidak diketahui, karena itu kita menggunakan standar deviasi sample sebagai sigma dan kita menggunakan t a/2 jika standar deviasi populasi tidak diketahui. Sesuai kondisi di atas, didapat bahwa standar deviasi samplenya 6,47 dan confidence interval atau selang kepercayaan dengan tingkat kepercayaan 95% adalah 18-22.

2.3 Exercise 4


Improve the quality of a sample survey by increasing the sample size with unknown standard deviation \(\sigma\)!.

random100 = round(rnorm(100, miu, s), digits = 3)
newdist = c(survey$Age, random100)
newdist
##   [1] 18.250 17.583 16.917 20.333 23.667 21.000 18.833 35.833 19.000 22.333
##  [11] 28.500 18.250 18.750 17.500 17.167 17.167 19.333 18.333 19.750 17.917
##  [21] 17.917 18.167 17.833 18.250 19.167 17.583 17.500 18.083 21.917 19.250
##  [31] 41.583 17.500 39.750 17.167 17.750 18.000 19.000 17.917 35.500 19.917
##  [41] 17.500 17.083 28.583 17.500 17.417 18.500 18.917 19.417 18.417 30.750
##  [51] 18.500 17.500 18.333 17.417 20.000 18.333 17.167 17.417 17.667 18.417
##  [61] 20.333 17.333 17.500 19.833 18.583 18.000 30.667 16.917 19.917 18.333
##  [71] 17.583 17.833 17.667 17.417 17.750 20.667 23.583 17.167 17.083 18.750
##  [81] 16.750 20.167 17.667 17.167 17.167 17.250 18.000 18.750 21.583 17.583
##  [91] 19.667 18.000 19.667 17.083 22.833 17.083 19.417 23.250 18.083 19.083
## [101] 18.917 17.750 20.833 20.167 17.667 18.250 17.000 18.500 18.583 17.750
## [111] 24.167 18.167 21.167 17.917 17.417 20.500 22.917 18.917 18.917 20.083
## [121] 17.500 18.250 17.500 17.417 21.000 19.833 17.667 18.083 18.000 18.333
## [131] 20.000 18.750 19.083 18.500 18.417 19.167 21.500 19.333 21.417 18.667
## [141] 17.500 21.083 17.250 19.000 19.167 19.000 23.000 32.667 20.000 20.167
## [151] 25.500 18.167 23.500 70.417 43.833 23.583 21.083 44.250 19.667 17.917
## [161] 18.417 21.167 17.500 29.083 19.917 18.500 18.167 32.750 17.417 17.333
## [171] 73.000 18.667 18.500 18.667 17.750 17.250 36.583 23.083 19.250 17.167
## [181] 23.417 17.083 17.250 23.833 18.750 21.167 24.667 18.500 20.333 20.083
## [191] 18.917 27.333 18.917 17.250 18.167 26.500 17.000 17.167 19.167 17.500
## [201] 19.250 21.333 18.583 20.167 18.667 17.083 17.417 18.583 19.500 18.500
## [211] 17.167 17.250 17.500 20.417 17.083 21.250 19.250 19.333 19.167 18.917
## [221] 20.917 17.333 18.167 20.750 19.917 18.667 18.417 17.417 20.333 19.333
## [231] 18.167 20.750 17.667 16.917 18.583 17.167 17.750 25.921 15.821 26.827
## [241]  9.899 18.068 22.001 13.567  2.215 24.920 14.343 18.178 19.636 10.510
## [251] 25.948 26.277 12.487 19.889 20.268 10.727 24.489 29.814 24.788  4.529
## [261] 16.740 14.350 22.517 15.758 20.795 31.842 26.701  5.025 13.762 16.143
## [271] 17.797 24.168 31.352 31.487 30.907 10.913 18.741 22.387 18.777  6.213
## [281] 30.845 13.736 27.485 29.378 18.918 27.266 27.653 20.054 22.622 16.602
## [291] 21.112 18.042 23.174 16.896 20.931 10.461 29.232 27.396 11.567 15.695
## [301] 27.198 22.839 21.936 23.607 18.436 11.278  9.363 25.667 12.764 24.037
## [311] 22.565 44.878 16.270 25.217 17.700 11.948  9.831 16.068 12.744 21.133
## [321] 10.470 17.574 21.901 20.927 11.800 11.043 33.157 11.541 13.585 19.132
## [331] 30.955 32.068 17.646 32.412 23.944 20.836  7.890

Untuk membuat sample lebih banyak lagi saya menambahkan 100 angka baru, kita menggunakan rnorm() untuk membuat angka random yang distribusi normal dengan miu dan standar deviasi sample.

2.4 Exercise 5


Assume you don’t have planned proportion estimate, find the sample size needed to achieve 5% margin of error for the male student survey at 95% confidence level!

sex = survey%>%
  count(Sex)
Za = 1.96
M = .05
p = sex$n[1]/sum(sex$n)
find_n = ((Za/M)^2) * p *(1-p)
find_n
## [1] 384.1532

Cara mencari sample yang dibutuhkan dengan margin of errornya 5% \(n = (Z_{\frac{ \alpha }{2}} /M)^2 * p *(1-p)\) Hasil yang didapatkan adalah 384 atau 385 orang.

2.5 Exercise 6


Perform confidence intervals analysis on this data set from 2004 that includes data on average hourly earnings, marital status, gender, and age for thousands of people.

setwd(getwd())
data = read.csv('cps04.csv') 
# average hourly earnings
interval.ahe = na.omit(data$ahe)
miu = mean(data$ahe)
n = length(interval.ahe)
s = sd(interval.ahe)
SE = s/sqrt(n)
MOE = qt(.975, df=n-1) 
CI = miu + c(-MOE,MOE) ;CI
## [1] 14.81094 18.73146

Berdasarkan average hourly earnings dan saya asumsikan mata uang yang digunakan dollar Amerika, orang kerja perjam pada saat itu diantara 14.81-18.73 $ /jam.

education = data%>%
  count(bachelor)%>%
  mutate(round(n/sum(n)*100, digits = 2));education
##   bachelor    n round(n/sum(n) * 100, digits = 2)
## 1        0 4346                             54.42
## 2        1 3640                             45.58
bachelor = data%>%
  filter(bachelor == 1)
in.bachelor = na.omit(bachelor$ahe)
miu = mean(bachelor$ahe)
n = length(in.bachelor)
s = sd(in.bachelor)
SE = s/sqrt(n)
MOE = qt(.975, df=n-1) 
CI = miu + c(-MOE,MOE) ;CI
## [1] 18.34648 22.26772
not_bachelor = data%>%
  filter(bachelor == 0)
in.notbachelor = na.omit(not_bachelor$ahe)
miu = mean(not_bachelor$ahe)
n = length(in.notbachelor)
s = sd(in.notbachelor)
SE = s/sqrt(n)
MOE = qt(.975, df=n-1) 
CI = miu + c(-MOE,MOE) ;CI
## [1] 11.84920 15.77022

Didapatkan gaji/jam orang yang sudah memiliki sarjana sebesar 18.35-22.27 dollar, sedangkan orang yang belum memiliki sarjana memiliki gaji sebesar 11.85-15.77 dollar.

gender = data%>%
  count(female)%>%
  mutate(round(n/sum(n)*100, digits = 2)) ; gender
##   female    n round(n/sum(n) * 100, digits = 2)
## 1      0 4673                             58.51
## 2      1 3313                             41.49
female = data%>%
  filter(female == 1)

f = na.omit(female$ahe)
miu = mean(female$ahe)
n = length(female$ahe)
s = sd(f)
SE = s/sqrt(n)
MOE = qt(.975, df=n-1) 
CI = miu + c(-MOE,MOE) ;CI
## [1] 13.39792 17.31928
male = data%>%
  filter(female == 0)

m = na.omit(male$ahe)
miu = mean(male$ahe)
n = length(male$ahe)
s = sd(m)
SE = s/sqrt(n)
MOE = qt(.975, df=n-1) 
CI = miu + c(-MOE,MOE) ;CI
## [1] 15.81222 19.73317

Berdasarkan gender rupanya adanya perbedaan antara gaji perempuan dan laki-laki. gaji perjam perempuan sebesar 13.40-17.32 dollar, sedangkan laki-laki mendapatkan gaji sebesar 15.81-19.73 dollar per hari.

# Age
interval.age = na.omit(data$age)
miu = mean(data$age)
n = length(interval.age)
s = sd(interval.age)
SE = s/sqrt(n)
MOE = qt(.975, df=n-1) 
CI = miu + c(-MOE,MOE) ;CI
## [1] 27.79418 31.71471

Berdasarkan umur dari suatu data di atas, didapatkan yang bekerja diantara 27-32 tahun.

2.5.1 Kesimpulan

Pada suatu perusahaan atau data penduduk terdapat data gaji/jam, umur, jenjang pendidikan, dan gender. Pada data tersebut kita bisa membuat asumsi dengan tingkat kepercayaan 95%. Hasil yang didapatkan yaitu gaji bekerja /jam sebesar 14.81-18.73 $ /jam. Pekerja-pekerja tersebut berumur diantara 27-32 tahun. diantara semua karyawan tersebut 41.49% perempuan dan 58.51% laki-laki. Dari semua karwayan tersebut, terdapat 45.58% orang yang berpendidikan S1, dan yang bukan S1 sebesar 54.42%.
Jika dibandingkan gaji karyawan perjam antara pendidikan dan gender, didapatkan gaji perjam laki-laki lebih tinggi daripada perempuan, dan gaji perjam orang yang memiliki gelar lebih tinggi daripada yang tidak. Untuk perbedaan keseluruhan bisa ditampilkan pada tabel di bawah ini :

##       Perbedaan                 Gaji
## 1     Laki-Laki 15.81 - 19.73 $/hour
## 2     Perempuan 13.40 - 17.32 $/hour
## 3       Sarjana 18.35 - 22.27 $/hour
## 4 Bukan Sarjana 11.85 - 15.77 $/hour


# REference ++ https://dplyr.tidyverse.org/reference/count.html
++ https://rpruim.github.io/s341/S19/from-class/MathinRmd.html
++ https://online.stat.psu.edu/stat200/lesson/8/8.1/8.1.1/8.1.1.3