#Exercise 1: Ada tiga jenis pendapatan yang dilaporkan dalam data frame ini: p25th, median, dan p75th. Ketiganya masing-masing merujuk pada persentil ke-25, ke-50, dan ke-75 dari distribusi pendapatan individu yang diambil sampelnya untuk suatu jurusan tertentu. Mengapa kita sering memilih median daripada mean untuk menggambarkan pendapatan tipikal suatu kelompok?
#Jawab: Median lebih robust terhadap outlier dibandingkan mean, sehingga lebih representatif untuk menggambarkan pendapatan tipikal suatu kelompok.
# Calculate mean and median of median income across all majors
income_summary <- college_recent_grads %>%
summarise(
mean_income = mean(median, na.rm = TRUE),
median_income = median(median, na.rm = TRUE)
)
print(income_summary)
## # A tibble: 1 × 2
## mean_income median_income
## <dbl> <dbl>
## 1 40151. 36000
visualisasi distribusi pendapatan median dengan lebar bin 5.000lebih
efektif dibandingkan dengan lebar bin 1.000 karena memberikan gambaran
umum yang lebih jelas tanpa terlalu banyak detail yang tidak relevan.
Dengan lebar bin 1.000,distribusi menjadi terlalu rinci sehingga sulit
untuk melihat pola keseluruhan,sedangkan histogram denganlebarbin 5.000
menunjukkan distribusi pendapatan median secara lebih ringkas dan mudah
dipahami.
## # A tibble: 11 × 4
## major median p25th p75th
## <chr> <dbl> <dbl> <dbl>
## 1 Geosciences 36000 21000 41000
## 2 Environmental Science 35600 25000 40200
## 3 Multi-Disciplinary Or General Science 35000 24000 50000
## 4 Physiology 35000 20000 50000
## 5 Communication Technologies 35000 25000 45000
## 6 Neuroscience 35000 30000 44000
## 7 Atmospheric Sciences And Meteorology 35000 28000 50000
## 8 Miscellaneous Biology 33500 23000 48000
## 9 Biology 33400 24000 45000
## 10 Ecology 33000 23000 42000
## 11 Zoology 26000 20000 39000
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).