#Exercise 1: Ada tiga jenis pendapatan yang dilaporkan dalam data frame ini: p25th, median, dan p75th. Ketiganya masing-masing merujuk pada persentil ke-25, ke-50, dan ke-75 dari distribusi pendapatan individu yang diambil sampelnya untuk suatu jurusan tertentu. Mengapa kita sering memilih median daripada mean untuk menggambarkan pendapatan tipikal suatu kelompok?
#Jawab: Median lebih robust terhadap outlier dibandingkan mean, sehingga lebih representatif untuk menggambarkan pendapatan tipikal suatu kelompok.

# Calculate mean and median of median income across all majors
income_summary <- college_recent_grads %>%
  summarise(
    mean_income = mean(median, na.rm = TRUE),
    median_income = median(median, na.rm = TRUE)
  )

print(income_summary)
## # A tibble: 1 × 2
##   mean_income median_income
##         <dbl>         <dbl>
## 1      40151.         36000

visualisasi distribusi pendapatan median dengan lebar bin 5.000lebih efektif dibandingkan dengan lebar bin 1.000 karena memberikan gambaran umum yang lebih jelas tanpa terlalu banyak detail yang tidak relevan. Dengan lebar bin 1.000,distribusi menjadi terlalu rinci sehingga sulit untuk melihat pola keseluruhan,sedangkan histogram denganlebarbin 5.000 menunjukkan distribusi pendapatan median secara lebih ringkas dan mudah dipahami.

## # A tibble: 11 × 4
##    major                                 median p25th p75th
##    <chr>                                  <dbl> <dbl> <dbl>
##  1 Geosciences                            36000 21000 41000
##  2 Environmental Science                  35600 25000 40200
##  3 Multi-Disciplinary Or General Science  35000 24000 50000
##  4 Physiology                             35000 20000 50000
##  5 Communication Technologies             35000 25000 45000
##  6 Neuroscience                           35000 30000 44000
##  7 Atmospheric Sciences And Meteorology   35000 28000 50000
##  8 Miscellaneous Biology                  33500 23000 48000
##  9 Biology                                33400 24000 45000
## 10 Ecology                                33000 23000 42000
## 11 Zoology                                26000 20000 39000
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_point()`).