tugas visualisasi 2

## Warning: package 'fivethirtyeight' was built under R version 4.3.3

## Warning: package 'knitr' was built under R version 4.3.3

Exercise 1

Ada tiga jenis pendapatan yang dilaporkan dalam data frame ini: p25th, median, dan p75th. Ketiganya masing-masing merujuk pada persentil ke-25, ke-50, dan ke-75 dari distribusi pendapatan individu yang diambil sampelnya untuk suatu jurusan tertentu. Mengapa kita sering memilih median daripada mean untuk menggambarkan pendapatan tipikal suatu kelompok? #jawaban median lebih menggambarkan pendapatan tipikal suatu kelompok dibandingkan mean karena median tidak dipengaruhi oleh outlier, selain itu median merupakan nilai tengah dari sebuah distribusi, sehingga 50% individu berpenghasilan lebih rendah dan 50% lainnya lebih tinggi dari nilai mediannya. sedangkan mean bisa lebih tinggi dari pendapatan kebanyakan jika terdapat nilai yang sangat ekstrem atau sangat tinggi

Exercise 2

Buat ulang visualisasi berikut. Catatan: Lebar bin yang digunakan adalah $5.000. Perhatikan dengan cermat teks dan label pada sumbu.

#code goes here
library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.3

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.3.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(scales)

## Warning: package 'scales' was built under R version 4.3.3

# Filter hanya jurusan STEM
stem_majors <- college_recent_grads %>%
  filter(major_category %in% c("Biology & Life Science", 
                               "Computers & Mathematics", 
                               "Engineering", 
                               "Physical Sciences"))

# Plot histogram dengan binwidth $5.000
ggplot(stem_majors, aes(x = median, fill = major_category)) +
  geom_histogram(binwidth = 5000, color = "black") +
  labs(
    x = "Median Earnings ($)",
    y = "Frequency",
    title = "Median earnings of full-time, year-round workers",
    subtitle = "For STEM majors"
  ) +
  scale_x_continuous(labels = dollar_format(prefix = "$")) +  
  facet_wrap(~ major_category, nrow = 4) +
  theme_minimal()

Exercise 3

Buat ulang visualisasi dari latihan sebelumnya, kali ini dengan lebar bin sebesar $1.000. Mana yang lebih baik antara $1.000 atau $5.000 sebagai pilihan lebar bin? Jelaskan alasan Anda dalam satu kalimat.

#code goes here
library(ggplot2)
library(dplyr)
library(scales) 

# Filter hanya jurusan STEM
stem_majors <- college_recent_grads %>%
  filter(major_category %in% c("Biology & Life Science", 
                               "Computers & Mathematics", 
                               "Engineering", 
                               "Physical Sciences"))

# Plot histogram dengan binwidth $1.000
ggplot(stem_majors, aes(x = median, fill = major_category)) +
  geom_histogram(binwidth = 1000, color = "black") +
  labs(
    x = "Median Earnings ($)",
    y = "Frequency",
    title = "Median earnings of full-time, year-round workers",
    subtitle = "For STEM majors"
  ) +
  scale_x_continuous(labels = dollar_format(prefix = "$")) +  
  facet_wrap(~ major_category, nrow = 4) +
  theme_minimal()

lebar bin $1.000 or bin $5.000

yang lebih baik digunakan adalah lebar bin $5.000 karena memberikan gambaran yang lebih jelas tentang pola distribusi gaji.

Exercise 4

Jurusan STEM mana (yaitu, jurusan dalam kategori “Biology & Life Science”, “Computers & Mathematics”, “Engineering”, dan “Physical Sciences”) yang memiliki gaji median yang sama dengan atau lebih rendah dari median untuk seluruh jurusan (semua jurusan, bukan hanya yang termasuk dalam kategori STEM)? Output Anda hanya boleh menampilkan nama jurusan serta pendapatan median, persentil ke-25, dan persentil ke-75 untuk jurusan tersebut, dan harus diurutkan sehingga jurusan dengan pendapatan median tertinggi berada di bagian atas.

#code goes here
library(dplyr)

# Median pendapatan seluruh jurusan
median_all_majors <- median(college_recent_grads$median, na.rm = TRUE)

# Filter jurusan STEM dengan gaji median ≤ median semua jurusan
low_income_stem <- college_recent_grads %>%
  filter(
    major_category %in% c("Biology & Life Science", "Computers & Mathematics", 
                          "Engineering", "Physical Sciences"),
    median <= median_all_majors
  ) %>%
  select(major, median, p25th, p75th) %>%
  arrange(desc(median))  

# Tampilan hasil
print(low_income_stem)

## # A tibble: 11 × 4
##    major                                 median p25th p75th
##    <chr>                                  <dbl> <dbl> <dbl>
##  1 Geosciences                            36000 21000 41000
##  2 Environmental Science                  35600 25000 40200
##  3 Multi-Disciplinary Or General Science  35000 24000 50000
##  4 Physiology                             35000 20000 50000
##  5 Communication Technologies             35000 25000 45000
##  6 Neuroscience                           35000 30000 44000
##  7 Atmospheric Sciences And Meteorology   35000 28000 50000
##  8 Miscellaneous Biology                  33500 23000 48000
##  9 Biology                                33400 24000 45000
## 10 Ecology                                33000 23000 42000
## 11 Zoology                                26000 20000 39000

#jawaban Jurusan STEM dalam kategori “Biology & Life Science”, “Computers & Mathematics”, “Engineering”, dan “Physical Sciences” yang memiliki gaji median yang sama dengan atau lebih rendah dari median untuk seluruh jurusan adalah Zoology.

Exercise 5

Buatlah sebuah pertanyaan yang menarik bagi Anda yang dapat dijawab menggunakan setidaknya tiga variabel dari dataset, lalu jawab pertanyaan tersebut menggunakan statistik ringkasan dan/atau visualisasi.

#pertanyaan Apakah jurusan di bidang STEM memiliki tingkat pengangguran yang lebih rendah dibandingkan jurusan non-STEM?

#code goes here
#code goes here
library(dplyr)

# Daftar kategori jurusan STEM
stem_categories <- c("Biology & Life Science", "Computers & Mathematics", "Engineering", "Physical Sciences")

# kolom kategori Jurusan STEM atau Non-STEM
college_recent_grads <- college_recent_grads %>%
  mutate(STEM = ifelse(major_category %in% stem_categories, "STEM", "Non-STEM"))

# Statistik ringkasan untuk tingkat pengangguran
summary_unemployment <- college_recent_grads %>%
  group_by(STEM) %>%
  summarise(
    mean_unemployment = mean(unemployment_rate, na.rm = TRUE),
    median_unemployment = median(unemployment_rate, na.rm = TRUE),
    min_unemployment = min(unemployment_rate, na.rm = TRUE),
    max_unemployment = max(unemployment_rate, na.rm = TRUE)
  )

# Tampilkan hasil
print(summary_unemployment)

## # A tibble: 2 × 5
##   STEM   mean_unemployment median_unemployment min_unemployment max_unemployment
##   <chr>              <dbl>               <dbl>            <dbl>            <dbl>
## 1 Non-S…            0.0708              0.0698                0            0.159
## 2 STEM              0.0638              0.0609                0            0.177

#penjelasan kode (jawaban) Dari tabel diatas didapatkan bahwa nilai median dan mean untuk tingkat penggaguran Jurusan STEM memiliki nilai yang lebih rendah jika dibandingkan Jurusan Non-STEM. Hal ini menunjukkan bahwa Jurusan STEM memiliki tingkat pengangguran yang lebih rendah dibandingkan jurusan non-STEM