Eksplorasi data beauty pada Wooldridge

Author

Amelia Dharma Putri

Data “beauty”

Berikut adalah eksplorasi menggunakan data “beauty”

Modul 1

Melihat data beauty

data("beauty", package = "wooldridge")
utils::str(beauty)
'data.frame':   1260 obs. of  17 variables:
 $ wage    : num  5.73 4.28 7.96 11.57 11.42 ...
 $ lwage   : num  1.75 1.45 2.07 2.45 2.44 ...
 $ belavg  : int  0 0 0 0 0 0 0 0 0 0 ...
 $ abvavg  : int  1 0 1 0 0 0 0 1 0 0 ...
 $ exper   : int  30 28 35 38 27 20 12 5 5 12 ...
 $ looks   : int  4 3 4 3 3 3 3 4 3 3 ...
 $ union   : int  0 0 0 0 0 0 0 1 0 0 ...
 $ goodhlth: int  1 1 1 1 1 0 1 1 1 1 ...
 $ black   : int  0 0 0 0 0 0 0 0 0 0 ...
 $ female  : int  1 1 1 0 0 1 0 0 1 1 ...
 $ married : int  1 1 0 1 1 1 1 0 0 0 ...
 $ south   : int  0 1 0 0 0 0 0 0 0 0 ...
 $ bigcity : int  0 0 0 1 0 1 1 0 0 0 ...
 $ smllcity: int  1 1 1 0 1 0 0 1 0 1 ...
 $ service : int  1 0 0 1 0 0 0 0 0 0 ...
 $ expersq : int  900 784 1225 1444 729 400 144 25 25 144 ...
 $ educ    : int  14 12 10 16 16 12 16 16 16 12 ...
 - attr(*, "time.stamp")= chr "25 Jun 2011 23:03"

data(“beauty”) Perintah ini digunakan untuk memuat dataset beauty dari paket wooldridge.

Dataset ini sering digunakan untuk menganalisis hubungan antara kecantikan fisik dan berbagai hasil ekonomi, seperti pendapatan. Analisis ini bisa mencakup regresi linier untuk melihat apakah ada korelasi antara kecantikan (beauty) dan gaji (wage) setelah mengendalikan variabel lain seperti pendidikan dan pengalaman kerja.

Modul 2

Ringkasan Statistik Sederhana

summary(beauty)
      wage            lwage            belavg          abvavg     
 Min.   : 1.020   Min.   :0.0198   Min.   :0.000   Min.   :0.000  
 1st Qu.: 3.708   1st Qu.:1.3104   1st Qu.:0.000   1st Qu.:0.000  
 Median : 5.300   Median :1.6677   Median :0.000   Median :0.000  
 Mean   : 6.307   Mean   :1.6588   Mean   :0.123   Mean   :0.304  
 3rd Qu.: 7.695   3rd Qu.:2.0406   3rd Qu.:0.000   3rd Qu.:1.000  
 Max.   :77.720   Max.   :4.3531   Max.   :1.000   Max.   :1.000  
     exper           looks           union           goodhlth     
 Min.   : 0.00   Min.   :1.000   Min.   :0.0000   Min.   :0.0000  
 1st Qu.: 8.00   1st Qu.:3.000   1st Qu.:0.0000   1st Qu.:1.0000  
 Median :15.00   Median :3.000   Median :0.0000   Median :1.0000  
 Mean   :18.21   Mean   :3.186   Mean   :0.2722   Mean   :0.9333  
 3rd Qu.:27.00   3rd Qu.:4.000   3rd Qu.:1.0000   3rd Qu.:1.0000  
 Max.   :48.00   Max.   :5.000   Max.   :1.0000   Max.   :1.0000  
     black             female         married           south       
 Min.   :0.00000   Min.   :0.000   Min.   :0.0000   Min.   :0.0000  
 1st Qu.:0.00000   1st Qu.:0.000   1st Qu.:0.0000   1st Qu.:0.0000  
 Median :0.00000   Median :0.000   Median :1.0000   Median :0.0000  
 Mean   :0.07381   Mean   :0.346   Mean   :0.6913   Mean   :0.1746  
 3rd Qu.:0.00000   3rd Qu.:1.000   3rd Qu.:1.0000   3rd Qu.:0.0000  
 Max.   :1.00000   Max.   :1.000   Max.   :1.0000   Max.   :1.0000  
    bigcity         smllcity         service          expersq      
 Min.   :0.000   Min.   :0.0000   Min.   :0.0000   Min.   :   0.0  
 1st Qu.:0.000   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:  64.0  
 Median :0.000   Median :0.0000   Median :0.0000   Median : 225.0  
 Mean   :0.219   Mean   :0.4667   Mean   :0.2738   Mean   : 474.5  
 3rd Qu.:0.000   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.: 729.0  
 Max.   :1.000   Max.   :1.0000   Max.   :1.0000   Max.   :2304.0  
      educ      
 Min.   : 5.00  
 1st Qu.:12.00  
 Median :12.00  
 Mean   :12.56  
 3rd Qu.:13.00  
 Max.   :17.00  

Ketika Anda menjalankan summary(beauty) di R, Anda akan mendapatkan ringkasan statistik untuk setiap variabel dalam dataset beauty. Ringkasan ini mencakup statistik deskriptif seperti mean, median, minimum, maksimum, dan kuartil pertama dan ketiga.

Berikut adalah penjelasan singkat dari hasil summary(beauty):

  1. wage: Gaji individu bervariasi dari 1.02 hingga 77.72, dengan gaji rata-rata sekitar 6.31.
  2. lwage: Logarithm dari gaji memiliki nilai rata-rata 1.66, menunjukkan distribusi yang lebih condong ke gaji yang lebih rendah.
  3. belavg: Kebanyakan individu tidak dianggap di bawah rata-rata kecantikan (rata-rata 0.123).
  4. abvavg: Sekitar 30% individu dianggap di atas rata-rata kecantikan.
  5. exper: Pengalaman kerja bervariasi dari 0 hingga 48 tahun, dengan rata-rata sekitar 18.21 tahun.
  6. looks: Skor kecantikan berkisar antara 1 hingga 5, dengan rata-rata sekitar 3.19.
  7. union: Sekitar 27% individu adalah anggota serikat pekerja.
  8. goodhlth: Mayoritas individu (93.33%) berada dalam kesehatan yang baik.
  9. black: Hanya sekitar 7.38% individu dalam dataset ini adalah kulit hitam.
  10. female: Sekitar 34.6% individu adalah perempuan.
  11. married: Sekitar 69.13% individu sudah menikah.
  12. south: 17.46% individu tinggal di wilayah selatan.
  13. bigcity: 21.9% individu tinggal di kota besar.
  14. smllcity: 46.67% individu tinggal di kota kecil.
  15. service: 27.38% individu bekerja di sektor jasa.
  16. expersq: Pengalaman kerja yang dikuadratkan menunjukkan variasi besar, dengan nilai maksimum 2304.
  17. educ: Tahun pendidikan bervariasi dari 5 hingga 17 tahun, dengan rata-rata sekitar 12.56 tahun.

Modul 3

Distribusi Frekuensi

Membuat histogram untuk variabel ‘exper’

hist(beauty$exper, 
     main = "Distribusi Frekuensi Pengalaman Kerja", 
     xlab = "Pengalaman Kerja (tahun)", 
     ylab = "Frekuensi", 
     col = "lightcoral", 
     breaks = 10)

Histogram ini menunjukkan distribusi frekuensi dari variabel pengalaman kerja (exper) dalam dataset beauty.

Sumbu X menunjukkan jumlah tahun pengalaman kerja. Nilai pengalaman kerja bervariasi dari 0 hingga 50 tahun.

Sumbu Y menunjukkan jumlah pengamatan (frekuensi) untuk setiap rentang tahun pengalaman kerja.

Interpretasi Distribusi:

  • Sebagian besar individu memiliki pengalaman kerja antara 0 hingga 10 tahun, yang terlihat dari tingginya batang histogram di rentang ini.

  • Frekuensi pengalaman kerja menurun secara bertahap seiring dengan bertambahnya tahun pengalaman kerja. Ini menunjukkan bahwa semakin sedikit individu yang memiliki pengalaman kerja lebih lama.

  • Distribusi ini menunjukkan pola yang mirip dengan distribusi normal yang terpotong di bagian kanan, tetapi lebih condong ke kiri, menandakan lebih banyak individu yang baru mulai bekerja atau memiliki sedikit pengalaman kerja dibandingkan dengan yang memiliki pengalaman kerja lama.

Membuat histogram untuk variabel ‘educ’

hist(beauty$educ, 
     main = "Distribusi Frekuensi Tahun Pendidikan", 
     xlab = "Tahun Pendidikan", 
     ylab = "Frekuensi", 
     col = "purple", 
     breaks = 10)

Histogram ini menunjukkan distribusi tahun pendidikan untuk kumpulan data “beauty”. Histogram ini berjudul “Distribusi Frekuensi Tahun Pendidikan”, yang menunjukkan frekuensi setiap tingkat pendidikan. Sumbu x mewakili jumlah tahun pendidikan, berkisar dari 0 hingga 16, sedangkan sumbu y mewakili frekuensi setiap tingkat pendidikan. Batang dalam histogram menunjukkan jumlah individu untuk setiap tingkat pendidikan.

Sumbu X: Sumbu x mewakili jumlah tahun pendidikan, berkisar dari 0 hingga 16. Setiap bin pada sumbu x mewakili jumlah tahun pendidikan tertentu, seperti 6 tahun, 8 tahun, atau 10 tahun.

Sumbu Y: Sumbu y mewakili frekuensi setiap tingkat pendidikan. Ketinggian setiap batang dalam histogram sesuai dengan jumlah individu yang memiliki tingkat pendidikan tersebut.

histogram memberikan wawasan berharga tentang distribusi tahun pendidikan dalam dataset. Ini menyoroti prevalensi tingkat pendidikan yang lebih rendah dan penurunan frekuensi tingkat pendidikan yang lebih tinggi. Informasi ini dapat berguna untuk memahami latar belakang pendidikan individu dalam dataset dan membuat keputusan yang tepat berdasarkan pencapaian pendidikan mereka.

Distribusi Frekuensi Tingkat Upah

hist(beauty$wage, 
     main = "Distribusi Frekuensi Tingkat Upah", 
     xlab = "Tingkat Upah", 
     ylab = "Frekuensi", 
     col = "red", 
     breaks = 10)

Kode ini membuat histogram untuk variabel wage (tingkat upah). Outputnya adalah grafik histogram yang menunjukkan distribusi frekuensi tingkat upah dalam dataset.

Histogram ini menunjukkan distribusi frekuensi dari tingkat upah.

Sumbu horizontal (X) mewakili tingkat upah. Nilai pada sumbu ini menunjukkan berbagai tingkat upah yang diamati dalam data.

Sumbu vertikal (Y) mewakili frekuensi, atau jumlah pengamatan yang jatuh dalam rentang tingkat upah tertentu.

Distribusi Tidak Merata:

  • Mayoritas pengamatan berada pada tingkat upah yang sangat rendah, mendekati 0.

  • Hanya sedikit pengamatan yang memiliki tingkat upah lebih tinggi.

Ada indikasi adanya kesenjangan yang signifikan dalam tingkat upah. Banyak orang memperoleh upah yang sangat rendah sementara hanya sedikit yang memperoleh upah yang lebih tinggi.

Frekuensi tertinggi adalah pada tingkat upah rendah, menunjukkan bahwa kebanyakan orang dalam dataset ini berpenghasilan rendah.

Distribusi Frekuensi Penampilan

hist(beauty$looks, 
     main = "Distribusi Frekuensi Penampilan", 
     xlab = "Skor Penampilan", 
     ylab = "Frekuensi", 
     col = "blue", 
     breaks = 5)

Kode ini membuat histogram untuk variabel looks (skor penampilan). Outputnya adalah grafik histogram yang menunjukkan distribusi frekuensi skor penampilan dalam dataset.

Sumbu X: Sumbu X menunjukkan skor penampilan, yang dibagi menjadi beberapa interval atau kelas.

Sumbu Y: Sumbu Y menunjukkan frekuensi, yang merupakan jumlah orang yang memiliki skor penampilan dalam interval tertentu. Frekuensi digambarkan dengan ketinggian batang pada histogram.

Skor penampilan terbanyak adalah skor 3. Hal ini ditunjukkan oleh batang tertinggi pada histogram.

Skor penampilan terendah adalah skor 1. Hal ini ditunjukkan oleh batang terendah pada histogram.

Modul 4

Rata-rata Upah Berdasarkan Penampilan

avg_wage_looks <- tapply(beauty$wage, beauty$looks, mean, na.rm = TRUE)
barplot(avg_wage_looks, main = "Rata-rata Upah Berdasarkan Penampilan", xlab = "Skor Penampilan", ylab = "Rata-rata Upah", col = "orange")

Kode ini menghitung rata-rata upah untuk setiap skor penampilan dan menampilkan hasilnya dalam bentuk barplot. Outputnya adalah barplot yang menunjukkan rata-rata upah pada berbagai skor penampilan.

Sumbu horizontal (X) mewakili skor penampilan. Skor ini kemungkinan diukur dari 1 sampai 5, dengan 1 menunjukkan penampilan terendah dan 5 menunjukkan penampilan tertinggi.

Sumbu vertikal (Y) mewakili rata-rata upah. Nilai pada sumbu ini menunjukkan rata-rata upah untuk setiap skor penampilan.

Rata-rata upah cenderung meningkat seiring dengan kenaikan skor penampilan. Skor penampilan 1 memiliki rata-rata upah terendah, sementara skor penampilan 5 memiliki rata-rata upah tertinggi.

Makna Diagram:

  • Diagram ini menunjukkan adanya korelasi positif antara skor penampilan dan rata-rata upah. Semakin tinggi skor penampilan seseorang, semakin tinggi rata-rata upah yang mereka terima.

  • Ini bisa menunjukkan bahwa penampilan memiliki pengaruh terhadap upah yang diterima seseorang, dengan mereka yang memiliki penampilan lebih baik cenderung mendapatkan upah yang lebih tinggi.

Rata-rata Upah Berdasarkan Status Pernikahan

married_groups <- cut(beauty$married, breaks = 2, labels = c("Belum Menikah", "Menikah"))
avg_wage_married <- tapply(beauty$wage, married_groups, mean, na.rm = TRUE)
barplot(avg_wage_married, main = "Rata-rata Upah Berdasarkan Status Pernikahan", xlab = "Status Pernikahan", ylab = "Rata-rata Upah", col = "yellow")

Kode ini membagi data status pernikahan menjadi dua kelompok (Belum Menikah dan Menikah), kemudian menghitung rata-rata upah untuk setiap kelompok dan menampilkan hasilnya dalam bentuk barplot.

Sumbu horizontal (X) mewakili status pernikahan, dengan dua kategori: “Belum Menikah” dan “Menikah”.

Sumbu vertikal (Y) mewakili rata-rata upah. Nilai pada sumbu ini menunjukkan rata-rata upah untuk setiap kategori status pernikahan.

Rata-rata upah untuk individu yang menikah lebih tinggi dibandingkan dengan individu yang belum menikah.

##Modul 5

Distribusi Normal Menggunakan data “beauty” variable “looks”

hist(beauty$looks, main = "Histogram of Looks",
     xlab = "Looks", ylab = "Frequency", col = "pink",
     border = "black")

Variabel “Looks”: Variabel ini menggambarkan penilaian atau skala kecantikan. Nilai dari 1 hingga 5 mengindikasikan seberapa menarik atau cantik seseorang menurut subjek penilaian.

Sumbu X (“Looks”): Sumbu horizontal menunjukkan nilai “Looks”. Nilai 1 mungkin mengindikasikan penilaian terendah (misalnya, kurang menarik), sedangkan nilai 5 mengindikasikan penilaian tertinggi (misalnya, sangat menarik).

Sumbu Y (“Frequency”): Sumbu vertikal menunjukkan frekuensi kemunculan nilai “Looks”. Bar tertinggi pada nilai 3 menunjukkan bahwa penilaian dengan nilai 3 memiliki frekuensi tertinggi dalam dataset. Dengan kata lain, banyak orang diberi penilaian 3 dalam hal kecantikan.

QQ Plot for the ‘looks’ variable

qqnorm(beauty$looks, main = "QQ Plot of Looks")
qqline(beauty$looks)

QQ Plot (Quantile-Quantile Plot) digunakan untuk membandingkan kuantil dari suatu dataset dengan distribusi normal teoretis.

Variabel “Looks”: Ini adalah variabel yang menggambarkan penilaian atau skala kecantikan. Nilai-nilai variabel ini berkisar dari 1 hingga 5.

Sumbu X (“Theoretical Quantiles”): Ini menunjukkan kuantil yang diharapkan dari distribusi normal. Nilai-nilai ini seharusnya mengikuti garis lurus. Jika titik-titik berada dekat dengan garis ini, maka data cenderung mengikuti distribusi normal.

Sumbu Y (“Sample Quantiles”): Ini menunjukkan kuantil aktual dari variabel “looks” dalam dataset “beauty”. Titik-titik pada plot ini mewakili kuantil dari data tersebut.

Garis QQ (QQ-line): Garis diagonal ini menghubungkan kuantil teoretis dengan kuantil sampel. Jika titik-titik berada dekat dengan garis ini, artinya data mendekati distribusi normal.

Interpretasi: Jika titik-titik berdekatan dengan garis, maka data “looks” mendekati distribusi normal. Namun, jika ada deviasi di kedua ujung garis, ini mungkin menunjukkan adanya pencilan atau skewness dalam data.

**Shapiro-Wilk test for educ

shapiro.test(beauty$educ)

    Shapiro-Wilk normality test

data:  beauty$educ
W = 0.89407, p-value < 2.2e-16

W = 0.89407: Ini adalah statistik uji Shapiro-Wilk. Nilai W berkisar antara 0 hingga 1, di mana nilai yang mendekati 1 menunjukkan bahwa data lebih konsisten dengan distribusi normal.

p-value < 2.2e-16: Ini adalah nilai p yang terkait dengan statistik uji. Nilai p menunjukkan probabilitas mendapatkan hasil uji yang diamati dengan asumsi bahwa hipotesis nol adalah benar.

Jika nilai p kurang dari 0,05, kita menolak hipotesis nol dan menyimpulkan bahwa data tidak mengikuti distribusi normal.

Dalam kasus ini: Nilai p jauh lebih kecil dari 0,05 (< 2.2e-16), yang berarti kita menolak hipotesis nol. Ini berarti bahwa variabel educ dalam dataset beauty tidak mengikuti distribusi normal. Statistik W yang kurang dari 1 juga mendukung kesimpulan ini.

Modul 6

Estimasi

mean for the ‘wage’ variable

mean_wage <- mean(beauty$wage)
mean_wage
[1] 6.30669

Mean (Rata-rata) Wage = 6.30669

Rata-rata wage (upah) sebesar 6.30669 menunjukkan bahwa nilai rata-rata dari upah untuk individu dalam dataset beauty adalah 6.30669.

Ini berarti, secara umum, individu dalam dataset ini memiliki upah sekitar 6.30669.

standard deviation for the ‘wage’ variable

sd_wage <- sd(beauty$wage, na.rm = TRUE)
sd_wage
[1] 4.660639

Standard Deviation (Simpangan Baku) Wage = 4.660639

Simpangan baku sebesar 4.660639 berarti bahwa rata-rata jarak antara nilai upah individu dalam dataset beauty dan nilai rata-rata upah (6.30669) adalah sekitar 4.660639.

Dengan kata lain, nilai upah di dataset ini bervariasi sekitar 4.660639 dari rata-rata upah.

Density Plot untuk wage

library(lattice)
densityplot(~ wage, data = beauty, xlab = "wage")

Berdasarkan densityplot tersebut, distribusi wage dalam dataset “beauty” menunjukkan pola distribusi yang terkonsentrasi pada nilai-nilai rendah.

Bentuk: Kurva berbentuk lonceng (bell-shaped curve)

Puncak: Satu puncak (unimodal)

Penyebaran: Data terpusat di sekitar nilai wage rendah, dengan frekuensi yang semakin kecil pada nilai wage yang lebih tinggi.

Dapat disimpulkan bahwa wage dalam dataset “beauty” terkonsentrasi pada nilai-nilai rendah. Hal ini berarti bahwa sebagian besar individu dalam dataset memiliki wage yang rendah, dengan hanya sedikit individu yang memiliki wage yang tinggi.

Modul 7

Hipotesis

Uji Shapiro-Wilk untuk variabel ‘educ’

shapiro.test(beauty$educ)

    Shapiro-Wilk normality test

data:  beauty$educ
W = 0.89407, p-value < 2.2e-16

W = 0.89407: Ini adalah statistik uji Shapiro-Wilk. Nilai W berkisar antara 0 hingga 1, di mana nilai yang mendekati 1 menunjukkan bahwa data lebih konsisten dengan distribusi normal.

p-value  < 2.2e-16: Ini adalah nilai p yang terkait dengan statistik uji. Nilai p menunjukkan probabilitas mendapatkan hasil uji yang diamati jika hipotesis nol benar.

Nilai W sebesar 0.89407 menunjukkan bahwa data educ memiliki deviasi dari distribusi normal. Nilai ini kurang dari 1, yang mengindikasikan bahwa data tidak sepenuhnya mengikuti distribusi normal.

Nilai p yang sangat kecil ( < 2.2e-16) menunjukkan bahwa sangat tidak mungkin hasil uji yang diperoleh terjadi jika data benar-benar mengikuti distribusi normal. Karena nilai p jauh lebih kecil dari tingkat signifikansi yang umum digunakan (0,05), kita menolak hipotesis nol.

Uji ANOVA untuk variabel ‘wage’ berdasarkan kategori ‘race’

anova_result <- aov(wage ~ lwage, data = beauty)
summary(anova_result)
              Df Sum Sq Mean Sq F value Pr(>F)    
lwage          1  20100   20100    3489 <2e-16 ***
Residuals   1258   7247       6                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Df (Degrees of Freedom) - Derajat Kebebasan:

  • lwage: Derajat kebebasan untuk variabel lwage adalah 1. Ini menunjukkan bahwa lwage adalah satu variabel kategori (dalam konteks ini, faktor dengan satu derajat kebebasan) yang digunakan untuk membagi data.

  • Residuals: Derajat kebebasan residual adalah 1258. Ini menunjukkan jumlah observasi minus jumlah kelompok (faktor) yang dipertimbangkan.

Sum Sq (Sum of Squares) - Jumlah Kuadrat:

  • lwage: Jumlah kuadrat untuk variabel lwage adalah 20100. Ini mengukur variasi dalam variabel dependen (wage) yang dapat dijelaskan oleh variabel kategori (lwage).

  • Residuals: Jumlah kuadrat residual adalah 7247. Ini mengukur variasi dalam variabel dependen yang tidak dapat dijelaskan oleh variabel kategori.

Mean Sq (Mean Square) - Kuadrat Tengah:

  • lwage: Kuadrat tengah untuk variabel lwage adalah 20100. Ini diperoleh dengan membagi jumlah kuadrat oleh derajat kebebasan (20100 / 1).

  • Residuals: Kuadrat tengah residual adalah 6. Ini diperoleh dengan membagi jumlah kuadrat residual oleh derajat kebebasan residual (7247 / 1258).

F value (Nilai F) - Statistik F:

  • Nilai F adalah 3489. Ini adalah rasio antara kuadrat tengah variabel lwage dengan kuadrat tengah residual. Nilai F ini mengukur seberapa besar variasi dalam variabel dependen yang dijelaskan oleh variabel kategori dibandingkan dengan variasi yang tidak dijelaskan.

Pr( >F) (P-Value) - Nilai P:

  • Nilai p untuk statistik F adalah  <2e-16. Ini menunjukkan bahwa nilai p sangat kecil, jauh di bawah tingkat signifikansi umum 0,05.

Uji Shapiro-Wilk untuk normalitas pada variabel wage

shapiro_test <- shapiro.test(beauty$wage)
shapiro_test

    Shapiro-Wilk normality test

data:  beauty$wage
W = 0.69887, p-value < 2.2e-16

W = 0.69887

p-value < 2.2e-16

Nilai W adalah statistik uji Shapiro-Wilk. Nilai ini mengukur sejauh mana distribusi data mendekati distribusi normal. Nilai W yang mendekati 1 menunjukkan data lebih mendekati distribusi normal. Sebaliknya, nilai W yang jauh dari 1 menunjukkan deviasi dari distribusi normal.

p-value mengukur seberapa konsisten data dengan hipotesis nol bahwa data mengikuti distribusi normal. p-value yang sangat kecil (misalnya,  < 0.05) menunjukkan bahwa data tidak mengikuti distribusi normal.

W = 0.69887 menunjukkan bahwa data beauty$wage memiliki deviasi yang cukup besar dari distribusi normal.

p-value  < 2.2e-16 sangat kecil, yang jauh lebih kecil dari batas signifikan yang umum digunakan (misalnya 0.05).

Kesimpulan: Karena p-value sangat kecil, data beauty$wage tidak mengikuti distribusi normal. Untuk analisis yang mengasumsikan normalitas data, perlu menggunakan metode non-parametrik atau melakukan transformasi data untuk mendekati normalitas.

Modul 8

Analisis Varians

anova_model <- aov(wage ~ looks, data = beauty)
summary(anova_model)
              Df Sum Sq Mean Sq F value Pr(>F)  
looks          1     83   82.78    3.82 0.0509 .
Residuals   1258  27265   21.67                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

p-value = 0.0509, yang mendekati batas signifikansi umum 0.05. Dalam konteks pengujian statistik, kita biasanya menggunakan nilai 0.05 sebagai threshold untuk menentukan signifikansi.

Karena p-value  < 0.05, kita bisa menganggap ada kecenderungan bahwa variabel looks mempengaruhi wage. Namun, karena p-value tepat di ambang batas 0.05, hasilnya bisa dianggap marginal atau lemah.

F-value = 3.82 menunjukkan bahwa variasi dalam wage yang dapat dijelaskan oleh looks relatif terhadap variabilitas sisa adalah 3.82.

Nilai Mean Sq untuk looks (82.78) lebih besar dibandingkan dengan sisa (21.67), yang mendukung hipotesis bahwa ada pengaruh dari looks.

Hipotesis Nol (H0): Tidak ada pengaruh signifikan dari looks terhadap wage.

Hipotesis Alternatif (H1): Ada pengaruh signifikan dari looks terhadap wage.

Modul 9

Regresi

reg_beauty <- lm(wage ~ looks, data = beauty)
summary(reg_beauty)

Call:
lm(formula = wage ~ looks, data = beauty)

Residuals:
   Min     1Q Median     3Q    Max 
-5.452 -2.737 -0.997  1.453 71.108 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   5.1139     0.6242   8.192 6.24e-16 ***
looks         0.3744     0.1916   1.954   0.0509 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.655 on 1258 degrees of freedom
Multiple R-squared:  0.003027,  Adjusted R-squared:  0.002235 
F-statistic:  3.82 on 1 and 1258 DF,  p-value: 0.05088

Signifikansi: Koefisien untuk looks marginally signifikan (p-value = 0.0509), menunjukkan bahwa ada kecenderungan bahwa looks mempengaruhi wage, namun efeknya sangat lemah.

Model Fit: Nilai R-squared yang sangat rendah menunjukkan bahwa looks hanya menjelaskan sebagian kecil variasi dalam wage.

Interpretasi Praktis: Meskipun ada indikasi bahwa looks memiliki pengaruh pada wage, pengaruhnya sangat kecil dan model regresi ini tidak memberikan banyak informasi tentang variabilitas dalam wage. Perlu mempertimbangkan variabel tambahan atau model yang lebih kompleks untuk menjelaskan variasi dalam wage.

***: Sangat signifikan pada tingkat 0.001.

**: Sangat signifikan pada tingkat 0.01.

*: Signifikan pada tingkat 0.05.

.: Marginally signifikan pada tingkat 0.1.

Tidak signifikan.

confint(reg_beauty)
                   2.5 %    97.5 %
(Intercept)  3.889285449 6.3385767
looks       -0.001428727 0.7502463

(Intercept):

2.5 %: 3.889285449

97.5 %: 6.3385767

Interval kepercayaan 95% untuk intercept ((Intercept)) adalah dari 3.889285449 hingga 6.3385767. Ini berarti kita 95% yakin bahwa nilai intercept sebenarnya berada dalam rentang ini.

looks:

2.5 %: -0.001428727

97.5 %: 0.7502463

Interval kepercayaan 95% untuk koefisien looks adalah dari -0.001428727 hingga 0.7502463. Ini berarti kita 95% yakin bahwa nilai koefisien sebenarnya berada dalam rentang ini.

Signifikansi: Karena interval kepercayaan untuk koefisien looks mencakup nol, ini menunjukkan bahwa pada tingkat kepercayaan 95%, pengaruh looks terhadap wage tidak signifikan secara statistik.

Praktis: Meskipun ada indikasi bahwa looks mungkin berhubungan dengan wage, hasil ini menunjukkan bahwa bukti tersebut tidak cukup kuat untuk menolak hipotesis nol bahwa tidak ada pengaruh signifikan dari looks terhadap wage.

Modul 10

Peramalan

beauty_model <- lm(wage ~ looks, data = beauty)
beauty_model

Call:
lm(formula = wage ~ looks, data = beauty)

Coefficients:
(Intercept)        looks  
     5.1139       0.3744  

lm(formula = wage  ~ looks, data = beauty): Ini menunjukkan bahwa model regresi yang dijalankan memiliki wage sebagai variabel dependen (y) dan looks sebagai variabel independen (x). Data yang digunakan adalah dataset beauty.

Nilai intercept adalah 5.1139. Ini adalah nilai rata-rata dari wage ketika looks bernilai nol. Dengan kata lain, jika seorang individu memiliki nilai looks yang benar-benar nol, rata-rata wage mereka diprediksi sebesar 5.1139.

Nilai koefisien untuk looks adalah 0.3744. Ini berarti setiap peningkatan satu unit dalam looks dihubungkan dengan peningkatan rata-rata wage sebesar 0.3744. Dengan kata lain, ada kenaikan 0.3744 dalam wage untuk setiap satu unit peningkatan dalam looks.

Intercept (5.1139): Ini adalah titik di mana garis regresi memotong sumbu y. Artinya, jika looks adalah nol, wage diperkirakan akan menjadi 5.1139.

Koefisien looks (0.3744): Setiap satu unit peningkatan dalam looks diharapkan akan meningkatkan wage sebesar 0.3744.

Model ini memberikan pandangan dasar tentang hubungan antara penampilan (looks) dan upah (wage). Meskipun hubungan ini tampaknya positif, kekuatan hubungan ini dan signifikansinya memerlukan interpretasi lebih lanjut berdasarkan p-value, interval kepercayaan, dan nilai R-squared yang lebih rendah.

new_data_beauty <- data.frame(looks = c(1, 2, 3, 4, 5))
predictions_beauty <- predict(beauty_model, newdata = new_data_beauty)
predictions_beauty
       1        2        3        4        5 
5.488340 5.862749 6.237157 6.611566 6.985975 

Setiap angka mewakili prediksi wage untuk nilai looks tertentu.

Untuk looks = 1, prediksi wage adalah 5.488340.

Untuk looks = 2, prediksi wage adalah 5.862749.

Untuk looks = 3, prediksi wage adalah 6.237157.

Untuk looks = 4, prediksi wage adalah 6.611566.

Untuk looks = 5, prediksi wage adalah 6.985975.