1 Analisis Dataset Airquality

Statistik Deskriptif Variabel Ozon

# Memuat dataset
data(airquality)

# Statistik deskriptif Ozone
ozone_stats <- summary(airquality$Ozone)
print(ozone_stats)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    1.00   18.00   31.50   42.13   63.25  168.00      37
# Mean, Median, Standar Deviasi
mean_ozone <- mean(airquality$Ozone, na.rm = TRUE)
median_ozone <- median(airquality$Ozone, na.rm = TRUE)
sd_ozone <- sd(airquality$Ozone, na.rm = TRUE)

cat("\nStatistik Deskriptif Ozone:\n")
## 
## Statistik Deskriptif Ozone:
cat("Mean:", round(mean_ozone, 2), "\n")
## Mean: 42.13
cat("Median:", round(median_ozone, 2), "\n")
## Median: 31.5
cat("Standar Deviasi:", round(sd_ozone, 2), "\n")
## Standar Deviasi: 32.99
ggplot(airquality, aes(x = Wind, y = Temp)) +
  geom_point(alpha = 0.7, color = "green") +
  labs(title = "Scatter Plot Wind vs Temp",
       x = "Kecepatan Angin", 
       y = "Temperatur") +
  theme_minimal()

# 2 Analisis Bar Chart Dataset mtcars

# Bar chart variabel cyl
mtcars %>%
  count(cyl) %>%
  ggplot(aes(x = factor(cyl), y = n, fill = factor(cyl))) +
  geom_bar(stat = "identity") +
  geom_text(aes(label = n), vjust = -0.5) +
  labs(title = "Distribusi Jumlah Silinder",
       x = "Jumlah Silinder", 
       y = "Frekuensi") +
  theme_minimal()

3 Analisis Dataset Iris

Boxplot Petal Width berdasarkan Species

ggplot(iris, aes(x = Species, y = Petal.Width, fill = Species)) +
  geom_boxplot() +
  labs(title = "Boxplot Petal Width berdasarkan Species",
       x = "Spesies", 
       y = "Lebar Petal") +
  theme_minimal()

Korelasi Sepal Length dan Petal Length

# Hitung korelasi
korelasi <- cor(iris$Sepal.Length, iris$Petal.Length)
cat("Korelasi Sepal Length dan Petal Length:", round(korelasi, 3))
## Korelasi Sepal Length dan Petal Length: 0.872

Nilai korelasi antara Sepal Length dan Petal Length sebesar 0.872 menunjukkan hubungan yang kuat dan positif, di mana bunga dengan sepal yang lebih panjang cenderung memiliki petal yang lebih panjang. Nilai ini mengindikasikan bahwa kedua variabel memiliki hubungan linier yang hampir sempurna, dengan perubahan pada Sepal Length cenderung diikuti oleh perubahan searah pada Petal Length. Hubungan ini masuk akal secara biologis, mengingat ukuran sepal dan petal sering mencerminkan ukuran keseluruhan bunga. Meskipun demikian, penting untuk diingat bahwa korelasi ini hanya menggambarkan hubungan linier dan tidak menyiratkan hubungan sebab-akibat.

Scatter Plot dengan Regresi per Spesies

ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  labs(title = "Scatter Plot Sepal Length vs Sepal Width",
       x = "Panjang Sepal", 
       y = "Lebar Sepal") +
  theme_minimal()

# Uji Chi-Square mtcars

# Tabel kontingensi
tabel_kontingensi <- table(mtcars$vs, mtcars$am)
print("Tabel Kontingensi:")
## [1] "Tabel Kontingensi:"
print(tabel_kontingensi)
##    
##      0  1
##   0 12  6
##   1  7  7
# Uji Chi-Square
uji_chi <- chisq.test(tabel_kontingensi)
print(uji_chi)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabel_kontingensi
## X-squared = 0.34754, df = 1, p-value = 0.5555

Dengan 𝑝-value=0.5555 yang jauh lebih besar dari tingkat signifikansi umum (𝛼=0.05), kita gagal menolak H0. Artinya, tidak ada bukti signifikan untuk menyatakan bahwa kedua variabel saling bergantung. Dengan kata lain, variabel-variabel ini tampaknya independen.

Regresi Linear Airquality

Model Regresi Solar.R terhadap Temp

# Model regresi
model <- lm(Temp ~ Solar.R, data = airquality)

# Ringkasan model
summary(model)
## 
## Call:
## lm(formula = Temp ~ Solar.R, data = airquality)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -22.3787  -4.9572   0.8932   5.9111  18.4013 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 72.863012   1.693951  43.014  < 2e-16 ***
## Solar.R      0.028255   0.008205   3.444 0.000752 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.898 on 144 degrees of freedom
##   (7 observations deleted due to missingness)
## Multiple R-squared:  0.07609,    Adjusted R-squared:  0.06967 
## F-statistic: 11.86 on 1 and 144 DF,  p-value: 0.0007518
# Scatter plot dengan garis regresi
ggplot(airquality, aes(x = Solar.R, y = Temp)) +
  geom_point(alpha = 0.7) +
  geom_smooth(method = "lm", color = "maroon") +
  labs(title = "Regresi Linear Solar.R vs Temp",
       x = "Radiasi Matahari", 
       y = "Temperatur") +
  theme_minimal()

  1. Regresi linier sederhana dengan formula:

Temp =𝛽0+𝛽1(Solar.R)+πœ–

di mana:

  • Temp adalah variabel dependen (suhu),
  • Solar.R adalah variabel independen (radiasi matahari).
  1. Residuals Residuals menggambarkan selisih antara nilai aktual dan nilai yang diprediksi oleh model. Statistik ringkasan residual adalah sebagai berikut:

Min: -22.3787 (residual terkecil), 1Q: -4.9572 (kuartil pertama residual), Median: 0.8932 (residual tengah), 3Q: 5.9111 (kuartil ketiga residual), Max: 18.4013 (residual terbesar). Nilai-nilai ini menunjukkan distribusi residual relatif simetris, dengan beberapa outlier.

  1. Koefisien Bagian ini menunjukkan nilai estimasi untuk parameter model:

Intercept (Ξ²0): 72.863 Artinya, jika Solar.R=0, maka suhu rata-rata diprediksi sebesar 72.863 derajat.

Solar.R (𝛽1): 0.028255 Setiap peningkatan 1 satuan pada Solar.R (radiasi matahari) dikaitkan dengan peningkatan suhu sebesar 0.028 derajat.

Statistik Koefisien: Std. Error: Ukuran ketidakpastian estimasi koefisien. Untuk 𝛽0: 1.693951 Untuk 𝛽1: 0.008205

t value: Statistik uji untuk menguji hipotesis nol (𝐻0): koefisien sama dengan nol. 𝑑Intercept = 43.014 𝑑Solar.R = 3.444

Pr(>|t|): Nilai p untuk pengujian signifikansi. Untuk Solar.R,π‘β‰ˆ 0.00075, yang lebih kecil dari 0.001, menunjukkan bahwa efek Solar.R signifikan secara statistik terhadap suhu.

Residual Standard Error (RSE) RSE adalah ukuran seberapa baik model memprediksi data. Nilainya adalah 8.898 dengan 144 derajat kebebasan. Nilai ini menunjukkan tingkat penyimpangan prediksi model dari data aktual

Koefisien Determinasi (𝑅²) Multiple 𝑅² : 0.07609 Hanya sekitar 7.6% variansi dalam suhu yang dapat dijelaskan oleh variabel

Adjusted 𝑅² : 0.06967 Menyesuaikan nilai 𝑅² dengan mempertimbangkan jumlah prediktor dan ukuran sampel.

Nilai F-statistic adalah 11.86 dengan p-value sebesar 0.0007518. Ini menunjukkan bahwa model secara keseluruhan signifikan, meskipun 𝑅² cukup rendah

KESIMPULAN

Solar.R berpengaruh signifikan terhadap suhu, tetapi kontribusinya kecil karena 𝑅² rendah. Model ini memberikan prediksi yang masuk akal tetapi tidak sepenuhnya menjelaskan variasi suhu. Penambahan variabel lain mungkin diperlukan untuk meningkatkan performa model.