1. Dataset airquality

(a) Statistik Deskriptif untuk Variabel Ozone

# Load dataset
data("airquality")

# Statistik deskriptif untuk Ozone
summary_stats <- data.frame(
  Mean = mean(airquality$Ozone, na.rm = TRUE),
  Median = median(airquality$Ozone, na.rm = TRUE),
  SD = sd(airquality$Ozone, na.rm = TRUE)
)
summary_stats
##       Mean Median       SD
## 1 42.12931   31.5 32.98788

(b) Scatter Plot antara Wind dan Temp

# Scatter plot
plot(airquality$Wind, airquality$Temp, 
     main = "Scatter Plot of Wind vs Temp",
     xlab = "Wind",
     ylab = "Temp",
     pch = 19, col = "blue")

2. Bar Chart untuk Variabel cyl dari Dataset mtcars

# Load dataset
data("mtcars")

# Buat bar chart
barplot_cyl <- table(mtcars$cyl)
barplot(barplot_cyl, main = "Bar Chart of Cylinder Categories",
        col = "skyblue", ylim = c(0, max(barplot_cyl) + 2))
text(x = seq_along(barplot_cyl), y = barplot_cyl, 
     labels = barplot_cyl, pos = 3)

3. Dataset iris

(a) Boxplot untuk Petal.Width Berdasarkan Species

# Boxplot
boxplot(Petal.Width ~ Species, data = iris, 
        main = "Boxplot of Petal.Width by Species", 
        xlab = "Species", ylab = "Petal.Width", 
        col = c("blue", "green", "red"))

(b) Korelasi antara Sepal.Length dan Petal.Length

# Korelasi
correlation <- cor(iris$Sepal.Length, iris$Petal.Length)
correlation
## [1] 0.8717538

Nilai korelasi 0.8717538 menunjukkan hubungan positif yang sangat kuat antara variabel Sepal.Length dan Petal.Length dalam dataset iris. Hal ini berarti bahwa ketika panjang sepal (Sepal.Length) meningkat, panjang petal (Petal.Length) juga cenderung meningkat secara konsisten. Karena nilai korelasi mendekati 1, kita dapat menyimpulkan bahwa hubungan linear antara kedua variabel tersebut cukup signifikan dan kuat.

(c) Scatter Plot dengan Warna Berbeda Berdasarkan Species dan Garis Regresi

# Scatter plot
library(ggplot2)
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE) +
  labs(title = "Scatter Plot of Sepal.Length vs Sepal.Width", 
       x = "Sepal.Length", y = "Sepal.Width") +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

4. Uji Chi-Square untuk Variabel vs dan am di Dataset mtcars

# Tabulasi
chisq_table <- table(mtcars$vs, mtcars$am)

# Uji Chi-Square
chisq_test <- chisq.test(chisq_table)
chisq_test
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  chisq_table
## X-squared = 0.34754, df = 1, p-value = 0.5555

Hasil uji Chi-Square menunjukkan nilai X-squared sebesar 0.34754 dengan p-value 0.5555. Karena p-value lebih besar dari 0.05, kita gagal menolak hipotesis nol (H₀), yang berarti tidak ada hubungan signifikan antara variabel vs (jenis mesin) dan am (tipe transmisi) dalam dataset mtcars. Dengan kata lain, kedua variabel tersebut dianggap independen, dan distribusi kategori vs tidak dipengaruhi oleh am.

5. Regresi Linear dengan Dataset airquality

(a) Ringkasan Model

# Model regresi linear
lm_model <- lm(Temp ~ Solar.R, data = airquality)
summary(lm_model)
## 
## Call:
## lm(formula = Temp ~ Solar.R, data = airquality)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -22.3787  -4.9572   0.8932   5.9111  18.4013 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 72.863012   1.693951  43.014  < 2e-16 ***
## Solar.R      0.028255   0.008205   3.444 0.000752 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.898 on 144 degrees of freedom
##   (7 observations deleted due to missingness)
## Multiple R-squared:  0.07609,    Adjusted R-squared:  0.06967 
## F-statistic: 11.86 on 1 and 144 DF,  p-value: 0.0007518

(b) Scatter Plot dengan Garis Regresi

# Scatter plot with regression line
plot(airquality$Solar.R, airquality$Temp, 
     main = "Regression of Temp on Solar.R",
     xlab = "Solar.R",
     ylab = "Temp",
     pch = 19, col = "darkgreen")
abline(lm_model, col = "red", lwd = 2)

(c) Interpretasi Hasil

Grafik scatter plot menunjukkan hubungan positif antara Solar.R (radiasi matahari) dan Temp (suhu), dengan garis regresi merah yang menggambarkan tren tersebut. Hasil regresi linier menunjukkan bahwa setiap peningkatan 1 unit Solar.R meningkatkan suhu Temp sebesar 0.0283 derajat, dengan intercept model 72.863. Meskipun model ini signifikan (p-value < 0.001), nilai R² = 0.07609 menunjukkan bahwa hanya 7.61% variasi suhu dapat dijelaskan oleh Solar.R, yang berarti model ini kurang efektif dalam memprediksi suhu. Penyebaran titik data yang lebar di sekitar garis regresi juga menunjukkan adanya deviasi besar antara nilai prediksi dan nilai aktual.