1. Gunakan dataset airquality yang tersedia di R.

data <- airquality

a.Hitung statistik deskriptif (mean, median, standar deviasi) untuk variabel Ozone.

mean(airquality$Ozone, na.rm = TRUE)
## [1] 42.12931
median(airquality$Ozone, na.rm = TRUE)
## [1] 31.5
sd(airquality$Ozone, na.rm = TRUE)
## [1] 32.98788

b.Buat diagram pencar (scatter plot) antara variabel Wind dan Temp.

plot(airquality$Wind, airquality$Temp, xlab = "Wind", ylab = "Temp", main = "Wind vs Temp")

# 2. Buat bar chart untuk variabel cyl dari dataset mtcars dan tambahkan label jumlah setiap kategori pada grafik.

barplot(table(mtcars$cyl), main = "Jumlah Kategori cyl", xlab = "cyl", ylab = "Jumlah")

3. Gunakan dataset iris untuk menyelesaikan permasalahan berikut.

data <- iris

a. Buat boxplot untuk membandingkan Petal. Width berdasarkan vari- abel Species.

boxplot(Petal.Width ~ Species, data = iris, main = "Petal Width by Species")

# b.Hitung korelasi antara Sepal. Length dan Petal. Length, lalu in- terpretasikan hasilnya.

cor(iris$Sepal.Length, iris$Petal.Length)
## [1] 0.8717538

c.Buat scatter plot antara Sepal. Length dan Sepal.Width dengan warna berbeda berdasarkan spesies. Tambahkan garis regresi untuk masing-masing spesies.

library(ggplot2)
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
  geom_point() +
  geom_smooth(method = "lm", se = FALSE)
## `geom_smooth()` using formula = 'y ~ x'

# 4. Lakukan uji Chi-Square untuk menguji hubungan antara dua variabel kategorik, yaitu vs dan am, dalam dataset mtcars.

chisq.test(table(mtcars$vs, mtcars$am))
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(mtcars$vs, mtcars$am)
## X-squared = 0.34754, df = 1, p-value = 0.5555

5. Bangun model regresi linear sederhana menggunakan dataset airquality untuk memprediksi variabel Temp berdasarkan Solar. R.

a. Tampilkan ringkasan model menggunakan summary().

model <- lm(Temp ~ Solar.R, data = airquality)
summary(model)
## 
## Call:
## lm(formula = Temp ~ Solar.R, data = airquality)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -22.3787  -4.9572   0.8932   5.9111  18.4013 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 72.863012   1.693951  43.014  < 2e-16 ***
## Solar.R      0.028255   0.008205   3.444 0.000752 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.898 on 144 degrees of freedom
##   (7 observations deleted due to missingness)
## Multiple R-squared:  0.07609,    Adjusted R-squared:  0.06967 
## F-statistic: 11.86 on 1 and 144 DF,  p-value: 0.0007518

b. Buat scatter plot dengan garis regresi.

plot(airquality$Solar.R, airquality$Temp, main = "Regresi Linear Temp vs Solar.R")
abline(model, col = "red")

# c.Interpretasikan hasil, termasuk koefisien regresi dan nilai R². Ringkasan Interpretasi Hasil Regresi:

  1. Koefisien Regresi:
    • Intercept (72.86):Ketika Solar.R= 0, Temp diprediksi sekitar 72.86.
    • Koefisien untuk Solar.R (0.0283): Setiap peningkatan satu unit pada olar.R akan menyebabkan Temp meningkat sekitar 0.0283.
  2. Signifikansi:
    • P-value untuk Intercept dan Solar.R sangat kecil, menunjukkan bahwa keduanya signifikan dalam memprediksi Temp.
  3. R² (0.07609): Hanya sekitar 7.6% variasi Temp dapat dijelaskan oleh Solar.R, yang menunjukkan model ini memiliki penjelasan yang rendah terhadap variasi Temp.

Kesimpulan: Model regresi menunjukkan adanya hubungan positif yang signifikan antara Solar.R dan Temp, meskipun kemampuan model dalam menjelaskan variasi dalam Temp cukup rendah (R² = 0.07609). Artinya, faktor lain selain Solar.R kemungkinan juga memengaruhi Temp. Model ini layak digunakan untuk pemahaman dasar, namun mungkin perlu ditingkatkan dengan menambahkan variabel lain untuk memperbaiki prediksi.