# Load dataset
data("airquality")
# Statistik deskriptif untuk Ozone
summary_stats <- data.frame(
Mean = mean(airquality$Ozone, na.rm = TRUE),
Median = median(airquality$Ozone, na.rm = TRUE),
SD = sd(airquality$Ozone, na.rm = TRUE)
)
summary_stats
## Mean Median SD
## 1 42.12931 31.5 32.98788
# Scatter plot
plot(airquality$Wind, airquality$Temp,
main = "Scatter Plot of Wind vs Temp",
xlab = "Wind",
ylab = "Temp",
pch = 19, col = "blue")
# Load dataset
data("mtcars")
# Buat bar chart
barplot_cyl <- table(mtcars$cyl)
barplot(barplot_cyl, main = "Bar Chart of Cylinder Categories",
col = "skyblue", ylim = c(0, max(barplot_cyl) + 2))
text(x = seq_along(barplot_cyl), y = barplot_cyl,
labels = barplot_cyl, pos = 3)
# Boxplot
boxplot(Petal.Width ~ Species, data = iris,
main = "Boxplot of Petal.Width by Species",
xlab = "Species", ylab = "Petal.Width",
col = c("blue", "green", "red"))
# Korelasi
correlation <- cor(iris$Sepal.Length, iris$Petal.Length)
correlation
## [1] 0.8717538
Nilai korelasi 0.8717538 menunjukkan hubungan positif yang sangat kuat antara variabel Sepal.Length dan Petal.Length dalam dataset iris. Hal ini berarti bahwa ketika panjang sepal (Sepal.Length) meningkat, panjang petal (Petal.Length) juga cenderung meningkat secara konsisten. Karena nilai korelasi mendekati 1, kita dapat menyimpulkan bahwa hubungan linear antara kedua variabel tersebut cukup signifikan dan kuat.
# Scatter plot
library(ggplot2)
ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) +
geom_point() +
geom_smooth(method = "lm", se = FALSE) +
labs(title = "Scatter Plot of Sepal.Length vs Sepal.Width",
x = "Sepal.Length", y = "Sepal.Width") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
# Tabulasi
chisq_table <- table(mtcars$vs, mtcars$am)
# Uji Chi-Square
chisq_test <- chisq.test(chisq_table)
chisq_test
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: chisq_table
## X-squared = 0.34754, df = 1, p-value = 0.5555
Hasil uji Chi-Square menunjukkan nilai X-squared sebesar 0.34754 dengan p-value 0.5555. Karena p-value lebih besar dari 0.05, kita gagal menolak hipotesis nol (H₀), yang berarti tidak ada hubungan signifikan antara variabel vs (jenis mesin) dan am (tipe transmisi) dalam dataset mtcars. Dengan kata lain, kedua variabel tersebut dianggap independen, dan distribusi kategori vs tidak dipengaruhi oleh am.
# Model regresi linear
lm_model <- lm(Temp ~ Solar.R, data = airquality)
summary(lm_model)
##
## Call:
## lm(formula = Temp ~ Solar.R, data = airquality)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.3787 -4.9572 0.8932 5.9111 18.4013
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 72.863012 1.693951 43.014 < 2e-16 ***
## Solar.R 0.028255 0.008205 3.444 0.000752 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.898 on 144 degrees of freedom
## (7 observations deleted due to missingness)
## Multiple R-squared: 0.07609, Adjusted R-squared: 0.06967
## F-statistic: 11.86 on 1 and 144 DF, p-value: 0.0007518
# Scatter plot with regression line
plot(airquality$Solar.R, airquality$Temp,
main = "Regression of Temp on Solar.R",
xlab = "Solar.R",
ylab = "Temp",
pch = 19, col = "darkgreen")
abline(lm_model, col = "red", lwd = 2)
Grafik scatter plot menunjukkan hubungan positif antara Solar.R (radiasi matahari) dan Temp (suhu), dengan garis regresi merah yang menggambarkan tren tersebut. Hasil regresi linier menunjukkan bahwa setiap peningkatan 1 unit Solar.R meningkatkan suhu Temp sebesar 0.0283 derajat, dengan intercept model 72.863. Meskipun model ini signifikan (p-value < 0.001), nilai R² = 0.07609 menunjukkan bahwa hanya 7.61% variasi suhu dapat dijelaskan oleh Solar.R, yang berarti model ini kurang efektif dalam memprediksi suhu. Penyebaran titik data yang lebar di sekitar garis regresi juga menunjukkan adanya deviasi besar antara nilai prediksi dan nilai aktual.