rm(list=ls())
library(ggplot2)
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ tibble 3.1.6 ✓ dplyr 1.0.8
## ✓ tidyr 1.2.0 ✓ stringr 1.4.0
## ✓ readr 2.1.2 ✓ forcats 0.5.1
## ✓ purrr 0.3.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(dplyr)
head(mpg)
## # A tibble: 6 × 11
## manufacturer model displ year cyl trans drv cty hwy fl class
## <chr> <chr> <dbl> <int> <int> <chr> <chr> <int> <int> <chr> <chr>
## 1 audi a4 1.8 1999 4 auto(l5) f 18 29 p compa…
## 2 audi a4 1.8 1999 4 manual(m5) f 21 29 p compa…
## 3 audi a4 2 2008 4 manual(m6) f 20 31 p compa…
## 4 audi a4 2 2008 4 auto(av) f 21 30 p compa…
## 5 audi a4 2.8 1999 6 auto(l5) f 16 26 p compa…
## 6 audi a4 2.8 1999 6 manual(m5) f 18 26 p compa…
attach(mpg)
#creamos una paleta de colores para personalizar el boxplot
mis.colores <- colorRampPalette(c("#ff9999", "#99ff99", "#9999ff"))
boxplot(mpg$cty~mpg$cyl, frame = FALSE, col = mis.colores(15), main="Galones por litros en ciudad según cilindrada", xlab = "Cilindrada", ylab = "Millas por galón en ciudad")
abline(h=mean(mpg$cty),lty=2,col="red")
Para saber si se cumple el supuesto existen pruebas para muestras grandes y otras para muestras pequeñas, la más común para muestras pequeñas es \(«Shapiro Wilk»\) y se ocupa con muestras \(=<50\) observaciones, sin embargo, para muestras con más de \(50\) observaciones se usa generalmente la prueba de \(Kolmogorov-Smirnov-Liliefors\), pero también, existen otras como las pruebas de \(«Z simetría»\), \(«Z curtosis»\), o la prueba \(«Jarque-Bera»\). En este punto se le pide que realice todas las pruebas pruebas de normalidad adecuadas. ¿Dirías que se acepta la hipótesis nula? (responde en base a la evidencia empírica que te muestra el software R, por lo cual, debe interpretar los resultados obtenidos con el programa).
Para determinar si se cumple el supuesto de homogeneidad de varianzas se puede recurrir a las pruebas de \(«Barlett»\) y de \(«Levene»\), indistintamente si se trata de muestras grandes o pequeñas. En este punto se le pide que realice ambas pruebas de homogeneidad de varianza. ¿Usted diría que se acepta la hipótesis nula de estas pruebas? (responde en base a la evidencia empírica que te muestra el software R, por lo cual, debes interpretar los resultados obtenidos con el programa).
Si no se puede aplicar dado que los supuestos no se cumplan, entonces debería utilizar el método no paramétrico \(«Kruskal-Wallis»\).
Si en el punto anterior no pudo realizar \(ANOVA\) debido a que los supuestos no se cumplieron en este apartado se te solicita que hagas un ANOVA, pero debe tener muy en cuenta que en rigor no se puede usar ANOVA si resulta que la muestra no cumple con los supuestos. (El software R aplica ANOVA se cumplan los supuestos o no), es por esto, que el investigador debe considerar aplicar las pruebas primeramente para saber si se puede o no aplicar ANOVA. Acá se le solicita que estime un ANOVA unifactorial de efectos fijos para saber si el factor \(X\) determina diferencias significativas entre las medias de los tratamientos.
Si usted notó que existe al menos un par de medias diferentes, o dicho de otra manera, la diferencia entre al menos un par de medias es distinto de cero, entonces debe usar las pruebas post hoc para determinar cuál par de medias específicamente es o son distintas. Interprete.
Realice un gráfico de boxplot de la variable dependiente, según el nivel del factor \(X\).