El presente ejercicio tiene como finalidad practicar un Analisis de la Varianza (ANOVA), para lograr el cometido se tomo un dataset del libro; Estadistica, de Richard C. Weimer, publicado en el 2000, por la editorial CECSA, el ejercicio del que se tomo el dataset se puede encontrar en la pagina 604. El ejercicio recita lo siguiente: En cuatro preparatorias de cierta comunidad los estudiantes del noveno grado realizaron un examen de habilidades basicas. En la tabla aparecen las muestras aleatorias de sus calificaciones. Utilice un alpha de 0.05 para hacer una prueba que determine si difieren las calificaciones promedio de las distintas esuelas.
| ESCUELA A | ESCUELA B | ESCUELA C | ESCUELA D |
|---|---|---|---|
| 20 | 24 | 16 | 19 |
| 21 | 21 | 21 | 20 |
| 22 | 22 | 18 | 21 |
| 24 | 25 | 13 | 20 |
| 12 | 23 | 20 | 14 |
| 21 | 20 | 24 | 15 |
| 16 | 17 | 13 | 14 |
| 20 | 23 | 16 | 12 |
| 20 | 21 | 24 | 22 |
| 22 | 18 | 22 | 20 |
| 13 | 19 | 11 | 24 |
| 14 | 22 | 25 | 12 |
| 22 | 21 | 21 | 22 |
| 20 | 20 | 22 | 19 |
| 23 | 12 | 20 | 17 |
Cabe destacar que para el logro exitoso del proyecto se tomo la determinacion de agregar observaciones al dataset original, esto con la finalidad de permitir a R un analisis completo de la varianza.
Ho (nula) = los resultados obtenidos en las escuelas A, B, C y D no tienen variacion; por lo tanto la hipotesis nula no se puede refutar.
Hi (alterna) = Existe alguna variacion entre las calificaciones promedio de los alumnos en las escuelas A, B, C y D, por lo tanto la hipotesis nula queda rechazada.
## Warning: package 'readr' was built under R version 3.5.3
## Parsed with column specification:
## cols(
## `ESCUELA A` = col_double(),
## `ESCUELA B` = col_double(),
## `ESCUELA C` = col_double(),
## `ESCUELA D` = col_double()
## )
## Classes 'spec_tbl_df', 'tbl_df', 'tbl' and 'data.frame': 15 obs. of 4 variables:
## $ ESCUELA A: num 20 21 22 24 12 21 16 20 20 22 ...
## $ ESCUELA B: num 24 21 22 25 23 20 17 23 21 18 ...
## $ ESCUELA C: num 16 21 18 13 20 24 13 16 24 22 ...
## $ ESCUELA D: num 19 20 21 20 14 15 14 12 22 20 ...
## - attr(*, "spec")=
## .. cols(
## .. `ESCUELA A` = col_double(),
## .. `ESCUELA B` = col_double(),
## .. `ESCUELA C` = col_double(),
## .. `ESCUELA D` = col_double()
## .. )
## [1] "ESCUELA A" "ESCUELA B" "ESCUELA C" "ESCUELA D"
## [1] "numeric"
## [1] "numeric"
## [1] "numeric"
## [1] "numeric"
## Call:
## aov(formula = values ~ ind, data = stack(ANOVA_Escuelas_))
##
## Terms:
## ind Residuals
## Sum of Squares 46.3167 814.9333
## Deg. of Freedom 3 56
##
## Residual standard error: 3.814758
## Estimated effects may be unbalanced
## ESCUELA A ESCUELA B ESCUELA C ESCUELA D
## Min. :12.00 Min. :12.00 Min. :11.00 Min. :12.00
## 1st Qu.:18.00 1st Qu.:19.50 1st Qu.:16.00 1st Qu.:14.50
## Median :20.00 Median :21.00 Median :20.00 Median :19.00
## Mean :19.33 Mean :20.53 Mean :19.07 Mean :18.07
## 3rd Qu.:22.00 3rd Qu.:22.50 3rd Qu.:22.00 3rd Qu.:20.50
## Max. :24.00 Max. :25.00 Max. :25.00 Max. :24.00
## Df Sum Sq Mean Sq F value Pr(>F)
## ind 3 46.3 15.44 1.061 0.373
## Residuals 56 814.9 14.55
Como resultado del analisis de la varianza se obtuvieron las siguientes graficas:
Conforme a lo establecido en los parametros del ejercicio en el libro, se habia propuesto una hipotesis nula y una hipotesis alterna. Como puede concluirse tras el calculo de la ANOVA para el ejercicio, la hipotesis nula queda rechazada, es decir;
Existe alguna variacion entre las calificaciones promedio de los aumnos en las escuelas A, B, C y D, por lo tanto se acepta la hipotesis alterna