U2A3

María José Encinas, Rafael Gutiérrez, Carlos Alvarez, Paul Becerra

29/4/2021

Prueba de hipótesis

Librerías

setwd("~/EALMV9") # Directorio de trabajo.

library("pacman") # Importa biblioteca "pacman". Se utiliza para hacer una mejor gestión de paquetes.

p_load("base64enc", "htmltools", "mime", "xfun", "prettydoc","readr", "knitr","DT","dplyr", "ggplot2","plotly", "gganimate","gifski","scales", "readxl", "tidyverse","cluster", "factoextra","NbClust","tidyr", "hpackedbubble") # Paquetes necesarios para la elaboración.

Descarga este documento

xfun::embed_file("U2A3.rmd")

Download U2A3.rmd

Descarga de datos

xfun::embed_file("GEyPPC_PorEstado.csv")

Download GEyPPC_PorEstado.csv

xfun::embed_file("GEyPPC_comparar.csv")

Download GEyPPC_comparar.csv

Tabla de datos

r <- read_csv("GEyPPC_comparar.csv") #Leer datos
## 
## -- Column specification --------------------------------------------------------
## cols(
##   Entidad = col_character(),
##   GradoEscolaridad = col_double(),
##   Ubicacion = col_character()
## )
datatable(r)

Existe una diferencia entre el grado de escolaridad entre el norte y el sur del país. Podemos decir que dependiendo de la zona se tiene un mayor grado, siendo el norte de país el que tiene mayor escolaridad.

Gráfico de caja y bigotes

boxplot(r$GradoEscolaridad ~ r$Ubicacion, col = "pink", xlab = "Ubicación", ylab= "GE")

Pruebas de normalidad

Para poder iniciar con el análisis y poder probar una hipótesis es necesario determinar la distribución de las variables que se consideraron el la muestra. Es necesario verificar la normalidad por que si las muestras son normales se pueden aplicar métodos estadísticos parámetricos. De no ser normales se transforman o bien, se utilizan métodos no parámetricos.

N <- subset(r, r$Ubicacion == "N")
S <- subset(r, r$Ubicacion == "S")

Construcción de histogramas para conocer la frecuencia de distribución de los datos

hist(N$GradoEscolaridad, xlab = "GE", main = "Histograma GE NORTE")

hist(S$GradoEscolaridad, xlab = "GE", main = "Histograma GE SUR")

Prueba Shapiro-Wilk

shapiro.test(N$GradoEscolaridad)
## 
##  Shapiro-Wilk normality test
## 
## data:  N$GradoEscolaridad
## W = 0.96587, p-value = 0.8421
shapiro.test(S$GradoEscolaridad)
## 
##  Shapiro-Wilk normality test
## 
## data:  S$GradoEscolaridad
## W = 0.96905, p-value = 0.7119

Kolmogorov-Smirnov

ks.test(N$GradoEscolaridad,"pnorm", mean=mean(N$GradoEscolaridad), sd=sd(N$GradoEscolaridad))
## Warning in ks.test(N$GradoEscolaridad, "pnorm", mean =
## mean(N$GradoEscolaridad), : ties should not be present for the Kolmogorov-
## Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  N$GradoEscolaridad
## D = 0.19219, p-value = 0.8112
## alternative hypothesis: two-sided
ks.test(S$GradoEscolaridad,"pnorm", mean=mean(S$GradoEscolaridad), sd=sd(S$GradoEscolaridad))
## Warning in ks.test(S$GradoEscolaridad, "pnorm", mean =
## mean(S$GradoEscolaridad), : ties should not be present for the Kolmogorov-
## Smirnov test
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  S$GradoEscolaridad
## D = 0.15624, p-value = 0.6845
## alternative hypothesis: two-sided

Prueba de Normalidad de varianzas

Para comprobar la homogeneidad de las varianzas se emplea la prueba de varianzas, en R se utiliza la función var.test. En esta prueba se busca que se acepte la H0 que implica que las varianzas de ambas muestras son iguales. Para este ejemplo tenemos los siguientes resultados.

var.test(N$GradoEscolaridad, S$GradoEscolaridad)
## 
##  F test to compare two variances
## 
## data:  N$GradoEscolaridad and S$GradoEscolaridad
## F = 0.2269, num df = 10, denom df = 20, p-value = 0.01997
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.08180642 0.77568159
## sample estimates:
## ratio of variances 
##          0.2269041

Debido a que nuestro valor no cumple con P>0.05 no se acepta H0.

Prueba T student

Debido a que las varianzas no son iguales se utiliza el t.test sin la sección de igualación:

t.test(N$GradoEscolaridad, S$GradoEscolaridad)
## 
##  Welch Two Sample t-test
## 
## data:  N$GradoEscolaridad and S$GradoEscolaridad
## t = 2.2841, df = 29.87, p-value = 0.02965
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.05468733 0.97994470
## sample estimates:
## mean of x mean of y 
## 10.036364  9.519048

Los datos relevantes de la obtención de la prueba de t son los siguientes: los grados de libertad (df)= 29.87; los grados de libertad se pueden comprobar con la formula . El parámetro que debemos revisar para comprobar si aceptamos o rechazamos la H0 es el valor de P, para esta prueba fue de 0.02965 por lo cual al ser menor que 0.5 rechazamos la H0 y aceptamos la H1, es decir, no necesariamente por pertenecer al norte del país se tiene un mayor grado de escolaridad.