library(dplyr)
library(readxl)
library(EnvStats)
library(readxl)
base_LM <- read_excel("C:/Users/USUARIO/Downloads/base_LM.xlsx",
col_types = c("text", "text", "numeric"))
View(base_LM)
datos_filtrados <- base_LM %>%
mutate(
tipo_universidad = case_when(
grepl("OFICIAL NACIONAL|OFICIAL DEPARTAMENTAL", inst_origen) ~ "Oficial",
grepl("NO OFICIAL", inst_origen) ~ "No Oficial",
TRUE ~ "Otro" )
) %>%
filter(tipo_universidad %in% c("Oficial", "No Oficial"))
puntajes_oficiales <- datos_filtrados %>%
filter(tipo_universidad == "Oficial") %>%
pull(mod_ingles_punt)
puntajes_no_oficiales <- datos_filtrados %>%
filter(tipo_universidad == "No Oficial") %>%
pull(mod_ingles_punt)
data.frame(
Grupo = c("Oficial", "No Oficial"),
n = c(length(puntajes_oficiales), length(puntajes_no_oficiales)),
Media = c(mean(puntajes_oficiales), mean(puntajes_no_oficiales)),
Desviacion_Estandar = c(sd(puntajes_oficiales), sd(puntajes_no_oficiales))
)
## Grupo n Media Desviacion_Estandar
## 1 Oficial 585 153.2564 23.18558
## 2 No Oficial 25 149.7200 20.91953
resultado <- t.test(mod_ingles_punt ~ tipo_universidad, data = datos_filtrados, conf.level = 0.95)
print(resultado)
##
## Results of Hypothesis Test
## --------------------------
##
## Null Hypothesis: difference in means between group No Oficial and group Oficial = 0
##
## Alternative Hypothesis: True difference in means between group No Oficial and group Oficial is not equal to 0
##
## Test Name: Welch Two Sample t-test
##
## Estimated Parameter(s): mean in group No Oficial = 149.7200
## mean in group Oficial = 153.2564
##
## Data: mod_ingles_punt by tipo_universidad
##
## Test Statistic: t = -0.8238929
##
## Test Statistic Parameter: df = 26.58288
##
## P-value: 0.4173315
##
## 95% Confidence Interval: LCL = -12.349990
## UCL = 5.277169
Solución: Dado que el p-valor es 0.417 es mayor que el nivel de significancia 0.05, No se rechaza la Hipótesis Nula es decir no existe una diferencia significativa en el puntaje promedio de inglés obtenido entre los estudiantes de las universidades oficiales y los estudiantes de las universidades no oficiales. Estadistico: -0.8238929
puntajes_ingles <- base_LM$mod_ingles_punt
referencia_nacional <- 146
me<-mean(puntajes_ingles)
me
## [1] 153.1115
resultado <- t.test(x = puntajes_ingles, mu = referencia_nacional, alternative = "greater", conf.level = 0.95)
print(resultado)
##
## Results of Hypothesis Test
## --------------------------
##
## Null Hypothesis: mean = 146
##
## Alternative Hypothesis: True mean is greater than 146
##
## Test Name: One Sample t-test
##
## Estimated Parameter(s): mean of x = 153.1115
##
## Data: puntajes_ingles
##
## Test Statistic: t = 7.606107
##
## Test Statistic Parameter: df = 609
##
## P-value: 5.381641e-14
##
## 95% Confidence Interval: LCL = 151.5712
## UCL = Inf
Solución: Dado que el p-valor (5.381641e-14) es menor que el nivel de significancia 0.05, se rechaza la hipótesis nula. Es decir el puntaje promedio de inglés de los estudiantes de Licenciatura en Matemáticas supera el valor de referencia de 146 puntos requerido para alcanzar el Nivel B1. Estadistico: 7.606107
puntajes_ingles <- base_LM$mod_ingles_punt
b1 <- 146
x <- sum(puntajes_ingles >= 146)
n <- length(puntajes_ingles)
p <- x / n
print(x)
## [1] 391
print(n)
## [1] 610
print(p)
## [1] 0.6409836
referencia <- 0.60
resul<- prop.test(
x = x,
n = n,
p = referencia,
alternative = "greater",
conf.level = 0.95, correct = FALSE)
print(resul)
##
## Results of Hypothesis Test
## --------------------------
##
## Null Hypothesis: p = 0.6
##
## Alternative Hypothesis: True p is greater than 0.6
##
## Test Name: 1-sample proportions test without continuity correction
##
## Estimated Parameter(s): p = 0.6409836
##
## Data: x out of n, null probability referencia
##
## Test Statistic: X-squared = 4.269126
##
## Test Statistic Parameter: df = 1
##
## P-value: 0.01940545
##
## 95% Confidence Interval: LCL = 0.6084777
## UCL = 1.0000000
Solucion: Dado que el p-valor 0.0194 es menor que el nivel de significancia 0.05, se rechaza la hipótesis nula. Es decir existe evidencia significativa para afirmar que la proporción de estudiantes de Licenciatura en Matemáticas que alcanzan o superan el Nivel B1 es mayor al 60% Estadistico: 4.269126
datos_uptc <- base_LM %>%
filter(grepl("UNIVERSIDAD PEDAGOGICA Y TECNOLOGICA DE COLOMBIA", inst_nombre_institucion)) %>%
pull(mod_ingles_punt)
sigma <- 30
varianza <- sigma^2
varianza
## [1] 900
n_uptc <- length(datos_uptc)
n_uptc
## [1] 46
s2_uptc <- var(datos_uptc)
s_uptc <- sqrt(s2_uptc)
resultado<- varTest(
x = datos_uptc,
sigma.squared = varianza,
alternative = "two.sided",
conf.level = 0.95
)
resultado
## $statistic
## Chi-Squared
## 15.75546
##
## $parameters
## df
## 45
##
## $p.value
## [1] 3.109903e-05
##
## $estimate
## variance
## 315.1092
##
## $null.value
## variance
## 900
##
## $alternative
## [1] "two.sided"
##
## $method
## [1] "Chi-Squared Test on Variance"
##
## $data.name
## [1] "datos_uptc"
##
## $conf.int
## LCL UCL
## 216.7846 499.8885
## attr(,"conf.level")
## [1] 0.95
##
## attr(,"class")
## [1] "htestEnvStats"
Solución: Dado que el p-valor (3.109903e-05) es pequeño y menor que el nivel de significancia 0.05, se rechaza la hipótesis nula. Es decir existe evidencia significativa para concluir que la variabilidad de los puntajes de inglés de los estudiantes de la UPTC es diferente a la variabilidad nacional. Estadistico: 15.75546