library(readr)
datos = data.frame(read_csv("saber11_2015_1.csv"))
## Rows: 965 Columns: 16
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (6): NOMBREINSTITUCION, NOMBREMUNICIPIO, DEPARTAMENTO, CALENDARIO, NATU...
## dbl (10): CODINST, CODIGOMUNICIPIO, EVALUADOS, PROMLECTURACRITICA, PROMMATEM...
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
El ministerio de educacion nacional escoge 2 departamentos para analizar sus resultados. Ademas, desean focalizar mas su investigacion en 2 variables cualitativas y 3 cuantitativas “Calendario, naturaleza, y promedios de ingles, matematicas y competencias ciudadanas”
attach(datos)
col.popayan = c("POPAYAN")
datos_popayan = datos[NOMBREMUNICIPIO %in% col.popayan, ]
datos_popayan <- datos_popayan[, c("CALENDARIO", "NATURALEZA","PROMMATEMATICA", "PROMINGLES", "PROMCOMPETENCIASCIUDADAN")]
datos_popayan
## CALENDARIO NATURALEZA PROMMATEMATICA PROMINGLES PROMCOMPETENCIASCIUDADAN
## 27 <NA> NO OFICIAL 43.31 45.19 43.69
## 35 A NO OFICIAL 45.00 44.33 40.00
## 112 B NO OFICIAL 74.68 69.76 68.24
## 136 B NO OFICIAL 63.10 64.85 62.74
## 142 A NO OFICIAL 43.44 48.78 45.00
## 150 B NO OFICIAL 55.21 56.03 55.00
## 189 <NA> NO OFICIAL 47.88 46.26 45.51
## 250 B NO OFICIAL 65.22 67.00 62.54
## 254 B NO OFICIAL 57.45 59.00 58.45
## 316 A NO OFICIAL 43.42 41.08 41.08
## 355 B NO OFICIAL 62.67 64.67 63.43
## 372 B NO OFICIAL 73.86 63.79 67.57
## 378 <NA> NO OFICIAL 49.41 51.18 50.35
## 414 A NO OFICIAL 43.00 50.00 50.00
## 445 A NO OFICIAL 47.27 44.64 43.91
## 489 B NO OFICIAL 49.50 48.00 46.50
## 519 A NO OFICIAL 48.44 47.44 49.00
## 528 A NO OFICIAL 43.89 49.89 46.11
## 529 B NO OFICIAL 76.22 75.94 63.44
## 556 A NO OFICIAL 44.23 45.19 45.16
## 589 <NA> NO OFICIAL 37.00 43.00 35.00
## 615 B NO OFICIAL 55.64 56.15 58.66
## 663 B NO OFICIAL 45.71 51.21 51.79
## 665 A OFICIAL 44.92 49.25 46.42
## 701 B NO OFICIAL 63.96 58.89 63.39
## 719 B NO OFICIAL 59.83 59.13 59.17
## 730 <NA> NO OFICIAL 53.40 43.80 57.00
## 780 B NO OFICIAL 61.27 74.27 60.45
## 782 <NA> NO OFICIAL 45.96 48.33 47.88
## 841 B NO OFICIAL 52.83 53.30 55.42
## 860 A OFICIAL 56.00 49.00 51.00
## 873 B NO OFICIAL 57.68 53.32 59.04
## 874 B NO OFICIAL 54.58 52.70 55.36
## 882 B NO OFICIAL 45.63 46.50 43.25
col.medellin = c("MEDELLIN")
datos_medellin = datos[NOMBREMUNICIPIO %in% col.medellin,]
datos_medellin <-datos_medellin[, c("CALENDARIO", "NATURALEZA","PROMMATEMATICA", "PROMINGLES", "PROMCOMPETENCIASCIUDADAN")]
datos_medellin
## CALENDARIO NATURALEZA PROMMATEMATICA PROMINGLES PROMCOMPETENCIASCIUDADAN
## 10 A NO OFICIAL 43.25 41.25 45.25
## 21 A NO OFICIAL 42.96 42.85 42.48
## 26 A NO OFICIAL 43.69 44.24 43.07
## 84 A NO OFICIAL 46.27 46.80 48.23
## 120 A OFICIAL 49.00 37.00 45.00
## 148 A NO OFICIAL 47.67 49.50 50.17
## 164 A NO OFICIAL 43.76 42.53 43.47
## 216 A OFICIAL 46.36 43.64 48.00
## 230 A NO OFICIAL 43.22 45.90 44.44
## 273 A OFICIAL 50.67 43.33 37.67
## 291 A NO OFICIAL 55.78 55.67 56.44
## 304 A NO OFICIAL 48.91 46.73 48.00
## 310 A NO OFICIAL 44.75 46.00 46.00
## 342 A OFICIAL 35.50 43.50 42.00
## 381 A NO OFICIAL 42.07 42.93 42.89
## 388 A OFICIAL 41.90 45.29 46.19
## 415 A NO OFICIAL 45.00 47.63 47.74
## 452 <NA> NO OFICIAL 49.67 57.44 52.11
## 463 A NO OFICIAL 52.13 54.52 51.52
## 521 B NO OFICIAL 55.26 66.88 55.82
## 564 A OFICIAL 39.71 43.29 40.14
## 588 A NO OFICIAL 42.08 43.28 42.76
## 613 A NO OFICIAL 50.20 44.00 50.40
## 627 A NO OFICIAL 48.00 48.67 49.83
## 632 <NA> NO OFICIAL 44.20 43.28 45.56
## 668 A NO OFICIAL 38.73 41.77 42.73
## 672 A NO OFICIAL 62.00 53.00 60.00
## 698 A NO OFICIAL 43.63 43.99 43.70
## 801 A OFICIAL 48.50 44.38 52.63
## 813 A NO OFICIAL 39.27 41.09 42.12
## 887 A NO OFICIAL 45.04 46.19 44.64
## 918 A NO OFICIAL 45.95 46.95 46.89
summary(datos_popayan)
## CALENDARIO NATURALEZA PROMMATEMATICA PROMINGLES
## Length:34 Length:34 Min. :37.00 Min. :41.08
## Class :character Class :character 1st Qu.:45.16 1st Qu.:46.73
## Mode :character Mode :character Median :51.16 Median :50.59
## Mean :53.28 Mean :53.58
## 3rd Qu.:59.29 3rd Qu.:58.97
## Max. :76.22 Max. :75.94
## PROMCOMPETENCIASCIUDADAN
## Min. :35.00
## 1st Qu.:45.66
## Median :51.40
## Mean :52.69
## 3rd Qu.:59.14
## Max. :68.24
summary(datos_medellin)
## CALENDARIO NATURALEZA PROMMATEMATICA PROMINGLES
## Length:32 Length:32 Min. :35.50 Min. :37.00
## Class :character Class :character 1st Qu.:43.16 1st Qu.:43.28
## Mode :character Mode :character Median :45.02 Median :44.31
## Mean :46.10 Mean :46.36
## 3rd Qu.:48.93 3rd Qu.:47.12
## Max. :62.00 Max. :66.88
## PROMCOMPETENCIASCIUDADAN
## Min. :37.67
## 1st Qu.:43.02
## Median :45.78
## Mean :46.81
## 3rd Qu.:49.91
## Max. :60.00
Se categorizan las variables cualitativas
datos_medellin$CALENDARIO=factor(datos_medellin$CALENDARIO)
datos_medellin$NATURALEZA=factor(datos_medellin$NATURALEZA)
datos_popayan$CALENDARIO=factor(datos_popayan$CALENDARIO)
datos_popayan$NATURALEZA=factor(datos_popayan$NATURALEZA)
summary(datos_medellin)
## CALENDARIO NATURALEZA PROMMATEMATICA PROMINGLES
## A :29 NO OFICIAL:25 Min. :35.50 Min. :37.00
## B : 1 OFICIAL : 7 1st Qu.:43.16 1st Qu.:43.28
## NA's: 2 Median :45.02 Median :44.31
## Mean :46.10 Mean :46.36
## 3rd Qu.:48.93 3rd Qu.:47.12
## Max. :62.00 Max. :66.88
## PROMCOMPETENCIASCIUDADAN
## Min. :37.67
## 1st Qu.:43.02
## Median :45.78
## Mean :46.81
## 3rd Qu.:49.91
## Max. :60.00
summary(datos_popayan)
## CALENDARIO NATURALEZA PROMMATEMATICA PROMINGLES
## A :10 NO OFICIAL:32 Min. :37.00 Min. :41.08
## B :18 OFICIAL : 2 1st Qu.:45.16 1st Qu.:46.73
## NA's: 6 Median :51.16 Median :50.59
## Mean :53.28 Mean :53.58
## 3rd Qu.:59.29 3rd Qu.:58.97
## Max. :76.22 Max. :75.94
## PROMCOMPETENCIASCIUDADAN
## Min. :35.00
## 1st Qu.:45.66
## Median :51.40
## Mean :52.69
## 3rd Qu.:59.14
## Max. :68.24
boxplot(datos_popayan$PROMMATEMATICA~datos_popayan$CALENDARIO, border = "red", col = "black",
main = "CALENDARIO~MATEMÁTICAS",
xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN MATEMÁTICAS")
boxplot(datos_medellin$PROMMATEMATICA~datos_medellin$CALENDARIO, border = "blue", col = "aquamarine",
main = "CALENDARIO~MATEMÁTICAS",
xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN MATEMÁTICAS")
boxplot(datos_popayan$PROMMATEMATICA~datos_popayan$NATURALEZA, border = "red", col = "black",
main = "NATURALEZA~MATEMATICAS",
xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN MATEMATICAS")
boxplot(datos_medellin$PROMMATEMATICA~datos_medellin$NATURALEZA, border = "blue", col = "aquamarine",
main = "NATURALEZA~MATEMATICA",
xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN MATEMATICA")
boxplot(datos_popayan$PROMINGLES~datos_popayan$CALENDARIO, border = "red", col = "black",
main = "CALENDARIO~INGLES",
xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN INGLES")
boxplot(datos_medellin$PROMINGLES~datos_medellin$CALENDARIO, border = "Blue", col = "aquamarine",
main = "CALENDARIO~INGLES",
xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN INGLES")
boxplot(datos_popayan$PROMINGLES~datos_popayan$NATURALEZA, border = "red", col = "black",
main = "NATURALEZA~INGLES",
xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN INGLES")
boxplot(datos_medellin$PROMINGLES~datos_medellin$NATURALEZA, border = "blue", col = "aquamarine",
main = "NATURALEZA~INGLES",
xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN INGLES")
boxplot(datos_popayan$PROMCOMPETENCIASCIUDADAN~datos_popayan$CALENDARIO, border = "red", col = "black",
main = "CALENDARIO~COMPCIUDADANAS",
xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN COMPCIUDADANAS")
boxplot(datos_medellin$PROMCOMPETENCIASCIUDADAN~datos_medellin$CALENDARIO, border = "Blue", col = "aquamarine",
main = "CALENDARIO~COMPCIUDADANAS",
xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN COMPCIUDADANAS")
boxplot(datos_popayan$PROMCOMPETENCIASCIUDADAN~datos_popayan$NATURALEZA, border = "red", col = "black",
main = "NATURALEZA~COMPCIUDADANAS",
xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN COMPCIUDADANAS")
boxplot(datos_medellin$PROMCOMPETENCIASCIUDADAN~datos_medellin$NATURALEZA, border = "blue", col = "aquamarine",
main = "NATURALEZA~COMPCIUDADANAS",
xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN COMPCIUDADANAS")
La comparacion entre Calendario y naturaleza de cada departamento y materia resulta ser un poco similar “en ciertos casos”. Teniendo en cuenta lo anterior, el Ministerio de educacion nacional (MEN) ve que no es tan viable mejorar la educacion de cada materia “de las que se estudian en este caso” ya que no se tiene el suficiente personal, asi que deciden que seria mas optimo el comparar los departamentos
par(mfrow=c(1, 2))
boxplot(datos_popayan$PROMINGLES, border = "red", col = "black", main = "Ingles", xlab="PROMEDIO")
boxplot(datos_medellin$PROMINGLES, border = "blue", col = "aquamarine", main = "Ingles", xlab="PROMEDIO")
boxplot(datos_popayan$PROMMATEMATICA, border = "red", col = "black", main = "MATEMÁTICAS", xlab="PROMEDIO")
boxplot(datos_medellin$PROMMATEMATICA, border = "blue", col = "aquamarine", main = "MATEMÁTICAS", xlab="PROMEDIO")
boxplot(datos_popayan$PROMCOMPETENCIASCIUDADAN, border = "red", col = "black", main = "Compciudadanas", xlab="PROMEDIO")
boxplot(datos_medellin$PROMCOMPETENCIASCIUDADAN, border = "blue", col = "aquamarine", main = "Compciudadanas", xlab="PROMEDIO")
Gracias a las anteriores graficas, se puede evidenciar una media bastante similar. Sin embargo, si prestamos atencion a las graficas, el eje y esta en diferentes magnitudes. Cabe resaltar que en competencias ciudadanas de popayan registra datos casi de solamente 35 y en matematicas de popayan lo mismo, asi que por estimaciones que podemos concluir con estos graficos estos 2 sectores serian los que mas se debe invertir. A pesar de estos resultados, se desea un analisis todavia mas exhaustivo, y porque no, usando intervalos de confianza.
Se desea hallar un intervalo de confianza del 95% de confianza, en el que se estime la media poblacional de cada departamento y cada materia
hist(datos_popayan$PROMINGLES, main="Promedio Ingles", xlab="Promedio", ylab = "Frecuencia")
hist(datos_medellin$PROMINGLES, main="Promedio Ingles", xlab="Promedio", ylab = "Frecuencia")
hist(datos_popayan$PROMMATEMATICA, main="Promedio Matematica", xlab="Promedio", ylab = "Frecuencia")
hist(datos_medellin$PROMMATEMATICA, main="Promedio Matematica", xlab="Promedio", ylab = "Frecuencia")
hist(datos_popayan$PROMCOMPETENCIASCIUDADAN, main="Promedio COMPCIUD", xlab="Promedio", ylab = "Frecuencia")
hist(datos_medellin$PROMCOMPETENCIASCIUDADAN, main="Promedio COMPCIUD", xlab="Promedio", ylab = "Frecuencia")
alpha=0.05
z=qnorm(1-0.05/2)
z
## [1] 1.959964
x = media
s = desviacion estandar
i = ingles
m = medellin
p = popayan
xip=mean(datos_popayan$PROMINGLES)
xip
## [1] 53.58441
sip=sd(datos_popayan$PROMINGLES)
sip
## [1] 9.206172
xim=mean(datos_medellin$PROMINGLES)
xim
## [1] 46.36
sim=sd(datos_medellin$PROMINGLES)
sim
## [1] 5.776104
# la sd de ingles popayan es aprox de 8
minIp=xip-z*8/sqrt(nrow(datos_popayan))
maxIp=xip+z*8/sqrt(nrow(datos_popayan))
minIp
## [1] 50.89536
maxIp
## [1] 56.27346
###Error ingles popayan
ErrorIp<-z*8/sqrt(nrow(datos_popayan))
ErrorIp
## [1] 2.689048
# la sd de ingles medellin es aprox de 6
minIm=xim-z*6/sqrt(nrow(datos_popayan))
maxIm=xim+z*6/sqrt(nrow(datos_popayan))
minIm
## [1] 44.34321
maxIm
## [1] 48.37679
###Error ingles medellin
ErrorIm<-z*6/sqrt(nrow(datos_medellin))
ErrorIm
## [1] 2.078856
Podemos concluir con un 95% de confianza que la media poblacional en la prueba de ingles de popayan y medellin se encuentra entre (50.89 , 56.27) y (44.34 , 48.37) respectivamente.
Tambien tienen un margen de error:
Popayan: 2.689
Medellin: 2.078
x = media
s = desviacion estandar
m = matematicas
m = medellin
p = popayan
xmp=mean(datos_popayan$PROMMATEMATICA)
xmp
## [1] 53.28265
smp=sd(datos_popayan$PROMMATEMATICA)
smp
## [1] 9.956158
xmm=mean(datos_medellin$PROMMATEMATICA)
xmm
## [1] 46.09781
smm=sd(datos_medellin$PROMMATEMATICA)
smm
## [1] 5.391466
# la sd de mat popayan es aprox de 10
minMp=xmp-z*10/sqrt(nrow(datos_popayan))
maxMp=xmp+z*10/sqrt(nrow(datos_popayan))
minMp
## [1] 49.92134
maxMp
## [1] 56.64396
###Error Mat popayan
ErrorMp<-z*10/sqrt(nrow(datos_popayan))
ErrorMp
## [1] 3.361311
# la sd de mat medellin es aprox de 5
minMm=xmm-z*5/sqrt(nrow(datos_popayan))
maxMm=xmm+z*5/sqrt(nrow(datos_popayan))
minMm
## [1] 44.41716
maxMm
## [1] 47.77847
###Error Mat medellin
ErrorMm<-z*5/sqrt(nrow(datos_medellin))
ErrorMm
## [1] 1.73238
Podemos concluir con un 95% de confianza que la media poblacional en la prueba de matematicas de popayan y medellin se encuentra entre (49.92 , 56.64) y (44.41 , 47.77) respectivamente.
Tambien tienen un margen de error:
Popayan: 3.361
Medellin: 1.732
x = media
s = desviacion estandar
c = Competencias ciudadanas
m = medellin
p = popayan
xcp=mean(datos_popayan$PROMCOMPETENCIASCIUDADAN)
xcp
## [1] 52.69265
scp=sd(datos_popayan$PROMCOMPETENCIASCIUDADAN)
scp
## [1] 8.623252
xcm=mean(datos_medellin$PROMCOMPETENCIASCIUDADAN)
xcm
## [1] 46.80906
scm=sd(datos_medellin$PROMCOMPETENCIASCIUDADAN)
scm
## [1] 4.967106
# la sd de Comp Ciud popayan es aprox de 9
minMp=xcp-z*9/sqrt(nrow(datos_popayan))
maxMp=xcp+z*9/sqrt(nrow(datos_popayan))
minMp
## [1] 49.66747
maxMp
## [1] 55.71783
###Error Comp ciud popayan
ErrorCp<-z*9/sqrt(nrow(datos_popayan))
ErrorCp
## [1] 3.025179
# la sd de Comp Ciud medellin es aprox de 5
minMm=xcm-z*5/sqrt(nrow(datos_popayan))
maxMm=xcm+z*5/sqrt(nrow(datos_popayan))
minMm
## [1] 45.12841
maxMm
## [1] 48.48972
###Error Comp ciud medellin
ErrorCm<-z*5/sqrt(nrow(datos_medellin))
ErrorCm
## [1] 1.73238
Podemos concluir con un 95% de confianza que la media poblacional en la prueba de Competencias Ciudadanas de popayan y medellin se encuentra entre (49.66 , 55.71) y (45.12 , 48.48) respectivamente.
Tambien tienen un margen de error:
Popayan: 3.025
Medellin: 1.732
t.test(datos_popayan$PROMINGLES, alternative = "two.sided", conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_popayan$PROMINGLES
## t = 33.939, df = 33, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 50.37223 56.79660
## sample estimates:
## mean of x
## 53.58441
t.test(datos_popayan$PROMMATEMATICA, alternative = "two.sided", conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_popayan$PROMMATEMATICA
## t = 31.206, df = 33, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 49.80878 56.75651
## sample estimates:
## mean of x
## 53.28265
t.test(datos_popayan$PROMCOMPETENCIASCIUDADAN, alternative = "two.sided", conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_popayan$PROMCOMPETENCIASCIUDADAN
## t = 35.63, df = 33, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 49.68385 55.70144
## sample estimates:
## mean of x
## 52.69265
t.test(datos_medellin$PROMINGLES, alternative = "two.sided", conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_medellin$PROMINGLES
## t = 45.403, df = 31, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 44.27749 48.44251
## sample estimates:
## mean of x
## 46.36
t.test(datos_medellin$PROMMATEMATICA, alternative = "two.sided", conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_medellin$PROMMATEMATICA
## t = 48.367, df = 31, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 44.15398 48.04164
## sample estimates:
## mean of x
## 46.09781
t.test(datos_medellin$PROMCOMPETENCIASCIUDADAN, alternative = "two.sided", conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_medellin$PROMCOMPETENCIASCIUDADAN
## t = 53.309, df = 31, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 45.01823 48.59990
## sample estimates:
## mean of x
## 46.80906
alpha=0.05
tp=qt(1-0.05/2, df=nrow(datos_popayan)-1)
tp
## [1] 2.034515
alpha=0.05
tm=qt(1-0.05/2, df=nrow(datos_medellin)-1)
tm
## [1] 2.039513
Gracias a estudios similares realizados el año pasado, obtuvimos las medias estimadas de las mismas variables estudiadas, por lo que se quiere rectificar que en realidad los resultados estan mejorando o por lo contrario, se necesite mejorar la calidad de estudio de las materias en el departamento mas bajo. Todo esto a un 95% de confianza
Promedio del año pasado = 54
## popayan ingles
t.test(datos_popayan$PROMINGLES,
alternative = "greater",
mu = 54,
conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_popayan$PROMINGLES
## t = -0.26322, df = 33, p-value = 0.603
## alternative hypothesis: true mean is greater than 54
## 95 percent confidence interval:
## 50.91244 Inf
## sample estimates:
## mean of x
## 53.58441
alpha=0.05
tip=(xip-54)/(sip/sqrt(nrow(datos_popayan)))
tip
## [1] -0.2632229
valorpip=pt(tip,df=nrow(datos_popayan)-1,lower.tail = F)
valorpip
## [1] 0.6029923
valorpip<alpha
## [1] FALSE
En este caso, el promedio actual fue inferior al del año pasado
Promedio del año pasado = 40
t.test(datos_medellin$PROMINGLES,
alternative = "greater",
mu = 40,
conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_medellin$PROMINGLES
## t = 6.2287, df = 31, p-value = 3.206e-07
## alternative hypothesis: true mean is greater than 40
## 95 percent confidence interval:
## 44.62874 Inf
## sample estimates:
## mean of x
## 46.36
alpha=0.05
tim=(xim-40)/(sim/sqrt(nrow(datos_medellin)))
tim
## [1] 6.228695
valorpim=pt(tim,df=nrow(datos_medellin)-1,lower.tail = F)
valorpim
## [1] 3.205834e-07
valorpim<alpha
## [1] TRUE
En este caso, el promedio actual fue superior al del año pasado
Promedio del año pasado = 55
t.test(datos_popayan$PROMMATEMATICA,
alternative = "greater",
mu = 55,
conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_popayan$PROMMATEMATICA
## t = -1.0058, df = 33, p-value = 0.8391
## alternative hypothesis: true mean is greater than 55
## 95 percent confidence interval:
## 50.393 Inf
## sample estimates:
## mean of x
## 53.28265
alpha=0.05
tmp=(xmp-55)/(smp/sqrt(nrow(datos_popayan)))
tmp
## [1] -1.00579
valorpmp=pt(tmp,df=nrow(datos_popayan)-1,lower.tail = F)
valorpmp
## [1] 0.8390824
valorpmp<alpha
## [1] FALSE
En este caso, el promedio actual fue inferior al del año pasado
Promedio del año pasado = 43
t.test(datos_medellin$PROMMATEMATICA,
alternative = "greater",
mu = 43,
conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_medellin$PROMMATEMATICA
## t = 3.2503, df = 31, p-value = 0.001388
## alternative hypothesis: true mean is greater than 43
## 95 percent confidence interval:
## 44.48184 Inf
## sample estimates:
## mean of x
## 46.09781
alpha=0.05
tmm=(xmm-43)/(smm/sqrt(nrow(datos_medellin)))
tmm
## [1] 3.250299
valorpmm=pt(tmm,df=nrow(datos_medellin)-1,lower.tail = F)
valorpmm
## [1] 0.001388
valorpmm<alpha
## [1] TRUE
En este caso, el promedio actual fue superior al del año pasado
Promedio del año pasado = 52
t.test(datos_popayan$PROMCOMPETENCIASCIUDADAN,
alternative = "greater",
mu = 52,
conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_popayan$PROMCOMPETENCIASCIUDADAN
## t = 0.46836, df = 33, p-value = 0.3213
## alternative hypothesis: true mean is greater than 52
## 95 percent confidence interval:
## 50.18986 Inf
## sample estimates:
## mean of x
## 52.69265
alpha=0.05
tcp=(xcp-52)/(scp/sqrt(nrow(datos_popayan)))
tcp
## [1] 0.4683606
valorpcp=pt(tcp,df=nrow(datos_popayan)-1,lower.tail = F)
valorpcp
## [1] 0.3213029
valorpcp<alpha
## [1] FALSE
En este caso, el promedio actual fue inferior al del año pasado
Promedio del año pasado = 45
t.test(datos_medellin$PROMCOMPETENCIASCIUDADAN,
alternative = "greater",
mu = 45,
conf.level = 0.95)
##
## One Sample t-test
##
## data: datos_medellin$PROMCOMPETENCIASCIUDADAN
## t = 2.0603, df = 31, p-value = 0.02393
## alternative hypothesis: true mean is greater than 45
## 95 percent confidence interval:
## 45.32028 Inf
## sample estimates:
## mean of x
## 46.80906
alpha=0.05
tcm=(xcm-45)/(scm/sqrt(nrow(datos_medellin)))
tcm
## [1] 2.060275
valorpcm=pt(tcm,df=nrow(datos_medellin)-1,lower.tail = F)
valorpcm
## [1] 0.02392506
valorpcm<alpha
## [1] TRUE
En este caso, el promedio actual fue superior al del año pasado
Gracias a este analisis, se puede evidenciar que en el caso de medellin, siempre tuvo una mejoria en todas sus materias por lo que se deberia tener mas encuenta al departamento de popayan para mejorar su calidad.
Consecuente a los anteriores resultados, el MEN decidio que era mejor fortalecer el area de ingles, puesto que es una materia que esta ganando relevancia en los ultimos años no solo por moda, sino tambien porque es una lengua muy utilizada en el exterior, programacion, expocisiones tipo Teld Talk. Practicamente, es una lengua muy versatil y muy util para el dia de hoy.
Entonces, se decide estudiar mucho mas minuciosamente que departamento seria mejor implementar mejoras en ingles. Puede que medellin se este mejorando, pero eso no significa necesariamente que necesite dicha ayuda.
#estimador puntual de ingles popayan medellin
DifI = xip-xim
DifI
## [1] 7.224412
# desviacion muestral de la diferencia
errorI=sqrt(sip^2/nrow(datos_popayan)+sim^2/nrow(datos_medellin))
errorI
## [1] 1.880255
# con un 95% se estima la diferencia
dfI= sqrt((1/34+1/32)*((33*sip^2)+(31*sim^2)*(1/64)))
dfI
## [1] 13.06305
TI= qt(1-0.05/2,dfI,lower.tail = T)
TI
## [1] 2.159309
MINI= DifI-TI*errorI
MAXI= DifI+TI*errorI
MINI
## [1] 3.16436
MAXI
## [1] 11.28446
t.test(datos_popayan$PROMINGLES, datos_medellin$PROMINGLES,alternative = "two.sided", mu=0, conf.level = 0.95)
##
## Welch Two Sample t-test
##
## data: datos_popayan$PROMINGLES and datos_medellin$PROMINGLES
## t = 3.8423, df = 55.957, p-value = 0.0003135
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 3.457745 10.991079
## sample estimates:
## mean of x mean of y
## 53.58441 46.36000
DifI/(sqrt(sip^2/nrow(datos_popayan)+sim^2/nrow(datos_medellin)))
## [1] 3.842251
Gracias a esta prueba se puede decir que medellin necesita mas esa ayuda ya que su media es inferior a la de popayan con respecto al ingles.
Para una mayor seguridad en la toma de esta desicion de decide priorizar la proporcion que la media. Cabe resaltar, que se supone que como los temas de cada colegio a enseñar a los alumnos son los mismos, se opta por estudiar, por ende, dar relevancia a la variable de horario puesto que no se tiene la misma eficacia a nivel academico en diferentes horas.
table(datos_popayan$CALENDARIO)
##
## A B
## 10 18
pip=10/nrow(datos_popayan)
pip
## [1] 0.2941176
Sip=sqrt(pip*(1-pip)/nrow(datos_popayan))
Sip
## [1] 0.07814249
# confianza del 90%
Y=qnorm(1-0.1/2)
Y
## [1] 1.644854
EPI=Y*Sip
EPI
## [1] 0.128533
min=pip-EPI
max=pip+EPI
print(c(min,max))
## [1] 0.1655847 0.4226506
Con la funcion prop.test
prop.test(10, nrow(datos_popayan), conf.level=0.90)
##
## 1-sample proportions test with continuity correction
##
## data: 10 out of nrow(datos_popayan), null probability 0.5
## X-squared = 4.9706, df = 1, p-value = 0.02578
## alternative hypothesis: true p is not equal to 0.5
## 90 percent confidence interval:
## 0.1727685 0.4491369
## sample estimates:
## p
## 0.2941176
Gracias a los test anteriores, rectificamos que popayan es quien necesita de dicha ayuda. Ahora, para especificar que colegios, tomaremos en cuenta la variable de calendario, mencionada anteriormente.
table(datos_popayan$CALENDARIO)
##
## A B
## 10 18
prop.test(c(18, 10), c(nrow(datos_popayan), nrow(datos_popayan)), conf.level=0.90)$conf.int
## [1] 0.01523717 0.45535107
## attr(,"conf.level")
## [1] 0.9
Con un 90% de confianza, la diferencia de medias esta entre (0.015 , 0.455)
Por comparacion, haremos una comparacion de medias en calendario
prop.test(c(18, 10), c(nrow(datos_popayan), nrow(datos_popayan)), conf.level=0.90, alternative = "greater")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(18, 10) out of c(nrow(datos_popayan), nrow(datos_popayan))
## X-squared = 2.975, df = 1, p-value = 0.04228
## alternative hypothesis: greater
## 90 percent confidence interval:
## 0.05734535 1.00000000
## sample estimates:
## prop 1 prop 2
## 0.5294118 0.2941176
Con esta prueba de hipotesis, se puede confimar que en Popayan, los cursos de ingles en horarios tipo A, han de ser reforzados si se quiere obtener un mejor resultado en las pruebas saber 11.
var.test(datos_popayan$PROMINGLES,datos_popayan$PROMINGLES,ratio = 1, alternative = "two.sided", conf.level=0.90)
##
## F test to compare two variances
##
## data: datos_popayan$PROMINGLES and datos_popayan$PROMINGLES
## F = 1, num df = 33, denom df = 33, p-value = 1
## alternative hypothesis: true ratio of variances is not equal to 1
## 90 percent confidence interval:
## 0.5593399 1.7878217
## sample estimates:
## ratio of variances
## 1