Se utilizara la siguiente base de datos

library(readr)
datos = data.frame(read_csv("saber11_2015_1.csv"))

## Rows: 965 Columns: 16
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (6): NOMBREINSTITUCION, NOMBREMUNICIPIO, DEPARTAMENTO, CALENDARIO, NATU...
## dbl (10): CODINST, CODIGOMUNICIPIO, EVALUADOS, PROMLECTURACRITICA, PROMMATEM...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

El ministerio de educacion nacional escoge 2 departamentos para analizar sus resultados. Ademas, desean focalizar mas su investigacion en 2 variables cualitativas y 3 cuantitativas “Calendario, naturaleza, y promedios de ingles, matematicas y competencias ciudadanas”

Popayan y Medellin

attach(datos)

col.popayan = c("POPAYAN")
datos_popayan = datos[NOMBREMUNICIPIO %in% col.popayan, ]
datos_popayan <- datos_popayan[, c("CALENDARIO", "NATURALEZA","PROMMATEMATICA", "PROMINGLES", "PROMCOMPETENCIASCIUDADAN")]
datos_popayan

##     CALENDARIO NATURALEZA PROMMATEMATICA PROMINGLES PROMCOMPETENCIASCIUDADAN
## 27        <NA> NO OFICIAL          43.31      45.19                    43.69
## 35           A NO OFICIAL          45.00      44.33                    40.00
## 112          B NO OFICIAL          74.68      69.76                    68.24
## 136          B NO OFICIAL          63.10      64.85                    62.74
## 142          A NO OFICIAL          43.44      48.78                    45.00
## 150          B NO OFICIAL          55.21      56.03                    55.00
## 189       <NA> NO OFICIAL          47.88      46.26                    45.51
## 250          B NO OFICIAL          65.22      67.00                    62.54
## 254          B NO OFICIAL          57.45      59.00                    58.45
## 316          A NO OFICIAL          43.42      41.08                    41.08
## 355          B NO OFICIAL          62.67      64.67                    63.43
## 372          B NO OFICIAL          73.86      63.79                    67.57
## 378       <NA> NO OFICIAL          49.41      51.18                    50.35
## 414          A NO OFICIAL          43.00      50.00                    50.00
## 445          A NO OFICIAL          47.27      44.64                    43.91
## 489          B NO OFICIAL          49.50      48.00                    46.50
## 519          A NO OFICIAL          48.44      47.44                    49.00
## 528          A NO OFICIAL          43.89      49.89                    46.11
## 529          B NO OFICIAL          76.22      75.94                    63.44
## 556          A NO OFICIAL          44.23      45.19                    45.16
## 589       <NA> NO OFICIAL          37.00      43.00                    35.00
## 615          B NO OFICIAL          55.64      56.15                    58.66
## 663          B NO OFICIAL          45.71      51.21                    51.79
## 665          A    OFICIAL          44.92      49.25                    46.42
## 701          B NO OFICIAL          63.96      58.89                    63.39
## 719          B NO OFICIAL          59.83      59.13                    59.17
## 730       <NA> NO OFICIAL          53.40      43.80                    57.00
## 780          B NO OFICIAL          61.27      74.27                    60.45
## 782       <NA> NO OFICIAL          45.96      48.33                    47.88
## 841          B NO OFICIAL          52.83      53.30                    55.42
## 860          A    OFICIAL          56.00      49.00                    51.00
## 873          B NO OFICIAL          57.68      53.32                    59.04
## 874          B NO OFICIAL          54.58      52.70                    55.36
## 882          B NO OFICIAL          45.63      46.50                    43.25

col.medellin = c("MEDELLIN")
datos_medellin = datos[NOMBREMUNICIPIO %in% col.medellin,]
datos_medellin <-datos_medellin[, c("CALENDARIO", "NATURALEZA","PROMMATEMATICA", "PROMINGLES", "PROMCOMPETENCIASCIUDADAN")]
datos_medellin

##     CALENDARIO NATURALEZA PROMMATEMATICA PROMINGLES PROMCOMPETENCIASCIUDADAN
## 10           A NO OFICIAL          43.25      41.25                    45.25
## 21           A NO OFICIAL          42.96      42.85                    42.48
## 26           A NO OFICIAL          43.69      44.24                    43.07
## 84           A NO OFICIAL          46.27      46.80                    48.23
## 120          A    OFICIAL          49.00      37.00                    45.00
## 148          A NO OFICIAL          47.67      49.50                    50.17
## 164          A NO OFICIAL          43.76      42.53                    43.47
## 216          A    OFICIAL          46.36      43.64                    48.00
## 230          A NO OFICIAL          43.22      45.90                    44.44
## 273          A    OFICIAL          50.67      43.33                    37.67
## 291          A NO OFICIAL          55.78      55.67                    56.44
## 304          A NO OFICIAL          48.91      46.73                    48.00
## 310          A NO OFICIAL          44.75      46.00                    46.00
## 342          A    OFICIAL          35.50      43.50                    42.00
## 381          A NO OFICIAL          42.07      42.93                    42.89
## 388          A    OFICIAL          41.90      45.29                    46.19
## 415          A NO OFICIAL          45.00      47.63                    47.74
## 452       <NA> NO OFICIAL          49.67      57.44                    52.11
## 463          A NO OFICIAL          52.13      54.52                    51.52
## 521          B NO OFICIAL          55.26      66.88                    55.82
## 564          A    OFICIAL          39.71      43.29                    40.14
## 588          A NO OFICIAL          42.08      43.28                    42.76
## 613          A NO OFICIAL          50.20      44.00                    50.40
## 627          A NO OFICIAL          48.00      48.67                    49.83
## 632       <NA> NO OFICIAL          44.20      43.28                    45.56
## 668          A NO OFICIAL          38.73      41.77                    42.73
## 672          A NO OFICIAL          62.00      53.00                    60.00
## 698          A NO OFICIAL          43.63      43.99                    43.70
## 801          A    OFICIAL          48.50      44.38                    52.63
## 813          A NO OFICIAL          39.27      41.09                    42.12
## 887          A NO OFICIAL          45.04      46.19                    44.64
## 918          A NO OFICIAL          45.95      46.95                    46.89

summary(datos_popayan)

##   CALENDARIO         NATURALEZA        PROMMATEMATICA    PROMINGLES   
##  Length:34          Length:34          Min.   :37.00   Min.   :41.08  
##  Class :character   Class :character   1st Qu.:45.16   1st Qu.:46.73  
##  Mode  :character   Mode  :character   Median :51.16   Median :50.59  
##                                        Mean   :53.28   Mean   :53.58  
##                                        3rd Qu.:59.29   3rd Qu.:58.97  
##                                        Max.   :76.22   Max.   :75.94  
##  PROMCOMPETENCIASCIUDADAN
##  Min.   :35.00           
##  1st Qu.:45.66           
##  Median :51.40           
##  Mean   :52.69           
##  3rd Qu.:59.14           
##  Max.   :68.24

summary(datos_medellin)

##   CALENDARIO         NATURALEZA        PROMMATEMATICA    PROMINGLES   
##  Length:32          Length:32          Min.   :35.50   Min.   :37.00  
##  Class :character   Class :character   1st Qu.:43.16   1st Qu.:43.28  
##  Mode  :character   Mode  :character   Median :45.02   Median :44.31  
##                                        Mean   :46.10   Mean   :46.36  
##                                        3rd Qu.:48.93   3rd Qu.:47.12  
##                                        Max.   :62.00   Max.   :66.88  
##  PROMCOMPETENCIASCIUDADAN
##  Min.   :37.67           
##  1st Qu.:43.02           
##  Median :45.78           
##  Mean   :46.81           
##  3rd Qu.:49.91           
##  Max.   :60.00

Descripcion de Variables

Se categorizan las variables cualitativas

datos_medellin$CALENDARIO=factor(datos_medellin$CALENDARIO)

datos_medellin$NATURALEZA=factor(datos_medellin$NATURALEZA)

datos_popayan$CALENDARIO=factor(datos_popayan$CALENDARIO)

datos_popayan$NATURALEZA=factor(datos_popayan$NATURALEZA)

summary(datos_medellin)

##  CALENDARIO      NATURALEZA PROMMATEMATICA    PROMINGLES   
##  A   :29    NO OFICIAL:25   Min.   :35.50   Min.   :37.00  
##  B   : 1    OFICIAL   : 7   1st Qu.:43.16   1st Qu.:43.28  
##  NA's: 2                    Median :45.02   Median :44.31  
##                             Mean   :46.10   Mean   :46.36  
##                             3rd Qu.:48.93   3rd Qu.:47.12  
##                             Max.   :62.00   Max.   :66.88  
##  PROMCOMPETENCIASCIUDADAN
##  Min.   :37.67           
##  1st Qu.:43.02           
##  Median :45.78           
##  Mean   :46.81           
##  3rd Qu.:49.91           
##  Max.   :60.00

summary(datos_popayan)

##  CALENDARIO      NATURALEZA PROMMATEMATICA    PROMINGLES   
##  A   :10    NO OFICIAL:32   Min.   :37.00   Min.   :41.08  
##  B   :18    OFICIAL   : 2   1st Qu.:45.16   1st Qu.:46.73  
##  NA's: 6                    Median :51.16   Median :50.59  
##                             Mean   :53.28   Mean   :53.58  
##                             3rd Qu.:59.29   3rd Qu.:58.97  
##                             Max.   :76.22   Max.   :75.94  
##  PROMCOMPETENCIASCIUDADAN
##  Min.   :35.00           
##  1st Qu.:45.66           
##  Median :51.40           
##  Mean   :52.69           
##  3rd Qu.:59.14           
##  Max.   :68.24

Graficas de variables cuantitativas categorizada

Popayan: negro y rojo

Medellin: Azul y agua marina

Con respecto a Matematicas

boxplot(datos_popayan$PROMMATEMATICA~datos_popayan$CALENDARIO, border = "red", col = "black", 
        main = "CALENDARIO~MATEMÁTICAS", 
        xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN MATEMÁTICAS")

boxplot(datos_medellin$PROMMATEMATICA~datos_medellin$CALENDARIO, border = "blue", col = "aquamarine", 
        main = "CALENDARIO~MATEMÁTICAS", 
        xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN MATEMÁTICAS")

boxplot(datos_popayan$PROMMATEMATICA~datos_popayan$NATURALEZA, border = "red", col = "black", 
        main = "NATURALEZA~MATEMATICAS", 
        xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN MATEMATICAS")

boxplot(datos_medellin$PROMMATEMATICA~datos_medellin$NATURALEZA, border = "blue", col = "aquamarine", 
        main = "NATURALEZA~MATEMATICA", 
        xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN MATEMATICA")

Popayan: negro y rojo

Medellin: Azul y agua marina

Con respecto a Ingles

boxplot(datos_popayan$PROMINGLES~datos_popayan$CALENDARIO, border = "red", col = "black", 
        main = "CALENDARIO~INGLES", 
        xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN INGLES")

boxplot(datos_medellin$PROMINGLES~datos_medellin$CALENDARIO, border = "Blue", col = "aquamarine", 
        main = "CALENDARIO~INGLES", 
        xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN INGLES")

boxplot(datos_popayan$PROMINGLES~datos_popayan$NATURALEZA, border = "red", col = "black", 
        main = "NATURALEZA~INGLES", 
        xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN INGLES")

boxplot(datos_medellin$PROMINGLES~datos_medellin$NATURALEZA, border = "blue", col = "aquamarine", 
        main = "NATURALEZA~INGLES", 
        xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN INGLES")

Popayan: negro y rojo

Medellin: Azul y agua marina

Con respecto a Competencias ciudadanas

boxplot(datos_popayan$PROMCOMPETENCIASCIUDADAN~datos_popayan$CALENDARIO, border = "red", col = "black", 
        main = "CALENDARIO~COMPCIUDADANAS", 
        xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN COMPCIUDADANAS")

boxplot(datos_medellin$PROMCOMPETENCIASCIUDADAN~datos_medellin$CALENDARIO, border = "Blue", col = "aquamarine", 
        main = "CALENDARIO~COMPCIUDADANAS", 
        xlab = "(CALENDARIO A, CALENDARIO B)", ylab = "PROMEDIO EN COMPCIUDADANAS")

boxplot(datos_popayan$PROMCOMPETENCIASCIUDADAN~datos_popayan$NATURALEZA, border = "red", col = "black", 
        main = "NATURALEZA~COMPCIUDADANAS", 
        xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN COMPCIUDADANAS")

boxplot(datos_medellin$PROMCOMPETENCIASCIUDADAN~datos_medellin$NATURALEZA, border = "blue", col = "aquamarine", 
        main = "NATURALEZA~COMPCIUDADANAS", 
        xlab = "(OFICIAL, NO OFICIAL)", ylab = "PROMEDIO EN COMPCIUDADANAS")

La comparacion entre Calendario y naturaleza de cada departamento y materia resulta ser un poco similar “en ciertos casos”. Teniendo en cuenta lo anterior, el Ministerio de educacion nacional (MEN) ve que no es tan viable mejorar la educacion de cada materia “de las que se estudian en este caso” ya que no se tiene el suficiente personal, asi que deciden que seria mas optimo el comparar los departamentos

Comparacion entre departamentos

par(mfrow=c(1, 2))
boxplot(datos_popayan$PROMINGLES, border = "red", col = "black", main = "Ingles", xlab="PROMEDIO")
boxplot(datos_medellin$PROMINGLES, border = "blue", col = "aquamarine", main = "Ingles", xlab="PROMEDIO")

boxplot(datos_popayan$PROMMATEMATICA, border = "red", col = "black", main = "MATEMÁTICAS", xlab="PROMEDIO")
boxplot(datos_medellin$PROMMATEMATICA, border = "blue", col = "aquamarine", main = "MATEMÁTICAS", xlab="PROMEDIO")

boxplot(datos_popayan$PROMCOMPETENCIASCIUDADAN, border = "red", col = "black", main = "Compciudadanas", xlab="PROMEDIO")
boxplot(datos_medellin$PROMCOMPETENCIASCIUDADAN, border = "blue", col = "aquamarine", main = "Compciudadanas", xlab="PROMEDIO")

Gracias a las anteriores graficas, se puede evidenciar una media bastante similar. Sin embargo, si prestamos atencion a las graficas, el eje y esta en diferentes magnitudes. Cabe resaltar que en competencias ciudadanas de popayan registra datos casi de solamente 35 y en matematicas de popayan lo mismo, asi que por estimaciones que podemos concluir con estos graficos estos 2 sectores serian los que mas se debe invertir. A pesar de estos resultados, se desea un analisis todavia mas exhaustivo, y porque no, usando intervalos de confianza.

Intervalos de confianza

Desviacion Conocida

Se desea hallar un intervalo de confianza del 95% de confianza, en el que se estime la media poblacional de cada departamento y cada materia

hist(datos_popayan$PROMINGLES, main="Promedio Ingles", xlab="Promedio", ylab = "Frecuencia")

hist(datos_medellin$PROMINGLES, main="Promedio Ingles", xlab="Promedio", ylab = "Frecuencia")

hist(datos_popayan$PROMMATEMATICA, main="Promedio Matematica", xlab="Promedio", ylab = "Frecuencia")

hist(datos_medellin$PROMMATEMATICA, main="Promedio Matematica", xlab="Promedio", ylab = "Frecuencia")

hist(datos_popayan$PROMCOMPETENCIASCIUDADAN, main="Promedio COMPCIUD", xlab="Promedio", ylab = "Frecuencia")

hist(datos_medellin$PROMCOMPETENCIASCIUDADAN, main="Promedio COMPCIUD", xlab="Promedio", ylab = "Frecuencia")

alpha=0.05
z=qnorm(1-0.05/2)
z

## [1] 1.959964

Ingles en popayan y medellin

x = media

s = desviacion estandar

i = ingles

m = medellin

p = popayan

xip=mean(datos_popayan$PROMINGLES)
xip

## [1] 53.58441

sip=sd(datos_popayan$PROMINGLES)
sip

## [1] 9.206172

xim=mean(datos_medellin$PROMINGLES)
xim

## [1] 46.36

sim=sd(datos_medellin$PROMINGLES)
sim

## [1] 5.776104

# la sd de ingles popayan es aprox de 8
minIp=xip-z*8/sqrt(nrow(datos_popayan))
maxIp=xip+z*8/sqrt(nrow(datos_popayan))
minIp

## [1] 50.89536

maxIp

## [1] 56.27346

###Error ingles popayan
ErrorIp<-z*8/sqrt(nrow(datos_popayan))
ErrorIp

## [1] 2.689048

# la sd de ingles medellin es aprox de 6
minIm=xim-z*6/sqrt(nrow(datos_popayan))
maxIm=xim+z*6/sqrt(nrow(datos_popayan))
minIm

## [1] 44.34321

maxIm

## [1] 48.37679

###Error ingles medellin
ErrorIm<-z*6/sqrt(nrow(datos_medellin))
ErrorIm

## [1] 2.078856

Podemos concluir con un 95% de confianza que la media poblacional en la prueba de ingles de popayan y medellin se encuentra entre (50.89 , 56.27) y (44.34 , 48.37) respectivamente.

Tambien tienen un margen de error:

Popayan: 2.689

Medellin: 2.078

Matematicas en popayan y medellin

x = media

s = desviacion estandar

m = matematicas

m = medellin

p = popayan

xmp=mean(datos_popayan$PROMMATEMATICA)
xmp

## [1] 53.28265

smp=sd(datos_popayan$PROMMATEMATICA)
smp

## [1] 9.956158

xmm=mean(datos_medellin$PROMMATEMATICA)
xmm

## [1] 46.09781

smm=sd(datos_medellin$PROMMATEMATICA)
smm

## [1] 5.391466

# la sd de mat popayan es aprox de 10
minMp=xmp-z*10/sqrt(nrow(datos_popayan))
maxMp=xmp+z*10/sqrt(nrow(datos_popayan))
minMp

## [1] 49.92134

maxMp

## [1] 56.64396

###Error Mat popayan
ErrorMp<-z*10/sqrt(nrow(datos_popayan))
ErrorMp

## [1] 3.361311

# la sd de mat medellin es aprox de 5
minMm=xmm-z*5/sqrt(nrow(datos_popayan))
maxMm=xmm+z*5/sqrt(nrow(datos_popayan))
minMm

## [1] 44.41716

maxMm

## [1] 47.77847

###Error Mat medellin
ErrorMm<-z*5/sqrt(nrow(datos_medellin))
ErrorMm

## [1] 1.73238

Podemos concluir con un 95% de confianza que la media poblacional en la prueba de matematicas de popayan y medellin se encuentra entre (49.92 , 56.64) y (44.41 , 47.77) respectivamente.

Tambien tienen un margen de error:

Popayan: 3.361

Medellin: 1.732

Competencias Ciudadanas en popayan y medellin

x = media

s = desviacion estandar

c = Competencias ciudadanas

m = medellin

p = popayan

xcp=mean(datos_popayan$PROMCOMPETENCIASCIUDADAN)
xcp

## [1] 52.69265

scp=sd(datos_popayan$PROMCOMPETENCIASCIUDADAN)
scp

## [1] 8.623252

xcm=mean(datos_medellin$PROMCOMPETENCIASCIUDADAN)
xcm

## [1] 46.80906

scm=sd(datos_medellin$PROMCOMPETENCIASCIUDADAN)
scm

## [1] 4.967106

# la sd de Comp Ciud popayan es aprox de 9
minMp=xcp-z*9/sqrt(nrow(datos_popayan))
maxMp=xcp+z*9/sqrt(nrow(datos_popayan))
minMp

## [1] 49.66747

maxMp

## [1] 55.71783

###Error Comp ciud popayan
ErrorCp<-z*9/sqrt(nrow(datos_popayan))
ErrorCp

## [1] 3.025179

# la sd de Comp Ciud medellin es aprox de 5
minMm=xcm-z*5/sqrt(nrow(datos_popayan))
maxMm=xcm+z*5/sqrt(nrow(datos_popayan))
minMm

## [1] 45.12841

maxMm

## [1] 48.48972

###Error Comp ciud medellin
ErrorCm<-z*5/sqrt(nrow(datos_medellin))
ErrorCm

## [1] 1.73238

Podemos concluir con un 95% de confianza que la media poblacional en la prueba de Competencias Ciudadanas de popayan y medellin se encuentra entre (49.66 , 55.71) y (45.12 , 48.48) respectivamente.

Tambien tienen un margen de error:

Popayan: 3.025

Medellin: 1.732

Desviacion desconocida

t.test(datos_popayan$PROMINGLES, alternative = "two.sided", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_popayan$PROMINGLES
## t = 33.939, df = 33, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  50.37223 56.79660
## sample estimates:
## mean of x 
##  53.58441

t.test(datos_popayan$PROMMATEMATICA, alternative = "two.sided", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_popayan$PROMMATEMATICA
## t = 31.206, df = 33, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  49.80878 56.75651
## sample estimates:
## mean of x 
##  53.28265

t.test(datos_popayan$PROMCOMPETENCIASCIUDADAN, alternative = "two.sided", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_popayan$PROMCOMPETENCIASCIUDADAN
## t = 35.63, df = 33, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  49.68385 55.70144
## sample estimates:
## mean of x 
##  52.69265

t.test(datos_medellin$PROMINGLES, alternative = "two.sided", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_medellin$PROMINGLES
## t = 45.403, df = 31, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  44.27749 48.44251
## sample estimates:
## mean of x 
##     46.36

t.test(datos_medellin$PROMMATEMATICA, alternative = "two.sided", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_medellin$PROMMATEMATICA
## t = 48.367, df = 31, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  44.15398 48.04164
## sample estimates:
## mean of x 
##  46.09781

t.test(datos_medellin$PROMCOMPETENCIASCIUDADAN, alternative = "two.sided", conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_medellin$PROMCOMPETENCIASCIUDADAN
## t = 53.309, df = 31, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  45.01823 48.59990
## sample estimates:
## mean of x 
##  46.80906

Pruebas de hipotesis

Metodo de valor p

alpha=0.05
tp=qt(1-0.05/2, df=nrow(datos_popayan)-1)
tp

## [1] 2.034515

alpha=0.05
tm=qt(1-0.05/2, df=nrow(datos_medellin)-1)
tm

## [1] 2.039513

Gracias a estudios similares realizados el año pasado, obtuvimos las medias estimadas de las mismas variables estudiadas, por lo que se quiere rectificar que en realidad los resultados estan mejorando o por lo contrario, se necesite mejorar la calidad de estudio de las materias en el departamento mas bajo. Todo esto a un 95% de confianza

Popayan Ingles

Promedio del año pasado = 54

## popayan ingles

t.test(datos_popayan$PROMINGLES,
       alternative =  "greater",
       mu = 54,
       conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_popayan$PROMINGLES
## t = -0.26322, df = 33, p-value = 0.603
## alternative hypothesis: true mean is greater than 54
## 95 percent confidence interval:
##  50.91244      Inf
## sample estimates:
## mean of x 
##  53.58441

alpha=0.05
tip=(xip-54)/(sip/sqrt(nrow(datos_popayan)))
tip

## [1] -0.2632229

valorpip=pt(tip,df=nrow(datos_popayan)-1,lower.tail = F)
valorpip

## [1] 0.6029923

valorpip<alpha

## [1] FALSE

En este caso, el promedio actual fue inferior al del año pasado

Medellin Ingles

Promedio del año pasado = 40

t.test(datos_medellin$PROMINGLES,
       alternative =  "greater",
       mu = 40,
       conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_medellin$PROMINGLES
## t = 6.2287, df = 31, p-value = 3.206e-07
## alternative hypothesis: true mean is greater than 40
## 95 percent confidence interval:
##  44.62874      Inf
## sample estimates:
## mean of x 
##     46.36

alpha=0.05
tim=(xim-40)/(sim/sqrt(nrow(datos_medellin)))
tim

## [1] 6.228695

valorpim=pt(tim,df=nrow(datos_medellin)-1,lower.tail = F)
valorpim

## [1] 3.205834e-07

valorpim<alpha

## [1] TRUE

En este caso, el promedio actual fue superior al del año pasado

Popayan Mat

Promedio del año pasado = 55

t.test(datos_popayan$PROMMATEMATICA,
       alternative =  "greater",
       mu = 55,
       conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_popayan$PROMMATEMATICA
## t = -1.0058, df = 33, p-value = 0.8391
## alternative hypothesis: true mean is greater than 55
## 95 percent confidence interval:
##  50.393    Inf
## sample estimates:
## mean of x 
##  53.28265

alpha=0.05
tmp=(xmp-55)/(smp/sqrt(nrow(datos_popayan)))
tmp

## [1] -1.00579

valorpmp=pt(tmp,df=nrow(datos_popayan)-1,lower.tail = F)
valorpmp

## [1] 0.8390824

valorpmp<alpha

## [1] FALSE

En este caso, el promedio actual fue inferior al del año pasado

Medellin Mat

Promedio del año pasado = 43

t.test(datos_medellin$PROMMATEMATICA,
       alternative =  "greater",
       mu = 43,
       conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_medellin$PROMMATEMATICA
## t = 3.2503, df = 31, p-value = 0.001388
## alternative hypothesis: true mean is greater than 43
## 95 percent confidence interval:
##  44.48184      Inf
## sample estimates:
## mean of x 
##  46.09781

alpha=0.05
tmm=(xmm-43)/(smm/sqrt(nrow(datos_medellin)))
tmm

## [1] 3.250299

valorpmm=pt(tmm,df=nrow(datos_medellin)-1,lower.tail = F)
valorpmm

## [1] 0.001388

valorpmm<alpha

## [1] TRUE

En este caso, el promedio actual fue superior al del año pasado

Popayan Competencias Ciudadanas

Promedio del año pasado = 52

t.test(datos_popayan$PROMCOMPETENCIASCIUDADAN,
       alternative =  "greater",
       mu = 52,
       conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_popayan$PROMCOMPETENCIASCIUDADAN
## t = 0.46836, df = 33, p-value = 0.3213
## alternative hypothesis: true mean is greater than 52
## 95 percent confidence interval:
##  50.18986      Inf
## sample estimates:
## mean of x 
##  52.69265

alpha=0.05
tcp=(xcp-52)/(scp/sqrt(nrow(datos_popayan)))
tcp

## [1] 0.4683606

valorpcp=pt(tcp,df=nrow(datos_popayan)-1,lower.tail = F)
valorpcp

## [1] 0.3213029

valorpcp<alpha

## [1] FALSE

En este caso, el promedio actual fue inferior al del año pasado

Medellin Competencias Ciudadanas

Promedio del año pasado = 45

t.test(datos_medellin$PROMCOMPETENCIASCIUDADAN,
       alternative =  "greater",
       mu = 45,
       conf.level = 0.95)

## 
##  One Sample t-test
## 
## data:  datos_medellin$PROMCOMPETENCIASCIUDADAN
## t = 2.0603, df = 31, p-value = 0.02393
## alternative hypothesis: true mean is greater than 45
## 95 percent confidence interval:
##  45.32028      Inf
## sample estimates:
## mean of x 
##  46.80906

alpha=0.05
tcm=(xcm-45)/(scm/sqrt(nrow(datos_medellin)))
tcm

## [1] 2.060275

valorpcm=pt(tcm,df=nrow(datos_medellin)-1,lower.tail = F)
valorpcm

## [1] 0.02392506

valorpcm<alpha

## [1] TRUE

En este caso, el promedio actual fue superior al del año pasado

Gracias a este analisis, se puede evidenciar que en el caso de medellin, siempre tuvo una mejoria en todas sus materias por lo que se deberia tener mas encuenta al departamento de popayan para mejorar su calidad.

Diferencia de medias

Consecuente a los anteriores resultados, el MEN decidio que era mejor fortalecer el area de ingles, puesto que es una materia que esta ganando relevancia en los ultimos años no solo por moda, sino tambien porque es una lengua muy utilizada en el exterior, programacion, expocisiones tipo Teld Talk. Practicamente, es una lengua muy versatil y muy util para el dia de hoy.

Entonces, se decide estudiar mucho mas minuciosamente que departamento seria mejor implementar mejoras en ingles. Puede que medellin se este mejorando, pero eso no significa necesariamente que necesite dicha ayuda.

#estimador puntual de ingles popayan medellin

DifI = xip-xim
DifI

## [1] 7.224412

# desviacion muestral de la diferencia

errorI=sqrt(sip^2/nrow(datos_popayan)+sim^2/nrow(datos_medellin))
errorI

## [1] 1.880255

# con un 95% se estima la diferencia 

dfI= sqrt((1/34+1/32)*((33*sip^2)+(31*sim^2)*(1/64)))
dfI

## [1] 13.06305

TI= qt(1-0.05/2,dfI,lower.tail = T)
TI

## [1] 2.159309

MINI= DifI-TI*errorI
MAXI= DifI+TI*errorI
MINI

## [1] 3.16436

MAXI

## [1] 11.28446

t.test(datos_popayan$PROMINGLES, datos_medellin$PROMINGLES,alternative = "two.sided", mu=0, conf.level = 0.95)

## 
##  Welch Two Sample t-test
## 
## data:  datos_popayan$PROMINGLES and datos_medellin$PROMINGLES
## t = 3.8423, df = 55.957, p-value = 0.0003135
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   3.457745 10.991079
## sample estimates:
## mean of x mean of y 
##  53.58441  46.36000

DifI/(sqrt(sip^2/nrow(datos_popayan)+sim^2/nrow(datos_medellin)))

## [1] 3.842251

Gracias a esta prueba se puede decir que medellin necesita mas esa ayuda ya que su media es inferior a la de popayan con respecto al ingles.

El caso de la proporcion

Para una mayor seguridad en la toma de esta desicion de decide priorizar la proporcion que la media. Cabe resaltar, que se supone que como los temas de cada colegio a enseñar a los alumnos son los mismos, se opta por estudiar, por ende, dar relevancia a la variable de horario puesto que no se tiene la misma eficacia a nivel academico en diferentes horas.

table(datos_popayan$CALENDARIO)

## 
##  A  B 
## 10 18

pip=10/nrow(datos_popayan)
pip

## [1] 0.2941176

Sip=sqrt(pip*(1-pip)/nrow(datos_popayan))
Sip

## [1] 0.07814249

# confianza del 90%
Y=qnorm(1-0.1/2)
Y

## [1] 1.644854

EPI=Y*Sip
EPI

## [1] 0.128533

min=pip-EPI
max=pip+EPI
print(c(min,max))

## [1] 0.1655847 0.4226506

Con la funcion prop.test

prop.test(10, nrow(datos_popayan), conf.level=0.90)

## 
##  1-sample proportions test with continuity correction
## 
## data:  10 out of nrow(datos_popayan), null probability 0.5
## X-squared = 4.9706, df = 1, p-value = 0.02578
## alternative hypothesis: true p is not equal to 0.5
## 90 percent confidence interval:
##  0.1727685 0.4491369
## sample estimates:
##         p 
## 0.2941176

Diferencia de los dos tipos de calendarios de Popayan

Gracias a los test anteriores, rectificamos que popayan es quien necesita de dicha ayuda. Ahora, para especificar que colegios, tomaremos en cuenta la variable de calendario, mencionada anteriormente.

table(datos_popayan$CALENDARIO)

## 
##  A  B 
## 10 18

prop.test(c(18, 10), c(nrow(datos_popayan), nrow(datos_popayan)), conf.level=0.90)$conf.int

## [1] 0.01523717 0.45535107
## attr(,"conf.level")
## [1] 0.9

Con un 90% de confianza, la diferencia de medias esta entre (0.015 , 0.455)

Por comparacion, haremos una comparacion de medias en calendario

prop.test(c(18, 10), c(nrow(datos_popayan), nrow(datos_popayan)), conf.level=0.90, alternative = "greater")

## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  c(18, 10) out of c(nrow(datos_popayan), nrow(datos_popayan))
## X-squared = 2.975, df = 1, p-value = 0.04228
## alternative hypothesis: greater
## 90 percent confidence interval:
##  0.05734535 1.00000000
## sample estimates:
##    prop 1    prop 2 
## 0.5294118 0.2941176

Con esta prueba de hipotesis, se puede confimar que en Popayan, los cursos de ingles en horarios tipo A, han de ser reforzados si se quiere obtener un mejor resultado en las pruebas saber 11.

Si se quiere hacer por varianza

var.test(datos_popayan$PROMINGLES,datos_popayan$PROMINGLES,ratio = 1, alternative = "two.sided", conf.level=0.90)

## 
##  F test to compare two variances
## 
## data:  datos_popayan$PROMINGLES and datos_popayan$PROMINGLES
## F = 1, num df = 33, denom df = 33, p-value = 1
## alternative hypothesis: true ratio of variances is not equal to 1
## 90 percent confidence interval:
##  0.5593399 1.7878217
## sample estimates:
## ratio of variances 
##                  1

Parcial Practico 2

Cristian David Suarez Guerrero

2022-10-22

Se utilizara la siguiente base de datos

Popayan y Medellin

Descripcion de Variables

Graficas de variables cuantitativas categorizada

Popayan: negro y rojo

Medellin: Azul y agua marina

Con respecto a Matematicas

Popayan: negro y rojo

Medellin: Azul y agua marina

Con respecto a Ingles

Popayan: negro y rojo

Medellin: Azul y agua marina

Con respecto a Competencias ciudadanas

Comparacion entre departamentos

Intervalos de confianza

Desviacion Conocida

Ingles en popayan y medellin

Matematicas en popayan y medellin

Competencias Ciudadanas en popayan y medellin

Desviacion desconocida

Pruebas de hipotesis

Metodo de valor p

Popayan Ingles

Medellin Ingles

Popayan Mat

Medellin Mat

Popayan Competencias Ciudadanas

Medellin Competencias Ciudadanas

Diferencia de medias

El caso de la proporcion

Diferencia de los dos tipos de calendarios de Popayan

Si se quiere hacer por varianza