Informe sobre los puntajes de Inglés del año 2019 en la Región Caribe.


Estudiantes: Carlos Verbel, David Mancipe, Alberto Peña


12/06/2024

Introducción

En este informe vamos a utilizar una base de datos llamada ‘base de datos.csv’ que contiene información sobre los puntajes de inglés del año 2019 en la Región Caribe. Esta base de datos incluye diversos registros y variables relevantes para el análisis de los resultados en la materia de inglés. Utilizaremos el lenguaje de programación R en formato R Markdown en Documento HTML para analizar estos datos y presentar los resultados mediante gráficos. Este análisis nos permitirá comprender mejor el rendimiento académico en inglés en esta región durante el año 2019 y detectar posibles tendencias y áreas de mejora.


1. Primero importaremos la base de datos



#Datos
#Cargamos la librería

library(readxl)
DATA<-"C:/Users/carlos/Desktop/EXCEL/base de datos.csv"

datos_data<- read.csv(DATA)



2. Ejercicios Aplicados.






R_CARIBE= c("MAGDALENA", "ATLANTICO","BOLIVAR","LA GUAJIRA","CESAR","CORDOBA","SUCRE")

Puntaje_I_caribe<- datos_data$PUNT_INGLES[datos_data$ESTU_DEPTO_RESIDE %in% R_CARIBE]
summary(Puntaje_I_caribe)


##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00   37.00   44.00   45.34   53.00  100.00       3




promedios_por_ciudad <- matrix(nrow = length(R_CARIBE), ncol = 1)
rownames(promedios_por_ciudad) <- R_CARIBE

for (i in 1:length(R_CARIBE)) {
  ciudad <- R_CARIBE[i]
  puntajes_ciudad <- datos_data$PUNT_INGLES[datos_data$ESTU_DEPTO_RESIDE == ciudad]
  promedio_ciudad <- mean(puntajes_ciudad, na.rm = TRUE)
  promedios_por_ciudad[i, 1] <- promedio_ciudad
  #aca asigna el promedio en la matrix en la celda i en la columna 1
}

colnames(promedios_por_ciudad) <- c("Promedio Puntaje Inglés")
print(promedios_por_ciudad)


##            Promedio Puntaje Inglés
## MAGDALENA                 42.32305
## ATLANTICO                 48.26312
## BOLIVAR                   44.29015
## LA GUAJIRA                41.75359
## CESAR                     46.41458
## CORDOBA                   45.45598
## SUCRE                     45.12750




estratos<- c("Estrato 1","Estrato 2","Estrato 3","Estrato 4", "Estrato 5","Estrato 6")

Promedio_p_E_A<- matrix(nrow = length(estratos),ncol = 1)
rownames(Promedio_p_E_A) <- estratos

for(e in 1:length(estratos)) {
  puntaje<- datos_data$PUNT_INGLES[datos_data$FAMI_ESTRATOVIVIENDA == estratos[e]]
  p_puntaje<- mean(puntaje , na.rm = TRUE)
  Promedio_p_E_A[e,1]<- p_puntaje
}

colnames(Promedio_p_E_A) <- c("Promedio Puntaje Inglés")
print(Promedio_p_E_A)


##           Promedio Puntaje Inglés
## Estrato 1                44.78906
## Estrato 2                48.89160
## Estrato 3                53.25653
## Estrato 4                57.08594
## Estrato 5                56.53764
## Estrato 6                52.96712




p_ingles_masculino<- datos_data$PUNT_INGLES[datos_data$ESTU_GENERO == "M"]
p_ingles_femenino<- datos_data$PUNT_INGLES[datos_data$ESTU_GENERO == "F"]
generos<- c("masculino","femenino")
pu_genero<- c(mean(p_ingles_femenino, na.rm = TRUE), mean(p_ingles_masculino , na.rm = TRUE))
pu_genero<- matrix(pu_genero)
rownames(pu_genero) <- generos
colnames(pu_genero) <- "promedio puntaje ingles"
print(pu_genero)


##           promedio puntaje ingles
## masculino                47.91955
## femenino                 49.00488



3. Gráficos




barplot(as.numeric(Promedio_p_E_A[,"Promedio Puntaje Inglés"]), 
        names.arg = rownames(Promedio_p_E_A), 
        main = "Promedio de Puntaje de Inglés por Estrato",
        xlab = "Estrato",
        ylab = "Promedio Puntaje de Inglés",
        col = "green")





boxplot(list(Femenino = p_ingles_femenino, Masculino = p_ingles_masculino),
        main = "Comparación de Puntajes de Inglés por Género",
        ylab = "Puntaje de Inglés",
        col = c("red", "yellow"))





hist(Puntaje_I_caribe, 
     main = "Distribución de Puntajes de Inglés en la Región Caribe", 
     xlab = "Puntaje de Inglés", 
     ylab = "Frecuencia", 
     col = "orange", 
     breaks = 10)