Estudiantes: Carlos Verbel, David Mancipe, Alberto Peña
12/06/2024
En este informe vamos a utilizar una base de datos llamada ‘base de
datos.csv’ que contiene información sobre los puntajes de inglés del año
2019 en la Región Caribe. Esta base de datos incluye diversos registros
y variables relevantes para el análisis de los resultados en la materia
de inglés. Utilizaremos el lenguaje de programación R en formato R
Markdown en Documento HTML para analizar estos datos y presentar los
resultados mediante gráficos. Este análisis nos permitirá comprender
mejor el rendimiento académico en inglés en esta región durante el año
2019 y detectar posibles tendencias y áreas de mejora.
#Datos
#Cargamos la librería
library(readxl)
DATA<-"C:/Users/carlos/Desktop/EXCEL/base de datos.csv"
datos_data<- read.csv(DATA)
reporte_ingles<- c(datos_data$DESEMP_INGLES)
reporte_org <- as.factor(reporte_ingles)
summary(reporte_org)
## A- A1 A2 B+ B1
## 271183 153405 79450 7321 34853
R_CARIBE= c("MAGDALENA", "ATLANTICO","BOLIVAR","LA GUAJIRA","CESAR","CORDOBA","SUCRE")
Puntaje_I_caribe<- datos_data$PUNT_INGLES[datos_data$ESTU_DEPTO_RESIDE %in% R_CARIBE]
summary(Puntaje_I_caribe)
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.00 37.00 44.00 45.34 53.00 100.00 3
promedios_por_ciudad <- matrix(nrow = length(R_CARIBE), ncol = 1)
rownames(promedios_por_ciudad) <- R_CARIBE
for (i in 1:length(R_CARIBE)) {
ciudad <- R_CARIBE[i]
puntajes_ciudad <- datos_data$PUNT_INGLES[datos_data$ESTU_DEPTO_RESIDE == ciudad]
promedio_ciudad <- mean(puntajes_ciudad, na.rm = TRUE)
promedios_por_ciudad[i, 1] <- promedio_ciudad
#aca asigna el promedio en la matrix en la celda i en la columna 1
}
colnames(promedios_por_ciudad) <- c("Promedio Puntaje Inglés")
print(promedios_por_ciudad)
## Promedio Puntaje Inglés
## MAGDALENA 42.32305
## ATLANTICO 48.26312
## BOLIVAR 44.29015
## LA GUAJIRA 41.75359
## CESAR 46.41458
## CORDOBA 45.45598
## SUCRE 45.12750
estratos<- c("Estrato 1","Estrato 2","Estrato 3","Estrato 4", "Estrato 5","Estrato 6")
Promedio_p_E_A<- matrix(nrow = length(estratos),ncol = 1)
rownames(Promedio_p_E_A) <- estratos
for(e in 1:length(estratos)) {
puntaje<- datos_data$PUNT_INGLES[datos_data$FAMI_ESTRATOVIVIENDA == estratos[e]]
p_puntaje<- mean(puntaje , na.rm = TRUE)
Promedio_p_E_A[e,1]<- p_puntaje
}
colnames(Promedio_p_E_A) <- c("Promedio Puntaje Inglés")
print(Promedio_p_E_A)
## Promedio Puntaje Inglés
## Estrato 1 44.78906
## Estrato 2 48.89160
## Estrato 3 53.25653
## Estrato 4 57.08594
## Estrato 5 56.53764
## Estrato 6 52.96712
p_ingles_masculino<- datos_data$PUNT_INGLES[datos_data$ESTU_GENERO == "M"]
p_ingles_femenino<- datos_data$PUNT_INGLES[datos_data$ESTU_GENERO == "F"]
generos<- c("masculino","femenino")
pu_genero<- c(mean(p_ingles_femenino, na.rm = TRUE), mean(p_ingles_masculino , na.rm = TRUE))
pu_genero<- matrix(pu_genero)
rownames(pu_genero) <- generos
colnames(pu_genero) <- "promedio puntaje ingles"
print(pu_genero)
## promedio puntaje ingles
## masculino 47.91955
## femenino 49.00488
barplot(as.numeric(Promedio_p_E_A[,"Promedio Puntaje Inglés"]),
names.arg = rownames(Promedio_p_E_A),
main = "Promedio de Puntaje de Inglés por Estrato",
xlab = "Estrato",
ylab = "Promedio Puntaje de Inglés",
col = "green")
boxplot(list(Femenino = p_ingles_femenino, Masculino = p_ingles_masculino),
main = "Comparación de Puntajes de Inglés por Género",
ylab = "Puntaje de Inglés",
col = c("red", "yellow"))
hist(Puntaje_I_caribe,
main = "Distribución de Puntajes de Inglés en la Región Caribe",
xlab = "Puntaje de Inglés",
ylab = "Frecuencia",
col = "orange",
breaks = 10)