Reporte técnico Enero

Autor/a

Daniel Villa - Ronald Palencia

En la primera parte de este documento se presentará la base de datos recolectada a partir de estudiantes activos en el curso de calculo integral en el semestre 2022-02, según la información suministrada por el profesor Victor en en semestre encontramos 500 estudiantes activos pero lamentablemente solo pudimos recolectar 117 registros (aprox. más del 20% de la población), por lo que esperamos que esta muestra (sin tomar técnicas de muestreo previas a la toma de los datos) explique la elección de la carrera que actualmente estudian y el por qué.

# Lectura de la base de datos:
BD_Integral2 <- read_excel("BD_Integral2.xlsx") %>% clean_names()

Los datos que se presentan fueron tomados del siguiente formulario: Cuestionario (UNAL-Integral)

# Organización de la Base de datos:

# Se elimina: Marca temporal
BD_Integral2 <- BD_Integral2[,-1]

# Conversión de las variables:
BD_Integral2$genero %<>% factor()

BD_Integral2$edad %<>% parse_number() %>%
  factor(levels = 16:22,
         labels = c(16:21, "22+"))


BD_Integral2$egreso_de_un_colegio %<>% factor()

BD_Integral2$realizo_preuniversitario_como_preparacion_para_el_examen_de_admision_de_la_universidad %<>% factor()

BD_Integral2$trabaja_actualmente %<>% factor()

BD_Integral2$si_trabajo_esta_relacionado_con_la_carrera_a_la_cual_se_presento %<>% factor()


x <- BD_Integral2$si_trabajo_esta_relacionado_con_la_carrera_a_la_cual_se_presento %>% is.na() %>% which()

BD_Integral2[x,7] <- "No aplica"

# Estandarización de la cadenas de textos

t <- BD_Integral2$programa_academico_que_cursa_actualmente %>%
  toupper() %>% 
  chartr("ÁÉÍÓÚ", "AEIOU", .) %>%
  removePunctuation() %>% 
  str_replace_all(., "[[:cntrl:]]", " ") %>% 
  str_to_lower() %>% 
  str_replace_all(., "-", " ") %>%
  removeWords(., words  = stopwords("spanish")) %>% 
  stripWhitespace(.)


BD_Integral2$programa_academico_que_cursa_actualmente <- t %>% str_replace_all(.,"ing ", "ingenieria ") %>% 
  str_replace_all(.,"ingeniera ", "ingenieria ") %>% 
  str_replace_all(.,"ingagronomica",
                  "ingenieria agronomica") %>% 
  str_replace_all(.,"ingenieria agronomia",
                  "ingenieria agronomica") %>%
  str_replace_all(.,"ingenieria informatica",
                  "ingenieria sistemas informatica") %>%
  str_replace_all(., "metalurgica", "metalurgia") %>%
  str_replace_all(., "ingenieria sistemas informatica",
                  "ingenieria sistemas") %>%
  str_replace_all(., "ingenieria minas metalurgia",
                  "ingenieria minas") %>%
  str_replace_all(., "sistemas", "sistema") %>% 
  str_replace_all(., "sistema", "sistemas")


BD_Integral2[5,8] <- "quimica farmaceutica"

Ahora crearemos un corpus para visualizar que palabras predominan dentro de la variable que especifica la carrera a la cual ingreso a la universidad:

BD_Integral2$programa_academico_que_cursa_actualmente %>%
  VectorSource() %>% Corpus() %>%
  wordcloud(., 
          min.freq = 3,
          max.words = 117, 
          random.order = FALSE, 
          colors = brewer.pal(name = "Dark2", n = 8)
          )

Como podemos observar la palabra ingeniería es la que predomina nuestros datos, además la palabra economía aparece en un costado del gráfico y nos lleva a entender que este programa también es demandado a la par de ingeniería ambiental, biológica, administrativa y gastronómica.

Este gráfico nos ayuda a ver de una manera diferente la frecuencia de los programas de aquellos que respondieron el cuestionario.

Seguimos con el tratamiento de las siguientes variables:

BD_Integral2$seleccione_la_principal_razon_para_la_eleccion_de_carrera %<>% factor()

BD_Integral2$cuenta_con_algun_estudio_relacionado_con_el_area_del_programa_academico_seleccionado %<>% factor()

BD_Integral2$cual_12 %<>% removePunctuation() %>%
  toupper() %>% 
  chartr("ÁÉÍÓÚ", "AEIOU", .) %>%
  str_to_lower() %>%
  str_replace_all(., "[[:cntrl:]]", " ") %>% 
  str_replace_all(., "-", " ") %>%
  removeWords(., words  = stopwords("spanish")) %>% 
  stripWhitespace(.) %>%
  str_replace_all(., "media tecnica", "media_tecnica") %>% 
  str_replace_all(., " aplica", "No aplica") %>%
  str_replace_all(., "na", "No aplica")

x <- BD_Integral2$cual_12 %>% is.na() %>% which()

BD_Integral2[x,11] <- "No aplica"
BD_Integral2[34,11] <- "No aplica"

BD_Integral2$le_interesa_otra_carrera_diferente_a_la_que_se_presento %<>% factor() 

BD_Integral2$cual_14 %<>%
  toupper() %>% 
  chartr("ÁÉÍÓÚ", "AEIOU", .) %>%
  str_to_lower() %>%
  str_replace_all(., "[[:cntrl:]]", " ") %>% 
  str_replace_all(., "-", " ") %>%
  removeWords(., words  = stopwords("spanish")) %>% 
  stripWhitespace(.)

Después de este corto análisis, se solicito una reunión para dar respuestas a las dudas y el enfoque que se le darán a estos datos ya que no responden con la problemática del proyecto, por lo cual ahora las tareas se basan una vez más en la recolección de los datos (esta vez con un panorama claro para que los datos respondan a lo solicitado).

Continuación descriptivas de los cluster creados:

Ahora se procede a el mejoramiento para un análisis más profundo de los cluster creados en el informe de diciembre por lo cual se presenta el siguiente código:

#Lectura de la base de datos que contiene la clusterización:
load(file="mydata_clustered.RData")

Se realizan cambios respectivos para la creación de nuevos gráficos:

mydata_clustered$sexo <- as.character(mydata_clustered$sexo)
mydata_clustered$area_de_conocimiento <- as.character(mydata_clustered$area_de_conocimiento)
mydata_clustered$sector_ies <- as.character(mydata_clustered$sector_ies)

Respectivo análisis con más de 2 variables

Gráfico 1

# Use ggplot to create the chart
ggplot(mydata_clustered, aes(x = cluster, y = graduados, fill = sexo)) +
  geom_bar(stat = "identity") +
  facet_wrap(~area_de_conocimiento, ncol = 2) +
  scale_fill_manual(values = c("Hombre" = "blue", "Mujer" = "hotpink")) +
  labs(x = "Cluster", y = "Number of students graduados", fill = "Sexo")

Del gráfico anterior podemos notar que las carreras que mas presentan mujeres son las que están en el área de conocimiento de economía, administración, contaduría y afines, de manera contraria a lo que sucede en esta área del conocimiento se presenta en el grupo de ingeniaría, arquitectura, urbanismo y afines, adicionalmente se puede notara que el cluster uno es donde se presentan mas mujeres en todos las áreas del conocimiento.

Gráfico 2

# Use ggplot to create the chart
ggplot(mydata_clustered, aes(x = ano, y = admitidos, fill = "Admitidos")) +
  geom_bar(stat = "identity", position = position_dodge()) + 
  geom_bar(aes(x = ano, y = graduados, fill = "Graduados"), stat = "identity", position = position_dodge()) +
  ggtitle("Bar plot of Admitidos and Graduados grouped by Cluster and Year") +
  xlab("Year") +
  ylab("Number of students") +
  facet_wrap(~cluster) +
  scale_fill_manual(values = c("Admitidos" = "blue", "Graduados" = "red"))

En la anterior gráfica se logra ver que en cluster 3, 1 y 5 es donde se presenta mayor número de graduados en el 2021, adicionalmente el cluster 2 sucede que el numero de graduados es mayor en todos los años que el número de admitidos, esto puede ver a que en algunas universidades se presentaba una represalia de estudiantes.

Gráfico 3

# Use ggplot to create the chart
ggplot(mydata_clustered, aes(x = ano, y = graduados, fill = sector_ies)) +
  geom_bar(stat = "identity", position = "dodge") +
  ggtitle("Bar plot of Graduados grouped by Cluster, Year and sector_ies") +
  xlab("Year") +
  ylab("Number of students graduados") +
  facet_wrap(~cluster) +
  scale_fill_manual(values = c("OFICIAL" = "blue", "PRIVADA" = "springgreen4")) +
  guides(fill=guide_legend(title="Sector"))

De la gráfica anterior se observa los siguiente: en primer lugar que para el cluster 1 y 3 el número de graduados en las universidades privadas es mayor que las publicas en 2018, 2019, 2020 y 2021, en segundo lugar se observa que para los cluster 2 y 5 la cantidad de graduados es mayor en universidades publicas que en las privadas, finalmente se observa que la diferencia de graduados es significativa visualmente de la cantidad de graduados de las universidades publicas respecto a las privadas.

Gráfico 4

# Use ggplot to create the chart
ggplot(mydata_clustered, aes(x = admitidos, y = graduados, color = sector_ies)) +
  geom_point() +
  ggtitle("Scatter plot of Admitidos and Graduados grouped by Cluster and sector_ies") +
  xlab("Admitidos") +
  ylab("Graduados") +
  facet_wrap(~cluster) +
  scale_color_manual(values = c("OFICIAL" = "blue", "PRIVADA" = "springgreen4"))

De la gráfica anterior se logra observa la relación que presenta el número de graduados respecto al número de admitidos en las universidades publicas y privadas.

Para el cluster 1 y 3 se ve unas relación leve creciente, sin embargo no es clara, por ultimo para los cluster restantes no se logra visualizar algún patrón relevante.