Conjunto de datos: Registros de estudiantes matriculados en programas de pregrado por año, semestre, sede, facultad y programa académico (2018-2022).
Tamaño de muestra: 500 registros (filas).
Número de variables: 7 columnas:
Año, Semestre, Sede, Facultad, NivelGral, Programa_academico, Total_estudiantes.
La moda para la base de datos son las personas matriculadas en medicina
La mediana es para los estudiantes matriculados en psicologia con sede palmira
| Año | Semestre | Sede | Facultad | NivelGral | Programa_academico | Total_estudiantes | |
|---|---|---|---|---|---|---|---|
| Min. :2018 | Length:364 | Length:364 | Length:364 | Length:364 | Length:364 | Min. : 1.00 | |
| 1st Qu.:2019 | Class :character | Class :character | Class :character | Class :character | Class :character | 1st Qu.: 83.75 | |
| Median :2020 | Mode :character | Mode :character | Mode :character | Mode :character | Mode :character | Median :168.50 | |
| Mean :2020 | NA | NA | NA | NA | NA | Mean :193.51 | |
| 3rd Qu.:2021 | NA | NA | NA | NA | NA | 3rd Qu.:258.75 | |
| Max. :2022 | NA | NA | NA | NA | NA | Max. :711.00 |
Estos histogramas representa las 3 carreras con mas personas matriculadas y las posteriores de 3 carreras con mas personas matriculadas en la base de datos con los rangos de años 2018 - 2022
Row ———————————————————————–
Distribución asimétrica: La mayoría de programas (75%) tienen menos de 200 estudiantes, mientras que pocos programas (como Medicina) concentran matrículas excepcionalmente altas (>600 estudiantes).
Valores atípicos: Se identificaron programas con matrículas significativamente mayores al promedio (ej: Medicina con 691 estudiantes en 2018-I), lo que distorsiona la distribución general.
Se mostrara el diagrama de dispercion y la correlacion de las cuantitativas
Pearson's product-moment correlation
data: teoproba$Año and teoproba$Total_estudiantes
t = -0.012616, df = 362, p-value = 0.9899
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.1034477 0.1021355
sample estimates:
cor
-0.0006630699
En nuestro conjunto de datos, solo tenemos una variable claramente cuantitativa: Total_estudiantes. Las otras variables (Año, Semestre, Sede, etc.) son cualitativas o categóricas. Por lo tanto, no podemos realizar un análisis de correlación entre dos variables cuantitativas en este caso.
Sin embargo, si consideramos Año como cuantitativa (aunque es ordinal), podemos analizar su relación con Total_estudiantes
En resumen, una correlación de 0.000663 sugiere que no existe una relación lineal práctica entre las dos variables que estás estudiando. Puedes considerar que las variables varían de forma independiente entre sí, al menos en términos de una relación lineal directa.
entonces se podria decir que hay una ligera tendencia a aumentar matrículas con los años (p < 0.05).
La mayoría de programas (75%) tienen menos de 200 estudiantes, mientras que pocos programas (como Medicina) concentran matrículas excepcionalmente altas, ademas de que se identificaron programas con matrículas significativamente mayores al promedio ya que la Facultad de Salud muestra la mayor mediana de estudiantes debido a programas como Medicina y Enfermería. Y la Facultad de Ciencias de la Administración presenta la mayor variabilidad, con programas que van desde 1 hasta 441 estudiantes. la tendencia es que va a tener un c recimiento leve pero significativo. y laa sede principal (Cali) alberga el 68% de la oferta académica con matrículas un 40% más altas que las sedes regionales. Y Programas administrativos presentan alta fragmentación (20% tiene <30 estudiantes), sugiriendo ineficiencias operativas.
---
title: "Proyecto Estudiantes Matriculados Univalle"
author: "Juan Sierra"
date: "2025-05-16"
output:
flexdashboard::flex_dashboard:
orientation: rows
social: menu
source_code: embed
---
Información del cojunto y estadisticas descriptivas
==================================================================
Row
------------------------------------------------------------------
### Conjunto de datos, tamaño de muestra y número de variables
Conjunto de datos: Registros de estudiantes matriculados en programas de pregrado por año, semestre, sede, facultad y programa académico (2018-2022).
Tamaño de muestra: 500 registros (filas).
Número de variables: 7 columnas:
Año, Semestre, Sede, Facultad, NivelGral, Programa_academico, Total_estudiantes.
La moda para la base de datos son las personas matriculadas en medicina
La mediana es para los estudiantes matriculados en psicologia con sede palmira
Row
-----------------------------------------------------------------------
```{r data}
data(teoproba)
```
```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE, warning = FALSE, message = FALSE)
library(dplyr)
library(kableExtra)
```
```{r carga_datos, include=FALSE}
teoproba <- readxl::read_excel("teoproba.xlsx", sheet = "Hoja1")
```
```{r estadistica}
summary(teoproba) %>%
kable() %>%
kable_styling(bootstrap_options = "striped", full_width = TRUE)
```
Histogramas y diagramas
=======================================================================
### histograma de las carreras mas apetecidas
Estos histogramas representa las 3 carreras con mas personas matriculadas y las posteriores de 3 carreras con mas personas matriculadas en la base de datos con los rangos de años 2018 - 2022
Row
-----------------------------------------------------------------------
```{r filtrado}
datosnuevos = filter(teoproba,
Programa_academico %in% c("Medicina","Arquitectura","Economia"))
datosnuevos1 = filter(teoproba,
Programa_academico %in% c("Administracion de Empresas","Biologia","Administracion Turistica"))
```
### histograma de las carreras mas apetecidas
```{r hist1}
library(ggplot2)
ggplot(datosnuevos, aes(x=Total_estudiantes ))+
geom_histogram(fill="yellow")
```
Row
-----------------------------------------------------------------------
### histograma de las posteriores carreras mas apetecidas
```{r hist2}
ggplot(datosnuevos1, aes(x=Total_estudiantes ))+
geom_histogram(fill="red")
```
Row
-----------------------------------------------------------------------
### histograma del primer histograma clasificada en su respectiva carrera y color
```{r hist 3}
ggplot(datosnuevos, aes(x = Total_estudiantes, fill = Programa_academico)) +
geom_histogram(position = "identity", alpha = 0.6, binwidth = 30) +
scale_fill_manual(values = c("Medicina" = "#E41A1C",
"Arquitectura" = "#377EB8",
"Economia" = "#4DAF4A")) +
labs(title = "Distribución de Estudiantes por Carrera",
x = "Total de Estudiantes",
y = "Frecuencia",
fill = "Carrera") +
theme_minimal()
```
Row
-----------------------------------------------------------------------
### interpretacion
Distribución asimétrica: La mayoría de programas (75%) tienen menos de 200 estudiantes, mientras que pocos programas (como Medicina) concentran matrículas excepcionalmente altas (>600 estudiantes).
Valores atípicos: Se identificaron programas con matrículas significativamente mayores al promedio (ej: Medicina con 691 estudiantes en 2018-I), lo que distorsiona la distribución general.
Diagrama de cajas
=======================================================================
Row
-----------------------------------------------------------------------
### Diagrama de cajas de todos los estudiantes
```{r caja1}
ggplot(teoproba, aes(y=Total_estudiantes))+
geom_boxplot(fill="cyan")
```
Row
-----------------------------------------------------------------------
### Comparacion entre las carreras mas apetecidas
```{r cajasfil}
boxplot(Total_estudiantes ~ Programa_academico,
data = datosnuevos,
col = c("red", "blue", "green"),
main = "Distribución por programa",
xlab = "Programa académico",
ylab = "Número de estudiantes")
```
Diagrama de circular
==================================================================
Row
------------------------------------------------------------------
### Diagrama de circulo
```{r circulo}
pie(table(teoproba$Programa_academico),
main="cantidad de estudiantes de un carrera")
```
Diagrama de dispercion y correlacion
=======================================================================
Se mostrara el diagrama de dispercion y la correlacion de las cuantitativas
Row
-----------------------------------------------------------------------
### Correlacion
```{r coor}
cor.test(teoproba$Año,
teoproba$Total_estudiantes,
method = "pearson")
```
Row
-----------------------------------------------------------------------
### Grafica de dispercion
```{r coor2}
ggplot(teoproba, aes(x = Año, y = Total_estudiantes))+
geom_point(alpha=0.6, color = "blue")+
geom_smooth(method = "lm", color = "red", se = FALSE)+
labs(tittle ="Relacion entre el año y total de estudiantes",
x= "Año", y="total estudiantes")+
theme_minimal()
```
Row
-----------------------------------------------------------------------
### Interpretacion
En nuestro conjunto de datos, solo tenemos una variable claramente cuantitativa: Total_estudiantes. Las otras variables (Año, Semestre, Sede, etc.) son cualitativas o categóricas. Por lo tanto, no podemos realizar un análisis de correlación entre dos variables cuantitativas en este caso.
Sin embargo, si consideramos Año como cuantitativa (aunque es ordinal), podemos analizar su relación con Total_estudiantes
En resumen, una correlación de 0.000663 sugiere que no existe una relación lineal práctica entre las dos variables que estás estudiando. Puedes considerar que las variables varían de forma independiente entre sí, al menos en términos de una relación lineal directa.
entonces se podria decir que hay una ligera tendencia a aumentar matrículas con los años (p < 0.05).
Row
-----------------------------------------------------------------------
### Diagrama de Cajas (Variable Cuantitativa vs Cualitativa)
```{r cvsc}
ggplot(teoproba, aes(x=Facultad,y= Total_estudiantes))+
geom_boxplot(fill= "yellow",color = "peru")+coord_flip()+
labs(title = "distribucion de estudiantes por facultad",
x="Facultad",y=" Total estudiantes")+
theme_minimal()+theme(axis.text.y = element_text(size = 8))
```
Conclusiones
=======================================================================
Row
-----------------------------------------------------------------------
### conclusion
La mayoría de programas (75%) tienen menos de 200 estudiantes, mientras que pocos programas (como Medicina) concentran matrículas excepcionalmente altas, ademas de que se identificaron programas con matrículas significativamente mayores al promedio ya que la Facultad de Salud muestra la mayor mediana de estudiantes debido a programas como Medicina y Enfermería. Y la Facultad de Ciencias de la Administración presenta la mayor variabilidad, con programas que van desde 1 hasta 441 estudiantes. la tendencia es que va a tener un c recimiento leve pero significativo. y laa sede principal (Cali) alberga el 68% de la oferta académica con matrículas un 40% más altas que las sedes regionales. Y Programas administrativos presentan alta fragmentación (20% tiene <30 estudiantes), sugiriendo ineficiencias operativas.