Información del cojunto y estadisticas descriptivas

Row

Conjunto de datos, tamaño de muestra y número de variables

Conjunto de datos: Registros de estudiantes matriculados en programas de pregrado por año, semestre, sede, facultad y programa académico (2018-2022).

Tamaño de muestra: 500 registros (filas).

Número de variables: 7 columnas:

Año, Semestre, Sede, Facultad, NivelGral, Programa_academico, Total_estudiantes.

La moda para la base de datos son las personas matriculadas en medicina

La mediana es para los estudiantes matriculados en psicologia con sede palmira

Row

Año Semestre Sede Facultad NivelGral Programa_academico Total_estudiantes
Min. :2018 Length:364 Length:364 Length:364 Length:364 Length:364 Min. : 1.00
1st Qu.:2019 Class :character Class :character Class :character Class :character Class :character 1st Qu.: 83.75
Median :2020 Mode :character Mode :character Mode :character Mode :character Mode :character Median :168.50
Mean :2020 NA NA NA NA NA Mean :193.51
3rd Qu.:2021 NA NA NA NA NA 3rd Qu.:258.75
Max. :2022 NA NA NA NA NA Max. :711.00

Histogramas y diagramas

histograma de las carreras mas apetecidas

Estos histogramas representa las 3 carreras con mas personas matriculadas y las posteriores de 3 carreras con mas personas matriculadas en la base de datos con los rangos de años 2018 - 2022

Row

histograma de las carreras mas apetecidas

Row ———————————————————————–

histograma de las posteriores carreras mas apetecidas

Row

histograma del primer histograma clasificada en su respectiva carrera y color

Row

interpretacion

Distribución asimétrica: La mayoría de programas (75%) tienen menos de 200 estudiantes, mientras que pocos programas (como Medicina) concentran matrículas excepcionalmente altas (>600 estudiantes).

Valores atípicos: Se identificaron programas con matrículas significativamente mayores al promedio (ej: Medicina con 691 estudiantes en 2018-I), lo que distorsiona la distribución general.

Diagrama de cajas

Row

Diagrama de cajas de todos los estudiantes

Row

Comparacion entre las carreras mas apetecidas

Diagrama de circular

Row

Diagrama de circulo

Diagrama de dispercion y correlacion

Se mostrara el diagrama de dispercion y la correlacion de las cuantitativas

Row

Correlacion


    Pearson's product-moment correlation

data:  teoproba$Año and teoproba$Total_estudiantes
t = -0.012616, df = 362, p-value = 0.9899
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.1034477  0.1021355
sample estimates:
          cor 
-0.0006630699 

Row

Grafica de dispercion

Row

Interpretacion

En nuestro conjunto de datos, solo tenemos una variable claramente cuantitativa: Total_estudiantes. Las otras variables (Año, Semestre, Sede, etc.) son cualitativas o categóricas. Por lo tanto, no podemos realizar un análisis de correlación entre dos variables cuantitativas en este caso.

Sin embargo, si consideramos Año como cuantitativa (aunque es ordinal), podemos analizar su relación con Total_estudiantes

En resumen, una correlación de 0.000663 sugiere que no existe una relación lineal práctica entre las dos variables que estás estudiando. Puedes considerar que las variables varían de forma independiente entre sí, al menos en términos de una relación lineal directa.

entonces se podria decir que hay una ligera tendencia a aumentar matrículas con los años (p < 0.05).

Row

Diagrama de Cajas (Variable Cuantitativa vs Cualitativa)

Conclusiones

Row

conclusion

La mayoría de programas (75%) tienen menos de 200 estudiantes, mientras que pocos programas (como Medicina) concentran matrículas excepcionalmente altas, ademas de que se identificaron programas con matrículas significativamente mayores al promedio ya que la Facultad de Salud muestra la mayor mediana de estudiantes debido a programas como Medicina y Enfermería. Y la Facultad de Ciencias de la Administración presenta la mayor variabilidad, con programas que van desde 1 hasta 441 estudiantes. la tendencia es que va a tener un c recimiento leve pero significativo. y laa sede principal (Cali) alberga el 68% de la oferta académica con matrículas un 40% más altas que las sedes regionales. Y Programas administrativos presentan alta fragmentación (20% tiene <30 estudiantes), sugiriendo ineficiencias operativas.

---
title: "Proyecto Estudiantes Matriculados Univalle"
author: "Juan Sierra"
date: "2025-05-16"
output:
    flexdashboard::flex_dashboard:
      orientation: rows
      social: menu
      source_code: embed
---

Información del cojunto y estadisticas descriptivas
==================================================================
Row
------------------------------------------------------------------

### Conjunto de datos, tamaño de muestra y número de variables

Conjunto de datos: Registros de estudiantes matriculados en programas de pregrado por año, semestre, sede, facultad y programa académico (2018-2022).

Tamaño de muestra: 500 registros (filas).

Número de variables: 7 columnas:

Año, Semestre, Sede, Facultad, NivelGral, Programa_academico, Total_estudiantes.

La moda para la base de datos son las personas matriculadas en medicina

La mediana es para los estudiantes matriculados en psicologia con sede palmira

Row
-----------------------------------------------------------------------
```{r data}
data(teoproba)
```

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = FALSE, warning = FALSE, message = FALSE)


library(dplyr)       
library(kableExtra)  
```

```{r carga_datos, include=FALSE}

teoproba <- readxl::read_excel("teoproba.xlsx", sheet = "Hoja1")

```

```{r estadistica}
summary(teoproba) %>% 
  kable() %>% 
  kable_styling(bootstrap_options = "striped", full_width = TRUE)
```

Histogramas y diagramas
=======================================================================

### histograma de las carreras mas apetecidas

Estos histogramas representa las 3 carreras con mas personas matriculadas y las posteriores de 3 carreras con mas personas matriculadas en la base de datos con los rangos de años 2018 - 2022

Row
-----------------------------------------------------------------------


```{r filtrado}

datosnuevos = filter(teoproba,
                     Programa_academico %in% c("Medicina","Arquitectura","Economia"))


datosnuevos1 = filter(teoproba,
                     Programa_academico %in% c("Administracion de Empresas","Biologia","Administracion Turistica"))

```

### histograma de las carreras mas apetecidas

```{r hist1}
library(ggplot2)
ggplot(datosnuevos, aes(x=Total_estudiantes ))+
  geom_histogram(fill="yellow")
```
Row
-----------------------------------------------------------------------

### histograma de las posteriores carreras mas apetecidas

```{r hist2}
ggplot(datosnuevos1, aes(x=Total_estudiantes ))+
  geom_histogram(fill="red")
```

Row
-----------------------------------------------------------------------

### histograma del primer histograma clasificada en su respectiva carrera y color
```{r hist 3}
ggplot(datosnuevos, aes(x = Total_estudiantes, fill = Programa_academico)) +
  geom_histogram(position = "identity", alpha = 0.6, binwidth = 30) +
  scale_fill_manual(values = c("Medicina" = "#E41A1C", 
                              "Arquitectura" = "#377EB8", 
                              "Economia" = "#4DAF4A")) +
  labs(title = "Distribución de Estudiantes por Carrera",
       x = "Total de Estudiantes",
       y = "Frecuencia",
       fill = "Carrera") +
  theme_minimal()
```

Row
-----------------------------------------------------------------------

### interpretacion

Distribución asimétrica: La mayoría de programas (75%) tienen menos de 200 estudiantes, mientras que pocos programas (como Medicina) concentran matrículas excepcionalmente altas (>600 estudiantes).

Valores atípicos: Se identificaron programas con matrículas significativamente mayores al promedio (ej: Medicina con 691 estudiantes en 2018-I), lo que distorsiona la distribución general.

Diagrama de cajas
=======================================================================

Row
-----------------------------------------------------------------------

### Diagrama de cajas de todos los estudiantes

```{r caja1}
ggplot(teoproba, aes(y=Total_estudiantes))+
  geom_boxplot(fill="cyan")
```

Row
-----------------------------------------------------------------------

### Comparacion entre las carreras mas apetecidas

```{r cajasfil}
boxplot(Total_estudiantes ~ Programa_academico,
        data = datosnuevos,
        col = c("red", "blue", "green"),
        main = "Distribución por programa",
        xlab = "Programa académico",
        ylab = "Número de estudiantes")
```



Diagrama de circular
==================================================================
Row
------------------------------------------------------------------

### Diagrama de circulo

```{r circulo}
pie(table(teoproba$Programa_academico),
    main="cantidad de estudiantes de un carrera")
```


Diagrama de dispercion y correlacion
=======================================================================
Se mostrara el diagrama de dispercion y la correlacion de las cuantitativas

Row
-----------------------------------------------------------------------

### Correlacion

```{r coor}
cor.test(teoproba$Año,
          teoproba$Total_estudiantes,
          method = "pearson")
```

Row
-----------------------------------------------------------------------
### Grafica de dispercion
```{r coor2}
ggplot(teoproba, aes(x = Año, y = Total_estudiantes))+
  geom_point(alpha=0.6, color = "blue")+
  geom_smooth(method = "lm", color = "red", se = FALSE)+
  labs(tittle ="Relacion entre el año y total de estudiantes",
       x= "Año", y="total estudiantes")+
  theme_minimal()
```


Row
-----------------------------------------------------------------------

### Interpretacion
En nuestro conjunto de datos, solo tenemos una variable claramente cuantitativa: Total_estudiantes. Las otras variables (Año, Semestre, Sede, etc.) son cualitativas o categóricas. Por lo tanto, no podemos realizar un análisis de correlación entre dos variables cuantitativas en este caso.

Sin embargo, si consideramos Año como cuantitativa (aunque es ordinal), podemos analizar su relación con Total_estudiantes

En resumen, una correlación de 0.000663 sugiere que no existe una relación lineal práctica entre las dos variables que estás estudiando. Puedes considerar que las variables varían de forma independiente entre sí, al menos en términos de una relación lineal directa.

entonces se podria decir que hay una ligera tendencia a aumentar matrículas con los años (p < 0.05).

Row
-----------------------------------------------------------------------


### Diagrama de Cajas (Variable Cuantitativa vs Cualitativa)

```{r cvsc}
ggplot(teoproba, aes(x=Facultad,y= Total_estudiantes))+
  geom_boxplot(fill= "yellow",color = "peru")+coord_flip()+
  labs(title = "distribucion de estudiantes por facultad",
       x="Facultad",y=" Total estudiantes")+
  theme_minimal()+theme(axis.text.y = element_text(size = 8))
```

Conclusiones
=======================================================================

Row
-----------------------------------------------------------------------

### conclusion

La mayoría de programas (75%) tienen menos de 200 estudiantes, mientras que pocos programas (como Medicina) concentran matrículas excepcionalmente altas, ademas de que se identificaron programas con matrículas significativamente mayores al promedio ya que la Facultad de Salud muestra la mayor mediana de estudiantes debido a programas como Medicina y Enfermería. Y la Facultad de Ciencias de la Administración presenta la mayor variabilidad, con programas que van desde 1 hasta 441 estudiantes. la tendencia es que va a tener un c recimiento leve pero significativo. y laa sede principal (Cali) alberga el 68% de la oferta académica con matrículas un 40% más altas que las sedes regionales. Y Programas administrativos presentan alta fragmentación (20% tiene <30 estudiantes), sugiriendo ineficiencias operativas.