Introducción para el Estudio de Datos

Este informe presenta un análisis estadístico de los datos recogidos mediante una encuesta aplicada a los estudiantes de la Universidad de La Sabana. El conjunto de datos abarca diversas variables que capturan aspectos sociodemográficos, académicos, y logísticos de los estudiantes, como el género, facultad, semestre cursado, frecuencia de asistencia a la universidad, y detalles relacionados con el transporte, entre otros.

La encuesta también captura la satisfacción de los estudiantes con respecto a diversos aspectos de su vida universitaria, lo que permitirá evaluar áreas de oportunidad para mejorar la calidad de vida y la satisfacción general de los estudiantes. El análisis incluirá tanto estadísticas descriptivas como visualizaciones gráficas para una mejor comprensión de los datos.

Objetivo

El objetivo principal de este estudio es proporcionar una visión integral de las condiciones y percepciones de los estudiantes, especialmente en relación con su experiencia de transporte hacia la universidad. A través de este análisis, se busca identificar patrones y tendencias que puedan informar futuras mejoras en las políticas de transporte y apoyo estudiantil.

Analisis

Descripción general de variables

A continuación, se explicaran las variables recolectadas dividiendolas por areas, explicando su importancia y su clasificación

Variables Demográficas y Académicas

facultad

Permite identificar posibles diferencias en los hábitos de movilidad entre las distintas disciplinas académicas.

Tipo de variable: Cualitativa (Nominal)

Género

Puede revelar posibles desigualdades en el acceso al transporte o en las preferencias de movilidad entre hombres y mujeres.

Tipo de variable: Cualitativa (Nominal)

Semestre

Permite analizar si existen variaciones en la movilidad a lo largo de las carreras.

Tipo de variable: Cuantitativa (Discreta)

Variables Relacionadas con la Movilidad

Días a la semana

Indica la frecuencia de uso del transporte y puede estar relacionado con la intensidad de la carga académica.

Tipo de variable: Cuantitativa (Discreta)

Ciudad de residencia

Permite identificar los principales orígenes de los estudiantes y evaluar la distancia promedio que recorren.

Tipo de variable: Cualitativa (Nominal).

Método de transporte preferido y utilizado

Permite conocer las preferencias de los estudiantes y las restricciones que enfrentan en su movilidad.

Tipo de variable: Cualitativa (Nominal)

Costo diario de transporte

Es una variable clave para evaluar el impacto económico del transporte en los estudiantes.

Tipo de variable: Cuantitativa (Discreta)

Satisfacción con la puntualidad del transporte universitario

Permite evaluar la calidad del servicio de transporte ofrecido por la universidad.

Tipo de variable: Cualitativa (Ordinal)

Tiempo de viaje

Es una medida directa de la eficiencia del sistema de transporte y puede estar relacionado con la satisfacción de los estudiantes.

Tipo de variable: Cuantitativa (Continua)

Transbordos

Indica la complejidad de los recorridos y puede aumentar el tiempo de viaje y los costos.

Tipo de variable: Cualitativa (Nominal)

Reducción de otros gastos

Permite evaluar el impacto del costo del transporte en la economía de los estudiantes y la posibilidad de que deban sacrificar otros gastos para cubrirlo.

Tipo de variable: Cualitativa (Nominal)

Variables para Proponer Mejoras

Mejoras propuestas

Esta variable abierta permitirá identificar las necesidades y expectativas de los estudiantes en materia de transporte y generar propuestas concretas para mejorar el sistema.

Tipo de variable: Cualitativa (Nominal)

Analisis estadistico

#mediante la siguiente función se realizan calculos para variables cualitativas

get_mode <- function(v) {
  uniqv <- unique(v)
  uniqv[which.max(tabulate(match(v, uniqv)))]
}

facultad

En esta sección, se analiza la columna “facultad” para determinar la cantidad de carreras diferentes, la carrera más repetida y cuántas veces se repite.

frecuencia_facultad <- as.data.frame(table(data_facultad))
frecuencia_facultad <- frecuencia_facultad[order(frecuencia_facultad$Freq, decreasing = TRUE), ]
frecuencia_facultad$cum_freq <- cumsum(frecuencia_facultad$Freq)
total_observaciones <- sum(frecuencia_facultad$Freq)
mediana_facultad <- frecuencia_facultad$data_facultad[which(frecuencia_facultad$cum_freq >= total_observaciones / 2)[1]]
moda_facultad <- frecuencia_facultad$data_facultad[which.max(frecuencia_facultad$Freq)]
frecuencia_facultad$num <- seq(1, nrow(frecuencia_facultad))
pseudo_media_facultad <- sum(frecuencia_facultad$num * frecuencia_facultad$Freq) / total_observaciones

#resultados
mediana_facultad  # Mediana basada en las frecuencias
## [1] Comunicación
## 6 Levels: Comunicación Educación EICEA ... Psicología y Ciencias del Comportamiento
moda_facultad     # Moda (valor más frecuente)
## [1] EICEA
## 6 Levels: Comunicación Educación EICEA ... Psicología y Ciencias del Comportamiento
pseudo_media_facultad  # Pseudo-media ponderada
## [1] 2.055556

Analisis

Si bien se puede ver una mayoria de estudiantes pertenecientes la facultad de IECEA, se peude tambien ver que se tomaron en cuenta estudiantes de diversas carreras diferenets

Genero

En esta sección, se analiza la columna “Genero” para determinar la proporción de estudiantes encuestados respectiva a cada genero.

#mediante los siguientes calculos se definen los siguientes parametros:

moda_genero <- get_mode(data2)
f_moda_genero <- sum(data2 == moda_genero)
proporcion_genero <- f_moda_genero/ length(data2)

# genero mas encuestado

moda_genero
## [1] "Femenino"
# frecuencia de genero mas encuestado

f_moda_genero
## [1] 22
# proporción de genero mas encuestado

proporcion_genero
## [1] 0.6111111

Analisis

Se peude ver una mayoria de encuestados del genero femenino, sin embargo, se tiene una proporción no muy lejana al 0.5 significando una paridad relativa en el genero de los encuestados

Semestre

En esta sección, se analiza la columna “Semestre” para determinar los semestres mas representativos de los encuestados

#mediante los siguientes calculos se definen los siguientes parametros:

mediana_semestre <- median(data3, na.rm = TRUE)
media_semestre <- mean(data3, na.rm = TRUE)
moda_semestre <- get_mode(data3)


# semestre con mayor cantidad de estudiantes encuestados

moda_semestre
## [1] 4
# Mediana de semestres encuestados

mediana_semestre
## [1] 5
# promedio de semestre encuestados

media_semestre
## [1] 4.694444

Analisis

Se puede ver que las medidas que las medidas de tendencia central tienden a valores de 4 a 5 semestre, lo que demuestra que los estudiantes encuestados tienden a un tiempo considerable en la universidad

Dias de asistencia a la semana

En esta sección, se analiza la columna “días” para la frecuencia de ida de los encuestados

#mediante los siguientes calculos se definen los siguientes parametros:

mediana_dias <- median(data4, na.rm = TRUE)
media_dias <- mean(data4, na.rm = TRUE)
moda_dias <- get_mode(data4)


# cantidad de días a la semana con mayor frecuencia

moda_dias
## [1] 5
# Mediana de días de asistencia semanales de encuestados

mediana_dias
## [1] 5
# promedio de días de asistencia semanales de encuestados

media_dias
## [1] 4.611111

Analisis

Se puede observar una tendencia marcada de las medidas de tendencia central a indicar que la mayoria de estudiantes encuestados asisten a la universidad 5 dias a la semana, presumiblemente siendo los dias laborales estandar, siendo en los cuales se realiza su transito

Ciudad

En esta sección, se analiza la columna “Ciudad” para identificar la ciudad de residencia de los estudiantes encuestados, siendo muy relevante debido a la variación de distancias segun ciudades.

#mediante los siguientes calculos se definen los siguientes parametros:

ciudades_unicas <- length(unique(data5))
moda_ciudad <- get_mode(data5)
f_moda_ciudad <- sum(data5 == moda_ciudad)

# número de ciduades diferentes de encuestados

ciudades_unicas
## [1] 7
# ciduad con mayor cantidad de estudiantes encuestados

moda_ciudad
## [1] "Chía"
# frecuencia de ciudad mas encuestada

f_moda_ciudad
## [1] 15

Analisis

Se peude ver que la gran mayoria de estudiantes encuestados residen en la ciduad de Chia, alvergando un gran porcentaje de los encuestados determinando su tiempo de transito

Medio de transporte

En esta sección, se analiza la columna “Transporte” para identificar el metodo de transporte usual en los estudiantes encuestados

#mediante los siguientes calculos se definen los siguientes parametros:

transporte_unico <- length(unique(data6))
moda_transporte <- get_mode(data6)
f_moda_transporte <- sum(data6 == moda_transporte)

# número de metodos de transporte diferentes usados por los encuestados

transporte_unico
## [1] 6
# medio de transporte mas usado de estudiantes encuestados

moda_transporte
## [1] "Wheels"
# frecuencia de metodo de transporte mas usado

f_moda_transporte
## [1] 17

Analisis

Se puede notar una tendencia marcada al uso de wheels de de los estudiantes encuestados

Costo diario de transporte

En esta sección, se analiza la columna “costo_diario” para al determinación de valores estadisticos de lsoc sotos diarios de los estudiantes encuestados

#mediante los siguientes calculos se definen los siguientes parametros:

mediana_costo <- median(data7, na.rm = TRUE)
media_costo <- mean(data7, na.rm = TRUE)
moda_costo <- get_mode(data7)


# costo de transporte diario con mayor frecuencia

moda_costo
## [1] 10000
# Mediana de costos diarios

mediana_costo
## [1] 10000
# promedio de costos diarios

media_costo
## [1] 12861.11

Analisis

Se puede observar una tendencia a precios diarios alrededor de 10 mil pesos, tendiendo a variar ligeramente

Nivel de satisfacción

En esta sección, se analiza la columna “Satisfacción” para identificar el nivel de satisfación respecto a la puntualidad de transporte

#mediante los siguientes calculos se definen los siguientes parametros:

moda_satisfacción <- get_mode(data8)
f_moda_satisfacción <- sum(data8 == moda_satisfacción)
proporcion_satisfacción <- f_moda_satisfacción/ length(data8)

# Respuesta de satisfacción mas repetida

moda_satisfacción
## [1] "Neutral"
# frecuencia de nivel de satisfacción mas repetido

f_moda_transporte
## [1] 17
#proporcion de nivel de satisfacción respecto a los demas

proporcion_satisfacción
## [1] 0.5555556

Analisis

Se puede observar una tendencia al nivel de satisfacción neutral respecto a la puntualidad del transporte, abarcando mas de la mitad de la proporción de respuestas

Tiempo

En esta sección, se analiza la columna “Tiempo” para conocer el tiempo estimado de los estudiantes encuestados, tiempo medido por intervalos

#mediante los siguientes calculos se definen los siguientes parametros:

moda_tiempo <- get_mode(data9)
f_moda_tiempo <- sum(data9 == moda_tiempo)
proporcion_tiempo <- f_moda_tiempo/ length(data9)

# Intervalo de tiempo mas repetido en los encuestados

moda_tiempo
## [1] "De 10 a 30 minutos"
# frecuencia de intervalo de tiempo

f_moda_tiempo
## [1] 16
#proporcion de frecuencia del intervalo respecto a los demas

proporcion_tiempo
## [1] 0.4444444

Analisis

Se puede observar una mayoria de estudiantes que tienen un tiempo de transporte estimado de 10 a 30 minutos, sin embargo la proporcion nos muestra que tambien una gran cantidad de estudiantes tienen tiempos mayores

Transbordos

En esta sección, se analiza la columna “Transbordos” para conocer la cantidad de estudiantes que necesitan realizar transbordos

#mediante los siguientes calculos se definen los siguientes parametros:

moda_transbordos <- get_mode(data10)
f_moda_transbordos <- sum(data10 == moda_transbordos)
proporcion_transbordos <- f_moda_transbordos/ length(data10)

# ¿La mayoria de estudiantes utilizan transbordos para realizar su transporte?

moda_transbordos
## [1] "No"
# Cantidad de estudiantes que NO utilizan transbordos

f_moda_transbordos
## [1] 26
#proporcion de no uso de transbordos

proporcion_transbordos
## [1] 0.7222222

Analisis

Se peude ver que la gran mayoria de estudiantes encuestados no recurren al uso de transbordos

Reducción de costos

En esta sección, se analiza la columna “Reducción de gastos” para determinar cuantos estudiantes encuestados han necesito reducir gastos en otros ambitos para el pago de su transporte

#mediante los siguientes calculos se definen los siguientes parametros:

moda_gastos <- get_mode(data11)
f_moda_gastos <- sum(data11 == moda_gastos)
proporcion_gastos <- f_moda_gastos/ length(data11)

# ¿La mayoria de estudiantes han necesitadod e reducir gastos para cubrir su transporte?

moda_gastos
## [1] "No"
# Cantidad de estudiantes que no redujeron gastos

f_moda_gastos
## [1] 20
#proporcion de estudiantes que no redujeron gastos

proporcion_gastos
## [1] 0.5555556

Analisis

Se puede observar que la mayoria de estudiantes no necesitaron reducir sus gastos para cubrir su costo de transporte diario

Mejoras

En esta sección, se analiza la columna “Mejoras” para concoer las propuestas de mejoras realizadas por los estudiantes encuestados

#mediante los siguientes calculos se definen los siguientes parametros:

mejoras_unicas <- length(unique(data12))
moda_mejoras <- get_mode(data12)
f_moda_mejoras <- sum(data12 == moda_mejoras)

# número de sugerencias de mejoras diferentes

mejoras_unicas
## [1] 6
# sugerencia de mejora mas repetida

moda_mejoras
## [1] "Mejores tarifas para estudiantes"
# frecuencia de mejora mas solicitada

f_moda_mejoras
## [1] 22

Analisis

Se peude ver que la gran mayoria de estudiantes encuestados residen en la ciduad de Chia, alvergando un gran porcentaje de los encuestados determinando su tiempo de transito