El nivel educativo más común entre los estudiantes según la muestra es el nivel técnico, con una participación del 29 estudiantes, seguido por secundaria con 28. Esta distribución sugiere que la mayoría de la muestra ha cursado estudios técnicos o secundarios, lo cual puede influir directamente en variables como ingresos mensuales. El gráfico de barras refuerza esta distribución al mostrar una altura mayor en las barras correspondientes a los niveles Técnico y Secundaria, evidenciando que estos constituyen la mayor proporción de la muestra.
conteo_nivel_educativo <- table(muestra_seleccionada$NivelEducativo)
tabla_nivel_educativo <- data.frame(
NivelEducativo = names(conteo_nivel_educativo),
Frecuencia = as.integer(conteo_nivel_educativo)
)
knitr::kable(tabla_nivel_educativo)
| NivelEducativo | Frecuencia |
|---|---|
| Primaria | 19 |
| Secundaria | 28 |
| Técnico | 29 |
| Universitario | 24 |
grafico_nivel_educativo <- ggplot(tabla_nivel_educativo, aes(x = NivelEducativo, y = Frecuencia, fill = NivelEducativo)) +
geom_col(width = 0.6) +
geom_text(aes(label = Frecuencia), vjust = -0.3) +
scale_fill_manual(values = colores_institucionales[1:nrow(tabla_nivel_educativo)]) +
labs(title = "Frecuencia de Nivel Educativo",
x = "Nivel Educativo",
y = "Frecuencia") +
theme_minimal() +
theme(legend.position = "none")
grafico_nivel_educativo
La categoría “Otro” representa la mayor proporción con un 40% de los estudiantes. Este resultado es atípico. Esta distribución debe considerarse en análisis comparativos (como estatura o ingresos por género), ya que la representatividad puede alterar la media o mediana de variables asociadas. Además, la equidad entre hombres y mujeres (30% cada uno) permite comparaciones balanceadas entre esos dos grupos.
conteo_genero <- table(muestra_seleccionada$Genero)
porcentaje_genero <- round(100 * conteo_genero / sum(conteo_genero), 1)
pie(conteo_genero,
labels = paste0(names(conteo_genero), " (", porcentaje_genero, "%)"),
main = "Distribución de Género",
col = colores_institucionales[1:length(conteo_genero)],
border = "black")
La edad promedio de los participantes es de 42 años, y la mediana es de 43 años, lo que indica una distribución relativamente simétrica, ya que ambos valores están bastante cercanos. La desviación estándar de 14.34 señala que hay una dispersión considerable en las edades, lo que sugiere una muestra diversa en términos de generaciones. Esto puede influir en variables como ingresos y nivel educativo.
Edades <- muestra_seleccionada$Edad
# Calcular la Media
Media_Edad <- sum(Edades)/length(Edades) # Hecho a Pedal
Media_Edad <- mean(Edades) # Hecho directamente
cat("Media: ", Media_Edad)
## Media: 42
# Calcular la Mediana
Edad_ordenado <- sort(Edades)
if (length(Edades) %% 2 == 1) {
Mediana_Edad <- Edad_ordenado[(length(Edades) + 1) / 2]
} else {
Mediana_Edad <- (Edad_ordenado[length(Edades) / 2] + Edad_ordenado[length(Edades) / 2 + 1]) / 2
} # Hecho a Pedal
Mediana_Edad <- median(Edades) # Hecho directamente
cat("Mediana: ", Mediana_Edad)
## Mediana: 43
# Calcular la desviacion estandar
Desvest_Edad <- sd(Edades) # Hecho con funcion porque el profe no dio manera
# de hacerlo a pedal
cat("Desviacion estandar: ", Desvest_Edad)
## Desviacion estandar: 14.34073
Esto representa un 46% de la muestra, lo cual indica que una parte significativa de los estudiantes proviene de familias numerosas. Esta variable puede estar relacionada con condiciones socioeconómicas, especialmente si se explora en conjunto con el ingreso mensual o nivel educativo. En el gráfico de barras se aprecia que los valores más frecuentes de cantidad de hermanos son 4 y 6, ambos con 19 casos. Las frecuencias disminuyen en valores intermedios (como 5) o más bajos (como 0 o 1), lo cual refuerza la idea de que muchas personas tienen estructuras familiares grandes.
Cant_Hermanos <- muestra_seleccionada$Hermanos
personas_mas_de_3_hermanos <- as.numeric(sum(Cant_Hermanos > 3))
cat("Personas con mas de 3 hermanos: ",personas_mas_de_3_hermanos)
## Personas con mas de 3 hermanos: 46
# Hacer el grafico de Barras
Tabla_frecuencias_hermanos <- table(muestra_seleccionada$Hermanos)
# Repetir colores si hay más barras que colores
colores_usados <- rep(colores_institucionales, length.out = length(Tabla_frecuencias_hermanos))
# Crear el gráfico y guardar posiciones
posiciones_barras <- barplot(Tabla_frecuencias_hermanos,
col = colores_usados,
horiz = FALSE,
density = 28,
ylab = "Frecuencia absoluta",
border = TRUE,
ylim = c(0, max(Tabla_frecuencias_hermanos) + 5),
xlab = "Cantidad de Hermanos",
main = "Gráfico de barras para cantidad de hermanos")
# Agregar los valores encima de cada barra
text(x = posiciones_barras,
y = Tabla_frecuencias_hermanos + 1,
labels = Tabla_frecuencias_hermanos,
cex = 0.8)
El rango de ingresos en la muestra es de $4927, lo que indica una gran diferencia entre los ingresos más bajos y más altos reportados. Esta dispersión está respaldada por una varianza elevada (683,184), lo cual significa que los ingresos individuales tienden a alejarse considerablemente del promedio. El coeficiente de variación del 43% implica una alta dispersión relativa respecto a la media. En contextos estadísticos, un coeficiente de variación superior al 30% ya suele interpretarse como un indicador de variabilidad significativa, por lo tanto, se puede concluir que el ingreso mensual en la muestra es muy heterogéneo. Esto puede estar influenciado por factores como el nivel educativo, tipo de ocupación o experiencia laboral.
Ingreso_mensual <- muestra_seleccionada$IngresoMensual
rango_ingresos <- max(Ingreso_mensual) - min(Ingreso_mensual)
varianza_ingresos <- var(Ingreso_mensual)
coeficiente_var <- (sd(Ingreso_mensual) / mean(Ingreso_mensual)) * 100
cat("El rango de los ingresos mensuales es igual a:", rango_ingresos, "\n")
## El rango de los ingresos mensuales es igual a: 4927.53
cat("La varianza de los ingresos es de:", varianza_ingresos, "\n")
## La varianza de los ingresos es de: 683184.6
cat("El coeficiente de variación es de:", coeficiente_var, "%")
## El coeficiente de variación es de: 43.4039 %
La variable Estatura muestra una distribución irregular y dispersa, no es una distribucion simetrica, no es normal (campana de Gauss) y no tiene algun tipo de sesgo, sino que presenta altibajos y varios picos. Esto podría reflejar una muestra aproximadamente uniforme ya que hay frecuencias similares y varios picos
graf <- ggplot(muestra_seleccionada, aes(x = Estatura)) +
geom_histogram(bins = 30, fill = "skyblue", color = "black") +
labs(title = "Histograma de Estatura", x = "Estatura", y = "Frecuencia")
graf
Contrario a lo que suele observarse en datos poblacionales generales, en esta muestra las mujeres presentan una estatura promedio mayor (1.78 m) que los hombres (1.74 m). Esto puede deberse a varios factores: La muestra puede no ser representativa de la población general, existe la posibilidad de valores atípicos (outliers) dentro del grupo femenino, o bien, también podría ser una particularidad del entorno o contexto social de los estudiantes.
estatura_promedio_hombres <- mean(muestra_seleccionada$Estatura[muestra_seleccionada$Genero == "Masculino"], na.rm = TRUE)
estatura_promedio_mujeres <- mean(muestra_seleccionada$Estatura[muestra_seleccionada$Genero == "Femenino"], na.rm = TRUE)
datos_estatura_genero <- data.frame(
Genero = c("Masculino", "Femenino"),
Promedio = c(estatura_promedio_hombres, estatura_promedio_mujeres)
)
grafico_estatura_genero <- ggplot(datos_estatura_genero, aes(x = Genero, y = Promedio, fill = Genero)) +
geom_col(width = 0.6) +
geom_text(aes(label = round(Promedio, 2)), vjust = -0.3) +
scale_fill_manual(values = colores_institucionales[1:2]) +
labs(title = "Promedio de Estatura por Género",
x = "Género",
y = "Estatura (m)") +
theme_minimal() +
theme(legend.position = "none")
grafico_estatura_genero
A primera vista, podría esperarse que los ingresos promedio aumenten con el nivel educativo. Sin embargo, en esta muestra, el ingreso promedio más alto corresponde al nivel Primaria, seguido por Universitario. Esta tendencia no sigue un patrón progresivo convencional.
ingresos_por_nivel <- tapply(muestra_seleccionada$IngresoMensual, muestra_seleccionada$NivelEducativo, mean)
datos_ingresos_educacion <- data.frame(
NivelEducativo = names(ingresos_por_nivel),
Ingreso = as.numeric(ingresos_por_nivel)
)
grafico_ingresos_educacion <- ggplot(datos_ingresos_educacion, aes(x = NivelEducativo, y = Ingreso, fill = NivelEducativo)) +
geom_col(width = 0.6) +
geom_text(aes(label = round(Ingreso, 2)), vjust = -0.3) +
scale_fill_manual(values = colores_institucionales[1:nrow(datos_ingresos_educacion)]) +
labs(title = "Promedio de Ingresos por Nivel Educativo",
x = "Nivel Educativo",
y = "Ingreso Mensual ($)") +
theme_minimal() +
theme(legend.position = "none")
grafico_ingresos_educacion
Se puede observar que la variabilidad de los ingresos para el caso del nivel de secundaria es mayor en relacion a los otros niveles precentando un mayor rango en su primer cuartil. En general todos los niveles presentan poca variabilidad de ingresos y no se presenta una diferencia significativa en cuanto estan posicionados al medio frente a los que se podría esperar. Se pueden observar casos atípicos para el nivel tecnico y primaria.
grafico_ingreso_nivel <- ggplot(muestra_seleccionada, aes(x = NivelEducativo, y = IngresoMensual)) +
geom_boxplot(fill = "steelblue", color = "navy") +
labs(title = "Boxplot",
x = "Nivel educativo",
y = "Ingreso mensual") +
theme_minimal()
grafico_ingreso_nivel
La dispersión de los datos es alta del cual la mayoria de datos varian entre 1000 y 3000 de ingreso mensual y ello se ve confirmado con un grafico de linea el constante cerca al medio del rango previamente mencionado. A su vez a través de la clasificación por color se confirma la falta de relación clara entre el nivel educativo y los ingresos y a su vez con el nivel educativo.
grafico_edad_ingreso <- ggplot(muestra_seleccionada, aes(x = Edad, y = IngresoMensual, color=NivelEducativo)) +
geom_point( size = 3) +
labs(title = "Gráfico de Dispersión",
x = "Edad",
y = "Ingreso mensual") +
geom_smooth(method = "lm", se = FALSE, color = "navy") +
theme_minimal()
grafico_edad_ingreso
## `geom_smooth()` using formula = 'y ~ x'
Esta tabla sugiere que el nivel educativo no está distribuido equitativamente entre los géneros, y que ciertos grupos (como “Otro”) concentran mayor formación en niveles altos, lo cual puede tener implicaciones sobre el análisis de ingreso y oportunidades.
tabla_genero_educacion <- table(muestra_seleccionada$Genero, muestra_seleccionada$NivelEducativo)
tabla_dataframe <- as.data.frame.matrix(tabla_genero_educacion)
knitr::kable(tabla_dataframe)
| Primaria | Secundaria | Técnico | Universitario | |
|---|---|---|---|---|
| Femenino | 5 | 10 | 8 | 7 |
| Masculino | 7 | 7 | 10 | 6 |
| Otro | 7 | 11 | 11 | 11 |
La baja proporción sugiere que el tamaño de la familia podría estar relacionado negativamente con los ingresos altos, aunque se necesitaría un análisis más profundo (como modelos de regresión) para confirmar dicha relación.
total_hermanos <- sum(muestra_seleccionada$Hermanos > 2)
hermanos_con_ingresos <- sum(muestra_seleccionada$Hermanos > 2 & muestra_seleccionada$IngresoMensual > 3000)
proporcion <- (hermanos_con_ingresos / total_hermanos) * 100
cat("La proporcion de personas con más de 2 hermanos que tienen un ingreso
mensual superior a $3000 es de: ",round(proporcion, 2),"%")
## La proporcion de personas con más de 2 hermanos que tienen un ingreso
## mensual superior a $3000 es de: 9.68 %
A pesar de que, intuitivamente, se podria pensar, que a mayor edad y nivel educativo, mayor el ingreso, los resultados obtenidos muestran que tales variables no parecen tener el efecto esperado en los resultados. De hecho, las variables de Edad y Nivel Educativo parecen tener un efecto marginal, dado que los ingresos segun edades y niveles educativos se acercan bastante entre ellos. Una explicacion posible es que estas variables no tengan relacion con el ingreso mensual, pero otra explicacion podria ser que la semilla usada para el muestreo recoge datos anormales, los cuales generan estas distriibuciones de datos. Si bien nos gustaria poder hallar una realcion entre estas variables, los resultados de estos muestreos no parecen reflejar una conexion o tendencia clara. Por otro lado, no se probaron las variables de numero de hermanos, genero, estatura o horas de trabajo, por ende, no se puede afirmar nada al respecto.
Siguiendo la linea de razonamiento intuitivo, se podria argumentar que las principales varables que tienen efecto en la estatura son el genero y la edad. Como se vio anteriormente, hay una tendencia en los datos del muestreo que indica que las mujeres en promedio son mas altos que los hombres, por ende, se podria decir que existe una relacion entre estas dos variables. Por otro lado, en cuanto a la edad, debido a que no se hizo ningun experimento que indicara si hay o no relacion entre estas variables, no se puede argumentar si hay una tendencia entre ellas. Lo mismo aplica para el resto de las variables.