En este informe, se analizan los datos de la base seleccionada para extraer medidas estadísticas clave y visualizar su distribución. Se abordarán medidas de tendencia central, dispersión y forma, junto con una gráfica adecuada.
library(readxl)
## Warning: package 'readxl' was built under R version 4.3.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
library(moments)
# Cargar la base de datos
datos <- read_excel("C:/Users/jesus/OneDrive/Escritorio/base_de_datos.xlsx", sheet = "BD CUALI - CUANTI")
# Seleccionar la variable de interés
variable <- datos$`Escolaridad (años)`
media <- mean(variable, na.rm = TRUE)
desv_est <- sd(variable, na.rm = TRUE)
coef_var <- (desv_est / media) ** 100
minimo <- min(variable, na.rm = TRUE)
maximo <- max(variable, na.rm = TRUE)
cuartiles <- quantile(variable, probs = c(0.25, 0.50, 0.75), na.rm = TRUE)
curtosis_val <- kurtosis(variable, na.rm = TRUE)
asimetria_val <- skewness(variable, na.rm = TRUE)
# Mostrar resultados
data.frame(Estadístico = c("Media", "Desviación Estándar", "Coef. Variación (%)", "Mínimo", "Máximo", "1er Cuartil", "Mediana", "3er Cuartil", "Curtosis", "Asimetría"),
Valor = c(media, desv_est, coef_var, minimo, maximo, cuartiles[1], cuartiles[2], cuartiles[3], curtosis_val, asimetria_val))
## Estadístico Valor
## 1 Media 1.477736e+01
## 2 Desviación Estándar 2.662779e+00
## 3 Coef. Variación (%) 3.748341e-75
## 4 Mínimo 1.100000e+01
## 5 Máximo 2.000000e+01
## 6 1er Cuartil 1.300000e+01
## 7 Mediana 1.400000e+01
## 8 3er Cuartil 1.700000e+01
## 9 Curtosis 2.114850e+00
## 10 Asimetría 3.727051e-01
📌 Medidas de Tendencia Central.
La media de los datos es de 14.78, lo que indica que, en promedio, la escolaridad de la muestra está cerca de los 15 años.
La mediana, que es el valor central de los datos ordenados, es 14, lo que sugiere que la mitad de la población tiene una escolaridad menor o igual a 14 años.
El primer cuartil (Q1 = 13) y el tercer cuartil (Q3 = 17) indican que el 50% central de los datos se encuentra en el rango de 13 a 17 años de escolaridad.
📌 Medidas de Dispersión
La desviación estándar de 2.66 nos dice que los valores están moderadamente dispersos en torno a la media.
El coeficiente de variación (18.02%) indica una variabilidad moderada en los datos (valores menores a 20% suelen considerarse bajos en términos de dispersión relativa).
📌 Medidas de Forma (Curtosis y Asimetría)
La asimetría (0.37) sugiere una ligera inclinación positiva, es decir, hay una mayor frecuencia de valores por debajo de la media, con algunos valores altos que podrían estar influyendo en la distribución.
La curtosis (2.11) indica que la distribución es mesocúrtica, lo que significa que tiene una forma cercana a la normal, sin colas demasiado pesadas ni demasiado livianas.
📌 Rango y Valores Extremos
El mínimo es 11 y el máximo es 20, lo que indica que el rango total de escolaridad en la muestra es de 9 años (20 - 11 = 9 años).
Para representar la distribución de la variable Escolaridad (años), se utiliza un histograma. Es ideal porque permite observar la dispersión y forma de los datos de manera clara.
ggplot(datos, aes(x = variable)) +
geom_histogram(binwidth = 1, fill = "skyblue", color = "black", alpha = 0.7) +
geom_vline(aes(xintercept = media), color = "red", linetype = "dashed", size = 1) +
labs(title = "Distribución de Escolaridad (años)", x = "Años de Escolaridad", y = "Frecuencia") +
theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
El análisis proporciona una visión detallada de la distribución de escolaridad en la base de datos. La gráfica elegida permite identificar fácilmente tendencias, dispersión y posibles sesgos en la muestra.
ggplot(datos, aes(x = variable)) +
geom_histogram(binwidth = 1, fill = "steelblue", color = "black", alpha = 0.7) +
labs(title = "Distribución de Escolaridad", x = "Años de escolaridad", y = "Frecuencia") +
theme_minimal()
ggplot(datos, aes(y = variable)) +
geom_boxplot(fill = "tomato", color = "black", outlier.colour = "red", outlier.shape = 16) +
labs(title = "Diagrama de Caja de Escolaridad", y = "Años de Escolaridad") +
theme_minimal()
ggplot(datos, aes(x = variable)) +
geom_density(fill = "blue", alpha = 0.5) +
labs(title = "Gráfico de Densidad de Escolaridad", x = "Años de Escolaridad", y = "Densidad") +
theme_minimal()