Introducción

En este informe, se analizan los datos de la base seleccionada para extraer medidas estadísticas clave y visualizar su distribución. Se abordarán medidas de tendencia central, dispersión y forma, junto con una gráfica adecuada.

Carga de datos

library(readxl)
## Warning: package 'readxl' was built under R version 4.3.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
library(moments)

# Cargar la base de datos
datos <- read_excel("C:/Users/jesus/OneDrive/Escritorio/base_de_datos.xlsx", sheet = "BD CUALI - CUANTI")


# Seleccionar la variable de interés
variable <- datos$`Escolaridad (años)`

Estadísticas descriptivas

media <- mean(variable, na.rm = TRUE)
desv_est <- sd(variable, na.rm = TRUE)
coef_var <- (desv_est / media) ** 100
minimo <- min(variable, na.rm = TRUE)
maximo <- max(variable, na.rm = TRUE)
cuartiles <- quantile(variable, probs = c(0.25, 0.50, 0.75), na.rm = TRUE)
curtosis_val <- kurtosis(variable, na.rm = TRUE)
asimetria_val <- skewness(variable, na.rm = TRUE)

# Mostrar resultados
data.frame(Estadístico = c("Media", "Desviación Estándar", "Coef. Variación (%)", "Mínimo", "Máximo", "1er Cuartil", "Mediana", "3er Cuartil", "Curtosis", "Asimetría"),
           Valor = c(media, desv_est, coef_var, minimo, maximo, cuartiles[1], cuartiles[2], cuartiles[3], curtosis_val, asimetria_val))
##            Estadístico        Valor
## 1                Media 1.477736e+01
## 2  Desviación Estándar 2.662779e+00
## 3  Coef. Variación (%) 3.748341e-75
## 4               Mínimo 1.100000e+01
## 5               Máximo 2.000000e+01
## 6          1er Cuartil 1.300000e+01
## 7              Mediana 1.400000e+01
## 8          3er Cuartil 1.700000e+01
## 9             Curtosis 2.114850e+00
## 10           Asimetría 3.727051e-01

Interpretación de Resultados

Análisis de los Resultados

📌 Medidas de Tendencia Central.

La media de los datos es de 14.78, lo que indica que, en promedio, la escolaridad de la muestra está cerca de los 15 años.

La mediana, que es el valor central de los datos ordenados, es 14, lo que sugiere que la mitad de la población tiene una escolaridad menor o igual a 14 años.

El primer cuartil (Q1 = 13) y el tercer cuartil (Q3 = 17) indican que el 50% central de los datos se encuentra en el rango de 13 a 17 años de escolaridad.

📌 Medidas de Dispersión

La desviación estándar de 2.66 nos dice que los valores están moderadamente dispersos en torno a la media.

El coeficiente de variación (18.02%) indica una variabilidad moderada en los datos (valores menores a 20% suelen considerarse bajos en términos de dispersión relativa).

📌 Medidas de Forma (Curtosis y Asimetría)

La asimetría (0.37) sugiere una ligera inclinación positiva, es decir, hay una mayor frecuencia de valores por debajo de la media, con algunos valores altos que podrían estar influyendo en la distribución.

La curtosis (2.11) indica que la distribución es mesocúrtica, lo que significa que tiene una forma cercana a la normal, sin colas demasiado pesadas ni demasiado livianas.

📌 Rango y Valores Extremos

El mínimo es 11 y el máximo es 20, lo que indica que el rango total de escolaridad en la muestra es de 9 años (20 - 11 = 9 años).

Visualización

Para representar la distribución de la variable Escolaridad (años), se utiliza un histograma. Es ideal porque permite observar la dispersión y forma de los datos de manera clara.

ggplot(datos, aes(x = variable)) +
  geom_histogram(binwidth = 1, fill = "skyblue", color = "black", alpha = 0.7) +
  geom_vline(aes(xintercept = media), color = "red", linetype = "dashed", size = 1) +
  labs(title = "Distribución de Escolaridad (años)", x = "Años de Escolaridad", y = "Frecuencia") +
  theme_minimal()
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Conclusión

El análisis proporciona una visión detallada de la distribución de escolaridad en la base de datos. La gráfica elegida permite identificar fácilmente tendencias, dispersión y posibles sesgos en la muestra.

4. Gráficos

ggplot(datos, aes(x = variable)) +
  geom_histogram(binwidth = 1, fill = "steelblue", color = "black", alpha = 0.7) +
  labs(title = "Distribución de Escolaridad", x = "Años de escolaridad", y = "Frecuencia") +
  theme_minimal()

ggplot(datos, aes(y = variable)) +
  geom_boxplot(fill = "tomato", color = "black", outlier.colour = "red", outlier.shape = 16) +
  labs(title = "Diagrama de Caja de Escolaridad", y = "Años de Escolaridad") +
  theme_minimal()

ggplot(datos, aes(x = variable)) +
  geom_density(fill = "blue", alpha = 0.5) +
  labs(title = "Gráfico de Densidad de Escolaridad", x = "Años de Escolaridad", y = "Densidad") +
  theme_minimal()