Construcción de la base de datos simulada

Contexto: La siguiente base de datos representa un conjunto de información simulada sobre 100 personas adultas entre 25 y 60 años, residentes en zonas urbanas y rurales de Colombia. Se incluyen variables relevantes para el estudio de desigualdad socioeconómica: ingresos, años de educación, nivel educativo, sexo, tipo de empleo y ubicación geográfica. Esta base nos servirá como hilo conductor para aplicar distintas pruebas estadísticas inferenciales.

Tenga en cuenta que en esta ocasión estamos generando datos simulados. En caso de disponer una base de datos, el primer paso es importarla

set.seed(2025) #Sembrar semilla para generar datos aleatorios una única vez


datos <- tibble(
  sexo = sample(c("Hombre", "Mujer"), 100, replace = TRUE),
  zona = sample(c("Urbana", "Rural"), 100, replace = TRUE, prob = c(0.6, 0.4)),
  educacion = sample(c("Básica", "Media", "Universitaria"), 100, replace = TRUE, prob = c(0.3, 0.4, 0.3)),
  educacion_anios = case_when(
    educacion == "Básica" ~ sample(5:9, 100, replace = TRUE),
    educacion == "Media" ~ sample(10:12, 100, replace = TRUE),
    educacion == "Universitaria" ~ sample(13:18, 100, replace = TRUE)
  ),
  empleo = case_when(
    educacion == "Básica" ~ sample(c("Formal", "Informal"), 100, replace = TRUE, prob = c(0.2, 0.8)),
    educacion == "Media" ~ sample(c("Formal", "Informal"), 100, replace = TRUE, prob = c(0.4, 0.6)),
    educacion == "Universitaria" ~ sample(c("Formal", "Informal"), 100, replace = TRUE, prob = c(0.7, 0.3))
  ),
  ingreso = 1000000 + 200000 * educacion_anios + rnorm(100, 0, 500000)
) %>%
  mutate(
    educacion = fct_relevel(educacion, "Básica", "Media", "Universitaria"),
    empleo_formal = if_else(empleo == "Formal", 1, 0)
)

Diccionario de variables:

Variable Tipo Descripción
ingreso Cuantitativa Ingreso mensual en pesos colombianos
sexo Cualitativa Género de la persona (Hombre, Mujer)
educacion Cualitativa Nivel educativo alcanzado
zona Cualitativa Zona de residencia (Urbana, Rural)
empleo Cualitativa Tipo de empleo (Formal, Informal)
educacion_anios Cuantitativa Años de educación formal
empleo_formal Binaria Variable derivada: 1 si formal, 0 si informal

Ver primeras filas de base de datos generada:

head(datos)
## # A tibble: 6 × 7
##   sexo   zona   educacion educacion_anios empleo    ingreso empleo_formal
##   <chr>  <chr>  <fct>               <int> <chr>       <dbl>         <dbl>
## 1 Hombre Rural  Básica                  6 Informal 1653509.             0
## 2 Mujer  Rural  Media                  11 Informal 4258150.             0
## 3 Mujer  Urbana Media                  10 Informal 3786379.             0
## 4 Mujer  Rural  Media                  12 Formal   4263075.             1
## 5 Hombre Urbana Básica                  9 Informal 2315832.             0
## 6 Hombre Rural  Básica                  9 Informal 2213163.             0

1. Comparación de variable numérica (cuantitativa) y variable categórica (cuantitativa)


1.1 Prueba t para comparación de medias

Se utiliza para comparar las medias de una variable cuantitativa entre dos grupos independientes. Recuerde que mientras más grande sea la muestra, la distribución t se aproxima a la distribución Normal Estándar. En casos aplicados, se utiliza la prueba t: no es tan común conocer las desviaciones estándar poblacionales

Hipótesis: \[ H_0: \mu_1 = \mu_2 \quad vs \quad H_1: \mu_1 \ne \mu_2 \]

Estadístico de prueba: \[ t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]

Prueba t para comparar ingreso (numérica) según sexo (categórica: 2 categorías)

t.test(ingreso ~ sexo, data = datos, var.equal = FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  ingreso by sexo
## t = 0.2789, df = 97.426, p-value = 0.7809
## alternative hypothesis: true difference in means between group Hombre and group Mujer is not equal to 0
## 95 percent confidence interval:
##  -326967.8  433892.2
## sample estimates:
## mean in group Hombre  mean in group Mujer 
##              3248527              3195065
# Comando var.equal sirve para indicarle a R que las varianzas poblacionales son diferentes o iguales. Por defecto se asumen diferentes

Note que la prueba t en R arroja:
- Valor del estadístico de prueba t
- Grados de libertad (df) - p-valor (cuando es menor al nivel de significancia (alfa) se rechaza Ho)
- Hipótesis alternativa
- Intervalo de confianza al 95%

Interpretación: La prueba t para muestras independientes permite contrastar si el ingreso mensual promedio difiere significativamente entre hombres y mujeres. El valor-p obtenido fue 0.7809. Como este valor es mayor al nivel de significancia habitual de 0.05, NO se rechaza la hipótesis nula y concluimos que No existe una diferencia estadísticamente significativa entre los ingresos medios por sexo.

1.2 ANOVA (Análisis de varianza de un factor)

Se utiliza para comparar las medias de más de dos grupos a partir de una variable categórica con más de dos categorías.

Hipótesis: \[ H_0: \mu_1 = \mu_2 = \cdots = \mu_k \quad vs \quad H_1: \text{al menos una media es diferente} \]

Estadístico de prueba: \[ F = \frac{\text{MS}_{\text{entre}}}{\text{MS}_{\text{dentro}}} = \frac{SC_{\text{entre}} / (k - 1)}{SC_{\text{dentro}} / (n - k)} \]

Anova para comparar ingreso (numérica) según nivel de educación (categórica: más de 2 categorías)

prueba_anova <- aov(ingreso ~ educacion, data = datos) #Hacer prueba y guardarla en un objeto
summary(prueba_anova)#Visualizar el resultado
##             Df    Sum Sq   Mean Sq F value Pr(>F)    
## educacion    2 5.628e+13 2.814e+13   81.01 <2e-16 ***
## Residuals   97 3.370e+13 3.474e+11                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretación: La prueba ANOVA se usa cuando se desea comparar la media de una variable cuantitativa en tres o más grupos. El valor-p del análisis fue menor a 0.05, por lo que se concluye que existen diferencias significativas en el ingreso promedio según el nivel educativo alcanzado. En consecuencia, podríamos afirmar que la educación tiene un efecto significativo sobre los ingresos.


2. Comparación de dos variables categóricas (cualitativas)


2.1 Prueba de diferencia de proporciones

Se usa para comparar proporciones entre dos grupos independientes. Para comparar una misma proporción entre dos grupos independientes.

Hipótesis: \[ H_0: p_1 = p_2 \quad vs \quad H_1: p_1 \ne p_2 \]

Estadístico de prueba: \[ z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1 - \hat{p})(\frac{1}{n_1} + \frac{1}{n_2})}} \]

Donde \(\hat{p} = \frac{x_1 + x_2}{n_1 + n_2}\)

Diferencia de proporciones: Empleo formal según zona

prop.test(table(datos$zona, datos$empleo_formal))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  table(datos$zona, datos$empleo_formal)
## X-squared = 6.1054e-31, df = 1, p-value = 1
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.2268736  0.1962778
## sample estimates:
##    prop 1    prop 2 
## 0.5217391 0.5370370

Interpretación: La prueba de diferencia de proporciones compara la proporción de empleo formal en las zonas urbana y rural. El valor-p fue mayor que 0.05. Por lo tanto, se no se rechaza la hipótesis nula: la proporción de empleo formal no varía significativamente entre zonas.

2.2 Prueba Chi-cuadrado

Se utiliza para determinar si dos variables categóricas (de cualquier número de niveles) están asociadas. Generaliza la comparación a tablas mayores que 2x2.

Hipótesis: \[ H_0: \text{Las variables son independientes} \quad vs \quad H_1: \text{Las variables están asociadas} \]

Estadístico de prueba: \[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]

Donde \(E_{ij} = \frac{(\text{total fila}_i)(\text{total columna}_j)}{n}\)

Prueba chi-cuadrado: Educación vs. Tipo de empleo

tabla_chi <- table(datos$educacion, datos$empleo) #Se crea la tabla de contingencia
chisq.test(tabla_chi) # Prueba Chi basada en la tabla de contingencia creada
## 
##  Pearson's Chi-squared test
## 
## data:  tabla_chi
## X-squared = 34.084, df = 2, p-value = 3.969e-08

Interpretación: La prueba chi-cuadrado evalúa si existe asociación entre dos variables cualitativas. En este caso, el valor-p menor a 0.05 indica una asociación significativa entre el nivel educativo y el tipo de empleo. Esto sugiere que las personas con mayor nivel educativo tienen más probabilidad de acceder al empleo formal.


3. Comparación entre dos variables numéricas (cuantitativas)


3.1 Coeficiente de correlación de Pearson

Mide la fuerza y dirección de la relación lineal entre dos variables cuantitativas.

Hipótesis: \[ H_0: \rho = 0 \quad vs \quad H_1: \rho \ne 0 \]

Estadístico de prueba: \[ t = \frac{r \sqrt{n - 2}}{\sqrt{1 - r^2}} \]

Correlación: Años de educación vs. ingreso

cor.test(datos$educacion_anios, datos$ingreso)
## 
##  Pearson's product-moment correlation
## 
## data:  datos$educacion_anios and datos$ingreso
## t = 14.768, df = 98, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7578810 0.8830005
## sample estimates:
##       cor 
## 0.8306476

Interpretación: La correlación de Pearson evalúa la relación lineal entre dos variables cuantitativas. Se obtuvo un coeficiente de 0.83 con un valor-p menor a 0.05, lo que indica una correlación positiva y significativa. Es decir, a mayor número de años de educación, mayor ingreso mensual, en línea con teorías económicas de capital humano.

3.2 Regresión lineal

Modelo para predecir una variable cuantitativa (Y) en función de otra (X):

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \]

Se estima por mínimos cuadrados: \[ \hat{\beta}_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2}, \quad \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} \]

Regresión lineal simple: Predecir ingreso por educación

modelo <- lm(ingreso ~ educacion_anios, data = datos) #correr modelo y guardarlo
summary(modelo) #Resumen 
## 
## Call:
## lm(formula = ingreso ~ educacion_anios, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1248215  -370080   -22128   285160  1261533 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       717475     177838   4.034 0.000109 ***
## educacion_anios   223297      15120  14.768  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 533500 on 98 degrees of freedom
## Multiple R-squared:   0.69,  Adjusted R-squared:  0.6868 
## F-statistic: 218.1 on 1 and 98 DF,  p-value: < 2.2e-16

Interpretación: El modelo de regresión lineal simple estima la relación entre los años de educación y el ingreso mensual. El coeficiente de pendiente indica que por cada año adicional de educación, el ingreso mensual aumenta en promedio en aproximadamente 200 mil pesos. El valor-p asociado al coeficiente de educacion_anios es significativo, lo que respalda la utilidad predictiva del modelo. El R² indica qué proporción de la variabilidad del ingreso se explica por la educación formal.


Conclusiones

Cada una de las pruebas utilizadas respondió a preguntas diferentes sobre la desigualdad:

  • La prueba t evidenció que no existe una brecha de género en la población estudiada.
  • El ANOVA mostró que los ingresos difieren significativamente por nivel educativo.
  • La chi-cuadrado mostró asociación entre educación y empleo.
  • La correlación validó la relación positiva entre educación e ingreso.
  • La regresión lineal planteó que la educación tiene un efecto significativo sobre el ingreso.