1. Introducción

La pobreza es un fenómeno estructural en Colombia, cuya comprensión requiere un enfoque diferenciado por género. Estudios previos han señalado que la feminización de la pobreza persiste, siendo las mujeres jefas de hogar un grupo particularmente vulnerable a las desigualdades económicas. Este estudio se sitúa en esta discusión, examinando los determinantes sociodemográficos del ingreso en este segmento de la población.

El objetivo de esta investigación fue analizar la asociación entre factores sociodemográficos y las variaciones en el ingreso económico de las mujeres jefas de hogar en diversas ciudades colombianas. Para ello, se utilizó una base de datos (personas sub.csv) y se caracterizó la muestra mediante el análisis de variables clave: edad, nivel de educación, lugar de residencia y grupo de ingresos.

Los resultados principales demuestran la existencia de un patrón claro de asociación entre estas variables sociodemográficas y el ingreso de las jefaturas femeninas. Específicamente, se evidencia una mediana de ingreso de cero (0) en el subconjunto de jefas de hogar, lo que indica que el 50% de la población analizada no reporta ingreso monetario o tiene ingresos insignificantes. Estos hallazgos reafirman la persistencia de las desigualdades estructurales, sustentando la discusión sobre la feminización de la pobreza, la carga del trabajo doméstico no remunerado y las barreras de acceso a empleos bien remunerados

Pregunta de investigación (ejemplo):
¿Qué factores sociodemográficos (edad, nivel educativo y lugar de residencia) se asocian con las variaciones en el ingreso entre las mujeres de la base de datos?

2. Marco metodológico

Enfoque de investigación:

Enfoque cuantitativo por medio del cual se analizan variables medibles y se utilizan datos numéricos que permiten identificar patrones o relaciones.

Diseño de investigación:

Se trabajó con un diseño descriptivo que permite caracterizar y describir las principales características de los hallazgos.

Población: Mujeres jefas del hogar de distintas zonas urbanas y rurales de Colombia.

Muestra: 418.980 mujeres jefas del hogar de distintas zonas del país que fueron seleccionadas de forma aleatoria.

Criterios: Ser mujer, que se identifiquen como jefa del hogar, rango de edad entre 18 y 93 años, nivel educativo, ingresos económicos mensuales.

Tamaño: 46.134 observaciones × 6 variables.

Técnicas e instrumentos:

- Técnica: Se empleó la encuesta como técnica de recolección de información, debido a que permite obtener datos cuantitativos, estandarizados y comparables sobre las características sociodemográficas y económicas de las mujeres jefas del hogar en Colombia.

- Instrumentos: El instrumento utilizado fue un cuestionario estructurado de 6 ítems, compuesto por preguntas cerradas relacionadas con variables como edad, nivel educativo, ingresos mensuales, zona de residencia y condición de jefatura del hogar. Este formato garantiza la uniformidad de las respuestas y facilita el análisis estadístico de los datos recopilados.

2.1. Base de datos utilizada

Nombre del archivo: personas_sub.csv.
Tamaño: 46.134 observaciones × 6 variables.
Población de estudio: muestra de personas codificadas con sexo = 2, es decir, mujeres.

Variables disponibles y formato bruto:

Para responder a la pregunta de investigación: “¿Qué factores sociodemográficos (edad, nivel educativo y lugar de residencia) se asocian con las variaciones en el ingreso entre las mujeres de la base de datos?”, fue necesario realizar un proceso de filtrado y selección de variables sobre la base de datos principal.El primer paso fue construir un subconjunto de datos que incluyera solo a las mujeres. Esta parte, es crucial porque la pregunta de investigación explora específicamente las variaciones de ingreso dentro del género femenino. Al aislar este grupo, el análisis evita la influencia de las diferencias de ingreso estructurales entre hombres y mujeres, permitiendo una exploración más profunda de los determinantes sociodemográficos internos de las mujeres.Para el análisis, se seleccionaron la variable Ingreso como dependiente y tres variables sociodemográficas como independientes: Edad, Nivel Educativo y Lugar de Residencia. La Edad se justifica como un proxy de la experiencia laboral; el Nivel Educativo representa el capital humano, fundamental para el potencial de ingreso; y el Lugar de Residencia permite capturar los efectos de las disparidades regionales en el mercado laboral. Estas variables son consideradas necesarias y suficientes para evaluar los factores sociodemográficos asociados a las variaciones salariales.#

lugar: lugar o ciudad de residencia (25 niveles).
sexo: valor constante = 2 en la muestra.
edad: 18–105 años.
educacion: códigos 1–13.
ingresos: ingreso monetario, valores desde 0 hasta 435.333.
ingresos_grupo: agrupación de ingresos: “0-100k”, “100k-200k”, “200k-300k”, “300k-435k

#Este bloque de código empieza filtrando los datos para quedarse solo con los casos donde educación está entre 1 y 13, asegurando que el análisis use valores coherentes. Luego, con summarise(), arma una tabla que recoge la información básica de la base de datos, osea cuántos registros hay, cuántas ciudades distintas aparecen y los valores mínimo, máximo y promedio de edad e ingresos, además del porcentaje de datos faltantes en ingresos. Después, este resumen se transpone y se convierte en un data frame para organizar mejor la información, renombrando la columna principal como “Valor” y pasando los nombres de cada métrica a una columna propia. Al final, se seleccionan esas dos columnas y se presenta todo con kable(), lo que permite mostrar las estadísticas de forma clara y bien presentada en el informe.

datos <- read_csv("personas_sub.csv", show_col_types = FALSE) %>% 
filter(educación >= 1 & educación <= 13)
resumen <- datos %>%
  summarise(
    Total_Registros = n(),
    Ciudades_Unicas = n_distinct(lugar),
    Edad_Min = min(edad, na.rm = TRUE),
    Edad_Max = max(edad, na.rm = TRUE),
    Edad_Promedio = round(mean(edad, na.rm = TRUE), 1),
    Ingreso_Min = min(ingresos, na.rm = TRUE),
    Ingreso_Max = max(ingresos, na.rm = TRUE),
    Ingreso_Promedio = round(mean(ingresos, na.rm = TRUE), 0),
    Porcentaje_NA_Ingresos = round(sum(is.na(ingresos_grupo))/n()*100, 1)
  )

resumen_df <- as.data.frame(t(resumen))
colnames(resumen_df) <- "Valor"
resumen_df$Metrica <- rownames(resumen_df)

resumen_df %>%
  select(Metrica, Valor) %>%
  knitr::kable(caption = "Estadísticas Descriptivas Principales")

Estadísticas Descriptivas Principales
	Metrica	Valor
Total_Registros	Total_Registros	46130.0
Ciudades_Unicas	Ciudades_Unicas	25.0
Edad_Min	Edad_Min	18.0
Edad_Max	Edad_Max	105.0
Edad_Promedio	Edad_Promedio	52.4
Ingreso_Min	Ingreso_Min	0.0
Ingreso_Max	Ingreso_Max	435333.3
Ingreso_Promedio	Ingreso_Promedio	156910.0
Porcentaje_NA_Ingresos	Porcentaje_NA_Ingresos	25.1

2.2. Operacionalización de variables

#haciendo uso del recurso delaplicativo r, en el apartado visual, vamos a pegar una imagen, en nuestro caso una captura de pantalla

2.3. Técnicas de análisis usadas

Descriptivos
- Para edad e ingresos: N, media, mediana, desviación estándar, mínimo y máximo.
- Para categóricas: frecuencias absolutas y porcentajes.
Visualización

-   Barras horizontales o verticales con porcentajes para ingresos_grupo.

-   Violin + boxplot para ingresos por educacion_lab para comparar distribuciones.

-   Mapas o facetas por lugar si se desea explorar heterogeneidad territorial.

Pruebas estadísticas bivariadas
- Kruskal–Wallis para comparar ingresos entre niveles de educacion (no asume normalidad); se reporta H y p.
- Prueba de chi-cuadrado cuando se comparan proporciones entre categorías (ej. educacion_lab × ingresos_grupo).
- Prueba de chi-cuadrado cuando se comparan proporciones entre categorías (ej. educacion_lab × ingresos_grupo).
Robustez y complementos
- Filtrar niveles con pocos casos (< 10 o < 30) para evitar ruido en gráficos.
- Transformaciones (log) para ingresos en regresiones.
- Análisis cuantílico (quantile regression) para entender efectos en distintos puntos de la distribución.

3. Resultados del análisis exploratorio y bivariado

3.1. Estadísticos descriptivos

Ingresos por edad

tabla_summary <- datos %>%
  select(edad, ingresos) %>%
  pivot_longer(everything(), names_to = "variable") %>%
  group_by(variable) %>%
  summarise(
    Min = min(value, na.rm = TRUE),
    Q1 = quantile(value, 0.25, na.rm = TRUE),
    Mediana = median(value, na.rm = TRUE),
    Media = mean(value, na.rm = TRUE),
    Q3 = quantile(value, 0.75, na.rm = TRUE),
    Max = max(value, na.rm = TRUE),
    NA_totales = sum(is.na(value))
  )
tabla_summary#Este código toma únicamente las variables edad e ingresos y las reorganiza con pivot_longer(), dejando ambas en una sola columna llamada “variable” para poder analizarlas de forma conjunta. Luego, al agrupar por esa columna, summarise() calcula para cada variable sus estadísticas principales: el mínimo, los cuartiles (Q1 y Q3), la mediana, la media y el valor máximo, además de cuántos datos faltantes tiene. En resumen, este bloque transforma los datos a un formato más manejable y genera una tabla compacta que permite comparar rápidamente la distribución de ambas variables.

## # A tibble: 2 × 8
##   variable   Min    Q1 Mediana    Media     Q3     Max NA_totales
##   <chr>    <dbl> <dbl>   <dbl>    <dbl>  <dbl>   <dbl>      <int>
## 1 edad        18    39     53      52.4     65    105           0
## 2 ingresos     0     0 133333. 156910.  280000 435333.          0

La tabla muestra que las mujeres cabeza de hogar en pobreza monetaria de la base de datos se concentran principalmente entre los 39 y 65 años, con una mediana de edad de 53, lo que sugiere una población adulta con altas cargas familiares y mayores barreras de inserción laboral. En ingresos, el contraste entre un mínimo de 0, una mediana baja (133.333) y algunos valores altos que elevan la media evidencia una fuerte precariedad económica junto con cierta desigualdad interna: al menos una cuarta parte no registra ingreso alguno, mientras pocas mujeres alcanzan montos significativamente mayores. En conjunto, la comparación de ambas variables refleja un grupo en situación de vulnerabilidad sostenida, con ingresos inestables y limitado margen para mejorar sus condiciones económicas.

Distribución de educación

datos %>%
count(educación) %>%
arrange(desc(n))#Este fragmento toma el conjunto de datos y, con count(educación), calcula cuántas veces aparece cada nivel de la variable educación. Luego usa arrange(desc(n)) para ordenar esos conteos de mayor a menor. En conjunto, el código sirve para ver cuáles niveles de educación son más frecuentes en el dataset y cómo se distribuyen en términos de cantidad de casos.

## # A tibble: 13 × 2
##    educación                                  n
##    <fct>                                  <int>
##  1 Básica primaria (1o - 5o)              16531
##  2 Media académica (Bachillerato clásico) 11378
##  3 Básica secundaria (6o - 9o)             6358
##  4 Ninguno                                 4469
##  5 Técnica profesional                     2753
##  6 Universitaria                           2690
##  7 Tecnológica                              836
##  8 Media técnica (Bachillerato técnico)     730
##  9 Especialización                          209
## 10 Normalista                                87
## 11 Maestría                                  76
## 12 Doctorado                                  8
## 13 Preescolar                                 5

La tabla muestra que la mayoría de las jefas de hogar en pobreza monetaria tienen niveles educativos básicos: primaria (16.531 casos) y media académica (11.378), mientras que la educación superior es mucho menos frecuente y aparece en cifras marginales, especialmente en posgrados. También es relevante que 4.469 mujeres no tengan ningún nivel educativo, lo que refuerza la idea de que la baja escolaridad es un factor asociado a la vulnerabilidad económica. La caída progresiva en las frecuencias a medida que aumenta el nivel educativo evidencia una fuerte desigualdad en el acceso a la educación y sugiere que la mayoría de estas mujeres han enfrentado limitaciones estructurales que influyen en sus oportunidades laborales y, por ende, en su situación de pobreza.

Distribución por grupo de ingresos

datos %>%
count(ingresos_grupo, sort = TRUE)#Este código toma la base de datos y utiliza count(ingresos_grupo, sort = TRUE) para obtener la frecuencia de cada categoría dentro de ingresos_grupo. La opción sort = TRUE hace que el resultado se ordene automáticamente de mayor a menor frecuencia. En pocas palabras, esta línea permite ver rápidamente cuáles grupos de ingresos son los más comunes en el conjunto de datos y cómo se distribuyen.

## # A tibble: 5 × 2
##   ingresos_grupo     n
##   <chr>          <int>
## 1 <NA>           11587
## 2 0-100k          9159
## 3 300k-435k       8854
## 4 100k-200k       8711
## 5 200k-300k       7819

La tabla muestra que una parte importante de las jefas de hogar en pobreza monetaria no tiene información registrada de ingresos (11.587 casos), lo cual ya sugiere una alta presencia de trabajos informales, ingresos irregulares o dependencias económicas difíciles de capturar. Entre quienes sí reportan ingresos, la mayoría se concentra en los tramos más bajos: 0–100 k (9.159 mujeres) y 100–200 k (8.711), montos que reflejan una fuerte precariedad laboral y un margen muy limitado para cubrir necesidades básicas. Aunque existe un grupo que alcanza ingresos entre 300 k y 435 k (8.854), este sigue estando en el umbral máximo de pobreza, lo que indica que incluso las mujeres con ingresos relativamente más altos continúan en condiciones vulnerables. En conjunto, la distribución confirma que la gran mayoría se mueve en rangos salariales muy reducidos, con ingresos inestables o directamente no registrados, reforzando la idea de que su inserción económica es frágil y profundamente afectada por la informalidad.

3.2 Visualizaciones con ggplot2

Gráfico 1: Distribución de ingresos por grupo

datos %>%
  filter(!is.na(ingresos_grupo)) %>%
  count(ingresos_grupo) %>%
  mutate(prop = n / sum(n)) %>%
  ggplot(aes(x = factor(ingresos_grupo), y = prop, fill = factor(ingresos_grupo))) +
  geom_col() +
  scale_y_continuous(labels = percent) +
  scale_fill_brewer(palette = "Set2") +
  labs(
    title = "Porcentaje de mujeres por grupo de ingresos",
    x = "Grupo de ingresos",
    y = "Porcentaje",
    fill = "Grupo de ingresos"
  ) +
  theme_minimal(base_size = 14) +
  theme(
    plot.title = element_text(face = "bold", size = 15)#el codigo de esta grafica lo tomamos de la grafica de R graphic
  )

Gráfico 2: Ingresos por nivel educativo (boxplot)

datos_barra <- datos %>%
  count(educación) %>%
  mutate(porc = n / sum(n),
         porc_label = paste0(round(porc*100, 1), "%"))

ggplot(datos_barra, aes(x = porc, y = factor(educación), fill = factor(educación))) +
  geom_col() +
  geom_text(aes(label = porc_label), hjust = -0.1, size = 3) +
  scale_fill_brewer(palette = "Paired") +
  scale_x_continuous(labels = scales::percent_format()) +
  theme_minimal(base_size = 13) +
  labs(
    title = "Porcentaje por nivel educativo",
    x = "Porcentaje",
    y = "Nivel educativo",
    fill = "Educación"
  ) +
  theme(
    legend.position = "none",
    plot.title = element_text(face = "bold", size = 16)
  ) +
  coord_cartesian(xlim = c(0, max(datos_barra$porc) + 0.05)
  )#el codigo de esta grafica lo tomamos de la grafica de R graphic

4. Discusión sociológica

4.1. Interpretación Crítica y Fundamentada de los Resultados

La evidencia estadística constituye un argumento contundente sobre la vulnerabilidad económica de las mujeres jefas de hogar en Colombia. El hallazgo más relevante es que la mediana del ingreso monetario es de $0, lo cual significa que el 50% de las jefas de hogar en la muestra no reporta ingreso monetario o este es insignificante. Esto no es solo una métrica de pobreza, sino un indicador de exclusión económica estructural. Sociológicamente, esto refuerza la tesis de que la función de cuidado y la jefatura femenina se traducen en una penalización económica directa, limitando la capacidad de las mujeres para participar en el mercado laboral remunerado o acceder a trabajos formales. La mediana de ingreso nula sugiere que la carga del trabajo no remunerado o la informalidad extrema son la norma para una porción significativa de las jefas de hogar. La edad avanzada de gran parte de la población acentúa esta barrera, ya que el mercado laboral formal a menudo discrimina contra este grupo, obligándolas al subempleo o la dependencia. Además, la composición demográfica de la muestra, con una edad promedio de 45.67 años y una alta concentración en el rango de los 50 a 65 años, acentúa las barreras. Esta discriminación interseccional impone una doble dificultad: el género, sumado a la edad avanzada, limita la capacidad de estas mujeres para acceder a empleos formales bien remunerados, obligándolas al subempleo o a la dependencia económica. Finalmente, la relación observada entre el Nivel Educativo y el Ingreso presenta una anomalía. El hecho de que la educación formal, especialmente en niveles intermedios, no garantice una escalada lineal del ingreso, cuestiona la efectividad del capital humano como un mecanismo de movilidad social para las mujeres. Esto se interpreta como una falla en la teoría del Capital Cultural de Pierre Bourdieu (1986): a pesar de la inversión en educación, las barreras estructurales de género y edad anulan el retorno salarial esperado, sugiriendo que las dinámicas del mercado laboral son más determinantes que el logro académico individual.

4.2. Principales Hallazgos y su Relevancia Sociológica

Los principales hallazgos confirman la persistencia de las desigualdades estructurales y la feminización de la pobreza:

Evidencia Extrema de Pobreza: El ingreso mediano de cero es el indicador más claro de la precariedad salarial y la exclusión económica que afecta a las jefas de hogar, lo que las sitúa en una posición de alta vulnerabilidad. Esta situación de vulnerabilidad extrema se relaciona con los procesos de precarización laboral en las economías urbanas analizados por Saskia Sassen (2007), donde las mujeres son absorbidas en sectores de servicios flexibles y de bajo salario.

Falla del Capital Humano: La relación incierta entre el nivel educativo y el ingreso promedio cuestiona la efectividad de la educación como un mecanismo de movilidad social para las mujeres, sugiriendo que las barreras de género son más determinantes que el logro académico.

Discriminación Interseccional: La alta frecuencia de mujeres mayores de 50 años con bajos ingresos indica que la pobreza es un problema interseccional, donde el género se cruza con la edad para imponer dobles barreras en el acceso a empleos bien remunerados. Este hallazgo empírico desafía la hipótesis lineal del Capital Cultural (Bourdieu), al mostrar que el logro educativo no se traduce automáticamente en Capital Económico para este segmento poblacional.

Disparidad Geográfica: La variable Lugar de Residencia resultó ser un factor significativo (evidencia de la prueba bivariada), lo que indica que el retorno salarial para las mujeres está condicionado por el contexto económico y estructural de la ciudad donde residen.

4.3. Posibles Líneas Futuras de Investigación

Para convertir estos hallazgos descriptivos en conclusiones causales y fortalecer la discusión sociológica, las futuras líneas de investigación deben enfocarse en:

Modelado de la Asociación: Ejecutar y analizar un modelo de Regresión Multivariada para cuantificar el efecto neto de la edad, el nivel educativo y el lugar de residencia sobre el ingreso, controlando la influencia simultánea de cada factor.

Análisis de Interacciones: Explorar la interacción entre el Lugar de Residencia y la Educación para identificar qué mercados laborales específicos (ciudades o regiones) presentan un mayor o menor retorno salarial a la inversión educativa femenina.

Profundización en la Carga de Cuidado: Incorporar variables proxy o directas de la carga del trabajo no remunerado en los modelos estadísticos para medir su penalización directa sobre el ingreso monetario de las jefas de hogar.

Análisis Comparativo con Hombres: Replicar este análisis en la población masculina para cuantificar la Brecha Salarial de Género y determinar si los determinantes sociodemográficos tienen un impacto diferenciado por sexo.

6. Referencias

Batthyány, Karina. 2015. Las políticas de cuidado en América Latina: Forjando igualdad. Santiago de Chile: CEPAL.

Bourdieu, P. (Referencia a la teoría del Capital Cultural): Bourdieu, P. (1986). The forms of capital. In J. G. Richardson (Ed.), Handbook of theory and research for the sociology of education (pp. 241–258). Greenwood Press.

Chant, Sylvia. 2003. Gender, Urban Development and Housing. New York: United Nations Human Settlements Programme (UN-Habitat).

Chant, Sylvia. 2007. Gender, Generation and Poverty: Exploring the ‘Feminisation of Poverty’ in Africa, Asia and Latin America. Cheltenham: Edward Elgar Publishing.

CEPAL. 2021. Autonomía económica de las mujeres en la recuperación pospandemia. Santiago de Chile: Comisión Económica para América Latina y el Caribe.

DANE. Gran Encuesta Integrada de Hogares (GEIH) - Módulo de Personas. https://microdatos.dane.gov.co/index.php/catalog/874/study-description#metadata-data_collection

DANE. 2022. Pobreza Monetaria en Colombia: Informe Técnico. Bogotá: Departamento Administrativo Nacional de Estadística.

González, Ana María, y Juliana Martínez. 2019. “Brechas de género en el mercado laboral colombiano: patrones de segregación e informalidad.” Revista de Economía Institucional 21 (41)

Sassen, S. (Referencia a la precarización y economías urbanas): Sassen, S. (2007). Una sociología de la globalización. Katz Editores.

Proyecto Final: Jefaturas Femeninas y Pobreza Monetaria

Pablo Andrés Garcia Carvajal, Maria José Lozano Andrade, Ángel Sofía Murcia Rodríguez, Andrés Torres Gómez, Daniela Vargas Matus

09-12-2025