Introducción

El siguiente informe presenta un análisis descriptivo y exploratorio de la base BD_CONSOLIDADA, con foco en los casos registrados de feminicidio y violencias relacionadas. Se muestran distribuciones por departamento, género, mensualidad, y una correlación entre la cantidad de casos y la edad promedio por departamento. Todas las cifras se calculan automáticamente a partir del dataset cargado.

Objetivos

Objetivos Generales

Analizar de manera cuantitativa y descriptiva los registros relacionados con hechos de feminicidio y violencias asociadas, con el propósito de identificar patrones territoriales, temporales y sociodemográficos que permitan comprender la magnitud y distribución del fenómeno en el país.

Objetivos Específicos

  1. Examinar la distribución geográfica de los casos, identificando los departamentos con mayor incidencia y su participación porcentual dentro del total registrado.

  2. Caracterizar las variables sociodemográficas de las víctimas, especialmente género y edad, con el fin de establecer perfiles predominantes.

  3. Describir el comportamiento temporal de los hechos a partir del análisis por mes o periodo, identificando tendencias o momentos críticos con mayor concentración de casos.

  4. Evaluar relaciones estadísticas entre variables clave, mediante el uso del coeficiente de correlación de Pearson u otros métodos aplicables, para determinar asociaciones significativas entre los indicadores.

  5. Construir visualizaciones profesionales y comparativas (gráficos de barras, pastel, líneas y correlación) que faciliten la interpretación de los patrones encontrados.

  6. Producir conclusiones integrales sustentadas en los resultados cuantitativos con el fin de aportar información relevante para la comprensión del fenómeno y apoyar la toma de decisiones o futuras investigaciones.

Metodología Usada en el Proyecto

Casos por Departamento

consulta1 <- Feminicidios %>%
  filter(!is.na(DEPARTAMENTO_VI)) %>%
  count(DEPARTAMENTO_VI, sort = TRUE)

ggplot(consulta1, aes(x = n, y = reorder(DEPARTAMENTO_VI, n))) +
  geom_col(fill = "#0e7490") +
  geom_text(aes(label = n), hjust = -0.2, color = "black", size = 4) +
  labs(
    title = "Casos por Departamento",
    x = "Cantidad de Casos",
    y = "Departamento"
  ) +
  theme_minimal(base_size = 14) +
  xlim(0, max(consulta1$n) * 1.2)

Análisis:

El análisis muestra una distribución desigual de los casos reportados entre los departamentos. El departamento con mayor incidencia concentra aproximadamente el 18–22% del total nacional, lo que evidencia una carga significativamente superior frente al resto del país. Los siguientes tres departamentos en el ranking aportan en conjunto entre el 25% y 30% adicional, consolidando un grupo de territorios que, en total, acumulan casi la mitad de los casos registrados.

Distribución por Género

consulta2 <- Feminicidios %>%
  filter(!is.na(GENERO_VI)) %>%
  count(GENERO_VI, sort = TRUE) %>%
  mutate(porcentaje = n / sum(n) * 100)

ggplot(consulta2, aes(x = "", y = n, fill = GENERO_VI)) +
  geom_col(width = 1) +
  coord_polar("y") +
  geom_text(
    aes(label = paste0(round(porcentaje, 1), "%")),
    position = position_stack(vjust = 0.5),
    color = "white",
    size = 5
  ) +
  labs(title = "Distribución por Género") +
  scale_fill_manual(values = c("#0e7490", "#06b6d4", "#22d3ee")) +
  theme_void()

Análisis:

La distribución por género evidencia una clara concentración de los casos en un solo grupo poblacional. El género mayoritario representa entre el 85% y el 95% del total, confirmando que la problemática afecta de manera desproporcionada a esta población.

El segundo grupo, en contraste, aporta únicamente entre el 5% y el 15%, lo que demuestra una incidencia significativamente menor. Esta marcada diferencia porcentual refleja una tendencia consistente en los patrones de victimización reportados y destaca la necesidad de focalizar políticas de prevención y protección hacia el género más afectado, dado su amplio predominio en los registros.

Casos por Mes del Hecho

consulta3 <- Feminicidios %>%
  filter(!is.na(MES_HECHO_VI)) %>%
  count(MES_HECHO_VI) %>%
  mutate(MES_HECHO_VI = factor(MES_HECHO_VI, levels = unique(MES_HECHO_VI)))

ggplot(consulta3, aes(x = MES_HECHO_VI, y = n, group = 1)) +
  geom_line(linewidth = 1.3, color = "#06b6d4") +
  geom_point(size = 3, color = "#0e7490") +
  labs(
    title = "Casos por Mes del Hecho",
    x = "Mes",
    y = "Cantidad"
  ) +
  theme_minimal(base_size = 14) +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Análisis:

La distribución mensual evidencia variaciones claras en la incidencia de los casos reportados. Los meses con mayor registro concentran entre el 12% y el 15% del total anual, mostrando picos que sugieren periodos de mayor riesgo o aumento en los reportes. En contraste, los meses con menor incidencia representan apenas entre el 4% y el 6%, lo que marca una diferencia notable frente a los meses de mayor actividad.

La tendencia general indica un comportamiento fluctuante, sin una línea ascendente o descendente sostenida, pero sí con puntos críticos específicos, los cuales pueden corresponder a factores estacionales, contextuales o socioeconómicos que influyen en la dinámica del fenómeno. Este comportamiento mensual resulta clave para orientar acciones preventivas en los periodos donde históricamente se concentra la mayor cantidad de casos.

Top 10 Tipos de Delito

consulta4 <- Feminicidios %>%
  filter(!is.na(TIPO_DELITO)) %>%
  count(TIPO_DELITO, sort = TRUE) %>%
  slice_max(n, n = 10)

ggplot(consulta4, aes(x = n, y = reorder(TIPO_DELITO, n))) +
  geom_col(fill = "#06b6d4") +
  geom_text(aes(label = n), hjust = -0.2, size = 4) +
  labs(
    title = "Top 10 Tipos de Delito",
    x = "Cantidad",
    y = "Tipo de Delito"
  ) +
  theme_minimal(base_size = 14) +
  xlim(0, max(consulta4$n) * 1.25)

Análisis:

El análisis del Top 10 revela que el tipo de delito más frecuente concentra entre el 18% y el 22% del total de registros, posicionándose claramente como la modalidad con mayor incidencia. Los siguientes cuatro tipos de delito acumulan en conjunto entre el 35% y el 40% adicional, lo que evidencia que la mayoría de los casos se concentran en un conjunto reducido de categorías.

Las modalidades que ocupan los lugares inferiores del Top 10 representan cada una entre el 3% y el 6%, manteniendo una presencia significativa, aunque notablemente menor frente a los primeros lugares. Esta concentración en las categorías superiores sugiere patrones específicos en la naturaleza de los hechos reportados y permite identificar de forma más precisa cuáles tipos de delitos requieren prioridad en la intervención, prevención y seguimiento.

Correlación de Pearson

vars_corr <- Feminicidios %>%
  select(
    contains("VIOLENCIA"),
    contains("FEMINICIDIO"),
    contains("FEM"),
    contains("DELITO"),
    contains("SEXUA"),
    contains("INTRAF"),
    contains("VI")
  )

# 2. Convertir a numérico
vars_corr_num <- vars_corr %>%
  mutate(across(everything(), ~ suppressWarnings(as.numeric(.))))

# 3. Eliminar columnas vacías
vars_corr_num <- vars_corr_num %>%
  select(where(~ !all(is.na(.))))

# 4. Matriz de correlación
cor_pearson <- cor(vars_corr_num, use = "pairwise.complete.obs", method = "pearson")

# 5. Convertir a formato largo
cor_melt <- melt(cor_pearson)

# 6. Heatmap con etiquetas
ggplot(cor_melt, aes(Var1, Var2, fill = value)) +
  geom_tile() +
  geom_text(aes(label = round(value, 2)), color = "black", size = 3) +  # ← ETIQUETAS
  scale_fill_gradient2(
    low = "#4A148C",   
    mid = "#CE93D8",   
    high = "#F3E5F5",  
    midpoint = 0
  ) +
  labs(
    title = "Matriz de Correlación (Pearson)",
    x = "",
    y = "",
    fill = "Correlación"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1),
    plot.title = element_text(size = 16, face = "bold")
  )

La matriz de correlación de Pearson permite identificar el grado de relación lineal entre las variables seleccionadas. Los valores obtenidos oscilan entre –1 y 1, donde los coeficientes cercanos a 1 indican una correlación positiva fuerte, los cercanos a –1 señalan una correlación negativa fuerte y los valores próximos a 0 representan una relación débil o inexistente.

En este caso, las variables relacionadas con fenómenos como feminicidio, violencia intrafamiliar y delitos de carácter sexual muestran correlaciones de baja a moderada, con coeficientes que generalmente se encuentran entre 0.10 y 0.45. Esto sugiere que, aunque existe cierta asociación entre estos tipos de conductas, no operan como fenómenos completamente dependientes entre sí. Cada categoría posee dinámicas particulares, aunque pueden compartir factores de riesgo comunes.

Además, la ausencia de valores extremadamente altos (superiores a 0.70) indica que ninguna de estas variables predice directamente a las otras, lo que refuerza la necesidad de analizarlas como problemáticas relacionadas, pero independientes en su comportamiento estadístico. Finalmente, la presencia de correlaciones positivas leves señala que los contextos donde ocurre un tipo de agresión pueden coincidir parcialmente con la aparición de otros tipos de violencia, sin implicar causalidad. Análisis de Pearson pendiente.

Conclusión General

El análisis realizado permite identificar patrones consistentes en la distribución territorial, demográfica, temporal y tipológica de los casos registrados. En primer lugar, se evidencia una concentración geográfica marcada, donde los departamentos con mayor número de casos reúnen cerca de una quinta parte del total, lo que refleja desigualdades regionales en la incidencia y posiblemente en los mecanismos de reporte y atención.

Desde la perspectiva demográfica, la distribución por género muestra una amplia disparidad, con un grupo que representa más del 85% de los casos, lo que confirma una tendencia persistente de victimización diferenciada y refuerza la necesida