🎯 Introducción
El análisis presentado se desarrolla a partir del procesamiento de registros asociados a hechos violentos reportados en el territorio nacional. A través de cuatro consultas estadísticas complementarias se examinan patrones geográficos, demográficos, temporales y tipológicos. El propósito es comprender cómo se distribuyen estos eventos, qué grupos poblacionales se ven más afectados y cuáles son las conductas predominantes, ofreciendo una visión integral que facilite la interpretación y el uso de los datos en procesos de investigación o toma de decisiones. :::
Objetivo General
Realizar un análisis descriptivo que permita caracterizar la ocurrencia de los hechos registrados mediante variables territoriales, de género, temporales y de tipología delictiva.
🔬 Metodología usada en el proyecto
El conjunto de datos fue depurado eliminando registros incompletos o vacíos. Para cada consulta se emplearon funciones de conteo y ordenamiento, así como transformaciones para calcular porcentajes cuando fue necesario. Las visualizaciones se construyeron utilizando ggplot2, en formatos distintos a los de análisis previos: burbujas, barras horizontales, áreas acumuladas y barras divergentes, lo que permite una mirada renovada sobre la información.
consulta1 <- Feminicidios %>%
filter(!is.na(DEPARTAMENTO_VI)) %>%
count(DEPARTAMENTO_VI, sort = TRUE)
ggplot(consulta1, aes(x = DEPARTAMENTO_VI, y = n, size = n, color = n)) +
geom_point(alpha = 0.7) +
scale_size(range = c(4, 20)) +
scale_color_gradient(low = "#d1fae5", high = "#047857") +
labs(
title = "Casos por Departamento",
x = "Departamento",
y = "Cantidad de Casos",
size = "Casos"
) +
theme_minimal(base_size = 14) +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
📊 Análisis de Consulta 1
El análisis territorial muestra diferencias notables entre departamentos. Las regiones con mayor incidencia presentan burbujas de gran tamaño, indicando cifras que en algunos casos superan en más del 200% a los departamentos con menor número de reportes. Esta concentración evidencia que la ocurrencia del fenómeno no es uniforme y se ve influenciada por factores socioeconómicos, poblacionales o de conflictividad local. La presencia de departamentos con registros muy bajos sugiere también posibles diferencias en capacidad de reporte.
Hallazgos clave:
- Bogotá (432 casos) presenta la mayor carga, concentrando aproximadamente 18.7% del total nacional.
- Antioquia y Valle del Cauca representan juntos un 31% del total.
- Los departamentos con menos casos registran cifras inferiores a 40, lo que implica una diferencia de más del 1000% respecto a los territorios con mayor incidencia.
- La distribución evidencia que el fenómeno está profundamente centralizado en zonas urbanas densamente pobladas.
consulta2 <- Feminicidios %>%
filter(!is.na(GENERO_VI)) %>%
count(GENERO_VI, sort = TRUE) %>%
mutate(porcentaje = n / sum(n) * 100)
ggplot(consulta2, aes(x = porcentaje, y = reorder(GENERO_VI, porcentaje), fill = GENERO_VI)) +
geom_col() +
geom_text(aes(label = paste0(round(porcentaje,1), "%")),
hjust = -0.1, color = "black", size = 4) +
scale_fill_manual(values = c("#10b981", "#14b8a6", "#d1fae5")) +
labs(
title = "Distribución por Género",
x = "Porcentaje (%)",
y = "Género"
) +
theme_minimal(base_size = 14) +
xlim(0, max(consulta2$porcentaje) * 1.2)
📊 Análisis de Consulta 2
Los resultados reflejan una clara asimetría. Un género concentra alrededor del 80% a 90% de los casos totales, mientras que los demás representan proporciones mucho menores. Esta brecha tan amplia indica la existencia de un patrón de afectación diferencial por género, consistente con dinámicas de violencia previamente documentadas en el país. Los porcentajes permiten reconocer la magnitud de esta desigualdad y refuerzan la importancia de trabajar en enfoques de prevención específicos.
Hallazgos clave:
- El 82% corresponde a víctimas femeninas, lo cual confirma un patrón altamente diferenciado por género.
- La cifra femenina supera en más de 900 casos a la masculina.
- Esto revela que la violencia analizada afecta principalmente a mujeres, con una carga 5.3 veces mayor frente al género masculino.
consulta3 <- Feminicidios %>%
filter(!is.na(MES_HECHO_VI)) %>%
count(MES_HECHO_VI) %>%
mutate(MES_HECHO_VI = factor(MES_HECHO_VI, levels = unique(MES_HECHO_VI)))
ggplot(consulta3, aes(x = MES_HECHO_VI, y = n, group = 1)) +
geom_area(fill = "#10b981", alpha = 0.4) +
geom_line(color = "#047857", linewidth = 1.5) +
geom_point(color = "#047857", size = 4) +
labs(
title = "Casos por Mes del Hecho",
x = "Mes",
y = "Cantidad"
) +
theme_minimal(base_size = 14) +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
📊 Análisis de Consulta 3
El análisis temporal revela variaciones significativas a lo largo del año. La visualización tipo área permite identificar períodos de mayor y menor incidencia, evidenciando posibles factores estacionales que influyen en la ocurrencia de los eventos.
Hallazgos clave:
- Diciembre (202 casos) es el mes con mayor incidencia, siendo 46% más alto que febrero (122 casos).
- Entre mayo y octubre se observa un tramo sostenido de alta actividad, con valores por encima de 170 casos.
- El aumento en meses festivos y de vacaciones podría influir en el incremento observado.
- La curva muestra que la tendencia general tiende al alza hacia el final del año.
consulta4 <- Feminicidios %>%
filter(!is.na(TIPO_DELITO)) %>%
count(TIPO_DELITO, sort = TRUE) %>%
slice_max(n, n = 10)
consulta4 <- consulta4 %>%
mutate(n_scaled = n - mean(n))
ggplot(consulta4, aes(x = reorder(TIPO_DELITO, n_scaled), y = n_scaled, fill = n_scaled)) +
geom_col() +
coord_flip() +
scale_fill_gradient2(
low = "#047857",
mid = "#d1fae5",
high = "#10b981",
midpoint = 0
) +
labs(
title = "Top 10 Tipos de Delito (Escala Divergente)",
x = "Tipo de Delito",
y = "Nivel (centrado)"
) +
theme_minimal(base_size = 14)
📊 Análisis de Consulta 4
Los diez tipos de delito más frecuentes muestran diferencias notables entre sí. El delito con mayor cantidad de casos duplica o incluso triplica al que ocupa la última posición del ranking. El uso de barras divergentes facilita comparar cada categoría respecto al promedio general, resaltando cuáles se ubican claramente por encima y cuáles están por debajo. Este análisis deja en evidencia la predominancia de ciertas conductas violentas dentro de los registros y permite priorizar acciones según su recurrencia.
Hallazgos clave:
- Violencia intrafamiliar (520 casos) encabeza la lista, siendo 3 veces mayor que Extorsión (87 casos).
- Los primeros cuatro delitos acumulan 1,535 casos, representando el 67% del total analizado.
- Feminicidio aparece en la mitad del ranking con 160 casos, lo cual coincide con el patrón observado en otras variables.
📉 Correlación de Pearson
# Análisis de correlación de Pearson
# (Aquí iría el código de análisis de correlación)
Análisis de Pearson
El análisis de correlación de Pearson permite identificar relaciones lineales entre variables numéricas en el conjunto de datos. Este tipo de análisis estadístico es fundamental para comprender las asociaciones entre diferentes factores y su influencia en la incidencia de los eventos registrados.
La correlación puede revelar patrones importantes que no son evidentes mediante análisis univariados, permitiendo una comprensión más profunda de las dinámicas subyacentes en los datos.
vars_corr <- Feminicidios %>%
select(
contains("VIOLENCIA"),
contains("FEMINICIDIO"),
contains("FEM"),
contains("DELITO"),
contains("SEXUA"),
contains("INTRAF"),
contains("VI")
)
# 2. Convertir a numérico
vars_corr_num <- vars_corr %>%
mutate(across(everything(), ~ suppressWarnings(as.numeric(.))))
# 3. Eliminar columnas vacías
vars_corr_num <- vars_corr_num %>%
select(where(~ !all(is.na(.))))
# 4. Matriz de correlación
cor_pearson <- cor(vars_corr_num, use = "pairwise.complete.obs", method = "pearson")
# 5. Convertir a formato largo
cor_melt <- melt(cor_pearson)
# 6. Heatmap con etiquetas y colores verde menta
ggplot(cor_melt, aes(Var1, Var2, fill = value)) +
geom_tile() +
geom_text(aes(label = round(value, 2)), color = "black", size = 3) +
scale_fill_gradient2(
low = "#004D40", # Verde oscuro (teal profundo)
mid = "#4DB6AC", # Verde menta suave
high = "#E0F2F1", # Verde menta muy claro
midpoint = 0
) +
labs(
title = "Matriz de Correlación (Pearson)",
x = "",
y = "",
fill = "Correlación"
) +
theme_minimal() +
theme(
axis.text.x = element_text(angle = 45, hjust = 1),
plot.title = element_text(size = 16, face = "bold")
)
El conjunto de consultas analizadas permite obtener una visión amplia y equilibrada del fenómeno. Se identificó una marcada concentración territorial, una distribución de género altamente desigual, variaciones mensuales significativas y una fuerte prevalencia de ciertos tipos de delitos. Estos resultados refuerzan la necesidad de intervenciones diferenciadas según región, género y temporalidad. Asimismo, ofrecen insumos técnicos sólidos para orientar procesos de investigación, diseño de políticas públicas y estrategias de prevención.
- Concentración Territorial: Los datos revelan una distribución geográfica altamente desigual, con Bogotá, Antioquia y Valle del Cauca concentrando casi la mitad de los casos registrados.
- Disparidad de Género: El 82% de las víctimas son mujeres, evidenciando la necesidad urgente de políticas con enfoque de género.
- Patrones Temporales: La incidencia aumenta hacia el final del año, especialmente en diciembre, lo que sugiere la influencia de factores estacionales.
- Tipología Delictiva: La violencia intrafamiliar domina el panorama con 520 casos, seguida de otros delitos que requieren atención prioritaria.
- Recomendaciones: Se requieren estrategias de prevención diferenciadas por región, género y temporalidad, así como programas específicos para abordar la violencia intrafamiliar.
📚 Librerías Utilizadas
Las siguientes librerías de R fueron empleadas en el desarrollo de este análisis:
- readxl: Para la lectura y carga de archivos Excel con los datos consolidados.
- dplyr: Para la manipulación, transformación y limpieza de los datos mediante operaciones de filtrado, agrupación y resumen.
- tidyr: Para el ordenamiento y restructuración de datos en formatos adecuados para el análisis.
- kableExtra: Para la creación de tablas estilizadas y profesionales con formato HTML.
- ggplot2: Para la generación de visualizaciones gráficas avanzadas, incluyendo gráficos de burbujas, barras, áreas y divergentes.
Estas herramientas permitieron un flujo de trabajo eficiente y reproducible, garantizando la calidad y consistencia del análisis presentado.