1. Carga de datos

df <- read_excel("Datos Violencia intrafamiliar_2023.xlsx") %>% 
  clean_names()

names(df)
##  [1] "arma_o_medio_de_agresion"                                            
##  [2] "departamento"                                                        
##  [3] "municipio"                                                           
##  [4] "fecha_del_hecho"                                                     
##  [5] "genero"                                                              
##  [6] "grupo_edad_de_la_victima"                                            
##  [7] "codigo_dane"                                                         
##  [8] "edad_de_la_victima"                                                  
##  [9] "cantidad_de_sucesos"                                                 
## [10] "numero_de_personas_por_hogar"                                        
## [11] "cantidad_de_habitaciones_por_hogar"                                  
## [12] "estrato_socioeconomico_de_la_victima"                                
## [13] "nivel_educativo_de_la_victima"                                       
## [14] "inestabilidad_residencial"                                           
## [15] "cantidad_de_establecimientos_con_venta_de_alcohol_cerca_del_hogar"   
## [16] "porcentaje_de_riesgo_de_la_victima"                                  
## [17] "porcentaje_de_actividades_comerciales_cerca_del_hogar"               
## [18] "indice_de_actividad_policial"                                        
## [19] "porcentaje_de_crimen_cerca_del_hogar"                                
## [20] "porcentaje_de_participacion_de_mujeres_en_las_decisiones_en_el_hogar"
## [21] "situacion_de_empleo_jefe_a_cabeza_de_hogar"                          
## [22] "edad_del_victimario"                                                 
## [23] "presencia_de_pandillas_juveniles"                                    
## [24] "cantidad_de_pandillas_juveniles"                                     
## [25] "presencia_de_crimen_organizado"                                      
## [26] "indice_de_pobreza"                                                   
## [27] "porcentaje_de_migrantes_venezolanos_en_el_sector"
glimpse(df)
## Rows: 190
## Columns: 27
## $ arma_o_medio_de_agresion                                             <chr> "…
## $ departamento                                                         <chr> "…
## $ municipio                                                            <chr> "…
## $ fecha_del_hecho                                                      <dttm> …
## $ genero                                                               <chr> "…
## $ grupo_edad_de_la_victima                                             <chr> "…
## $ codigo_dane                                                          <dbl> 9…
## $ edad_de_la_victima                                                   <dbl> 4…
## $ cantidad_de_sucesos                                                  <dbl> 1…
## $ numero_de_personas_por_hogar                                         <dbl> 4…
## $ cantidad_de_habitaciones_por_hogar                                   <dbl> 3…
## $ estrato_socioeconomico_de_la_victima                                 <dbl> 1…
## $ nivel_educativo_de_la_victima                                        <chr> "…
## $ inestabilidad_residencial                                            <chr> "…
## $ cantidad_de_establecimientos_con_venta_de_alcohol_cerca_del_hogar    <dbl> 4…
## $ porcentaje_de_riesgo_de_la_victima                                   <dbl> 1…
## $ porcentaje_de_actividades_comerciales_cerca_del_hogar                <dbl> 9…
## $ indice_de_actividad_policial                                         <dbl> 2…
## $ porcentaje_de_crimen_cerca_del_hogar                                 <dbl> 3…
## $ porcentaje_de_participacion_de_mujeres_en_las_decisiones_en_el_hogar <dbl> 7…
## $ situacion_de_empleo_jefe_a_cabeza_de_hogar                           <chr> "…
## $ edad_del_victimario                                                  <dbl> 6…
## $ presencia_de_pandillas_juveniles                                     <chr> "…
## $ cantidad_de_pandillas_juveniles                                      <dbl> 5…
## $ presencia_de_crimen_organizado                                       <chr> "…
## $ indice_de_pobreza                                                    <dbl> 6…
## $ porcentaje_de_migrantes_venezolanos_en_el_sector                     <dbl> 6…

2. Descripción de la base

skim(df)
Data summary
Name df
Number of rows 190
Number of columns 27
_______________________
Column type frequency:
character 10
numeric 16
POSIXct 1
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
arma_o_medio_de_agresion 0 1 12 27 0 4 0
departamento 0 1 4 18 0 24 0
municipio 0 1 4 26 0 74 0
genero 0 1 8 9 0 2 0
grupo_edad_de_la_victima 0 1 7 12 0 3 0
nivel_educativo_de_la_victima 0 1 7 19 0 7 0
inestabilidad_residencial 0 1 2 2 0 2 0
situacion_de_empleo_jefe_a_cabeza_de_hogar 0 1 5 19 0 4 0
presencia_de_pandillas_juveniles 0 1 4 5 0 3 0
presencia_de_crimen_organizado 0 1 2 2 0 2 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
codigo_dane 0 1 40357163.16 30797146.44 5.079e+06 1.5572e+07 25343500.00 6.6001e+07 9.520e+07 ▇▂▃▁▃
edad_de_la_victima 0 1 34.17 14.77 7.000e+00 2.4000e+01 33.00 4.5000e+01 7.600e+01 ▃▇▅▂▁
cantidad_de_sucesos 0 1 1.48 1.32 1.000e+00 1.0000e+00 1.00 1.0000e+00 1.000e+01 ▇▁▁▁▁
numero_de_personas_por_hogar 0 1 4.94 1.67 1.000e+00 4.0000e+00 5.00 6.0000e+00 1.200e+01 ▃▇▅▁▁
cantidad_de_habitaciones_por_hogar 0 1 2.83 0.86 1.000e+00 2.0000e+00 3.00 4.0000e+00 5.000e+00 ▁▇▆▅▁
estrato_socioeconomico_de_la_victima 0 1 1.93 1.15 1.000e+00 1.0000e+00 2.00 2.0000e+00 6.000e+00 ▇▁▁▁▁
cantidad_de_establecimientos_con_venta_de_alcohol_cerca_del_hogar 0 1 4.06 1.89 0.000e+00 3.0000e+00 4.00 5.0000e+00 1.000e+01 ▂▇▅▁▁
porcentaje_de_riesgo_de_la_victima 0 1 9.62 6.15 1.130e+00 5.5900e+00 8.84 1.2310e+01 4.963e+01 ▇▅▁▁▁
porcentaje_de_actividades_comerciales_cerca_del_hogar 0 1 16.40 8.99 1.420e+00 8.8800e+00 17.55 2.3270e+01 3.665e+01 ▇▇▇▇▂
indice_de_actividad_policial 0 1 19.18 7.19 1.880e+00 1.6460e+01 19.40 2.3200e+01 6.185e+01 ▂▇▁▁▁
porcentaje_de_crimen_cerca_del_hogar 0 1 29.87 7.68 1.300e+00 2.7580e+01 31.02 3.4120e+01 6.357e+01 ▁▂▇▁▁
porcentaje_de_participacion_de_mujeres_en_las_decisiones_en_el_hogar 0 1 76.17 11.65 1.690e+00 7.2580e+01 75.89 7.8910e+01 9.975e+01 ▁▁▁▇▂
edad_del_victimario 0 1 45.48 9.59 2.400e+01 3.7000e+01 45.00 5.3750e+01 6.700e+01 ▂▆▇▆▂
cantidad_de_pandillas_juveniles 0 1 7.24 4.07 0.000e+00 4.0000e+00 6.00 1.0000e+01 1.800e+01 ▂▇▃▂▂
indice_de_pobreza 0 1 27.92 17.16 2.400e+00 1.4290e+01 24.50 3.9720e+01 7.340e+01 ▇▇▆▃▂
porcentaje_de_migrantes_venezolanos_en_el_sector 0 1 0.18 0.78 0.000e+00 1.0000e-02 0.01 3.0000e-02 6.540e+00 ▇▁▁▁▁

Variable type: POSIXct

skim_variable n_missing complete_rate min max median n_unique
fecha_del_hecho 0 1 2021-09-01 2021-09-30 2021-09-09 30

3. Estadística descriptiva

Variables numéricas

df %>% 
  select(where(is.numeric)) %>% 
  summary() %>% 
  kable()
codigo_dane edad_de_la_victima cantidad_de_sucesos numero_de_personas_por_hogar cantidad_de_habitaciones_por_hogar estrato_socioeconomico_de_la_victima cantidad_de_establecimientos_con_venta_de_alcohol_cerca_del_hogar porcentaje_de_riesgo_de_la_victima porcentaje_de_actividades_comerciales_cerca_del_hogar indice_de_actividad_policial porcentaje_de_crimen_cerca_del_hogar porcentaje_de_participacion_de_mujeres_en_las_decisiones_en_el_hogar edad_del_victimario cantidad_de_pandillas_juveniles indice_de_pobreza porcentaje_de_migrantes_venezolanos_en_el_sector
Min. : 5079000 Min. : 7.00 Min. : 1.000 Min. : 1.000 Min. :1.000 Min. :1.000 Min. : 0.000 Min. : 1.130 Min. : 1.420 Min. : 1.88 Min. : 1.30 Min. : 1.69 Min. :24.00 Min. : 0.000 Min. : 2.40 Min. :0.003000
1st Qu.:15572000 1st Qu.:24.00 1st Qu.: 1.000 1st Qu.: 4.000 1st Qu.:2.000 1st Qu.:1.000 1st Qu.: 3.000 1st Qu.: 5.588 1st Qu.: 8.877 1st Qu.:16.46 1st Qu.:27.58 1st Qu.:72.58 1st Qu.:37.00 1st Qu.: 4.000 1st Qu.:14.29 1st Qu.:0.005436
Median :25343500 Median :33.00 Median : 1.000 Median : 5.000 Median :3.000 Median :2.000 Median : 4.000 Median : 8.835 Median :17.545 Median :19.39 Median :31.02 Median :75.89 Median :45.00 Median : 6.000 Median :24.50 Median :0.010013
Mean :40357163 Mean :34.17 Mean : 1.484 Mean : 4.937 Mean :2.826 Mean :1.932 Mean : 4.058 Mean : 9.620 Mean :16.405 Mean :19.18 Mean :29.87 Mean :76.17 Mean :45.48 Mean : 7.242 Mean :27.92 Mean :0.182329
3rd Qu.:66001000 3rd Qu.:45.00 3rd Qu.: 1.000 3rd Qu.: 6.000 3rd Qu.:4.000 3rd Qu.:2.000 3rd Qu.: 5.000 3rd Qu.:12.307 3rd Qu.:23.270 3rd Qu.:23.20 3rd Qu.:34.12 3rd Qu.:78.91 3rd Qu.:53.75 3rd Qu.:10.000 3rd Qu.:39.72 3rd Qu.:0.031399
Max. :95200000 Max. :76.00 Max. :10.000 Max. :12.000 Max. :5.000 Max. :6.000 Max. :10.000 Max. :49.630 Max. :36.650 Max. :61.85 Max. :63.57 Max. :99.75 Max. :67.00 Max. :18.000 Max. :73.40 Max. :6.538687

Frecuencias de variables categóricas

cat_vars <- df %>% select(where(is.character), where(is.factor)) %>% names()

for (v in cat_vars) {
  cat("### Frecuencia de:", v, "\n")
  print(kable(as.data.frame(table(df[[v]], useNA = "ifany"))))
  cat("\n\n")
}
## ### Frecuencia de: arma_o_medio_de_agresion 
## 
## 
## |Var1                        | Freq|
## |:---------------------------|----:|
## |ARMA BLANCA / CORTOPUNZANTE |   38|
## |ARMA DE FUEGO               |    3|
## |CONTUNDENTES                |  113|
## |SIN EMPLEO DE ARMAS         |   36|
## 
## 
## ### Frecuencia de: departamento 
## 
## 
## |Var1               | Freq|
## |:------------------|----:|
## |AMAZONAS           |    6|
## |ANTIOQUIA          |   10|
## |ARAUCA             |   10|
## |ATLÁNTICO          |   10|
## |BOLÍVAR            |   10|
## |BOYACÁ             |    7|
## |CALDAS             |    7|
## |CAQUETÁ            |    8|
## |CASANARE           |   10|
## |CAUCA              |   10|
## |CESAR              |   10|
## |CHOCÓ              |   10|
## |CÓRDOBA            |   10|
## |CUNDINAMARCA       |   13|
## |GUAINÍA            |    7|
## |GUAJIRA            |   10|
## |GUAVIARE           |   10|
## |HUILA              |    4|
## |MAGDALENA          |    5|
## |META               |    6|
## |NARIÑO             |    6|
## |NORTE DE SANTANDER |    4|
## |PUTUMAYO           |    2|
## |RISARALDA          |    5|
## 
## 
## ### Frecuencia de: municipio 
## 
## 
## |Var1                       | Freq|
## |:--------------------------|----:|
## |ACANDÍ                     |    1|
## |AGUACHICA                  |    1|
## |AQUITANIA                  |    1|
## |ARACATACA                  |    1|
## |ARAUCA (CT)                |    7|
## |ARJONA                     |    1|
## |AYAPEL                     |    1|
## |BAHÍA SOLANO               |    3|
## |BARBOSA                    |    2|
## |BARRANCAS                  |    2|
## |BARRANQUILLA (CT)          |    8|
## |BELÉN                      |    1|
## |BELLO                      |    2|
## |BOGOTÁ D.C. (CT)           |   13|
## |BUENAVISTA                 |    2|
## |CALAMAR                    |    1|
## |CARTAGENA (CT)             |    8|
## |CARTAGENA DEL CHAIRÁ       |    3|
## |CERETÉ                     |    2|
## |CHIBOLO                    |    1|
## |CHIMICHAGUA                |    1|
## |CHINCHINÁ                  |    4|
## |CIÉNAGA                    |    3|
## |COPACABANA                 |    1|
## |CÚCUTA (CT)                |    4|
## |DIBULLA                    |    1|
## |DUITAMA                    |    1|
## |EL CARMEN DE ATRATO        |    1|
## |EL PASO                    |    1|
## |EL RETORNO                 |    1|
## |EL SANTUARIO               |    1|
## |FLORENCIA (CT)             |    5|
## |FONSECA                    |    3|
## |FREDONIA                   |    1|
## |GUACHENÉ                   |    1|
## |GUATAPÉ                    |    1|
## |INÍRIDA (CT)               |    7|
## |ISTMINA                    |    1|
## |LETICIA (CT)               |    5|
## |MACEO                      |    1|
## |MANIZALES (CT)             |    3|
## |MARÍA LA BAJA              |    1|
## |MARINILLA                  |    1|
## |MIRAFLORES                 |    1|
## |MONTERÍA (CT)              |    3|
## |NEIVA (CT)                 |    2|
## |NUNCHÍA                    |    1|
## |PASTO (CT)                 |    6|
## |PAZ DE ARIPORO             |    3|
## |PEREIRA (CT)               |    5|
## |PIENDAMÓ                   |    1|
## |PITALITO                   |    2|
## |POPAYÁN (CT)               |    8|
## |PORE                       |    2|
## |PUERTO ASÍS                |    1|
## |PUERTO BOYACÁ              |    2|
## |PUERTO NARIÑO              |    1|
## |QUIBDÓ (CT)                |    2|
## |RIOHACHA (CT)              |    4|
## |RIOSUCIO                   |    1|
## |SAN JOSÉ DEL GUAVIARE (CT) |    7|
## |SAN PELAYO                 |    2|
## |SANTA LUCÍA                |    1|
## |SARAVENA                   |    2|
## |SOGAMOSO                   |    1|
## |SOLEDAD                    |    1|
## |TADÓ                       |    1|
## |TAME                       |    1|
## |TRINIDAD                   |    3|
## |TUNJA (CT)                 |    1|
## |VALLE DEL GUAMUEZ          |    1|
## |VALLEDUPAR (CT)            |    7|
## |VILLAVICENCIO (CT)         |    6|
## |YOPAL (CT)                 |    1|
## 
## 
## ### Frecuencia de: genero 
## 
## 
## |Var1      | Freq|
## |:---------|----:|
## |FEMENINO  |  147|
## |MASCULINO |   43|
## 
## 
## ### Frecuencia de: grupo_edad_de_la_victima 
## 
## 
## |Var1         | Freq|
## |:------------|----:|
## |ADOLESCENTES |   10|
## |ADULTOS      |  166|
## |MENORES      |   14|
## 
## 
## ### Frecuencia de: nivel_educativo_de_la_victima 
## 
## 
## |Var1                | Freq|
## |:-------------------|----:|
## |Posgrado            |   21|
## |Primaria            |   11|
## |Primaria completa   |    1|
## |Primaria incompleta |   22|
## |Secundaria completa |   32|
## |Técnico             |   48|
## |Universitaria       |   55|
## 
## 
## ### Frecuencia de: inestabilidad_residencial 
## 
## 
## |Var1 | Freq|
## |:----|----:|
## |No   |  130|
## |Si   |   60|
## 
## 
## ### Frecuencia de: situacion_de_empleo_jefe_a_cabeza_de_hogar 
## 
## 
## |Var1                | Freq|
## |:-------------------|----:|
## |Desempleado         |   69|
## |Empleado/Ocupado    |   92|
## |Jubilado / Retirado |    4|
## |Otras               |   25|
## 
## 
## ### Frecuencia de: presencia_de_pandillas_juveniles 
## 
## 
## |Var1  | Freq|
## |:-----|----:|
## |Alta  |  103|
## |Baja  |    5|
## |Media |   82|
## 
## 
## ### Frecuencia de: presencia_de_crimen_organizado 
## 
## 
## |Var1 | Freq|
## |:----|----:|
## |No   |   35|
## |Si   |  155|

Histograma de la edad de la víctima

ggplot(df, aes(edad_de_la_victima)) +
  geom_histogram(bins = 20, fill = "#4B9CD3") +
  labs(title = "Distribución de edades", x = "Edad", y = "Frecuencia")

4. Pruebas de hipótesis

H1. Correlación entre edad de la víctima y cantidad de sucesos

cor.test(df$edad_de_la_victima, df$cantidad_de_sucesos)
## 
##  Pearson's product-moment correlation
## 
## data:  df$edad_de_la_victima and df$cantidad_de_sucesos
## t = 3.8998, df = 188, p-value = 0.0001339
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1365369 0.4003356
## sample estimates:
##       cor 
## 0.2735729

H2. Diferencias en cantidad de sucesos según género

t.test(cantidad_de_sucesos ~ genero, data=df)
## 
##  Welch Two Sample t-test
## 
## data:  cantidad_de_sucesos by genero
## t = 3.4176, df = 187.67, p-value = 0.0007746
## alternative hypothesis: true difference in means between group FEMENINO and group MASCULINO is not equal to 0
## 95 percent confidence interval:
##  0.2010613 0.7500541
## sample estimates:
##  mean in group FEMENINO mean in group MASCULINO 
##                1.591837                1.116279

H3. Modelo lineal: cantidad_de_sucesos ~ edad + genero

modelo <- lm(cantidad_de_sucesos ~ edad_de_la_victima + genero, data=df)
tidy(modelo)
## # A tibble: 3 × 5
##   term               estimate std.error statistic  p.value
##   <chr>                 <dbl>     <dbl>     <dbl>    <dbl>
## 1 (Intercept)          0.778    0.248        3.14 0.00199 
## 2 edad_de_la_victima   0.0230   0.00635      3.62 0.000375
## 3 generoMASCULINO     -0.349    0.223       -1.57 0.119

5. Gráfico adicional

ggplot(df, aes(genero, cantidad_de_sucesos)) +
  geom_boxplot(fill="#F4A6B0") +
  labs(title="Cantidad de sucesos según género", 
       x="Género", y="Cantidad de sucesos")

6. Conclusiones

Los resultados muestran que la edad de la víctima no presenta una relación fuerte con la cantidad de sucesos registrados, lo que indica que este tipo de violencia afecta a personas de diferentes edades. Sin embargo, sí se observaron diferencias entre géneros: las mujeres presentan una mayor frecuencia de casos reportados, lo cual coincide con tendencias nacionales reportadas por Medicina Legal.

El modelo lineal confirma que la edad tiene un efecto leve sobre la cantidad de sucesos, mientras que el género muestra diferencias más marcadas. Sin embargo, estos dos factores no explican completamente la variabilidad observada, lo que indica que la violencia intrafamiliar es un fenómeno multifactorial.

A pesar de que la muestra proviene de un muestreo aleatorio simple, solo incluye casos reportados, por lo que no refleja la totalidad del fenómeno. Aun así, el análisis permite identificar patrones relevantes y sirve como base para futuras investigaciones con más variables y muestras más amplias.