Para el desarrollo de este proyecto hemos decidido analizar la inseguridad que viven los menores de edad en la ciudad de Bogotá. Esta información ha sido tomada de las Estadísticas Delictivas que se encuentran en el sitio oficial de la Policía Nacional. Hemos acumulado los datos respectivos al año 2019 sobre Delitos sexuales, homicidios, lesiones personales y violencia intrafamiliar, los cuales han sido filtrados por ciudad y por edad con ánimo de analizar los crimenes contra menores ocurridos en Bogotá. Además, se han limpiado para obtener solo la información necesaria.
Es necesario notar que hemos hecho uso de las librerias \(ggplot2\) y \(vioplot\) para poder visualizar los datos y realizar inferencias sobre ellos.
Una vez instaladas las librerias procedemos a cargar los datos y separarlos según lo requerimos.
Además, calculamos algunas frecuencias como la cantidad de delitos reportados por día y la cantidad de estaciones que reciben algún reporte también por día.
En primer lugar debemos observar cómo se relaciona la información.Así, proponemos los siguientes histogramas:
Tenemos, en este caso las relaciones de Edad Vs Sexo y Edad Vs Delito.
En estas graficas podemos observar que los menores más afectados estan en un rango de 13 y 17 años, las mujeres son las más afectadas y el delito más común es la violencia intrafamiliar junto con las lesiones personales.
Ahora, veremos las relaciones para dia contra Edad y Delito.
Por otro lado podemos ver que la frecuencia de casos ocurridos por día son casi iguales, pero al igual que en el la relación con edad, las mujeres siguen siendo las más afectadas.
En esta parte es posible visualizar que un arma contundente es más usada durante la semana, pero los ataques hacia menores entre 15 y 17 años tienenden a ser con escopolamina. Finalmente, los atacados son mayormente estudiantes de secundaria.
En la siguiente matriz de frecuencia podemos ver los dias en los que es más común que se presenten cada uno de los delitos.
Como podemos ver a excepcion de algunos delitos, la distribución de frecuencia de estos entre los dias es bastante uniforme, en la mayoria de los casos no existe un día en el que esos delitos se comentan más frecuentemente con gran diferencia de los demás dias.
Realizando otro grafico similar al anterior, pero esta vez considerando las estaciones de policia que reciben los casos. Vemos de nuevo que sin importar el día el reporte de delitos contra menores es constante.
También tenemos la distribución de la edad por día.
En este mismo caso podemos ver la distribución de los casos por dia según el sexo.
Ahora, suponinedo el caso específico en el que el delito haya ocurrido en una institución educativa podemos obtener la siguiente gráica.
En estas tres últimas graficas es más evidente los delitos ocurren mas que todos niños mayores de 10 años, pero la distribución de delito por día es muy similar, es decir, se reportan cantidades parecidas de delitos por dias.
Finalmente, podemos ver el número de casos que recibe cada estación, pero esta vez de manera geográfica en el siguiente mapa. Para el caso de la estación de Usaquen el número de casos es extremadamente alto a comparación de las demás estaciones, por esto para apreciar mejor la diferencia entre el número de crimenes en cada localidad se hicieron dos mapas de calor, uno incluyendo la estacion de policia de Usaquen y otro no, sobreponiendo ambos podemos ver todas las localidades con su tonalidad respectiva.
Así podemos ver como las estaciones de las localidades de Bosa, Kennedy y Ciudad Bolivar, además de la estación de Usaquen concentran el mayor número de denuncias.
Como tenemos algunas variables numéricas podemos realizarun análisis más general sobre ellas. Para ello,crearemos un data frame compuesto de las variables Dia, Edad y Sexo. Podemos ver la distribución de estas variables en la siguiente matriz.
Por otro lado, podemos calcular una regresión teniendo como objetivo la frecuencia condicionandola a las tres variables anteriormente presentadas.
##
## Call:
## lm(formula = datosRegresion$Freq ~ datosRegresion$Edad + datosRegresion$Dia +
## datosRegresion$Sexo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -31.599 -10.689 -0.821 9.739 42.956
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.0317 4.8108 3.540 0.000485 ***
## datosRegresion$Edad1 4.9286 5.7729 0.854 0.394150
## datosRegresion$Edad2 6.5714 5.7729 1.138 0.256188
## datosRegresion$Edad3 13.5000 5.7729 2.339 0.020231 *
## datosRegresion$Edad4 12.4286 5.7729 2.153 0.032380 *
## datosRegresion$Edad5 14.3571 5.7729 2.487 0.013603 *
## datosRegresion$Edad6 15.6429 5.7729 2.710 0.007249 **
## datosRegresion$Edad7 20.9286 5.7729 3.625 0.000356 ***
## datosRegresion$Edad8 23.6429 5.7729 4.095 5.86e-05 ***
## datosRegresion$Edad9 23.0714 5.7729 3.996 8.69e-05 ***
## datosRegresion$Edad10 40.3571 5.7729 6.991 3.02e-11 ***
## datosRegresion$Edad11 42.9286 5.7729 7.436 2.11e-12 ***
## datosRegresion$Edad12 52.7143 5.7729 9.131 < 2e-16 ***
## datosRegresion$Edad13 66.9286 5.7729 11.594 < 2e-16 ***
## datosRegresion$Edad14 64.0714 5.7729 11.099 < 2e-16 ***
## datosRegresion$Edad15 67.0000 5.7729 11.606 < 2e-16 ***
## datosRegresion$Edad16 67.3571 5.7729 11.668 < 2e-16 ***
## datosRegresion$Edad17 73.0000 5.7729 12.645 < 2e-16 ***
## datosRegresion$Dia2 3.1111 3.6001 0.864 0.388399
## datosRegresion$Dia3 1.9167 3.6001 0.532 0.594970
## datosRegresion$Dia4 3.6944 3.6001 1.026 0.305880
## datosRegresion$Dia5 1.0833 3.6001 0.301 0.763750
## datosRegresion$Dia6 -9.0278 3.6001 -2.508 0.012852 *
## datosRegresion$Dia7 -0.4444 3.6001 -0.123 0.901856
## datosRegresion$SexoM -16.4444 1.9243 -8.546 1.89e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.27 on 227 degrees of freedom
## Multiple R-squared: 0.7668, Adjusted R-squared: 0.7422
## F-statistic: 31.11 on 24 and 227 DF, p-value: < 2.2e-16
Con esta información es posible ver un \(r^2\) de 0.76 que es cercano a 1, esto nos dice que las variables Dia, Sexo y Edad, determinan la frecuencia de una manera apropiada. Es decir, el modelo se ajusta muy bien a las frecuencias definidas, por lo tanto, es muy confiable
Esta regresión puede verse de la siguente manera:
En ambos casos es posible observar que la relación es negativa puesto que la frecuencia va decreciendo por día, además es posible confirmar lo que se ha mencionado anteriormente solbre los ataques a mayores de 13 años, pues es evidente que, a pesar de ir dismnuyendo por dia, son quienes atacan más frecuentemente.
Gracias a este análisis podemos concluir que los menores se ven muy afectados en la ciudad más que todo los que estan entre los 13 y 17 años. Además es posible inferir que las mujeres son las más perjudicadas. La regresión nos cuenta que la cantidad de delitos hacia menores es más común los primeros dias de la semana. Esperamos para un futuro poder comparar esta información con datos recolectados en años anteriores y así ver la evolución de estos crímenes contra menores, también es posible hacer la comparación con datos obtenidos en otras ciudades o comparar con los datos de crímenes para mayores de edad. Es importante tener este tipo de análisis para concietizar a las personas sobre el cuidado que debemos tenerles a los menores de edad, mas que todo los adolecente. Protejerlos y velar porque estos datos vayan disminuyendo a medida que pase el tiempo.