1. Base

column

Introducción

  • Problema observado: Actualmente el crimen es uno de los principales problemas de seguridad interna de los países, en este caso en Estados Unidos. Afecta gravemnete a la población, tanto en pérdidas materiales e incluso humanas. Asímismo, es perjudicial apra la cohesión social interna, así como para la sensación de seguridad de los ciudadanos. A raiz de esto, surgen diversas hipotesis de las posibles causas del crimen, lamnetablemente algunas de ellas reflejan prejuicios. Por lo cual en este trabajo se busca explorar cuales serían las causas del crimen, basándose en evidencia.

  • Pregunta de investigación: ¿Qué factores socioeconómicos que influyen en la criminalidad en Estados Unidos?

  • Justificación: El tema elegido es relevante particularmente en un sentido práctico ya que ara poder no solo combatir el crimen, sino prevenirlo es necesario entenderlo. El crimen no es sólo un hecho jurídico que debe ser perseguido, sino también como un complejo fenómeno social. Investigarlo desde las ciencias sociales permitirá comprender cómo los factores económicos y sociales, como el desempleo o el nivel educativo, interactúan con las tasas de criminalidad. La información obtenida será de ayuda para identificar factores de riesgo que puedan contribuir a un aumento de la incidencia criminal. Esto ayudará al diseño e implementación de políticas públicas más eficaces para reducir el número de crímenes cometidos en determinada área.

  • Hipótesis: En este trabajo nuestra hipotesis es que las variables desempleo (porcentaje de la PEA desempleada), educación (porcentaje de personas que terminaron la preparatoria), y pobreza (porcentaje de personas que se encuentran en situcación de pobreza monetaria) son explicativas del crimen en Estados Unidos. Para esto la variable crimen se representa con un ratio del total de crimenes cada 1000 habitantes

Column

Variables

Column

Gráfico de mapa

2. Análisis univariado

Column {data-width=500}

Gráfico de barras

Tabla de fecuencias y de estadísticos descriptivos

  • Summary de la variable ratio
Min. 1st Qu. Median Mean 3rd Qu. Max.
Value 27.21446 37.50646 48.09732 50.40164 59.47368 108.32180
  • Tabla de frecuencias
    State Population Total RATIO
    DISTRICT OF COLUMBIA 705749 76448 108.32180
    NEW MEXICO 2096829 165438 78.89914
    ALASKA 731545 55274 75.55789
    LOUISIANA 4648794 345060 74.22570
    SOUTH CAROLINA 5148714 355424 69.03161
    ARKANSAS 3017804 207786 68.85338
    OKLAHOMA 3956971 259346 65.54155
    TENNESSEE 6829174 443600 64.95661
    ALABAMA 4903185 312358 63.70512
    MISSOURI 6137428 384652 62.67316
    HAWAII 1415872 88540 62.53390
    OREGON 4217737 254330 60.30011
    WASHINGTON 7614893 453202 59.51522
    COLORADO 5758736 342254 59.43214
    ARIZONA 7278717 421558 57.91653
    NEVADA 3080156 173470 56.31858
    TEXAS 28995881 1629356 56.19267
    CALIFORNIA 39512223 2190890 55.44841
    NORTH CAROLINA 10488084 572462 54.58213
    KANSAS 2913314 158792 54.50562
    GEORGIA 10617423 576838 54.32938
    DELAWARE 973764 52092 53.49551
    MISSISSIPPI 2976149 157958 53.07463
    MONTANA 1068778 55536 51.96215
    FLORIDA 21477737 1084232 50.48167
    UTAH 3205958 154198 48.09732
    MARYLAND 6045680 290714 48.08624
    OHIO 11689100 549120 46.97710
    INDIANA 6732219 315320 46.83745
    NEBRASKA 1934408 90540 46.80502
    MINNESOTA 5639632 261136 46.30373
    NORTH DAKOTA 762062 34470 45.23254
    ILLINOIS 12671821 571090 45.06771
    SOUTH DAKOTA 884659 38394 43.39977
    KENTUCKY 4467673 188940 42.29047
    MICHIGAN 9986857 403964 40.44956
    IOWA 3155070 126218 40.00482
    WEST VIRGINIA 1792147 68100 37.99912
    VIRGINIA 8535519 315932 37.01380
    WYOMING 578759 20702 35.76964
    WISCONSIN 5822434 205484 35.29177
    RHODE ISLAND 1059361 37202 35.11740
    NEW YORK 19453561 673838 34.63829
    PENNSYLVANIA 12801989 437786 34.19672
    VERMONT 623989 20300 32.53262
    CONNECTICUT 3565287 114816 32.20386
    NEW JERSEY 8882190 274024 30.85095
    MASSACHUSETTS 6892503 207790 30.14725
    IDAHO 1787065 51586 28.86633
    NEW HAMPSHIRE 1359711 37032 27.23520
    MAINE 1344212 36582 27.21446

Explicación

  • Gráfico de barras Se hace un análisis explorativo de la variable dependiente: RATIO. Comenzando por un gráfico de barras con los 5 Estados que mas crimenes tienen por cada 1000 habitantes. Es posible observar que el Estado con más crimenes por cada 1000 habitantes es el distrito de Columnbia, siendo el único en el cual se cometen más de 100crimenes por cada 1000 habitantes, a este le sigue Nuevo Mexico en el cual se reportan aproximandamente 78 crimenes por cada 1000 habitantes, por lo cual el Distrito de Columbia podría tratarse de un caso atípico.

  • Boxplot de la variable dependiente Como se suponía, el Distrito de Columbia, es un dato atípico siendo el Estado con más crimenes, por bastante. También se puede observar que el cuartil 3 es algo más amplio que el cuartil 1 y 2, aunque esto no es muy pronunciado.

  • Summary de la variable dependiente De la tabla podemos observar que en Estados Unidos se cometen aproximadamente 50 crímenes por cada 1000 habitantes. También observamos que la mediana y la media de estos datos son cercanas, lo que denota tendencia a la simetria en la distribución. Respecto a los percentiles,en el Estado más seguro, Maine, se cometen aproximadamente 27 crímenes por cada 1000 habitantes. mientras que en el menos seguro, District of Columbia, en el que se cometen aproximadamente 108 por la misma cantidad de habitantes. También se puede observar que la distancia entre el valor mínimo y el primer cuartil es menor que la distancia entre el tercer cuartil y el valor máximo, debido a que es un dato atípico.

  • Tabla de frecuencias El estado con menos crimenes por cada 100 habitantes es Maine con aproximadamente 27, la diferencia en el ratio en los que se encuentran en el medio no varia en más de 2 unidades, a excepción del Distrito de Columbia, esto podría resultar un tema de estudio relevante.

Column

Variables independientes

Variables de control

3. Análisis multivariado

Column {data-width=600}

Correlación total

Correlación social

Correlación económica

Column {data-width=400}

Correlación total

RATIO POBREZA ARMAS MIGRACION IDH EDUCACION DESEMPLEO
RATIO 1.00 0.53 0.02 -0.14 -0.28 -0.29 0.31
POBREZA 0.53 1.00 0.10 -0.05 -0.81 -0.73 0.32
ARMAS 0.02 0.10 1.00 0.10 -0.10 0.11 -0.14
MIGRACION -0.14 -0.05 0.10 1.00 -0.39 0.01 -0.28
IDH -0.28 -0.81 -0.10 -0.39 1.00 0.65 -0.08
EDUCACION -0.29 -0.73 0.11 0.01 0.65 1.00 -0.43
DESEMPLEO 0.31 0.32 -0.14 -0.28 -0.08 -0.43 1.00

En esta matriz de correlaciones tanto como en su tabla podemos observar que las variables con más correlación entre sí son, Educación con IDH, seguido por Educación y pobreza, en ambos casos se trata de una correlación negativa. Por otro lado, es posible observar que vas variables migración y armas tienen una correlación entre baja e inexistente con la mayoría de variables.

Correlación social

RATIO MIGRACION IDH EDUCACION
RATIO 1.00 -0.14 -0.28 -0.29
MIGRACION -0.14 1.00 -0.39 0.01
IDH -0.28 -0.39 1.00 0.65
EDUCACION -0.29 0.01 0.65 1.00

Se elabora una matriz de correlaciones de la variables que miden factores sociales con el objetivo de ver como se relacionan estos con la variabla dependiente, Ratio y entre ellas. Este gráfico permite enforcarse especialmente en estas variables. Se observa que existe una correlaciónde moderada a alta entre IDH y Educación, mientras que educación y migración carecend e correlación alguna.

Correlación económica

RATIO POBREZA IDH DESEMPLEO
RATIO 1.00 0.53 -0.28 0.31
POBREZA 0.53 1.00 -0.81 0.32
IDH -0.28 -0.81 1.00 -0.08
DESEMPLEO 0.31 0.32 -0.08 1.00

Para esta matriz de corralciones se han seleccionado variables que miden factores económicos como Desempleom,, Pobreza e IDH. Es posible observar que existe una fuerte correlación negativa entre IDH Y pobreza, así como ninguna correlación entre desempleo e IDH

4.Regresiones

Column {data-width=500}

Regresión Poisson

Regresión Poisson con coeficientes exponencialos
 (1)
(Intercept) 0.7774
[0.08571, 7.111]
DESEMPLEO 1.0830**
[1.02835, 1.140]
EDUCACION 1.0331**
[1.01060, 1.056]
POBREZA 1.0779***
[1.05609, 1.100]
Num.Obs. 51
AIC 453.8
BIC 461.6
Log.Lik. −222.925
F 28.460
RMSE 12.41
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Lo primero que se observa es que las 3 variables son siginificativas en este modelo, por lo que se debe prestar atención a los coeficientes, que en este caso estan previamente exponenciados.

En los coeficientes, se ve que si bien tienen efecto este es bastante debil, ya que los valores son bastante cercanos a 1, lo que les resta valor explicativo.

Test de equidispersión

Aunque el modelo es siginificativo, al tratarse de una regresión Poisson es necesario realizar un test de equidispersión.
Test de Equidispersión
Es probable?
overdispersion TRUE
underdispersion FALSE
El test nos indica que existe sobredispersión, por lo cual se debe realizar modelos predictivos usando la regresión Quasipoisson y Binomial Negativa. ### Regresión quasipoisson
Regresiones QuasiPoisson
 (1)
(Intercept) 0.7774
[0.01553, 39.972]
DESEMPLEO 1.0830+
[0.98755, 1.187]
EDUCACION 1.0331
[0.99344, 1.074]
POBREZA 1.0779***
[1.03941, 1.118]
Num.Obs. 51
F 9.008
RMSE 12.41
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

En este modelo solo la variable Pobreza es significativa, aunque es poco explicativa, ya que al igual que en el primer caso, su coeficiente es bastante cercano 1.

Regresión binomial negativa

Regresión Binomial Negativa
 (1)
(Intercept) 1.372
[0.02996, 61.305]
DESEMPLEO 1.075
[0.98323, 1.175]
EDUCACION 1.027
[0.98922, 1.067]
POBREZA 1.075***
[1.03665, 1.115]
Num.Obs. 51
AIC 408.3
BIC 418.0
Log.Lik. −199.158
F 8.284
RMSE 12.47
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Al igual que en el caso de la QuasiPoisson, solo la variable pobreza es significativa. Como en el caso de la Poisson ahora posee efecto positivo nuevamente, aunque con poco efecto, siendo el coeficiente poco mayor de 1.

Comparación

A continuación comparamos los coeficientes de las 3 regresiones, así como la significancia de estas
Regresiones Poisson, Quasi Poisson y Binomial Negativa
Poisson QuasiPoisson Binomial Negativa
(Intercept) 0.7774 0.7774 1.372
[0.08571, 7.111] [0.01553, 39.972] [0.02996, 61.305]
DESEMPLEO 1.0830** 1.0830+ 1.075
[1.02835, 1.140] [0.98755, 1.187] [0.98323, 1.175]
EDUCACION 1.0331** 1.0331 1.027
[1.01060, 1.056] [0.99344, 1.074] [0.98922, 1.067]
POBREZA 1.0779*** 1.0779*** 1.075***
[1.05609, 1.100] [1.03941, 1.118] [1.03665, 1.115]
Num.Obs. 51 51 51
AIC 453.8 408.3
BIC 461.6 418.0
Log.Lik. −222.925 −199.158
F 28.460 9.008 8.284
RMSE 12.41 12.41 12.47
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001
Test de sobredispersión para la regressión poisson
# Overdispersion test

       dispersion ratio =   3.160
  Pearson's Chi-Squared = 148.499
                p-value = < 0.001
se detecta sobredispersión Test de sobredispersión para quasipoisson
# Overdispersion test

       dispersion ratio =   3.160
  Pearson's Chi-Squared = 148.499
                p-value = < 0.001

se detecta sobredispersión Test de sobredispersión para binomial negativa

# Overdispersion test

 dispersion ratio = 1.030
          p-value = 0.776

no se detecta sobredispersión

Se observa que solo la variable Pobreza es significativa en los 3 modelos, aunque tenga poco valor explicativo, podemos concluir que es relevante para estudiar el fenómeno de la criminalidad y debe ser tomada en cuenta. En este caso se escogerá el modelo de la regresión Binomial Negativa, por ser el único que logra eliminar la sobredispersión

Column {data-width=500}

Regresión total

Se realizarán otras regresiones con las mismas variables de las correlaciones social y económica, con el objetivo de ver cual de estos factores es de mayor ayuda cuando se busca estudiar el crimen.
Regresión Poisson con coeficientes exponencialos
 (1)
(Intercept) 0.7774
[0.08571, 7.111]
DESEMPLEO 1.0830**
[1.02835, 1.140]
EDUCACION 1.0331**
[1.01060, 1.056]
POBREZA 1.0779***
[1.05609, 1.100]
Num.Obs. 51
AIC 453.8
BIC 461.6
Log.Lik. −222.925
F 28.460
RMSE 12.41
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Regresión social

Regresión Poisson social exponenciada
 (1)
(Intercept) 9832.009695***
[1632.9603805, 57975.4807]
EDUCACION 0.992723
[ 0.9722158, 1.0140]
MIGRACION 0.995086***
[ 0.9924751, 0.9977]
IDH 0.006642***
[ 0.0004101, 0.1070]
Num.Obs. 51
AIC 497.6
BIC 505.3
Log.Lik. −244.805
F 12.881
RMSE 14.41
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Se observa que las variables Migración e IDH son significativas, entre estas 2 el IDH muestra un impacto negativo mucho más fuerte al de la migración, cuyo coeficiente es bastante cercano a 1.

Regresión económica

Regresión Poisson económico
 (1)
(Intercept) 0.2039
[0.009953, 4.343]
DESEMPLEO 1.0336
[0.979591, 1.090]
POBREZA 1.0890***
[1.061792, 1.117]
IDH 108.4630**
[4.835399, 2348.710]
Num.Obs. 51
AIC 453.9
BIC 461.7
Log.Lik. −222.967
F 28.843
RMSE 12.36
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Para el modelo económico, dos variables son significativas, pobreza e IDH. La primera, tiene un efecto débil sobre la variable dependiente, aunque no se puede considerar nulo ya que su intérvalo de confianza no incluye al número 1. La otra variable, IDH, tiene un efecto mucho más fuerte, sin embargo, el intervalo de confianza es bastante amplio, por lo cual no es una variable predictora útil en este caso.

Comparación

Comparación de regresiones
 POISSON  POISSON sociales  POISSON económico
(Intercept) 0.7774 9832.009695*** 0.2039
[0.08571, 7.111] [1632.9603805, 57975.4807] [0.009953, 4.343]
DESEMPLEO 1.0830** 1.0336
[1.02835, 1.140] [0.979591, 1.090]
EDUCACION 1.0331** 0.992723
[1.01060, 1.056] [ 0.9722158, 1.0140]
POBREZA 1.0779*** 1.0890***
[1.05609, 1.100] [1.061792, 1.117]
MIGRACION 0.995086***
[ 0.9924751, 0.9977]
IDH 0.006642*** 108.4630**
[ 0.0004101, 0.1070] [4.835399, 2348.710]
Num.Obs. 51 51 51
AIC 453.8 497.6 453.9
BIC 461.6 505.3 461.7
Log.Lik. −222.925 −244.805 −222.967
F 28.460 12.881 28.843
RMSE 12.41 14.41 12.36
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

En la tabla de comparación se observa que solo en el primer modelo la variable desempleo es significativa, así como la variable educación. Mientras que la variable pobreza es significativa tanto en el primer modelo Poisson como en el económico, en ambos casos con un bajo nivel explicativo. La variable migración solo se incluye en el modelo económico en la cual es significativa pero también presenta bajo nivel explicativo. La variable IDH, presente en los modelos social y económico presenta un efecto fuerte en ambos modelos, aunque este es opuesto en ambos casos, ya que en el modelo social presenta un efecto negativo, mientras que en el modelo económico presenta efecto positivo. Aunque el intervalo de confianza en el primer caso es menor, lo que puede indicar mayor precisión, mientras que en el caso económico es bastante amplio. Respecto a los errores, el modelo económico presenta menor número de AICs y BICs, seguido del modelo económico y por último el modelo social. Por lo cual podemos concluir que las variables económicas, especialmente la pobreza explican y predicen mejor el crimen que las variables sociales.

5.Análisis de conglomerados

Column {data-width=400}

Estrategia jerarquica aglomerativa - Agnes

Número de clusters

Se sugieren 2 clusters

Proceso de clusterización

RATIO POBREZA EDUCACION DESEMPLEO agnes
ALABAMA 0.8449162 1.4098150 -1.2135130 -0.6684687 1
ALASKA 1.5976966 -0.6693286 1.1580124 1.4013969 2
ARIZONA 0.4772771 0.1245262 -0.8310089 0.6708561 1
ARKANSAS 1.1718866 1.2964072 -1.0987618 0.0620721 1
CALIFORNIA 0.3205250 -0.1022894 -2.3610253 2.1319378 1
COLORADO 0.5735351 -1.0851573 0.7755083 -0.0596847 2
CONNECTICUT -1.1557578 -0.9339468 0.3165034 1.1578833 2
DELAWARE 0.1964943 -0.4047103 0.2017522 0.5490993 2
DISTRICT OF COLUMBIA 3.6785619 1.5988281 0.6990075 1.8884242 2
FLORIDA 0.0050826 0.2379341 -0.6015065 -0.5467119 1
GEORGIA 0.2494542 0.6159602 -0.8310089 -0.5467119 1
HAWAII 0.7705309 -0.6315260 0.9285100 -0.5467119 2
IDAHO -1.3677276 -0.6693286 0.4695050 -0.3031983 2
ILLINOIS -0.3387626 -0.1778946 -0.1425015 1.5231538 2
INDIANA -0.2263648 -0.1778946 -0.2955032 -0.0596847 2

Dendograma

Silhouette

En el dendograma se observa que se agruparon más estados en el segundo cluster que corresponde a los Estados en los que el promedio de las variables escogidas es menor.

Estados mal clusterizados

[1] "DISTRICT OF COLUMBIA"

Aquí se ve que el Distrito de Columbia está mal agrupado, esto se puede deber a que es un dato atípico

Column {data-width=600}

Estrategia jerarquica divisiva- Diana

Número de clusters

La técnica Diana sugiere 2 clusters

Proceso de clusterización

RATIO POBREZA EDUCACION DESEMPLEO diana
ALABAMA 0.8449162 1.4098150 -1.2135130 -0.6684687 1
ALASKA 1.5976966 -0.6693286 1.1580124 1.4013969 2
ARIZONA 0.4772771 0.1245262 -0.8310089 0.6708561 1
ARKANSAS 1.1718866 1.2964072 -1.0987618 0.0620721 1
CALIFORNIA 0.3205250 -0.1022894 -2.3610253 2.1319378 1
COLORADO 0.5735351 -1.0851573 0.7755083 -0.0596847 2
CONNECTICUT -1.1557578 -0.9339468 0.3165034 1.1578833 2
DELAWARE 0.1964943 -0.4047103 0.2017522 0.5490993 2
DISTRICT OF COLUMBIA 3.6785619 1.5988281 0.6990075 1.8884242 1
FLORIDA 0.0050826 0.2379341 -0.6015065 -0.5467119 1
GEORGIA 0.2494542 0.6159602 -0.8310089 -0.5467119 1
HAWAII 0.7705309 -0.6315260 0.9285100 -0.5467119 2
IDAHO -1.3677276 -0.6693286 0.4695050 -0.3031983 2
ILLINOIS -0.3387626 -0.1778946 -0.1425015 1.5231538 2
INDIANA -0.2263648 -0.1778946 -0.2955032 -0.0596847 2

Dendograma

Aquí también se observa que el cluster número 1 contiene menos estados en relación al cluster número 2, este también corresponde a aquellos grupos en que las variables tienen una media menor

Silhouette

Estados mal clusterizados y conclusiones

character(0)

La distribución de estos clusters es similar a la de la estrategia aglomerativa, con la diferencia que en este caso no se presentan casos mal clusterizados, por esta razón se escogerá la estrategia agomerativa divisiva.

  • Conclusiones Los resultados de los modelos de regresión realizados en este trabajo nos permiten afirmar que la única variable de este estudio que tiene efecto en el número de crímenes cometidos es la pobreza monetaria. Aunque esta tiene un efecto débil, lo que nos lleva a descartar la hipotesis inicial de que las variables de educación y desempleo también podrían ser explicativas. Sin embargo, hay que tener en cuenta que quizás con otra operacionalización estas variables podrían tener impacto. En este caso se contaron todos los crímenes, incluidos crímenes de guante blanco, crímenes contra la propiedad, crímenes violentos y asesinatos, lo que puede ocasionar que ciertas variables pierdan valor explicativo.

El análisis, tanto de la variable dependiente como en el análisis de conglomerados, nos indica que el Distrito de Columbia es un dato atípico por el alto nivel de crimen que ocurre en este. Esto se puede deber a su naturaleza casi en su totalidad urbana, o a la concentración de población, esto puede ser investigado a futuro.

Bibliografía

Lochner, L. (2020). Education and crime. In The economics of education (pp. 109-117). Academic Press.

Raphael, S., & Winter-Ebmer, R. (2001). Identifying the effect of unemployment on crime. The journal of law and economics, 44(1), 259-283.

Zhao, H., Feng, Z., & Castillo-Chavez, C. (2014). The dynamics of poverty and crime. Journal of Shanghai Normal University (Natural Sciences· Mathematics), 43(5), 486-495.