Introducción


De acuerdo con la Teoría General, el desempleo (desempleo involuntario), es el fenómeno en el que existen individuos que buscan trabajo al salario prevaleciente y no lo encuentran, ni siquiera a uno más bajo, pese a estar dispuestos a aceptarlo. Es muy raro el desempleado de cuyos posibles ingresos dependen él y sólo él. Generalmente, tras la búsqueda desesperada de un puesto de trabajo remunerado por parte de un individuo, hay padres, hijos y familias cuya supervivencia está en juego, se trata de un fenómeno en cuya expresión individual están siempre las necesidades de más de uno.


Muchas teorías explican la relación entre desempleo y violencia, Becker (1968) y Ehrlich (1973), sobre literatura relacionada con la Economía del crimen, lo hacen de la siguiente manera: El ser humano escala en las opciones que tiene para satisfacer sus necesidades, si en el momento en que las enfrenta tiene a la mano los recursos financieros que necesita, se satisface a través del mercado. Si no cuenta con ellos, recurre al Estado o a instituciones filantrópicas. Si estas se cierran o se niegan, apela a la solidaridad. Si la solidaridad (penúltimo peldaño de la escala) falla, recurre a la violencia. Mercado, Estado, solidaridad y violencia son los peldaños a los que guían las necesidades humanas en aras de su satisfacción. La duración del desempleo va orillando a quienes lo sufren, a escalar peldaño a peldaño, por lo que no es de extrañarse que ante el desempleo duradero y creciente acontezca la descomposición social.


Dado que la violencia es un fenómeno de causas duraderas, en general se reconoce que es mejor prevenirla que intentar solucionarla. María J. Díaz en “Diez condiciones básicas para prevenir la violencia desde la adolescencia” \(_1\), señala que la educación y la lucha contra la exclusión son fundamentales en este proceso. Otra condición además del empleo y la educación, como por ejemplo “un ingreso económico justo para los trabajadores”, es igualmente importante al momento de considerar una solución a la descomposición social. El Pacto Mundial de las Naciones Unidas recalca, por ejemplo, la importancia del salario digno como “mecanismo de incentivo social que evite la pauperización de la fuerza laboral, así como el escalamiento de peldaños en la escalera de la descomposición cultural” \(_2\).


El objetivo del presente trabajo es analizar el fenómeno de la violencia en México, visualizando su relación con cada una de las variables causales descritas en la teoría económica y social, a fin de comprobar en que medida esta teoría se verifica en el caso nacional. La descomposición social se desarrolla distinto en un país que en otro, dadas las distintas caracteristicas de las sociedades; la comprensión del fenómeno en el contexto local permitirá enfocar los esfuerzos sólo en aquellas causas realmente influyentes. La forma en que esto se llevará a cabo será recopilando información estatal para el año 2020, y observando las relaciones particulares y generales, utilizando en el proceso modelos de regresión lineal.


Desarrollo y análisis


Los datos a utilizar son registros recabados por distintos medios e instituciones nacionales, desagregados por entidad federativa, por lo cual, el número de datos por variable será de 32. Definamos a las variables de interés como:


  1. Tasa de incidencia delictiva (TID). La violencia, explicada por el total de delitos entre la población de 18 años y más, por cada 100 habitantes.

  2. Tasa de desocupación (TDE). El desempleo, explicado por el porcentaje de personas desocupadas en relación con la población económicamente activa (PEA).

  3. Promedio de escolaridad (PES). La educación, medida por la suma de años aprobados desde primero de primaria hasta el último grado alcanzado de las personas de 15 años o más en el sistema educativo nacional.

  4. Gasto en educación (GEE). La educación, medida por el gasto trimestral por hogar destinado a actividades de educación y esparcimiento.

  5. Gasto en alimentación (ABT). El ingreso, medido por el gasto trimestral por hogar en alimentos, bebidas y tabaco.

  6. Ingreso trimestral (ITH). El ingreso, como monto monetario que representa los recursos financieros totales trimestrales por hogar.

  7. Población en situación de pobreza moderada (PPO). El ingreso,medido por entidad federativa con la catidad de personas en situación de pobreza moderada, en unidades de mil.

  8. PIB por entidad (PIB). El empleo, visto desde la actividad económica y medido por el valor monetario a precios de 2013 de la producción bruta producida por entidad federativa, en millones de pesos.

  9. Densidad poblacional (DPO). Una caracteristica importante de la sociedad es la densidad, muestra el promedio de habitantes en una entidad federativa por kilometro cuadrado.


Planteamos que el fenómeno “violencia” está determinado por ciertos factores económicos y sociales, como lo especificamos en la introducción. Matemáticamente, decimos que la tasa de incidencia delictiva (llamemosla “y”) en México, durante el 2020 (t = 2020), “es dependiente” de la tasa de desocupación (\(x_1\)), del promedio de escolaridad (\(x_2\)), del gasto en educación (\(x_3\)), del gasto en alimentación (\(x_4\)), del ingreso trimestral (\(x_5\)), de la población en pobreza moderada (\(x_6\)), el PIB por entidad (\(x_7\)) y la densidad poblacional (\(x_8\)). Esta relación se expresa con el modelo de regresión lineal múltiple como:


\(y_t=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\beta_5x_5+\beta_6x_6+\beta_7x_7+\beta_8x_8+e\)


En Economía es preferible explicar un fenómeno con el menor número de variables posibles, seleccionando sólo aquellas que son significativas. A partir de ahora, nos centraremos en elegir a nuestras variables explicativas.


Análisis descriptivo de las variables


Antes de analizar la relación entre variables, tomemos en cuenta que:


Tasa de incidencia delictiva


En México para el año 2020, la media de delitos cometidos por adultos se calcula en 27.9 por cada 100 habitantes. La CDMX constituye un caso desfavorablemente especial puesto que en ella, la tasa se estimó en 53.3 (último rectángulo del histograma), este dato constituye un outlier. En este caso, se considera estadísticamente que el valor extremo de la CDMX puede afectar la estimación de la tasa que representa el nivel nacional, la mediana de la distribución constituye una mejor medida y se calcula en 26.9.


El Estado con menos incidencia delictiva es Chiapas (con una TID = 15.69), aún siendo la Entidad con menor ingreso trimestral por hogar (ITH = $29,168, es decir, $43,763 pesos menos que Nuevo león), en dicho Estado se cometen 37.6 delitos menos que en la ciudad capital, por cada 100 habs. Gráficamente, la TID nacional se distribuye según su frecuecia como:



Tasa de desocupación


A nivel nacional, la tasa promedio de desocupación se estima en 4.1, el Estado con el mayor nivel de desempleo según este indicador es Quintana Roo (con una TDE = 8.4), la Entidad Federativa mejor valorada en estos términos es Oaxaca, con una tasa igual a 1.5, es decir, 6.9 puntos porcentuales por debajo de Quintana Roo y 2.5 puntos porcentuales por debajo de la media nacional.


En la distribución nacional no se observan outliers tal como en el indicador anterior, los puntos relativamente extremos mencionados no lo son puesto que se enuentran dentro de todos los cuartiles de la distribución. Gráficamente la tasa de desoccupación nacional se distribuye según su frecuencia como:




Promedio de escolaridad


La Entidad Federativa con el mayor grado de educación es CDMX, en ella se estima que la población llega a educarse hasta 2.4 años de preparatoria, un total de 11.4 años.


Siendo CDMX la Entidad Federativa mejor evaluada en términos de años de escolaridad se puede recordar que es la peor en términos de la tasa de incidencia delictiva, se deduciría entonces que la relación entre educación y violencia no es necesariamente causal, a menos que sea positiva, o quizá nula, puesto que el Edo. con menor incidencia delictiva es Chiapas, aún siendo el que menos años promedio de escolaridad reporta (la población se educa en promedio hasta 1.5 años de secundaria, TED = 7.7). La relación positiva, negativa o nula se probará posteriormente considerando la totalidad de los datos.


La media nacional se calcula en 9.7 años (mediana = 9.8), el caso de Chipas constituye desfavorablemente un outlier. La distribución del PES en los 32 Estados de la República se observa gráficamente como:



Gasto en educación


La entidad con mayor gasto en educación registrado es Ciudad de México, en ella los hogares gastan en promedio $6,504 pesos, representa 3.4 veces el gasto trimestral por hogar destinado a la educación y actividades recreativas de Chiapas, el Edo. con menor GEE promedio.


A parte de Ciudad de México y Chiapas (extremos superior e inferior), los estados de Aguascalientes, Nuevo León y Querétaro representan outliers por encima de la media de la distribución, con valor de $3,833 pesos.



Gasto en alimentación


El Estado con mayor gasto en alimentos, bebidas y tabaco registrado es Ciudad de México (outlier), en dicha entidad federativa los hogares gastan trimestralmente en promedio $22,327 pesos. El estado que registra un menor gasto en este rubro es Veracruz, con un monto promedio de $11,326 pesos($11,001 pesos menos que el extremo superior).


Se muestra la distribución normal con media $14,583:



Ingreso trimestral


El Estado con mayor ingreso registrado es Nuevo León, en él los hogares perciben en promedio $72,931 pesos trimestralmente ($24,310.3 pesos mensuales), se encuentra $43,763 pesos por encima de Chiapas, el Edo. con menor ITH promedio.


La distribución nacional se asemeja normal con media $49,993, igual mediana y desviación estándar $10,636.6. Gráficamente se ve como:



Población en situación de pobreza


El Estado con mayor población en situación de pobreza moderada es Jalisco, registra 6,940,600 personas, seguido de Tlaxcala, que registra 3,619,900 personas; ambos estados significan outliers por encima de la media de la distribución nacional, que es de 1,401,900 personas para las 32 entidades federativas con mediana de 868,000 (en este caso representa una mejor medida de tendencia central).




PIB por entidad federativa


El Estado con mayor producción bruta, y por tanto, actividad económica, es Ciudad de México, la producción en esta entidad federativa equivale al 18% de la producción nacional y vale 2,856,972 millones de pesos (precios constantes del 2013). Constituye un outlier junto con Jalisco (1,126,206 millones de pesos), Estado de México (1,488,204 millones de pesos) y Nuevo León (1,268,066 millones de pesos); juntas, estas 4 entidades federativas constituyen el 41% de la producción nacional. La media en la distribución del pais es de 509,266 millones de pesos, con mediana 367,830 millones de pesos (en este caso la mediana es una mejor medida de tendencia central).


El estado con la menor producción nacional es Tlaxcala, con una producción de 91,087 millones de pesos (precios constantes del 2013), en el 2020.



Densidad poblacional


La entidad federativa con mayor densidad poblacional es la Ciudad de México, en ella habitan 6,163 personas por kilómetro cuadrado. Constituye el punto más alejado de la mediana nacional (68), seguido por el Estado de México (760) y Morelos (404). Baja California Sur es el estado con menos densidad poblacional, pues en ella habitan tan sólo 11 personas por kilómetro cuadrado.


La distribución nacional se acumula alrededor de la mediana y se ve como:



Análisis de las relaciones funcionales


Relaciones directas


Una forma de observar la existencia de dos fenómenos en un mismo periodo tiempo es observando la correlación existente entre ellos. En nuestro caso de estudio, la violencia coexiste junto con al menos 8 variables independientes, cada una de las cuales la explica en mayor o menor medida.


A partir de ahora, el objetivo de emplear modelos de regresión lineal simple será descartar aquellas variables (fenómenos), que matemáticamente no explican ni siquiera en un análisis directo a la descomposición social registrada en México como violencia, para el año 2020. Estas relaciones se ven gráficamente como:


## 
## Call:
## lm(formula = tasa_incidencia ~ tasa_desocupacion, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -10.004  -4.549  -1.069   3.189  16.776 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        17.1314     2.9608   5.786 2.54e-06 ***
## tasa_desocupacion   2.5778     0.6623   3.893 0.000513 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.044 on 30 degrees of freedom
## Multiple R-squared:  0.3356, Adjusted R-squared:  0.3134 
## F-statistic: 15.15 on 1 and 30 DF,  p-value: 0.0005126


## 
## Call:
## lm(formula = tasa_incidencia ~ promedio_escolaridad, data = base)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -9.165 -4.046 -1.660  4.523 16.473 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)   
## (Intercept)            -21.80      13.76  -1.585  0.12352   
## promedio_escolaridad     5.11       1.41   3.623  0.00106 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.185 on 30 degrees of freedom
## Multiple R-squared:  0.3043, Adjusted R-squared:  0.2812 
## F-statistic: 13.12 on 1 and 30 DF,  p-value: 0.001064


## 
## Call:
## lm(formula = tasa_incidencia ~ gasto_educacion, data = base)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -7.536 -4.514 -1.656  4.278 15.168 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)   
## (Intercept)     13.117330   4.216130   3.111  0.00407 **
## gasto_educacion  0.003851   0.001062   3.625  0.00106 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.183 on 30 degrees of freedom
## Multiple R-squared:  0.3046, Adjusted R-squared:  0.2815 
## F-statistic: 13.14 on 1 and 30 DF,  p-value: 0.001057


## 
## Call:
## lm(formula = tasa_incidencia ~ gasto_basicos, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.3190 -4.0024 -0.0185  3.6464 10.2869 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   -2.7079875  6.4994203  -0.417     0.68    
## gasto_basicos  0.0020975  0.0004405   4.762 4.56e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.596 on 30 degrees of freedom
## Multiple R-squared:  0.4305, Adjusted R-squared:  0.4115 
## F-statistic: 22.67 on 1 and 30 DF,  p-value: 4.563e-05


## 
## Call:
## lm(formula = tasa_incidencia ~ ingreso_trimestral, data = base)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.312 -5.236 -2.281  4.252 21.596 
## 
## Coefficients:
##                     Estimate Std. Error t value Pr(>|t|)   
## (Intercept)        1.677e+01  5.948e+00    2.82  0.00844 **
## ingreso_trimestral 2.222e-04  1.164e-04    1.91  0.06578 . 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.002 on 30 degrees of freedom
## Multiple R-squared:  0.1084, Adjusted R-squared:  0.07867 
## F-statistic: 3.647 on 1 and 30 DF,  p-value: 0.06578


## 
## Call:
## lm(formula = tasa_incidencia ~ miles_pobres, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.016  -4.335   0.061   3.740  23.608 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.573e+01  1.832e+00  14.047  9.9e-15 ***
## miles_pobres 1.530e-03  9.502e-04   1.611    0.118    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 7.114 on 30 degrees of freedom
## Multiple R-squared:  0.07959,    Adjusted R-squared:  0.04891 
## F-statistic: 2.594 on 1 and 30 DF,  p-value: 0.1177


## 
## Call:
## lm(formula = tasa_incidencia ~ pib_entidad, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -11.233  -3.066  -1.230   3.946  10.975 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.315e+01  1.310e+00  17.675  < 2e-16 ***
## pib_entidad 9.287e-06  1.775e-06   5.233 1.21e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.362 on 30 degrees of freedom
## Multiple R-squared:  0.4772, Adjusted R-squared:  0.4597 
## F-statistic: 27.38 on 1 and 30 DF,  p-value: 1.208e-05



## 
## Call:
## lm(formula = tasa_incidencia ~ densidad_poblacional, data = base)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11.1024  -4.5532  -0.5338   4.2991   9.5628 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          2.644e+01  9.904e-01  26.693  < 2e-16 ***
## densidad_poblacional 4.655e-03  8.956e-04   5.198 1.33e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.379 on 30 degrees of freedom
## Multiple R-squared:  0.4739, Adjusted R-squared:  0.4563 
## F-statistic: 27.02 on 1 and 30 DF,  p-value: 1.331e-05

Elección de las variables explicativas


Como se anticipó, es menester filtrar de entre todas las variables idealmente propuestas a aquellas que realmente son significativas y capaces de sobreponerse a los supuestos matemáticos mínimos para decir que el modelo de pronóstico propuesto para “la incidencia delictiva” es válido, se tomará como primer criterio la significancia de los coeficientes.


De las 8 variables independientes propuestas inicialmente, sólo resultan significativos con un 95% de confianza los coeficientes de:


  1. Tasa de desocupación - TDE - (Multiple R-squared = 0.3356)
  2. Gasto en alimentación - ABT - (Multiple R-squared = 0.4305)
  3. PIB por entidad - PIB - (Multiple R-squared = 0.4772)
  4. Densidad poblacional - DPO - (Multiple R-squared = 0.4739)


Realizando pruebas de normalidad para cada una de las variables:


## Warning: package 'tseries' was built under R version 4.4.2
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
## 
##  Jarque Bera Test
## 
## data:  errorTDE
## X-squared = 4.3404, df = 2, p-value = 0.1142
## 
##  Jarque Bera Test
## 
## data:  errorABT
## X-squared = 1.394, df = 2, p-value = 0.4981
## 
##  Jarque Bera Test
## 
## data:  errorPIB
## X-squared = 0.31234, df = 2, p-value = 0.8554
## 
##  Jarque Bera Test
## 
## data:  errorDPO
## X-squared = 1.0349, df = 2, p-value = 0.596
## 
##  Shapiro-Wilk normality test
## 
## data:  errorTDE
## W = 0.95048, p-value = 0.1487
## 
##  Shapiro-Wilk normality test
## 
## data:  errorABT
## W = 0.94099, p-value = 0.07987
## 
##  Shapiro-Wilk normality test
## 
## data:  errorPIB
## W = 0.97976, p-value = 0.7927
## 
##  Shapiro-Wilk normality test
## 
## data:  errorDPO
## W = 0.96948, p-value = 0.4853


Se concluye que todas las variables independientes pasan la prueba de normalidad de errores.


Haciendo pruebas de independencia de errores:


## Cargando paquete requerido: zoo
## 
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
##  Durbin-Watson test
## 
## data:  modeloTDE
## DW = 2.3642, p-value = 0.8552
## alternative hypothesis: true autocorrelation is greater than 0

## 
##  Durbin-Watson test
## 
## data:  modeloABT
## DW = 2.2385, p-value = 0.757
## alternative hypothesis: true autocorrelation is greater than 0

## 
##  Durbin-Watson test
## 
## data:  modeloPIB
## DW = 2.1068, p-value = 0.623
## alternative hypothesis: true autocorrelation is greater than 0

## 
##  Durbin-Watson test
## 
## data:  modeloDPO
## DW = 1.9654, p-value = 0.4658
## alternative hypothesis: true autocorrelation is greater than 0


Se concluye que todas las variables independientes pasan la prueba de independencia de errores.


Realizando pruebas de homocedasticidad:


## 
##  studentized Breusch-Pagan test
## 
## data:  modeloTDE
## BP = 1.3577, df = 1, p-value = 0.2439
## 
##  studentized Breusch-Pagan test
## 
## data:  modeloABT
## BP = 2.9656, df = 1, p-value = 0.08505
## 
##  studentized Breusch-Pagan test
## 
## data:  modeloPIB
## BP = 0.22958, df = 1, p-value = 0.6318
## 
##  studentized Breusch-Pagan test
## 
## data:  modeloDPO
## BP = 0.34822, df = 1, p-value = 0.5551


Se concluye que los modelos individualmente pasan la prueba de homocedasticidad.


Interpretación de los modelos de regresión lineal simple


Una vez probados los supuestos mínimos para aceptar como explicativa una variable independiente con el modelo de regresión lineal simple, se pueden hacer las siguientes observaciones:



  1. La relación violencia - desempleo es creciente. Este hecho verifica en México, durante el 2020, las observaciones dadas por la teoría económica y social, la idea de que a mayor desempleo involuntario corresponde un mayor grado de violencia y descomposición social.


  1. Esa relación se explica en una proporción de 2.5 a 1, es decir, que a un aumento de 2.57 puntos porcentuales en el tamaño de la población desocupada con respecto a la PEA, corresponde un incremento de un punto porcentual en la incidencia delictiva de mayores de edad. Esta aseveración está basada en un coeficiente de determinación de 33.56 sobre 100.



  1. La relación violencia - gasto en alimentos básicos es creciente. Esto quiere decir que en los estados donde los hogares gastan una mayor parte de sus ingresos en: Alimentos, bebidas y tabaco, existe también un mayor grado de incidencia delictiva.


  1. Esa relación se explica en una proporción de 0.002 a 1, es decir, que la razón de cambio para este par de fenómenos es menos acelerada que por ejemplo en la relación violencia - desempleo. Aún así, el hecho de que estos fenómenos coexisten se explica fuertemente con un coeficiente de determinación de 43 sobre 100.



  1. La relación violencia - producción es creciente. Quizá resulte extraño desde el enfoque de la Teoría General observar que esta relación es positiva, si se contrastara con la relación violencia - desempleo pudiera llegar a ser contradictoria. Sin embargo, no debemos olvidar que el desempleo (es decir, la no ocupación involuntaria en las actividades productivas) no es el único factor que explica a la violencia en una sociedad, es decir, aceptamos que el factor económico es sólo uno de muchos componentes que llevan a un individuo a delinquir, sobre todo cuando se toma como “violencia” al indicador más general de incidencia delictiva, la TDI.


  1. Aún así, es importante reconocer el hecho de que en los estados de la República con mayor producción estatal se observa la mayor presencia de “violencia” en forma de delitos cometidos. La proporción en que un fenómeno explica a otro es insignificante, lo interesante es el hecho de que el coeficiente de determinación es el más alto observado dentro de las variables seleccionadas, 47.72 sobre 100.



  1. La relación violencia - densidad poblacional es creciente, es decir, que a mayor densidad de población en un territorio específico, mayor incidencia delictiva (la proporción es insignificante). Se acumula fuertemente en un área específica de la gráfica puesto que de por sí la mediana de la distribución de densidad poblacional nacional se encuentra alrededor de 68 personas por km. cuadrado. El outlier observado (como se mencionó anteriormente) corresponde a la Ciudad de México.


Esta relación cobra relevancia al observar un caso particular de outilers, el caso de Chiapas - CDMX: Chiapas es la entidad federativa con el menor ingreso trimestral por hogar registrado en el país ($29,168 pesos), también es el Estado con el grado de escolaridad más bajo a nivel nacional (7.7 años), por su parte, CDMX es el tercer Estado mejor posicionado en términos de ITH ($67,357 pesos) y el primer lugar nacional en términos de escolaridad (11.4 años), sin embargo, ocurre que la incidencia delictiva en la Ciudad Capital es 3.4 veces la incidencia delictiva en Chiapas, es decir, que hay una diferencia de 37.6 delitos cometidos por cada 100 habitantes entre la CDMX y el Estado del Sur. Esta última observación no tiene un sentido lógico dadas las observaciones anteriores, ¿Porqué sería más violento un lugar con un mayor ingreso trimestral por hogar y promedio de escolaridad que otro en peores condiciones de ese tipo?


Lo interesante de este caso reside en el hecho de que la densidad poblacional en la CDMX es 81 veces la DPO de Chiapas (en una diferencia de 6,087 personas por km. cuadrado), es decir, que la contradicción en la relación de “mayor a menor” en la relación “CDMX - Chiapas” observada en indicadores de ingreso, educación y violencia, cobra sentido cuando se incluye en el análisis teórico la existencia de la relación “mayor a menor” pero en densidad poblacional.



Propuesta de un modelo de regresión lineal múltiple


Una vez analizada la relación funcional directa entre cada una de las variables independientes y la tasa de incidencia delictiva, proponemos el modelo de regresión lineal múltiple:


\(y_t=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+e\)


Para el que:


  1. (\(y_t\)) Es la tasa de incidencia delictiva (TDI). La violencia, explicada por el total de delitos entre la población de 18 años y más, por cada 100 habitantes.

  2. (\(x_1\)) Es la tasa de desocupación (TDE). El desempleo, explicado por el porcentaje de personas desocupadas en relación con la población económicamente activa (PEA).

  3. (\(x_2\)) Es el gasto en alimentación (ABT). El ingreso, medido por el gasto trimestral por hogar en alimentos, bebidas y tabaco.

  4. (\(x_3\)) Es el PIB por entidad (PIB). El empleo, visto desde la actividad económica y medido por el valor monetario a precios de 2013 de la producción bruta producida por entidad federativa, en millones de pesos.

  5. (\(x_4\)) Es la densidad poblacional (DPO). Una caracteristica importante de la sociedad es la densidad, muestra el promedio de habitantes en una entidad federativa por kilometro cuadrado.


En resumen:


## 
## Call:
## lm(formula = tasa_incidencia ~ tasa_desocupacion + gasto_basicos + 
##     pib_entidad + densidad_poblacional, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.7808 -3.1270 -0.5856  1.8994 10.6316 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)  
## (Intercept)          9.898e+00  6.916e+00   1.431   0.1639  
## tasa_desocupacion    1.143e+00  6.117e-01   1.868   0.0727 .
## gasto_basicos        7.514e-04  5.161e-04   1.456   0.1570  
## pib_entidad          3.541e-06  2.765e-06   1.281   0.2112  
## densidad_poblacional 1.475e-03  1.455e-03   1.014   0.3195  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.722 on 27 degrees of freedom
## Multiple R-squared:  0.6351, Adjusted R-squared:  0.581 
## F-statistic: 11.75 on 4 and 27 DF,  p-value: 1.178e-05


Todas las variables que para el análisis directo eran fuertemente significativas se vuelven insignificantes en presencia de las demás, a excepción de la tasa de desocupación con un nivel de significancia de sólo 0.1.


Proponemos un modelo de tres variables independientes como:


\(y_t=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+e\)


  1. (\(y_t\)) Es la tasa de incidencia delictiva (TDI). La violencia, explicada por el total de delitos entre la población de 18 años y más, por cada 100 habitantes.

  2. (\(x_1\)) Es la tasa de desocupación (TDE). El desempleo, explicado por el porcentaje de personas desocupadas en relación con la población económicamente activa (PEA).

  3. (\(x_2\)) Es el gasto en alimentación (ABT). El ingreso, medido por el gasto trimestral por hogar en alimentos, bebidas y tabaco.

  4. (\(x_3\)) Es el PIB por entidad (PIB). El empleo, visto desde la actividad económica y medido por el valor monetario a precios de 2013 de la producción bruta producida por entidad federativa, en millones de pesos.


Se eligieron estas variables porque eran las que mayor correlación presentaban al interactuar al mismo tiempo. Las variables TDE y ABT son mínimamente significativas pero se aceptan puesto que al menos lo son con un nivel de confianza de 0.9 y en un coeficiente de determinación multiple R-squared igual a 0.6211.


En resumen:


## 
## Call:
## lm(formula = tasa_incidencia ~ tasa_desocupacion + gasto_basicos + 
##     pib_entidad, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.1089 -3.0526 -0.6649  1.5370 11.3194 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)   
## (Intercept)       6.782e+00  6.199e+00   1.094  0.28331   
## tasa_desocupacion 1.125e+00  6.118e-01   1.839  0.07660 . 
## gasto_basicos     9.326e-04  4.845e-04   1.925  0.06445 . 
## pib_entidad       5.515e-06  1.965e-06   2.806  0.00902 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.724 on 28 degrees of freedom
## Multiple R-squared:  0.6211, Adjusted R-squared:  0.5806 
## F-statistic:  15.3 on 3 and 28 DF,  p-value: 4.371e-06


Provamos el supuesto de normalidad de los errores con pruebas visuales y formales:


## Cargando paquete requerido: carData

## [1] 17 12

## 
##  Jarque Bera Test
## 
## data:  error3
## X-squared = 2.5559, df = 2, p-value = 0.2786
## 
##  Shapiro-Wilk normality test
## 
## data:  error3
## W = 0.94909, p-value = 0.1357


Se concluye por las pruebas formales, que el modelo pasa el supuesto de normalidad de errores.


Probamos independencia de errores:


## 
##  Durbin-Watson test
## 
## data:  modelo3
## DW = 2.3422, p-value = 0.8436
## alternative hypothesis: true autocorrelation is greater than 0


Se concluye que el modelo pasa la prueba de independencia de errores


Probamos homogeneidad de la varianza:


## 
##  studentized Breusch-Pagan test
## 
## data:  modelo3
## BP = 3.7265, df = 3, p-value = 0.2926


Se concluye que el modelo cumple el supuesto de homocedasticidad.


Realizamos pruebas para observar multicolinealidad:


## Analysis of Variance Table
## 
## Response: tasa_incidencia
##                   Df Sum Sq Mean Sq F value    Pr(>F)    
## tasa_desocupacion  1 553.55  553.55  24.801 2.928e-05 ***
## gasto_basicos      1 295.34  295.34  13.232  0.001100 ** 
## pib_entidad        1 175.74  175.74   7.874  0.009022 ** 
## Residuals         28 624.93   22.32                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Call:
## omcdiag(mod = modelo3)
## 
## 
## Overall Multicollinearity Diagnostics
## 
##                        MC Results detection
## Determinant |X'X|:         0.4749         0
## Farrar Chi-Square:        21.7192         1
## Red Indicator:             0.5101         1
## Sum of Lambda Inverse:     4.6733         0
## Theil's Method:           -0.1806         0
## Condition Number:         21.0414         0
## 
## 1 --> COLLINEARITY is detected by the test 
## 0 --> COLLINEARITY is not detected by the test

Se puede concluir que no hay multicolinealidad, con un 0.999 de confianza.


Verificamos linealidad de los regresores:



Pruebas sobre modificación del modelo:


## 
##  RESET test
## 
## data:  modelo3
## RESET = 1.1846, df1 = 3, df2 = 25, p-value = 0.3356
## 
##  RESET test
## 
## data:  modelo3
## RESET = 1.08, df1 = 3, df2 = 25, p-value = 0.3756


No se requiere modificar el modelo agregando términos de raíz o de cuadrados.


Pronóstico


Consideramos nuestro modelo de pronóstico con variables independientes y sus coeficientes:


TID = 6.782e+00 + 1.125e+00(TDE) + 9.326e-04(ABT)+ 5.515e-06(PIB) + e


Podemos proponer una situación inicial con TDE = 4.1, ABT = $14,583 y PIB = 367,830, esta nos daría un pronóstico de:

X0<-data.frame(tasa_desocupacion=4.1, gasto_basicos=14583, pib_entidad=367830)
predict(modelo3,X0)
##        1 
## 27.02156


Nuestro modelo es confiable puesto que los datos propuestos son las medias o medianas (dependiendo que medida de tendencia central se ajustó mejor) de las distribuciones presentadas en el apartado de estadística descriptiva. Ahí también se muestra que la media de la tasa de incidencia delictiva nacional (TDI) es de 27.9, valor muy cercano al pronóstico por modelo.


Conclusiones


Comenzando por observar teóricamente una relación funcional entre dos o más fenómenos, analizando las relaciones directas de cada variable independiente con la variable dependiente de interés, descartando aquellas poco o nulamente explicativas y proponiendo de las restantes un modelo de regresión lineal múltiple que determine en la mayor proporción posible la explicación de la violencia en México para el año 2020, y dado el proceso de filtración de variables y pruebas de supuestos que se deben cumplir, podemos concluir que:


  1. La violencia es un fenómeno multidimensional, explicado muchas veces de mejor manera por variables de profunda interpretación y análisis. Para nuestro modelo, el caso de más dificil relación teórica es quizá el gasto en alimentos básicos, el hecho de que existe una correlación entre los estados con los hogares que más gastan en “comida, bebida y tabaco” y los que más “incidencia delictiva” enfrentan. La presición matemática nos guia a tomar unas relaciones por otras.


  1. Durante el año 2020, en México se verifica en buena medida la teoría económica que relaciona al desempleo con la violencia y descomposición social. Esta relación es creciente y fuerte.


  1. Es importante reconocer que mucha información relevante para la toma de desiciones se encuentra en el análisis descriptivo de las variables. Será necesario que se tomen en cuenta las relaciones bivariadas y las descripciones de las distribuciones de las variables en la interpretación del presente trabajo.


Referencias bibliográficas


  1. Díaz J, María (2003), “Diez condiciones básicas para prevenir la violencia desde la adolescencia”, Universidad complutense de Madrid

  2. Noriega, Fernando (2010), “Desempleo, pobreza, emigración y violencia”, Universidad Autónoma Metropolitana