De acuerdo con la Teoría General, el desempleo (desempleo involuntario), es el fenómeno en el que existen individuos que buscan trabajo al salario prevaleciente y no lo encuentran, ni siquiera a uno más bajo, pese a estar dispuestos a aceptarlo. Es muy raro el desempleado de cuyos posibles ingresos dependen él y sólo él. Generalmente, tras la búsqueda desesperada de un puesto de trabajo remunerado por parte de un individuo, hay padres, hijos y familias cuya supervivencia está en juego, se trata de un fenómeno en cuya expresión individual están siempre las necesidades de más de uno.
Muchas teorías explican la relación entre desempleo y violencia, Becker (1968) y Ehrlich (1973), sobre literatura relacionada con la Economía del crimen, lo hacen de la siguiente manera: El ser humano escala en las opciones que tiene para satisfacer sus necesidades, si en el momento en que las enfrenta tiene a la mano los recursos financieros que necesita, se satisface a través del mercado. Si no cuenta con ellos, recurre al Estado o a instituciones filantrópicas. Si estas se cierran o se niegan, apela a la solidaridad. Si la solidaridad (penúltimo peldaño de la escala) falla, recurre a la violencia. Mercado, Estado, solidaridad y violencia son los peldaños a los que guían las necesidades humanas en aras de su satisfacción. La duración del desempleo va orillando a quienes lo sufren, a escalar peldaño a peldaño, por lo que no es de extrañarse que ante el desempleo duradero y creciente acontezca la descomposición social.
Dado que la violencia es un fenómeno de causas duraderas, en general se reconoce que es mejor prevenirla que intentar solucionarla. María J. Díaz en “Diez condiciones básicas para prevenir la violencia desde la adolescencia” \(_1\), señala que la educación y la lucha contra la exclusión son fundamentales en este proceso. Otra condición además del empleo y la educación, como por ejemplo “un ingreso económico justo para los trabajadores”, es igualmente importante al momento de considerar una solución a la descomposición social. El Pacto Mundial de las Naciones Unidas recalca, por ejemplo, la importancia del salario digno como “mecanismo de incentivo social que evite la pauperización de la fuerza laboral, así como el escalamiento de peldaños en la escalera de la descomposición cultural” \(_2\).
El objetivo del presente trabajo es analizar el fenómeno de la violencia en México, visualizando su relación con cada una de las variables causales descritas en la teoría económica y social, a fin de comprobar en que medida esta teoría se verifica en el caso nacional. La descomposición social se desarrolla distinto en un país que en otro, dadas las distintas caracteristicas de las sociedades; la comprensión del fenómeno en el contexto local permitirá enfocar los esfuerzos sólo en aquellas causas realmente influyentes. La forma en que esto se llevará a cabo será recopilando información estatal para el año 2020, y observando las relaciones particulares y generales, utilizando en el proceso modelos de regresión lineal.
Los datos a utilizar son registros recabados por distintos medios e instituciones nacionales, desagregados por entidad federativa, por lo cual, el número de datos por variable será de 32. Definamos a las variables de interés como:
Tasa de incidencia delictiva (TID). La violencia, explicada por el total de delitos entre la población de 18 años y más, por cada 100 habitantes.
Tasa de desocupación (TDE). El desempleo, explicado por el porcentaje de personas desocupadas en relación con la población económicamente activa (PEA).
Promedio de escolaridad (PES). La educación, medida por la suma de años aprobados desde primero de primaria hasta el último grado alcanzado de las personas de 15 años o más en el sistema educativo nacional.
Gasto en educación (GEE). La educación, medida por el gasto trimestral por hogar destinado a actividades de educación y esparcimiento.
Gasto en alimentación (ABT). El ingreso, medido por el gasto trimestral por hogar en alimentos, bebidas y tabaco.
Ingreso trimestral (ITH). El ingreso, como monto monetario que representa los recursos financieros totales trimestrales por hogar.
Población en situación de pobreza moderada (PPO). El ingreso,medido por entidad federativa con la catidad de personas en situación de pobreza moderada, en unidades de mil.
PIB por entidad (PIB). El empleo, visto desde la actividad económica y medido por el valor monetario a precios de 2013 de la producción bruta producida por entidad federativa, en millones de pesos.
Densidad poblacional (DPO). Una caracteristica importante de la sociedad es la densidad, muestra el promedio de habitantes en una entidad federativa por kilometro cuadrado.
Planteamos que el fenómeno “violencia” está determinado por ciertos factores económicos y sociales, como lo especificamos en la introducción. Matemáticamente, decimos que la tasa de incidencia delictiva (llamemosla “y”) en México, durante el 2020 (t = 2020), “es dependiente” de la tasa de desocupación (\(x_1\)), del promedio de escolaridad (\(x_2\)), del gasto en educación (\(x_3\)), del gasto en alimentación (\(x_4\)), del ingreso trimestral (\(x_5\)), de la población en pobreza moderada (\(x_6\)), el PIB por entidad (\(x_7\)) y la densidad poblacional (\(x_8\)). Esta relación se expresa con el modelo de regresión lineal múltiple como:
\(y_t=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\beta_5x_5+\beta_6x_6+\beta_7x_7+\beta_8x_8+e\)
En Economía es preferible explicar un fenómeno con el menor número de variables posibles, seleccionando sólo aquellas que son significativas. A partir de ahora, nos centraremos en elegir a nuestras variables explicativas.
Antes de analizar la relación entre variables, tomemos en cuenta que:
En México para el año 2020, la media de delitos cometidos por adultos se calcula en 27.9 por cada 100 habitantes. La CDMX constituye un caso desfavorablemente especial puesto que en ella, la tasa se estimó en 53.3 (último rectángulo del histograma), este dato constituye un outlier. En este caso, se considera estadísticamente que el valor extremo de la CDMX puede afectar la estimación de la tasa que representa el nivel nacional, la mediana de la distribución constituye una mejor medida y se calcula en 26.9.
El Estado con menos incidencia delictiva es Chiapas (con una TID = 15.69), aún siendo la Entidad con menor ingreso trimestral por hogar (ITH = $29,168, es decir, $43,763 pesos menos que Nuevo león), en dicho Estado se cometen 37.6 delitos menos que en la ciudad capital, por cada 100 habs. Gráficamente, la TID nacional se distribuye según su frecuecia como:
A nivel nacional, la tasa promedio de desocupación se estima en 4.1, el Estado con el mayor nivel de desempleo según este indicador es Quintana Roo (con una TDE = 8.4), la Entidad Federativa mejor valorada en estos términos es Oaxaca, con una tasa igual a 1.5, es decir, 6.9 puntos porcentuales por debajo de Quintana Roo y 2.5 puntos porcentuales por debajo de la media nacional.
En la distribución nacional no se observan outliers tal como en el indicador anterior, los puntos relativamente extremos mencionados no lo son puesto que se enuentran dentro de todos los cuartiles de la distribución. Gráficamente la tasa de desoccupación nacional se distribuye según su frecuencia como:
La Entidad Federativa con el mayor grado de educación es CDMX, en ella se estima que la población llega a educarse hasta 2.4 años de preparatoria, un total de 11.4 años.
Siendo CDMX la Entidad Federativa mejor evaluada en términos de años de escolaridad se puede recordar que es la peor en términos de la tasa de incidencia delictiva, se deduciría entonces que la relación entre educación y violencia no es necesariamente causal, a menos que sea positiva, o quizá nula, puesto que el Edo. con menor incidencia delictiva es Chiapas, aún siendo el que menos años promedio de escolaridad reporta (la población se educa en promedio hasta 1.5 años de secundaria, TED = 7.7). La relación positiva, negativa o nula se probará posteriormente considerando la totalidad de los datos.
La media nacional se calcula en 9.7 años (mediana = 9.8), el caso de
Chipas constituye desfavorablemente un outlier. La distribución
del PES en los 32 Estados de la República se observa gráficamente como:
La entidad con mayor gasto en educación registrado es Ciudad de México, en ella los hogares gastan en promedio $6,504 pesos, representa 3.4 veces el gasto trimestral por hogar destinado a la educación y actividades recreativas de Chiapas, el Edo. con menor GEE promedio.
A parte de Ciudad de México y Chiapas (extremos superior e inferior), los estados de Aguascalientes, Nuevo León y Querétaro representan outliers por encima de la media de la distribución, con valor de $3,833 pesos.
El Estado con mayor gasto en alimentos, bebidas y tabaco registrado es Ciudad de México (outlier), en dicha entidad federativa los hogares gastan trimestralmente en promedio $22,327 pesos. El estado que registra un menor gasto en este rubro es Veracruz, con un monto promedio de $11,326 pesos($11,001 pesos menos que el extremo superior).
Se muestra la distribución normal con media $14,583:
El Estado con mayor ingreso registrado es Nuevo León, en él los hogares perciben en promedio $72,931 pesos trimestralmente ($24,310.3 pesos mensuales), se encuentra $43,763 pesos por encima de Chiapas, el Edo. con menor ITH promedio.
La distribución nacional se asemeja normal con media $49,993, igual
mediana y desviación estándar $10,636.6. Gráficamente se ve como:
El Estado con mayor población en situación de pobreza moderada es Jalisco, registra 6,940,600 personas, seguido de Tlaxcala, que registra 3,619,900 personas; ambos estados significan outliers por encima de la media de la distribución nacional, que es de 1,401,900 personas para las 32 entidades federativas con mediana de 868,000 (en este caso representa una mejor medida de tendencia central).
El Estado con mayor producción bruta, y por tanto, actividad económica, es Ciudad de México, la producción en esta entidad federativa equivale al 18% de la producción nacional y vale 2,856,972 millones de pesos (precios constantes del 2013). Constituye un outlier junto con Jalisco (1,126,206 millones de pesos), Estado de México (1,488,204 millones de pesos) y Nuevo León (1,268,066 millones de pesos); juntas, estas 4 entidades federativas constituyen el 41% de la producción nacional. La media en la distribución del pais es de 509,266 millones de pesos, con mediana 367,830 millones de pesos (en este caso la mediana es una mejor medida de tendencia central).
El estado con la menor producción nacional es Tlaxcala, con una producción de 91,087 millones de pesos (precios constantes del 2013), en el 2020.
La entidad federativa con mayor densidad poblacional es la Ciudad de México, en ella habitan 6,163 personas por kilómetro cuadrado. Constituye el punto más alejado de la mediana nacional (68), seguido por el Estado de México (760) y Morelos (404). Baja California Sur es el estado con menos densidad poblacional, pues en ella habitan tan sólo 11 personas por kilómetro cuadrado.
La distribución nacional se acumula alrededor de la mediana y se ve como:
Una forma de observar la existencia de dos fenómenos en un mismo periodo tiempo es observando la correlación existente entre ellos. En nuestro caso de estudio, la violencia coexiste junto con al menos 8 variables independientes, cada una de las cuales la explica en mayor o menor medida.
A partir de ahora, el objetivo de emplear modelos de regresión lineal simple será descartar aquellas variables (fenómenos), que matemáticamente no explican ni siquiera en un análisis directo a la descomposición social registrada en México como violencia, para el año 2020. Estas relaciones se ven gráficamente como:
##
## Call:
## lm(formula = tasa_incidencia ~ tasa_desocupacion, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -10.004 -4.549 -1.069 3.189 16.776
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 17.1314 2.9608 5.786 2.54e-06 ***
## tasa_desocupacion 2.5778 0.6623 3.893 0.000513 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.044 on 30 degrees of freedom
## Multiple R-squared: 0.3356, Adjusted R-squared: 0.3134
## F-statistic: 15.15 on 1 and 30 DF, p-value: 0.0005126
##
## Call:
## lm(formula = tasa_incidencia ~ promedio_escolaridad, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -9.165 -4.046 -1.660 4.523 16.473
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -21.80 13.76 -1.585 0.12352
## promedio_escolaridad 5.11 1.41 3.623 0.00106 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.185 on 30 degrees of freedom
## Multiple R-squared: 0.3043, Adjusted R-squared: 0.2812
## F-statistic: 13.12 on 1 and 30 DF, p-value: 0.001064
##
## Call:
## lm(formula = tasa_incidencia ~ gasto_educacion, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.536 -4.514 -1.656 4.278 15.168
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 13.117330 4.216130 3.111 0.00407 **
## gasto_educacion 0.003851 0.001062 3.625 0.00106 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.183 on 30 degrees of freedom
## Multiple R-squared: 0.3046, Adjusted R-squared: 0.2815
## F-statistic: 13.14 on 1 and 30 DF, p-value: 0.001057
##
## Call:
## lm(formula = tasa_incidencia ~ gasto_basicos, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.3190 -4.0024 -0.0185 3.6464 10.2869
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.7079875 6.4994203 -0.417 0.68
## gasto_basicos 0.0020975 0.0004405 4.762 4.56e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.596 on 30 degrees of freedom
## Multiple R-squared: 0.4305, Adjusted R-squared: 0.4115
## F-statistic: 22.67 on 1 and 30 DF, p-value: 4.563e-05
##
## Call:
## lm(formula = tasa_incidencia ~ ingreso_trimestral, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.312 -5.236 -2.281 4.252 21.596
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.677e+01 5.948e+00 2.82 0.00844 **
## ingreso_trimestral 2.222e-04 1.164e-04 1.91 0.06578 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.002 on 30 degrees of freedom
## Multiple R-squared: 0.1084, Adjusted R-squared: 0.07867
## F-statistic: 3.647 on 1 and 30 DF, p-value: 0.06578
##
## Call:
## lm(formula = tasa_incidencia ~ miles_pobres, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -14.016 -4.335 0.061 3.740 23.608
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.573e+01 1.832e+00 14.047 9.9e-15 ***
## miles_pobres 1.530e-03 9.502e-04 1.611 0.118
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 7.114 on 30 degrees of freedom
## Multiple R-squared: 0.07959, Adjusted R-squared: 0.04891
## F-statistic: 2.594 on 1 and 30 DF, p-value: 0.1177
##
## Call:
## lm(formula = tasa_incidencia ~ pib_entidad, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.233 -3.066 -1.230 3.946 10.975
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.315e+01 1.310e+00 17.675 < 2e-16 ***
## pib_entidad 9.287e-06 1.775e-06 5.233 1.21e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.362 on 30 degrees of freedom
## Multiple R-squared: 0.4772, Adjusted R-squared: 0.4597
## F-statistic: 27.38 on 1 and 30 DF, p-value: 1.208e-05
##
## Call:
## lm(formula = tasa_incidencia ~ densidad_poblacional, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11.1024 -4.5532 -0.5338 4.2991 9.5628
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 2.644e+01 9.904e-01 26.693 < 2e-16 ***
## densidad_poblacional 4.655e-03 8.956e-04 5.198 1.33e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.379 on 30 degrees of freedom
## Multiple R-squared: 0.4739, Adjusted R-squared: 0.4563
## F-statistic: 27.02 on 1 and 30 DF, p-value: 1.331e-05
Como se anticipó, es menester filtrar de entre todas las variables idealmente propuestas a aquellas que realmente son significativas y capaces de sobreponerse a los supuestos matemáticos mínimos para decir que el modelo de pronóstico propuesto para “la incidencia delictiva” es válido, se tomará como primer criterio la significancia de los coeficientes.
De las 8 variables independientes propuestas inicialmente, sólo resultan significativos con un 95% de confianza los coeficientes de:
Realizando pruebas de normalidad para cada una de las variables:
## Warning: package 'tseries' was built under R version 4.4.2
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
##
## Jarque Bera Test
##
## data: errorTDE
## X-squared = 4.3404, df = 2, p-value = 0.1142
##
## Jarque Bera Test
##
## data: errorABT
## X-squared = 1.394, df = 2, p-value = 0.4981
##
## Jarque Bera Test
##
## data: errorPIB
## X-squared = 0.31234, df = 2, p-value = 0.8554
##
## Jarque Bera Test
##
## data: errorDPO
## X-squared = 1.0349, df = 2, p-value = 0.596
##
## Shapiro-Wilk normality test
##
## data: errorTDE
## W = 0.95048, p-value = 0.1487
##
## Shapiro-Wilk normality test
##
## data: errorABT
## W = 0.94099, p-value = 0.07987
##
## Shapiro-Wilk normality test
##
## data: errorPIB
## W = 0.97976, p-value = 0.7927
##
## Shapiro-Wilk normality test
##
## data: errorDPO
## W = 0.96948, p-value = 0.4853
Se concluye que todas las variables independientes pasan la prueba de normalidad de errores.
Haciendo pruebas de independencia de errores:
## Cargando paquete requerido: zoo
##
## Adjuntando el paquete: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Durbin-Watson test
##
## data: modeloTDE
## DW = 2.3642, p-value = 0.8552
## alternative hypothesis: true autocorrelation is greater than 0
##
## Durbin-Watson test
##
## data: modeloABT
## DW = 2.2385, p-value = 0.757
## alternative hypothesis: true autocorrelation is greater than 0
##
## Durbin-Watson test
##
## data: modeloPIB
## DW = 2.1068, p-value = 0.623
## alternative hypothesis: true autocorrelation is greater than 0
##
## Durbin-Watson test
##
## data: modeloDPO
## DW = 1.9654, p-value = 0.4658
## alternative hypothesis: true autocorrelation is greater than 0
Se concluye que todas las variables independientes pasan la prueba de independencia de errores.
Realizando pruebas de homocedasticidad:
##
## studentized Breusch-Pagan test
##
## data: modeloTDE
## BP = 1.3577, df = 1, p-value = 0.2439
##
## studentized Breusch-Pagan test
##
## data: modeloABT
## BP = 2.9656, df = 1, p-value = 0.08505
##
## studentized Breusch-Pagan test
##
## data: modeloPIB
## BP = 0.22958, df = 1, p-value = 0.6318
##
## studentized Breusch-Pagan test
##
## data: modeloDPO
## BP = 0.34822, df = 1, p-value = 0.5551
Se concluye que los modelos individualmente pasan la prueba de homocedasticidad.
Una vez probados los supuestos mínimos para aceptar como explicativa una variable independiente con el modelo de regresión lineal simple, se pueden hacer las siguientes observaciones:
Esta relación cobra relevancia al observar un caso particular de outilers, el caso de Chiapas - CDMX: Chiapas es la entidad federativa con el menor ingreso trimestral por hogar registrado en el país ($29,168 pesos), también es el Estado con el grado de escolaridad más bajo a nivel nacional (7.7 años), por su parte, CDMX es el tercer Estado mejor posicionado en términos de ITH ($67,357 pesos) y el primer lugar nacional en términos de escolaridad (11.4 años), sin embargo, ocurre que la incidencia delictiva en la Ciudad Capital es 3.4 veces la incidencia delictiva en Chiapas, es decir, que hay una diferencia de 37.6 delitos cometidos por cada 100 habitantes entre la CDMX y el Estado del Sur. Esta última observación no tiene un sentido lógico dadas las observaciones anteriores, ¿Porqué sería más violento un lugar con un mayor ingreso trimestral por hogar y promedio de escolaridad que otro en peores condiciones de ese tipo?
Lo interesante de este caso reside en el hecho de que la densidad poblacional en la CDMX es 81 veces la DPO de Chiapas (en una diferencia de 6,087 personas por km. cuadrado), es decir, que la contradicción en la relación de “mayor a menor” en la relación “CDMX - Chiapas” observada en indicadores de ingreso, educación y violencia, cobra sentido cuando se incluye en el análisis teórico la existencia de la relación “mayor a menor” pero en densidad poblacional.
Una vez analizada la relación funcional directa entre cada una de las variables independientes y la tasa de incidencia delictiva, proponemos el modelo de regresión lineal múltiple:
\(y_t=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+e\)
Para el que:
(\(y_t\)) Es la tasa de incidencia delictiva (TDI). La violencia, explicada por el total de delitos entre la población de 18 años y más, por cada 100 habitantes.
(\(x_1\)) Es la tasa de desocupación (TDE). El desempleo, explicado por el porcentaje de personas desocupadas en relación con la población económicamente activa (PEA).
(\(x_2\)) Es el gasto en alimentación (ABT). El ingreso, medido por el gasto trimestral por hogar en alimentos, bebidas y tabaco.
(\(x_3\)) Es el PIB por entidad (PIB). El empleo, visto desde la actividad económica y medido por el valor monetario a precios de 2013 de la producción bruta producida por entidad federativa, en millones de pesos.
(\(x_4\)) Es la densidad poblacional (DPO). Una caracteristica importante de la sociedad es la densidad, muestra el promedio de habitantes en una entidad federativa por kilometro cuadrado.
En resumen:
##
## Call:
## lm(formula = tasa_incidencia ~ tasa_desocupacion + gasto_basicos +
## pib_entidad + densidad_poblacional, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.7808 -3.1270 -0.5856 1.8994 10.6316
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.898e+00 6.916e+00 1.431 0.1639
## tasa_desocupacion 1.143e+00 6.117e-01 1.868 0.0727 .
## gasto_basicos 7.514e-04 5.161e-04 1.456 0.1570
## pib_entidad 3.541e-06 2.765e-06 1.281 0.2112
## densidad_poblacional 1.475e-03 1.455e-03 1.014 0.3195
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.722 on 27 degrees of freedom
## Multiple R-squared: 0.6351, Adjusted R-squared: 0.581
## F-statistic: 11.75 on 4 and 27 DF, p-value: 1.178e-05
Todas las variables que para el análisis directo eran fuertemente significativas se vuelven insignificantes en presencia de las demás, a excepción de la tasa de desocupación con un nivel de significancia de sólo 0.1.
Proponemos un modelo de tres variables independientes como:
\(y_t=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3+e\)
(\(y_t\)) Es la tasa de incidencia delictiva (TDI). La violencia, explicada por el total de delitos entre la población de 18 años y más, por cada 100 habitantes.
(\(x_1\)) Es la tasa de desocupación (TDE). El desempleo, explicado por el porcentaje de personas desocupadas en relación con la población económicamente activa (PEA).
(\(x_2\)) Es el gasto en alimentación (ABT). El ingreso, medido por el gasto trimestral por hogar en alimentos, bebidas y tabaco.
(\(x_3\)) Es el PIB por entidad (PIB). El empleo, visto desde la actividad económica y medido por el valor monetario a precios de 2013 de la producción bruta producida por entidad federativa, en millones de pesos.
Se eligieron estas variables porque eran las que mayor correlación presentaban al interactuar al mismo tiempo. Las variables TDE y ABT son mínimamente significativas pero se aceptan puesto que al menos lo son con un nivel de confianza de 0.9 y en un coeficiente de determinación multiple R-squared igual a 0.6211.
En resumen:
##
## Call:
## lm(formula = tasa_incidencia ~ tasa_desocupacion + gasto_basicos +
## pib_entidad, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.1089 -3.0526 -0.6649 1.5370 11.3194
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.782e+00 6.199e+00 1.094 0.28331
## tasa_desocupacion 1.125e+00 6.118e-01 1.839 0.07660 .
## gasto_basicos 9.326e-04 4.845e-04 1.925 0.06445 .
## pib_entidad 5.515e-06 1.965e-06 2.806 0.00902 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.724 on 28 degrees of freedom
## Multiple R-squared: 0.6211, Adjusted R-squared: 0.5806
## F-statistic: 15.3 on 3 and 28 DF, p-value: 4.371e-06
Provamos el supuesto de normalidad de los errores con pruebas visuales y formales:
## Cargando paquete requerido: carData
## [1] 17 12
##
## Jarque Bera Test
##
## data: error3
## X-squared = 2.5559, df = 2, p-value = 0.2786
##
## Shapiro-Wilk normality test
##
## data: error3
## W = 0.94909, p-value = 0.1357
Se concluye por las pruebas formales, que el modelo pasa el supuesto de normalidad de errores.
Probamos independencia de errores:
##
## Durbin-Watson test
##
## data: modelo3
## DW = 2.3422, p-value = 0.8436
## alternative hypothesis: true autocorrelation is greater than 0
Se concluye que el modelo pasa la prueba de independencia de errores
Probamos homogeneidad de la varianza:
##
## studentized Breusch-Pagan test
##
## data: modelo3
## BP = 3.7265, df = 3, p-value = 0.2926
Se concluye que el modelo cumple el supuesto de homocedasticidad.
Realizamos pruebas para observar multicolinealidad:
## Analysis of Variance Table
##
## Response: tasa_incidencia
## Df Sum Sq Mean Sq F value Pr(>F)
## tasa_desocupacion 1 553.55 553.55 24.801 2.928e-05 ***
## gasto_basicos 1 295.34 295.34 13.232 0.001100 **
## pib_entidad 1 175.74 175.74 7.874 0.009022 **
## Residuals 28 624.93 22.32
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Call:
## omcdiag(mod = modelo3)
##
##
## Overall Multicollinearity Diagnostics
##
## MC Results detection
## Determinant |X'X|: 0.4749 0
## Farrar Chi-Square: 21.7192 1
## Red Indicator: 0.5101 1
## Sum of Lambda Inverse: 4.6733 0
## Theil's Method: -0.1806 0
## Condition Number: 21.0414 0
##
## 1 --> COLLINEARITY is detected by the test
## 0 --> COLLINEARITY is not detected by the test
Se puede concluir que no hay multicolinealidad, con un 0.999 de confianza.
Verificamos linealidad de los regresores:
Pruebas sobre modificación del modelo:
##
## RESET test
##
## data: modelo3
## RESET = 1.1846, df1 = 3, df2 = 25, p-value = 0.3356
##
## RESET test
##
## data: modelo3
## RESET = 1.08, df1 = 3, df2 = 25, p-value = 0.3756
No se requiere modificar el modelo agregando términos de raíz o de cuadrados.
Consideramos nuestro modelo de pronóstico con variables independientes y sus coeficientes:
TID = 6.782e+00 + 1.125e+00(TDE) + 9.326e-04(ABT)+ 5.515e-06(PIB) + e
Podemos proponer una situación inicial con TDE = 4.1, ABT = $14,583 y PIB = 367,830, esta nos daría un pronóstico de:
## 1
## 27.02156
Nuestro modelo es confiable puesto que los datos propuestos son las medias o medianas (dependiendo que medida de tendencia central se ajustó mejor) de las distribuciones presentadas en el apartado de estadística descriptiva. Ahí también se muestra que la media de la tasa de incidencia delictiva nacional (TDI) es de 27.9, valor muy cercano al pronóstico por modelo.
Comenzando por observar teóricamente una relación funcional entre dos o más fenómenos, analizando las relaciones directas de cada variable independiente con la variable dependiente de interés, descartando aquellas poco o nulamente explicativas y proponiendo de las restantes un modelo de regresión lineal múltiple que determine en la mayor proporción posible la explicación de la violencia en México para el año 2020, y dado el proceso de filtración de variables y pruebas de supuestos que se deben cumplir, podemos concluir que:
Díaz J, María (2003), “Diez condiciones básicas para prevenir la violencia desde la adolescencia”, Universidad complutense de Madrid
Noriega, Fernando (2010), “Desempleo, pobreza, emigración y violencia”, Universidad Autónoma Metropolitana