Para el presente caso de estudio se utilizarán dos variables relacionadas con los índices de violencia en cierta población. Para tal fin han sido seleccionadas las variables Desempleo y Homicidios, en unidades de porcentaje e índice de homicidios por cada 100.000 habitantes.
Inicialmente debemos identificar si existe algún tipo de relación entre las variables objeto del presente estudio, para ello emplearemos un gráfico de dispersión entre las variables asociadas con la finalidad de tratar de establecer un comportamiento lineal, exponencial o semejante.
Como se puede observar en la figura anterior, el comportamiento de las variables en cuestión nos indiciaría un comportamiento exponencial. Sin embargo, para efectos prácticos analizaremos cada uno de los modelos debajo descritos.
Modelo Exponencial
La figura anterior se conforma por tres (3) gráficos, el primero corresponde al gráfico de dispersión de los datos de estudio en conjunto con los valores calculados por el modelo con puntos en rojo, también se encuentra la gráfica de valores residuales y el gráfico de normarlidad QQ.
En la primera parte, se observa como los los valores calculados presenta el mismo comportamiento de los datos objeto del estudio, además se tiene una gráfica de valores residuales con puntos dispersos alrededor del gráfico, lo que representa una buena expectativa del modelo exponencial. Por otra parte se observa que el gráfico de normalidad QQ los valores arrojados por el modelo siguen la línea de normalidad.
Modelo Logarítmico
Para el caso del modelo logarítmico se observan varios aspectos que nos dan indicios sobre la efectividad de este modelo para el conjunto de datos de estudio. Primeramente los datos calculados del modelo no tienen el mismo comportamiento de los datos de estudio, además se observa una tendencia parabólica de lo errores residuales y los datos en el gráfico de normalidad no se encuentran alineados con la línea de normalidad.
Modelo Doble Logarítmico
El modelo doble logarítmico pretende seguir la tendencia de los datos de estudio, sin embargo el cruce con el eje Y no es en el mismo punto; aunque el comportamiento del error residual y el gráfico de normalidad presentan un mejor comportamiento que el modelo logarítimico, este modelo no reflejaría el comportamiento de los datos objeto del estudio.
Modelo Hiperbólico
El modelo hiperbólico presenta resultados que se alejan del comportamiento de los datos objeto del estudio, se confirma esto con el comportamiento del error residual y el gráfico de normalidad QQ. Podemos concluir en este punto que este modelo no aplicaría para los datos objeto del estudio.
Modelo Inverso
Para el último modelo, el modelo inverso se comporta igual que el modelo hiperbólico en términos de la discrepancia de los resultados obtenidos con respeco a lo esperado para los datos objeto de este estudio. Este modelo no sería funcional para nuestros fines.
Como complemento de las gráficas anteriores, se realiza el resumen de las métricas obtenidas para cada modelo; en donde se presentan los valores obtenidos para R-squared, Residual Error, B0 y B1.
| Modelo | R-squared | Residual Error | B0 | B1 |
|---|---|---|---|---|
| Exponencial | 0.9937 | 0.03791 | -1.028 | 0.4861 |
| Logarítmico | 0.8981 | 20.8 | -1719 | 747.5 |
| Doble Logarítmico | 0.99 | 0.04778 | -9.509 | 5.768 |
| Hiperbólico | 0.8702 | 23.48 | 864.5 | -8685 |
| Inverso | 0.9401 | 0.001081 | 0.06144 | -0.004361 |
Con esta visión completa del comportamiento de los distintos modelos podemos confirmar que el modelo logarítmico y el modelo hiperbólico son los que presentan mayor porcentaje de error, mayor a 20% por lo cuál querían descartados.
Por otra parte el modelo doble logarítmico y el modelo inverso presentan cierta tendencia hiperbólica en los gráficos de error residual, lo que nos indicaría que algunas propiedades del modelo están siendo llevadas al gráfico del error, lo cuál sería un indicio que estos modelos no serían del todo funcionales y discreparían un poco del comportamiento de los datos objeto del estudio.
Una vez verificado que el modelo que más se ajusta es el modelo exponencial, se procede a evaluarlo con la función predict() y observar su comportamiento. A continuación, los valores graficados en azul corresponden a los del caso de estudio, mientras que los de color verde corresponden a los resultados obtenidos con la función predict().
Como se puede observar, la predicción de los valores evaluados para el porcentaje de desempleo se ajusta al comportamiento de los datos objeto del presente estudio.
Finalmente teniendo en cuenta todo lo anteriormente mencionado se confirmaría que el modelo exponencial representaría en grán medida el comportamiento esperado para los datos objeto de este estudio.