Si observamos que una de nuestras variables no tiene una relación lineal podemos hacer transformaciones (¡a las variables!) para que la forma funcional se aproxime a la empírica. Hay que señalar que, además de la justificación empírica, esta transformación lineal debe siempre estar apoyada por un argumento teórico de por qué la relación entre las dos variables toma tal forma.
Una transformación común que se verá regularmente en los trabajos es la de las transformaciones logarítmicas de las variables. Éstas están presentes tanto en las variables dependientes como en las independientes. Por esta razón, le ofrecemos una tabla que le será útil. Esto le permitirá saber cómo cambia la interpretación de los resultados cuando una de las variables (o ambas) se transforma.
#introducir foto en el R Markdown
knitr::include_graphics("Imagenes/1.jpeg")
El coeficiente de Gini es una de las métricas utilizada para orientarnos respecto a la desigualdad económica. Cuanto mayor es el índice de Gini, mayor es la desigualdad de los ingresos en la población. Es decir, unos pocos cobran más que el resto de la población.
Al contrario, cuanto más cercano a cero es el índice de Gini, menor es la desigualdad de los ingresos y, por tanto, menor es la desigualdad económica. Es recomendable que un país o región no tenga coeficientes de Gini cercanos a uno, ya que eso querría decir que la sociedad, monetariamente hablando, es muy desigual.
#Quitamos notacion cientifica
options(scipen=999)
#Cargamos datos
welfare <- read_excel("data/Data_set.xlsx")
# after the comma we indicate the data.frame that contains the data
Nivel_Nivel <- lm(gini ~ 1 + education_budget, data = welfare)
screenreg(Nivel_Nivel)
##
## ============================
## Model 1
## ----------------------------
## (Intercept) 44.81 ***
## (1.02)
## education_budget 1.23 ***
## (0.25)
## ----------------------------
## R^2 0.06
## Adj. R^2 0.06
## Num. obs. 356
## ============================
## *** p < 0.001; ** p < 0.01; * p < 0.05
\(\Delta \:Gini=\Delta \:Educacion\:\cdot \:\:\beta \:_1\)
Si la educacion incrementa en una unidad, se esperararia que el Gini aumente en 1.23 unidades
Para mas ejemplos, consultar: https://www.youtube.com/watch?v=TJACbJspao0&list=RDCMUCJ7VjGl3R5CKBrB_wYQifBg&index=3
Por ejemplo, decidimos transformar nuestra variable dependiente de tal manera que
Nivel_Log <- lm(gini ~ 1 + log(education_budget), data = welfare)
screenreg(Nivel_Log)
##
## =================================
## Model 1
## ---------------------------------
## (Intercept) 43.21 ***
## (1.07)
## log(education_budget) 5.01 ***
## (0.80)
## ---------------------------------
## R^2 0.10
## Adj. R^2 0.10
## Num. obs. 356
## =================================
## *** p < 0.001; ** p < 0.01; * p < 0.05
\(\Delta \:\:\:Gini=\%\Delta \:\:\:Educacion\:\cdot \:\frac{\beta _1}{100}\)
La interpretación sería la siguiente: si aumentamos el gasto en educacion en una unidad porcentual, esperaríamos que el Gini aumente un 0.0501, ceteris paribus.
Para mas ejemplos, consultar: https://www.youtube.com/watch?v=L9ZL6_DB4fQ
Por ejemplo, decidimos transformar nuestra variable dependiente de tal manera que
Log_Nivel <- lm(log(gini) ~ 1 + education_budget, data = welfare)
screenreg(Log_Nivel)
##
## ============================
## Model 1
## ----------------------------
## (Intercept) 3.78 ***
## (0.02)
## education_budget 0.03 ***
## (0.01)
## ----------------------------
## R^2 0.07
## Adj. R^2 0.07
## Num. obs. 356
## ============================
## *** p < 0.001; ** p < 0.01; * p < 0.05
\(\% \Delta \:Gini\:=100\cdot \Delta \:Educacion\:\cdot \:\beta _1\)
La interpretación sería la siguiente: si aumentamos el gasto en educacion en una unidad, esperaríamos que el Gini aumente un 3%, ceteris paribus.
Para mas ejemplos, consultar: https://www.youtube.com/watch?v=wXC2kViEGz8&t=302s
Por ejemplo, decidimos transformar nuestra variable dependiente de tal manera que
Log_Log <- lm(log(gini) ~ 1 + log(education_budget), data = welfare)
screenreg(Log_Log)
##
## =================================
## Model 1
## ---------------------------------
## (Intercept) 3.75 ***
## (0.02)
## log(education_budget) 0.12 ***
## (0.02)
## ---------------------------------
## R^2 0.12
## Adj. R^2 0.12
## Num. obs. 356
## =================================
## *** p < 0.001; ** p < 0.01; * p < 0.05
\(\%\Delta \:\:Gini=\%\Delta \:\:Educacion\:\cdot \beta _{\:1}\)
La interpretación sería la siguiente: si aumentamos el gasto en educacion en una unidad porcentual, esperaríamos que el Gini aumente un 0.12 %, ceteris paribus.
Para mas ejemplos, consultar: https://www.youtube.com/watch?v=NZCSt9WkpkI
Realizamos comparacion grafica
# Nombramos graficos
plot1 <- coefplot(Nivel_Nivel, title= "Nivel-Nivel")
plot2 <- coefplot(Nivel_Log, title= "Nivel-Log")
plot3 <- coefplot(Log_Nivel, title= "Log-Nivel")
plot4 <- coefplot(Log_Log, title= "Log-Log")
# Graficamos junto
grid.arrange(plot1, plot2,plot3,plot4, nrow=2,ncol=2)
Realizamos comparacion estadistica
#nombramos modelos
m_list <- list(Nivel_Nivel = Nivel_Nivel, Nivel_Log = Nivel_Log,Log_Nivel =Log_Nivel, Log_Log=Log_Log)
msummary(m_list)
Nivel_Nivel | Nivel_Log | Log_Nivel | Log_Log | |
---|---|---|---|---|
(Intercept) | 44.805 | 43.213 | 3.785 | 3.745 |
(1.023) | (1.070) | (0.021) | (0.022) | |
education_budget | 1.233 | 0.028 | ||
(0.250) | (0.005) | |||
log(education_budget) | 5.008 | 0.117 | ||
(0.802) | (0.017) | |||
Num.Obs. | 356 | 356 | 356 | 356 |
R2 | 0.064 | 0.099 | 0.074 | 0.121 |
R2 Adj. | 0.062 | 0.097 | 0.072 | 0.118 |
AIC | 2368.9 | 2355.3 | 2389.3 | 2371.0 |
BIC | 2380.6 | 2366.9 | 2400.9 | 2382.6 |
Log.Lik. | −1181.471 | −1174.654 | 194.036 | 203.182 |
RMSE | 6.68 | 6.56 | 0.14 | 0.14 |
El criterio AIC (Akaike Information Criterion) y el criterio BIC (Bayesian Information Criterion) son dos medidas utilizadas en estadísticas y análisis de modelos para evaluar y comparar la calidad de diferentes modelos estadísticos, como modelos de regresión, series temporales y modelos de series de tiempo, entre otros. Estas medidas se utilizan para seleccionar el modelo que mejor se ajusta a los datos observados y penalizar modelos demasiado complejos.
En los criterios AIC (Akaike Information Criterion) y BIC (Bayesian Information Criterion), un valor más bajo es mejor. Esto significa que entre varios modelos competidores, aquel que tenga el AIC o el BIC más bajo se considera mejor en términos de ajuste a los datos y simplicidad.
En el AIC, un valor más bajo indica un mejor ajuste del modelo a los datos en relación con su complejidad.
En el BIC, también un valor más bajo indica un mejor ajuste en relación con la complejidad, con una penalización más fuerte para modelos complejos, especialmente cuando el tamaño de la muestra es grande.
Por otro lado, el logaritmo de la verosimilitud, abreviado como “loglik” o “log-likelihood,” es una medida importante en estadísticas y análisis de modelos. Representa la probabilidad de observar los datos observados dado un modelo estadístico específico. En resumen, en la mayoría de los casos, un mayor log-likelihood indica un mejor ajuste del modelo a los datos observados. Sin embargo, ten en cuenta que la interpretación del log-likelihood debe hacerse en el contexto de la comparación entre modelos alternativos y que la elección del modelo óptimo puede depender de otros criterios además del log-likelihood, como el AIC (Akaike Information Criterion) o el BIC (Bayesian Information Criterion), que penalizan la complejidad del modelo.
Finalmente, el RMSE (Root Mean Square Error) es una medida comúnmente utilizada para evaluar la precisión de un modelo de regresión o pronóstico en relación con los datos observados. El RMSE mide la diferencia entre los valores pronosticados por el modelo y los valores reales (observados) en la misma escala que los datos originales
Por lo tanto, cuando se evalúa un modelo utilizando el RMSE, se busca minimizar este valor, ya que esto implica que el modelo está haciendo predicciones más precisas y se ajusta mejor a los datos. Un mayor RMSE indica que el modelo tiene un peor ajuste a los datos y está produciendo predicciones menos precisas.