Transformaciones logarítmicas en una regresión

TABLA DE TRANSFORMACIONES

Si observamos que una de nuestras variables no tiene una relación lineal podemos hacer transformaciones (¡a las variables!) para que la forma funcional se aproxime a la empírica. Hay que señalar que, además de la justificación empírica, esta transformación lineal debe siempre estar apoyada por un argumento teórico de por qué la relación entre las dos variables toma tal forma.

Una transformación común que se verá regularmente en los trabajos es la de las transformaciones logarítmicas de las variables. Éstas están presentes tanto en las variables dependientes como en las independientes. Por esta razón, le ofrecemos una tabla que le será útil. Esto le permitirá saber cómo cambia la interpretación de los resultados cuando una de las variables (o ambas) se transforma.

#introducir foto en el R Markdown
knitr::include_graphics("Imagenes/1.jpeg")

El coeficiente de Gini es una de las métricas utilizada para orientarnos respecto a la desigualdad económica. Cuanto mayor es el índice de Gini, mayor es la desigualdad de los ingresos en la población. Es decir, unos pocos cobran más que el resto de la población.

Al contrario, cuanto más cercano a cero es el índice de Gini, menor es la desigualdad de los ingresos y, por tanto, menor es la desigualdad económica. Es recomendable que un país o región no tenga coeficientes de Gini cercanos a uno, ya que eso querría decir que la sociedad, monetariamente hablando, es muy desigual.

1) TRANSFORMACION NIVEL-NIVEL

#Quitamos notacion cientifica
options(scipen=999) 

#Cargamos datos
welfare <- read_excel("data/Data_set.xlsx")

# after the comma we indicate the data.frame that contains the data 
Nivel_Nivel <- lm(gini ~ 1 + education_budget, data = welfare)
screenreg(Nivel_Nivel)

## 
## ============================
##                   Model 1   
## ----------------------------
## (Intercept)        44.81 ***
##                    (1.02)   
## education_budget    1.23 ***
##                    (0.25)   
## ----------------------------
## R^2                 0.06    
## Adj. R^2            0.06    
## Num. obs.         356       
## ============================
## *** p < 0.001; ** p < 0.01; * p < 0.05

\(\Delta \:Gini=\Delta \:Educacion\:\cdot \:\:\beta \:_1\)

Si la educacion incrementa en una unidad, se esperararia que el Gini aumente en 1.23 unidades

Para mas ejemplos, consultar: https://www.youtube.com/watch?v=TJACbJspao0&list=RDCMUCJ7VjGl3R5CKBrB_wYQifBg&index=3

2) TRANSFORMACION NIVEL-LOG

Por ejemplo, decidimos transformar nuestra variable dependiente de tal manera que

Nivel_Log <- lm(gini ~ 1 + log(education_budget), data = welfare)

screenreg(Nivel_Log)

## 
## =================================
##                        Model 1   
## ---------------------------------
## (Intercept)             43.21 ***
##                         (1.07)   
## log(education_budget)    5.01 ***
##                         (0.80)   
## ---------------------------------
## R^2                      0.10    
## Adj. R^2                 0.10    
## Num. obs.              356       
## =================================
## *** p < 0.001; ** p < 0.01; * p < 0.05

\(\Delta \:\:\:Gini=\%\Delta \:\:\:Educacion\:\cdot \:\frac{\beta _1}{100}\)

La interpretación sería la siguiente: si aumentamos el gasto en educacion en una unidad porcentual, esperaríamos que el Gini aumente un 0.0501, ceteris paribus.

Para mas ejemplos, consultar: https://www.youtube.com/watch?v=L9ZL6_DB4fQ

3) TRANSFORMACION LOG-NIVEL

Por ejemplo, decidimos transformar nuestra variable dependiente de tal manera que

Log_Nivel <- lm(log(gini) ~ 1 + education_budget, data = welfare)

screenreg(Log_Nivel)

## 
## ============================
##                   Model 1   
## ----------------------------
## (Intercept)         3.78 ***
##                    (0.02)   
## education_budget    0.03 ***
##                    (0.01)   
## ----------------------------
## R^2                 0.07    
## Adj. R^2            0.07    
## Num. obs.         356       
## ============================
## *** p < 0.001; ** p < 0.01; * p < 0.05

\(\% \Delta \:Gini\:=100\cdot \Delta \:Educacion\:\cdot \:\beta _1\)

La interpretación sería la siguiente: si aumentamos el gasto en educacion en una unidad, esperaríamos que el Gini aumente un 3%, ceteris paribus.

Para mas ejemplos, consultar: https://www.youtube.com/watch?v=wXC2kViEGz8&t=302s

4) TRANSFORMACION LOG-LOG

Por ejemplo, decidimos transformar nuestra variable dependiente de tal manera que

Log_Log <- lm(log(gini) ~ 1 + log(education_budget), data = welfare)

screenreg(Log_Log)

## 
## =================================
##                        Model 1   
## ---------------------------------
## (Intercept)              3.75 ***
##                         (0.02)   
## log(education_budget)    0.12 ***
##                         (0.02)   
## ---------------------------------
## R^2                      0.12    
## Adj. R^2                 0.12    
## Num. obs.              356       
## =================================
## *** p < 0.001; ** p < 0.01; * p < 0.05

\(\%\Delta \:\:Gini=\%\Delta \:\:Educacion\:\cdot \beta _{\:1}\)

La interpretación sería la siguiente: si aumentamos el gasto en educacion en una unidad porcentual, esperaríamos que el Gini aumente un 0.12 %, ceteris paribus.

Para mas ejemplos, consultar: https://www.youtube.com/watch?v=NZCSt9WkpkI

COMPARAMOS

Realizamos comparacion grafica

# Nombramos graficos
plot1 <- coefplot(Nivel_Nivel, title= "Nivel-Nivel")
plot2 <- coefplot(Nivel_Log, title= "Nivel-Log")
plot3 <- coefplot(Log_Nivel, title= "Log-Nivel")
plot4 <- coefplot(Log_Log, title= "Log-Log")

# Graficamos junto 
grid.arrange(plot1, plot2,plot3,plot4, nrow=2,ncol=2)

Realizamos comparacion estadistica

#nombramos modelos
m_list <- list(Nivel_Nivel = Nivel_Nivel, Nivel_Log = Nivel_Log,Log_Nivel =Log_Nivel, Log_Log=Log_Log)
msummary(m_list)

	Nivel_Nivel	Nivel_Log	Log_Nivel	Log_Log
(Intercept)	44.805	43.213	3.785	3.745
	(1.023)	(1.070)	(0.021)	(0.022)
education_budget	1.233		0.028
	(0.250)		(0.005)
log(education_budget)		5.008		0.117
		(0.802)		(0.017)
Num.Obs.	356	356	356	356
R2	0.064	0.099	0.074	0.121
R2 Adj.	0.062	0.097	0.072	0.118
AIC	2368.9	2355.3	2389.3	2371.0
BIC	2380.6	2366.9	2400.9	2382.6
Log.Lik.	−1181.471	−1174.654	194.036	203.182
RMSE	6.68	6.56	0.14	0.14

El criterio AIC (Akaike Information Criterion) y el criterio BIC (Bayesian Information Criterion) son dos medidas utilizadas en estadísticas y análisis de modelos para evaluar y comparar la calidad de diferentes modelos estadísticos, como modelos de regresión, series temporales y modelos de series de tiempo, entre otros. Estas medidas se utilizan para seleccionar el modelo que mejor se ajusta a los datos observados y penalizar modelos demasiado complejos.

En los criterios AIC (Akaike Information Criterion) y BIC (Bayesian Information Criterion), un valor más bajo es mejor. Esto significa que entre varios modelos competidores, aquel que tenga el AIC o el BIC más bajo se considera mejor en términos de ajuste a los datos y simplicidad.

En el AIC, un valor más bajo indica un mejor ajuste del modelo a los datos en relación con su complejidad.
En el BIC, también un valor más bajo indica un mejor ajuste en relación con la complejidad, con una penalización más fuerte para modelos complejos, especialmente cuando el tamaño de la muestra es grande.

Por otro lado, el logaritmo de la verosimilitud, abreviado como “loglik” o “log-likelihood,” es una medida importante en estadísticas y análisis de modelos. Representa la probabilidad de observar los datos observados dado un modelo estadístico específico. En resumen, en la mayoría de los casos, un mayor log-likelihood indica un mejor ajuste del modelo a los datos observados. Sin embargo, ten en cuenta que la interpretación del log-likelihood debe hacerse en el contexto de la comparación entre modelos alternativos y que la elección del modelo óptimo puede depender de otros criterios además del log-likelihood, como el AIC (Akaike Information Criterion) o el BIC (Bayesian Information Criterion), que penalizan la complejidad del modelo.

Finalmente, el RMSE (Root Mean Square Error) es una medida comúnmente utilizada para evaluar la precisión de un modelo de regresión o pronóstico en relación con los datos observados. El RMSE mide la diferencia entre los valores pronosticados por el modelo y los valores reales (observados) en la misma escala que los datos originales

Por lo tanto, cuando se evalúa un modelo utilizando el RMSE, se busca minimizar este valor, ya que esto implica que el modelo está haciendo predicciones más precisas y se ajusta mejor a los datos. Un mayor RMSE indica que el modelo tiene un peor ajuste a los datos y está produciendo predicciones menos precisas.

Transformaciones logarítmicas en una regresión

Juan José Echeverry

2023-10-01

TABLA DE TRANSFORMACIONES

1) TRANSFORMACION NIVEL-NIVEL

2) TRANSFORMACION NIVEL-LOG

3) TRANSFORMACION LOG-NIVEL

4) TRANSFORMACION LOG-LOG

COMPARAMOS