R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

#Introducción

#En el análisis estadístico, es fundamental la evaluación de supuestos estadísticos para garantizar la validez de las inferencias. En este compendio, se discutirán los supuestos de autocorrelación, normalidad, estacionariedad, homocedasticidad, multicolinealidad y causalidad, y se presentarán ejemplos económicos. Además, se discutirán los coeficientes utilizados para comparar diferentes modelos, como el AIC y los errores de predicción.

#Autocorrelación

#La autocorrelación es la correlación de una serie temporal con su propia historia. Si la serie temporal exhibe autocorrelación, esto indica que hay una relación entre las observaciones en diferentes momentos. La autocorrelación puede ser positiva o negativa y se puede medir utilizando el coeficiente de correlación de Pearson o la función de autocorrelación (ACF) y la función de autocorrelación parcial (PACF).

#En el análisis económico, la autocorrelación puede ser un problema cuando se trabaja con series temporales de datos, como el PIB, la tasa de interés, el tipo de cambio y el precio del petróleo. Por ejemplo, en un modelo econométrico que explique la inflación, si la inflación en un mes está fuertemente correlacionada con la inflación en el mes anterior, esto podría ser un indicio de que se necesita incluir un término de autocorrelación en el modelo.

#Normalidad

#La normalidad se refiere a la distribución de una variable. Una variable es considerada normal si sigue una distribución normal o de campana de Gauss. La distribución normal es importante en estadística porque muchos modelos estadísticos, como la regresión lineal y el análisis de varianza, asumen que los errores tienen una distribución normal.

#En el análisis económico, la normalidad es importante en el modelado de variables económicas, como los ingresos, los precios y las tasas de interés. Por ejemplo, en un modelo que explique la demanda de un bien, si los residuos del modelo no siguen una distribución normal, esto podría indicar que el modelo no es adecuado y se deben considerar otros modelos.

#Estacionariedad

#La estacionariedad se refiere a la constancia de las propiedades estadísticas de una serie temporal a lo largo del tiempo. Si una serie temporal es estacionaria, la media y la varianza son constantes a lo largo del tiempo. Además, la covarianza entre dos puntos en la serie solo depende de la distancia entre los puntos y no de su posición en el tiempo.

#La estacionariedad es importante en el análisis económico porque muchas variables económicas, como la inflación y el tipo de cambio, tienen propiedades estacionarias. La estacionariedad también es importante en el modelado de series temporales porque muchos modelos asumen la estacionariedad.

#Homocedasticidad

#La homocedasticidad se refiere a la igualdad de varianzas en diferentes grupos o niveles de una variable independiente. En la regresión lineal, la homocedasticidad es importante porque si la varianza de los errores no es constante, los modelos de regresión lineal pueden ser inadecuados.

#En el análisis económico, la homocedasticidad es importante en el modelado

#un ejemplo económico sería un modelo que explique la relación entre el salario y la experiencia laboral. Si los errores en el modelo tienen una varianza mayor para los trabajadores con más experiencia, esto indica que la relación entre el salario y la experiencia no es constante y podría ser necesario considerar modelos más complejos.

#Multicolinealidad

#La multicolinealidad se refiere a la presencia de correlación alta entre dos o más variables independientes en un modelo de regresión. La multicolinealidad puede ser un problema en la regresión lineal porque hace que los coeficientes estimados sean imprecisos y puede llevar a la selección errónea de variables.

#En el análisis económico, la multicolinealidad puede ser un problema común en modelos que expliquen el comportamiento de los consumidores o la demanda de bienes. Por ejemplo, en un modelo que explique la demanda de un bien en función del precio, la renta y el nivel de educación, si el nivel de educación y la renta están altamente correlacionados, esto puede causar problemas en la estimación de los coeficientes.

#Causalidad

#La causalidad se refiere a la relación entre una variable independiente y una variable dependiente en la que la variable independiente causa un cambio en la variable dependiente. En la estadística, la causalidad se puede inferir mediante experimentos controlados y aleatorizados.

#En el análisis económico, la causalidad es importante en la toma de decisiones y la formulación de políticas. Por ejemplo, si un gobierno desea reducir la tasa de desempleo, debe investigar qué políticas podrían tener un impacto causal en la reducción de la tasa de desempleo.

#Coeficientes para comparar modelos

#En la modelización estadística, es común comparar diferentes modelos para encontrar el modelo que mejor se ajuste a los datos. Dos coeficientes que se utilizan comúnmente para comparar modelos son el criterio de información de Akaike (AIC) y el criterio de información bayesiano (BIC). El AIC y el BIC son estadísticas de información que miden la calidad relativa de los modelos para un conjunto dado de datos. Un modelo con un valor más bajo de AIC o BIC se considera que se ajusta mejor a los datos.

#Además de los criterios de información, también es importante evaluar los errores de predicción en diferentes modelos. Los errores de predicción, como el error cuadrático medio (MSE) y el error absoluto medio (MAE), miden la diferencia entre los valores predichos y los valores observados.

#Conclusiones

#En conclusión, los supuestos estadísticos son fundamentales para la validez de las inferencias en el análisis económico y la modelización estadística. La autocorrelación, la normalidad, la estacionariedad, la homocedasticidad, la multicolinealidad y la causalidad son supuestos comunes que deben ser evaluados en el análisis de datos económicos. Además, los coeficientes como el AIC y los errores de predicción son herramientas importantes para comparar modelos y evaluar su calidad relativa. Con una comprensión adecuada de estos supuestos y herramientas, se puede realizar un análisis económico riguroso y efectivo.

# Codigo

# Cargar paquetes necesarios
library(lmtest)
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
library(urca)
library(car)
## Loading required package: carData
library(tseries)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.0     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.1     ✔ tibble    3.1.8
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ✖ dplyr::recode() masks car::recode()
## ✖ purrr::some()   masks car::some()
## ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
# Generar algunos datos de ejemplo
set.seed(123)
datos <- data.frame(x1 = rnorm(100),
                    x2 = rnorm(100),
                    y = rnorm(100))

# Ajustar modelo de regresión
modelo <- lm(y ~ x1 + x2, data = datos)

# Pruebas de diagnóstico
# Autocorrelación
acf(resid(modelo), main = "ACF de los residuos")

# Normalidad
qqnorm(resid(modelo))
qqline(resid(modelo))

# Estacionariedad
adf.test(resid(modelo), alternative = "stationary")
## Warning in adf.test(resid(modelo), alternative = "stationary"): p-value smaller
## than printed p-value
## 
##  Augmented Dickey-Fuller Test
## 
## data:  resid(modelo)
## Dickey-Fuller = -5.8637, Lag order = 4, p-value = 0.01
## alternative hypothesis: stationary
# Homocedasticidad
bptest(modelo)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 0.039949, df = 2, p-value = 0.9802
# Multicolinealidad
vif(modelo)
##       x1       x2 
## 1.002459 1.002459
# Causalidad
grangertest(y ~ x1, data = datos, order = 1)
## Granger causality test
## 
## Model 1: y ~ Lags(y, 1:1) + Lags(x1, 1:1)
## Model 2: y ~ Lags(y, 1:1)
##   Res.Df Df      F Pr(>F)
## 1     96                 
## 2     97 -1 0.1933 0.6611
grangertest(y ~ x2, data = datos, order = 1)
## Granger causality test
## 
## Model 1: y ~ Lags(y, 1:1) + Lags(x2, 1:1)
## Model 2: y ~ Lags(y, 1:1)
##   Res.Df Df      F Pr(>F)
## 1     96                 
## 2     97 -1 1.3352 0.2508
# Comparación de modelos
modelo_2 <- lm(y ~ x1, data = datos)
modelo_3 <- lm(y ~ x2, data = datos)

AIC(modelo, modelo_2, modelo_3)
##          df      AIC
## modelo    4 278.7562
## modelo_2  3 276.8158
## modelo_3  3 278.4050
# Cálculo de errores
summary(modelo)$sigma
## [1] 0.9512979
# El análisis estadístico es una herramienta fundamental para comprender y describir los datos. El conjunto de pruebas y modelos incluidos en el script permite identificar posibles problemas en los datos, como la presencia de autocorrelación, no normalidad, no estacionariedad, heterocedasticidad y multicolinealidad. La prueba de causalidad permite identificar la relación de causa y efecto entre dos variables. La comparación de modelos mediante el criterio de información de Akaike (AIC) permite seleccionar el modelo que mejor se ajuste a los datos.

#En resumen, el script proporciona una guía útil para el análisis estadístico de datos en R, con una amplia gama de pruebas y modelos para identificar posibles problemas y seleccionar el mejor modelo para ajustar los datos.

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.