En esta práctica queremos calcular si las variables que nos interesan se están comportando de distinta forma tras un periodo concreto, que vamos a identificar como un shock económico. De lo que se trata es testear, en definitiva, si los valores medios de un grupo o variable “a” son diferentes a otros “b”:
\[H_0:μ_a=μ_b\\ H_1:μ_a≠μ_b\]
O lo que es lo mismo:
\[H_0:μ_a-μ_b=0\\ H_1:μ_a−μ_b≠0 \]
Para ello vamos a utilizar dos téncicas de investigación muy conocidas, la prueba t de Student, y ANOVA. Vamos a por ello.
set.seed(123)
# Generar datos aleatorios para las variables "turistas" y "pib"
turistas <- rnorm(21, mean = 100000, sd = 20000)
pib <- rnorm(21, mean = 800000, sd = 150000)
# Dividir la variable "turismo" en dos variables diferentes
turistas_2007 <- turistas[1:8]
turistas_2019 <- turistas[9:21]
pib_2007 <- pib[1:8]
pib_2019 <- pib[9:21]
A continuación, podemos realizar un t-test para ver si hay diferencias significativas entre el número de turistas en ambos años:
t.test(turistas_2007, turistas_2019)
##
## Welch Two Sample t-test
##
## data: turistas_2007 and turistas_2019
## t = 0.53952, df = 14.822, p-value = 0.5975
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -14397.22 24142.21
## sample estimates:
## mean of x mean of y
## 104696.93 99824.43
En el t-test, con un valor de t igual a 0.53 y un p-valor de 0.59 nos indica que no se rechaza la hipótesis nula (necesidad de ser menor a 0.05), podemos decir que las medias de los valores NO son significativamente distintas.
t.test(pib_2007, pib_2019)
##
## Welch Two Sample t-test
##
## data: pib_2007 and pib_2019
## t = -2.5099, df = 12.257, p-value = 0.02705
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -231957.25 -16649.37
## sample estimates:
## mean of x mean of y
## 716907.9 841211.2
En este caso el valor de p es inferior a 0.05, y por tanto sí podemos rechazar la hipótesis nula de que NO hay diferencia significativa entre muestras. Esto quiere decir que el shock económico detectado en 2007 sí afecta a la economía, además de forma negativa, pero no a la evolución del sector turístico, que se ha mantenido.
A continuación, realizaremos un test ANOVA, que nos dirá si existe diferencias en función de si nos encontramos en el grupo de años pre crisis, o post crisis. Esto quiere decir que tenemos que identificar en nuestra base de datos ambos grupos. Podemos hacerlo en el excel, o directamente en R:
# Crear un vector que indique el período de cada observación
periodos <- rep(c("PreCrisis", "PostCrisis"), c(8, 13))
datos_turismo <- data.frame(turistas, periodos)
datos_pib <- data.frame(pib, periodos)
# Realizar un ANOVA sobre el turismo
modelo_turismo <- lm(turistas ~ periodos, data = datos_turismo)
anova(modelo_turismo)
## Analysis of Variance Table
##
## Response: turistas
## Df Sum Sq Mean Sq F value Pr(>F)
## periodos 1 117575539 117575539 0.2928 0.5947
## Residuals 19 7629859019 401571527
# Realizar un ANOVA sobre el pib
modelo_pib <- lm(pib ~ periodos, data = datos_pib)
anova(modelo_pib)
## Analysis of Variance Table
##
## Response: pib
## Df Sum Sq Mean Sq F value Pr(>F)
## periodos 1 7.6521e+10 7.6521e+10 7.1093 0.01526 *
## Residuals 19 2.0451e+11 1.0763e+10
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En ambos casos, con un valor P muy superior a 0.05 no podemos rechazar la Hipótesis nula, es decir, no hay diferencias entre pertenecer a un grupo o a otro.