En esta práctica queremos calcular si las variables que nos interesan se están comportando de distinta forma tras un periodo concreto, que vamos a identificar como un shock económico. De lo que se trata es testear, en definitiva, si los valores medios de un grupo o variable “a” son diferentes a otros “b”:

\[H_0:μ_a=μ_b\\ H_1:μ_a≠μ_b\]

O lo que es lo mismo:

\[H_0:μ_a-μ_b=0\\ H_1:μ_a−μ_b≠0 \]

Para ello vamos a utilizar dos téncicas de investigación muy conocidas, la prueba t de Student, y ANOVA. Vamos a por ello.

  1. Datos empleados. Cargaremos nuestros datos recopilados en la sesión anterior (en este caso, yo crearé unos valores aleatorios). Mi objetivo es conocer si el desarrollo del sector turístico entre el año 2000 y 2007 ha sido igual que entre 2008 y 2019.
set.seed(123)
# Generar datos aleatorios para las variables "turistas" y "pib"
turistas <- rnorm(21, mean = 100000, sd = 20000)
pib <- rnorm(21, mean = 800000, sd = 150000)

# Dividir la variable "turismo" en dos variables diferentes
turistas_2007 <- turistas[1:8]
turistas_2019 <- turistas[9:21]

pib_2007 <- pib[1:8]
pib_2019 <- pib[9:21]

Prueba t-test

A continuación, podemos realizar un t-test para ver si hay diferencias significativas entre el número de turistas en ambos años:

t.test(turistas_2007, turistas_2019)
## 
##  Welch Two Sample t-test
## 
## data:  turistas_2007 and turistas_2019
## t = 0.53952, df = 14.822, p-value = 0.5975
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -14397.22  24142.21
## sample estimates:
## mean of x mean of y 
## 104696.93  99824.43

En el t-test, con un valor de t igual a 0.53 y un p-valor de 0.59 nos indica que no se rechaza la hipótesis nula (necesidad de ser menor a 0.05), podemos decir que las medias de los valores NO son significativamente distintas.

t.test(pib_2007, pib_2019)
## 
##  Welch Two Sample t-test
## 
## data:  pib_2007 and pib_2019
## t = -2.5099, df = 12.257, p-value = 0.02705
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -231957.25  -16649.37
## sample estimates:
## mean of x mean of y 
##  716907.9  841211.2

En este caso el valor de p es inferior a 0.05, y por tanto sí podemos rechazar la hipótesis nula de que NO hay diferencia significativa entre muestras. Esto quiere decir que el shock económico detectado en 2007 sí afecta a la economía, además de forma negativa, pero no a la evolución del sector turístico, que se ha mantenido.

Prueba ANOVA

A continuación, realizaremos un test ANOVA, que nos dirá si existe diferencias en función de si nos encontramos en el grupo de años pre crisis, o post crisis. Esto quiere decir que tenemos que identificar en nuestra base de datos ambos grupos. Podemos hacerlo en el excel, o directamente en R:

# Crear un vector que indique el período de cada observación
periodos <- rep(c("PreCrisis", "PostCrisis"), c(8, 13))

datos_turismo <- data.frame(turistas, periodos)
datos_pib <- data.frame(pib, periodos)
# Realizar un ANOVA sobre el turismo
modelo_turismo <- lm(turistas ~ periodos, data = datos_turismo)
anova(modelo_turismo)
## Analysis of Variance Table
## 
## Response: turistas
##           Df     Sum Sq   Mean Sq F value Pr(>F)
## periodos   1  117575539 117575539  0.2928 0.5947
## Residuals 19 7629859019 401571527
# Realizar un ANOVA sobre el pib
modelo_pib <- lm(pib ~ periodos, data = datos_pib)
anova(modelo_pib)
## Analysis of Variance Table
## 
## Response: pib
##           Df     Sum Sq    Mean Sq F value  Pr(>F)  
## periodos   1 7.6521e+10 7.6521e+10  7.1093 0.01526 *
## Residuals 19 2.0451e+11 1.0763e+10                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En ambos casos, con un valor P muy superior a 0.05 no podemos rechazar la Hipótesis nula, es decir, no hay diferencias entre pertenecer a un grupo o a otro.