# Instalar la librerías necesarias
#install.packages("pastecs")
library(pastecs)

En esta primera práctica vamos a estudiar la relación entre una variable económica y una variable turística. A modo de ejemplo, usaremos la evolución de la riqueza de un país (medido como PIBpc), y las llegadas turísticas anuales. Nuestra hipótesis de partida es que existe una relación positiva entre el volumen de llegadas y el desarrollo del bienestar del destino. A modo de hipótesis, estaremos diciendo que:

\(H_0\): No existe una relación entre las llegadas turísticas y la riqueza de un país
\(H_1\): Existe relación entre las llegadas turísticas y la riqueza de un país

Esto puede reescribirse de la siguiente forma:

\[PIBpc_t= \beta_0 + \beta_1Tur_t + e_i \] siendo:

\[H_0: \beta_1 = 0 \\ H_1: \beta_1 \neq 0\] pudiendo ser también que \(H_0\) y \(H_1\) se reescriban según interpretemos el problema (por ejemplo, menor o igual a 0, y mayor que 0 si consideramos que el efecto del sector turístico debe ser positivo).

Como vemos, en \(H_1\) se sitúa la hipótesis que queremos testear. Como veremos más adelante, cuando hacemos este tipo de pruebas, sometemos a las variables a una especie de juicio, en el que \(H_0\) es la “presunción de inocencia” (no existe cambios), y \(H_1\) la posibilidad de tomar una decisión de “culpabilidad” (significancia) presentadas las evidencias (variables).

De momento, vamos a abordar este ejercicio de forma gráfica, y después le daremos más dimensión a las posibilidades que presenta este tipo de relaciones entre variables.

A continuación, se presentan mis datos (usad los encontrados en clase; aquí emplearemos una muestra aleatoria)

options(scipen=6)

# Creaamos datos aleatorios con distribución normal
turistas <- rnorm(50, mean = 100000, sd = 20000)
pib_percapita <- rnorm(50, mean = 20000, sd = 5000)
datos <- data.frame(turistas, pib_percapita)

En caso de cargar un archivo de Excel, sigue estos pasos:

  1. Instala los paquetes necesarios: install.packages(“readxl”) library(readxl)

  2. Para encontrar el archivo en la computadora file.choose()

  3. Carga el archivo de Excel datos <- read_excel(“datos.xlsx”)

A continuación podemos ver los estadísticos descriptivos, que nos ayudarán a tener una primera idea de los resultados con los que contamos:

# Obtener estadísticos descriptivos con stat.desc()
stat_desc <- stat.desc(datos)
stat_desc
##                       turistas    pib_percapita
## nbr.val             50.0000000       50.0000000
## nbr.null             0.0000000        0.0000000
## nbr.na               0.0000000        0.0000000
## min              56023.4839031     6417.9319587
## max             148116.8502650    28953.5600758
## range            92093.3663620    22535.6281171
## sum            4962406.7050583  1022400.8160353
## median          101935.2860974    21172.7104494
## mean             99248.1341012    20448.0163207
## SE.mean           2864.9575839      703.8025008
## CI.mean.0.95      5757.3478161     1414.3440774
## var          410399097.8823162 24766898.0064475
## std.dev          20258.3093540     4976.6352093
## coef.var             0.2041178        0.2433799

De los estadísticos descriptivos realmente se seleccionan la media, la desviación típica y el valor máximo y mínimo. Pero de momento esta información no es relevante. Pasemos a la evaluación de las variables con dos gráficos.

# Gráfico de dispersión
plot(datos$pib_percapita, datos$turistas, xlab = "PIB per cápita", ylab = "Número de turistas")

#Histogramas
par(mfrow = c(1, 2))

hist(turistas, breaks = 10, main = "Distribución de turistas", xlab = "Turistas", ylab = "Densidad")
hist(pib_percapita, breaks = 10, main = "Distribución de PIBpc", xlab = "Turistas", ylab = "Densidad")

La pregunta que surge es, ¿podemos derivar alguna relación cierta a partir de estas gráficas?