# Instalar la librerías necesarias
#install.packages("pastecs")
library(pastecs)
En esta primera práctica vamos a estudiar la relación entre una variable económica y una variable turística. A modo de ejemplo, usaremos la evolución de la riqueza de un país (medido como PIBpc), y las llegadas turísticas anuales. Nuestra hipótesis de partida es que existe una relación positiva entre el volumen de llegadas y el desarrollo del bienestar del destino. A modo de hipótesis, estaremos diciendo que:
\(H_0\): No existe una relación entre las llegadas turísticas y la riqueza de un país
\(H_1\): Existe relación entre las llegadas turísticas y la riqueza de un país
Esto puede reescribirse de la siguiente forma:
\[PIBpc_t= \beta_0 + \beta_1Tur_t + e_i \] siendo:
\[H_0: \beta_1 = 0 \\ H_1: \beta_1 \neq 0\] pudiendo ser también que \(H_0\) y \(H_1\) se reescriban según interpretemos el problema (por ejemplo, menor o igual a 0, y mayor que 0 si consideramos que el efecto del sector turístico debe ser positivo).
Como vemos, en \(H_1\) se sitúa la hipótesis que queremos testear. Como veremos más adelante, cuando hacemos este tipo de pruebas, sometemos a las variables a una especie de juicio, en el que \(H_0\) es la “presunción de inocencia” (no existe cambios), y \(H_1\) la posibilidad de tomar una decisión de “culpabilidad” (significancia) presentadas las evidencias (variables).
De momento, vamos a abordar este ejercicio de forma gráfica, y después le daremos más dimensión a las posibilidades que presenta este tipo de relaciones entre variables.
A continuación, se presentan mis datos (usad los encontrados en clase; aquí emplearemos una muestra aleatoria)
options(scipen=6)
# Creaamos datos aleatorios con distribución normal
turistas <- rnorm(50, mean = 100000, sd = 20000)
pib_percapita <- rnorm(50, mean = 20000, sd = 5000)
datos <- data.frame(turistas, pib_percapita)
En caso de cargar un archivo de Excel, sigue estos pasos:
Instala los paquetes necesarios: install.packages(“readxl”) library(readxl)
Para encontrar el archivo en la computadora file.choose()
Carga el archivo de Excel datos <- read_excel(“datos.xlsx”)
A continuación podemos ver los estadísticos descriptivos, que nos ayudarán a tener una primera idea de los resultados con los que contamos:
# Obtener estadísticos descriptivos con stat.desc()
stat_desc <- stat.desc(datos)
stat_desc
## turistas pib_percapita
## nbr.val 50.0000000 50.0000000
## nbr.null 0.0000000 0.0000000
## nbr.na 0.0000000 0.0000000
## min 56023.4839031 6417.9319587
## max 148116.8502650 28953.5600758
## range 92093.3663620 22535.6281171
## sum 4962406.7050583 1022400.8160353
## median 101935.2860974 21172.7104494
## mean 99248.1341012 20448.0163207
## SE.mean 2864.9575839 703.8025008
## CI.mean.0.95 5757.3478161 1414.3440774
## var 410399097.8823162 24766898.0064475
## std.dev 20258.3093540 4976.6352093
## coef.var 0.2041178 0.2433799
De los estadísticos descriptivos realmente se seleccionan la media, la desviación típica y el valor máximo y mínimo. Pero de momento esta información no es relevante. Pasemos a la evaluación de las variables con dos gráficos.
# Gráfico de dispersión
plot(datos$pib_percapita, datos$turistas, xlab = "PIB per cápita", ylab = "Número de turistas")
#Histogramas
par(mfrow = c(1, 2))
hist(turistas, breaks = 10, main = "Distribución de turistas", xlab = "Turistas", ylab = "Densidad")
hist(pib_percapita, breaks = 10, main = "Distribución de PIBpc", xlab = "Turistas", ylab = "Densidad")
La pregunta que surge es, ¿podemos derivar alguna relación cierta a partir de estas gráficas?