Introducción

Con el siguiente código se importan dos conjuntos de datos:

  1. timeline: Contiene datos de la tendencia (popularidad) del término “turismo sostenible” en español y en inglés. Hay una fila por semana.

  2. gtrends: Contiene datos de la tendencia del término “sustainable tourism” en todo el mundo en un determinado mes para cada país.

library(readxl)
timeline <- read_excel("timeline.xlsx")
gtrends <- readRDS("gtrends_geo.rds")

Evolución de tendencias en Google

library(tidyr)
library(ggplot2)
timeline |> 
  pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |> 
  ggplot(aes(x = week, y = trend, 
             col = term)) +
  geom_line()

En primer lugar, este gráfico de líneas muestra la evolución temporal de las búsquedas para los términos de turismo sostenible en inglés y en español, desde octubre de 2019 hasta octubre de 2024. Como podemos observar, la variable de popularidad de búsquedas del término “sustainable tourism” es notablemente más elevada a lo largo de los 5 años en comparación con la variable de popularidad de las búsquedas del mismo término en español.

Asimismo, respecto al término de “sustainable tourism”, este comenzó, desde finales del 2019 hasta principios del 2022, con unos valores y niveles que rondaban un 65 sobre 100 de interés y popularidad del término, llegando a mostrar un crecimiento exponencial desde dicho año hasta junio de 2024, alcanzando valores superiores a 80. Mientras que, el término en español, apenas llega a las 35 búsquedas a la semana.

En segundo lugar, la variable de popularidad del término en inglés evidencia picos regulares y frecuentes, con fluctuaciones muy pronunciadas tanto en momentos de máximo interés como de mínimo. En este caso, se puede afirmar que la tendencia aumenta con el paso del tiempo.

Respecto al término en español, aunque las búsquedas son, claramente, inferiores a las búsquedas del mismo tema en inglés, a diferencia de éste, las fluctuaciones son más suaves y también parece haber un aumento de forma gradual desde 2019.

Finalmente, suponemos que por la naturaleza del gráfico, la covarianza es positiva ya que tanto el incremento como la disminución de la variable de popularidad de ambos términos suele coincidir en los diversos periodos que muestra el gráfico.

Distribución de tendencias de Google

timeline |> 
  pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |> 
  ggplot(aes(x = trend, 
             fill = term)) +
  geom_density(alpha = 0.5) +
  labs(fill = "Término de búsqueda")

Este gráfico muestra las distribuciones de densidad de las búsquedas para los términos “Sustainable tourism” y “Turismo sostenible”.

El término en inglés presenta una distribución más amplia, con valores que oscilan entre aproximadamente 25 y 100. Esta distribución es bimodal, ya que cuenta con dos picos claramente diferenciados. El primero se encuentra alrededor de 50, representando el nivel de búsqueda más común en un rango intermedio, mientras que el segundo pico aparece cerca de 80, reflejando periodos de alto interés global. Asimismo, se observa una mayor dispersión en comparación con el término en español, lo que implica una mayor variabilidad en los niveles de interés según las semanas.

Por otro lado, el término en español presenta una distribución más concentrada, con valores que se ubican mayoritariamente entre 10 y 30. La densidad máxima se alcanza alrededor del valor 25, lo que indica que este nivel de búsqueda es el más frecuente y constante durante el periodo analizado. A diferencia del término en inglés, la curva refleja menor dispersión, destacando una estabilidad notable en su popularidad. Además, se percibe una ligera asimetría hacia la izquierda, lo que significa que las semanas con valores de búsqueda más bajos son menos comunes pero aún tienen cierta influencia en la distribución general.

timeline |> 
  ggplot(aes(x = es_turismo_sostenible)) +
  geom_histogram(bins = 12, fill = "orange", col = "white")

timeline |> 
  ggplot(aes(x = en_sustainable_tourism))+
  geom_histogram(bins = 12, fill = "orange", col = "white")

En el primer histograma, que representa la popularidad del término en español “turismo sostenible”, se observa una clara asimetría hacia la izquierda. La distribución presenta una moda bien definida, que corresponde a los valores más frecuentes en el rango de 20 a 23 aproximadamente, los cuales se registraron durante un período de 60 semanas. Además, el rango total de valores de búsqueda para este término oscila entre 5 y 40 en términos de popularidad, reflejando una dispersión moderada pero sin extremos particularmente elevados.

En contraste, el segundo histograma, que ilustra los datos de popularidad e interés del término en inglés “sustainable tourism”, muestra una asimetría más acentuada hacia la izquierda. Este gráfico destaca por su carácter bimodal, ya que presenta dos picos que corresponden a dos modas distintas. La primera moda se encuentra en el rango de 53 a 60 en términos de popularidad, y abarca aproximadamente 48 semanas. La segunda moda se sitúa entre 72 y 78, representando un período de 36 semanas con un nivel de interés igualmente significativo. En general, los valores de búsqueda para este término cubren un rango más amplio, que van desde 24 hasta 100, lo que refleja una mayor variabilidad y un interés máximo mucho más elevado en comparación con el término en español.

timeline |> 
  pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |> 
  ggplot(aes(x = term, y = trend)) +
  geom_boxplot()

En primer lugar, en lo que respecta al análisis del gráfico o diagrama de cajas y bigotes del término “sustainable tourism”, podemos observar como el 50% de los datos se encuentra dentro de la caja (la cual corresponde al rango intercuartílico), al igual que ocurre con el término en español.

Seguidamente, podemos apreciar cómo la mediana está tirando hacia los valores bajos, de manera que marca la simetría en el rango central. Esta última, se encuentra alrededor de 61, indicando que la mitad de las búsquedas son superiores a este valor y la otra mitad es inferior. De esta manera, se aprecia claramente que la distribución de los datos muestra una asimetría pronunciada. Por otro lado, los bordes de la caja, que hacen referencia al primer cuartil (línea inferior) y al tercer cuartil (linea superior), denotan valores que van desde 52 (Q1) hasta 78 (Q3), lo que muestra una mayor concentración de datos dentro de este rango intercuartílico.

Asimismo, en lo referido a los bigotes, estos marcan el número máximo (100) y número mínimo (24) de los datos, demostrando cómo los extremos del “sustainable tourism” son más variables y sus valores más altos que los del término en español. Además, la caja del término en inglés tiene mayor amplitud y con ello más variabilidad de datos que la del término en español. También cabe mencionar que en este gráfico de caja no se hallan valores atípicos o extremos, fuera de ciertos límites.

Finalmente, destacar que el término “sustainable tourism” muestra datos de búsquedas que llegan a niveles notable y claramente más elevados que los del término en español, siendo el máximo de popularidad 100 en el de inglés y 40 en el de español (cuyas búsquedas se centran en cifras intermedias/bajas). Unido a ello, la diferencia entre el máximo y el mínimo en el término en inglés es mucho más pronunciada que la del “turismo sostenible”, aspecto que denota un mayor equilibrio y uniformidad en los datos del término en español (mayor estabilidad).

En segundo lugar, en relación al gráfico de cajas del término en español, se aprecia cómo la mediana, al igual que en el término en inglés, también tiende hacia los valores bajos, marcando así la simetría en el rango central. Sin embargo, a diferencia del “sustainable tourism”, este hecho no se observa de forma tan clara en este gráfico, debido a la estrechez de la caja, que nos indica, a su vez, una menor variabilidad de los datos con respecto al término en inglés.

En esta misma línea, la mediana, se encuentra alrededor de 24, indicando que la mitad de las búsquedas son superiores a ella y la otra mitad son inferiores. Por otro lado, los bordes de la caja, que corresponden al primer cuartil y al tercer cuartil, denotan valores que van desde 21 (Q1) hasta 29 (Q3). Asimismo, se observa que la distribución de los datos es mucho más simétrica que en el término en inglés, dado que, en este caso, el mínimo es 6 y el máximo es 40. Este factor indica, a su vez, que los bigotes (extremos) del “turismo sostenible” son menos variables que los del término en inglés y que los valores del gráfico son más bajos que los del “sustainable tourism”.

Por último, es preciso destacar la existencia de valores atípicos por debajo de 10, donde cada punto corresponde a una semana, que nos revelan que durante esos periodos de tiempo se produjeron pocas búsquedas en relación al resto de los datos, por lo que, en ese entonces, el interés y popularidad del término fue excepcionalmente bajo. También es interesante destacar que la diferencia entre la mediana del gráfico en inglés (61) y la del español (24) es un claro indicador de que la popularidad general del término en inglés es mucho mayor que la del español, a pesar de que el máximo de búsqueda del “turismo sostenible” es superior al mínimo de la del “sustainable tourism”.

library(summarytools)
st_options(use.x11 = FALSE)
timeline |>
  descr(var = es_turismo_sostenible)

Descriptive Statistics
timeline$es_turismo_sostenible
N: 262

es_turismo_sostenible
Mean 24.49
Std.Dev 6.62
Min 6.00
Q1 21.00
Median 24.00
Q3 29.00
Max 40.00
MAD 5.93
IQR 8.00
CV 0.27
Skewness -0.29
SE.Skewness 0.15
Kurtosis 0.14
N.Valid 262.00
Pct.Valid 100.00
library(summarytools)
st_options(use.x11 = FALSE)
timeline |>
  descr(var = en_sustainable_tourism)

Descriptive Statistics
timeline$en_sustainable_tourism
N: 262

en_sustainable_tourism
Mean 63.51
Std.Dev 16.57
Min 24.00
Q1 52.00
Median 61.50
Q3 78.00
Max 100.00
MAD 18.53
IQR 26.00
CV 0.26
Skewness -0.09
SE.Skewness 0.15
Kurtosis -0.78
N.Valid 262.00
Pct.Valid 100.00

Este cuadro muestra las estadísticas descriptivas del término de búsqueda en inglés “sustainable tourism” a lo largo de un periodo de 262 semanas y ofrece una comparación con su equivalente en español, “turismo sostenible”.

La media del término en inglés se sitúa en 63.51, lo que refleja un interés relativamente alto en las búsquedas, en contraste con el término en español, cuya media es de 24.49, indicando un interés más moderado. La mediana del término en inglés, con un valor de 61.50, es ligeramente inferior a la media, lo que sugiere que los datos están algo sesgados hacia valores más altos. Por otro lado, la mediana del término en español es 24.00, muy próxima a su media, lo que evidencia una distribución más simétrica en torno a los valores centrales.

La desviación estándar del término en inglés es de 16.57, lo que indica una variabilidad moderada en las búsquedas. En contraste, el término en español muestra una variabilidad significativamente menor, de 6.62, lo que refleja una mayor concentración de valores alrededor de la media. Las búsquedas de “sustainable tourism” varían entre un mínimo de 24.00 y un máximo de 100.00, destacando un amplio rango de popularidad. Por otro lado, las búsquedas de “turismo sostenible” fluctúan entre 6.00 y 40.00, mostrando un rango mucho más limitado.

El coeficiente de curtosis del término en inglés es de -0.78, lo que indica que la distribución es algo más plana que una distribución normal (platocúrtica), con menos valores extremos. De forma similar, aunque menos pronunciada, el término en español presenta un coeficiente de curtosis de -0.25, lo que también sugiere una distribución moderadamente plana, con ocasionales valores que superan la mediana, pero sin grandes desviaciones extremas.

El coeficiente de variación (CV) del término en inglés es de 26.08%, lo que refleja una variabilidad relativa moderada en proporción a la media, mientras que, para el término en español, el CV es de 27.04%, mostrando una variabilidad similar a la del término en inglés.

En resumen, el término “sustainable tourism” presenta un mayor interés global y una mayor amplitud en sus valores de popularidad, mientras que “turismo sostenible” se caracteriza por un interés más moderado, con valores más concentrados y un rango más estrecho de búsquedas. Ambos términos comparten una distribución relativamente plana y una variabilidad moderada en sus datos.

Conclusiones

En lo que respecta al aprendizaje y conocimientos adquiridos con la elaboración de este trabajo, hemos podido estudiar en profundidad gráficos de todo tipo, desde gráficos de barras o histogramas, gráficos de líneas, gráficos de dispersión (introduciendo en el mismo la línea de regresión) y tablas descriptivas de estadística, hasta gráficos de densidad, gráficos de caja y bigotes y mapas geográficos. El análisis detallado de todos ellos nos ha permitido conocer los diversos aspectos y características de los datos proporcionados, ya que cada gráfico ha aportado un tipo diferente de información relevante para la presente práctica.

De distinta manera, el trabajo en equipo fue muy enriquecedor, ya que cada uno de los miembros integrantes del grupo contribuyó con una perspectiva diferente en la interpretación de los datos de cada gráfico. El intercambio de conocimientos y búsqueda de información adicional ha sido constante durante todos los procesos de elaboración del documento en cuestión.

En último lugar, en relación al resultado de los datos, podemos afirmar que la popularidad general del “sustainable tourism” es mucho más elevada, aunque con una distribución asimétrica y gran variabilidad de los datos, que la del interés hacia el “turismo sostenible” que muestra una popularidad inferior a nivel general, asi como una menor variabilidad de los datos y una distribución uniforme y más simétrica de los mismos, con respecto al término en inglés.