Información sobre el formato del texto

Con el fin de que el texto de nuestro informe resulte más legible y esté mejor estructurado, lo hemos formateado utilizando las siguientes herramientas de sintaxis Markdown:
-“**” : para poner el texto en negrita
-“*” : para poner el texto en cursiva
- “u></u” : para resaltar el texto
- “br” : para hacer un salto de línea

Introducción

El objetivo de este informe es realizar un análisis estadístico de los datos de Google Trends relativos a la popularidad de los términos “turismo sostenible” y “sustainable tourism”.

Con el siguiente código se importan dos conjuntos de datos:

  1. timeline: Contiene datos de la tendencia (popularidad) del término “turismo sostenible” en español y en inglés. Hay una fila por semana.
  2. gtrends: Contiene datos de la tendencia del término “sustainable tourism” en todo el mundo en un determinado mes para cada país.
library(readxl)
timeline <- read_excel("timeline.xlsx")
gtrends <- readRDS("gtrends_geo.rds")

Evolución de tendencias en Google

library(tidyr)
library(dplyr)

df_long <- timeline |>
pivot_longer(cols = 2:3, names_to = "term", values_to = "trend")

extrema <- df_long |>

  group_by(term) |>
summarise(

min_week = week[which.min(trend)],
min_trend = min(trend),

max_week = week[which.max(trend)],
max_trend = max(trend)
)

library(tidyr)
library(ggplot2)
timeline |> 
  pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |> 
  ggplot(aes(x = week, y = trend, 
             col = term)) +
  geom_line()+
  geom_point(
    data = extrema,
    aes(x = min_week, y = min_trend, color = "Mínimo"),
    size = 3
  ) +
  geom_point(
    data = extrema,
    aes(x = max_week, y = max_trend, color = "Máximo"),
    size = 3
  ) +
  scale_color_manual(
    values = c(
      "Mínimo" = "green",
      "Máximo" = "red",
      setNames(scales::hue_pal()(length(unique(df_long$term))), 
               unique(df_long$term))
    )
  ) +
  labs(
    title = "Evolución de la popularidad de los términos de turismo sostenible (EN/ES)",
    x = "Semanas",
    y = "Tendencia"
  ) +
  theme_minimal()

Nuestras mejoras

Hemos mejorado el gráfico inicial añadiendo un título explícito labs(title = “Evolución de la popularidad de los términos de turismo sostenible (EN/ES)”), así como para cada término, los valores :
- Mínimos con la línea siguiente :
geom_point(
data = extrema,
aes(x = min_week, y = min_trend, color = “Minimum”),
size = 3
) +
- Máximos con la línea siguiente :
geom_point(
data = extrema,
aes(x = max_week, y = max_trend, color = “Maximum”),
size = 3
) +

Estos valores resaltan respectivamente en rojo (“Maximum” = “red”) y verde (“Minimum” = “green”) e son integrados directamente en la leyenda para facilitar la lectura y la comparación de las tendencias.

Para añadir estos valores, ampliamos el formato de los datos a través de la línea :
df_long <- timeline |>.
Después, incluimos el objeto extrema para resumir los puntos máximos y mínimos de cada término con estas líneas :
extrema <- df_long |>
group_by(term) |>
summarise(
min_week = week[which.min(trend)],
min_trend = min(trend),
max_week = week[which.max(trend)],
max_trend = max(trend)
)

Nuestra interpretación

El gráfico muestra la evolución semanal de la popularidad de los términos “Turismo sostenible” y “Sustainable Tourism”. Los puntos verdes indican las semanas en las que cada término alcanza su nivel de popularidad más bajo, mientras que los puntos rojos marcan los picos de interés. Esta representación permite visualizar rápidamente las fluctuaciones. Así, se pueden identificar los periodos en los que uno de los dos conceptos gana visibilidad, observar su dinámica relativa e identificar los momentos en los que el interés global por el tema del turismo sostenible aumenta o disminuye según cada idioma.

El gráfico muestra claramente que el término “sustainable tourism” es mucho más buscado que el término “turismo sostenible”. A partir de finales de 2021, el interés por la versión inglesa aumenta significativamente, con un nivel de popularidad que supera regularmente el 50 %. A mediados de 2023 se produce un pico especialmente marcado, que alcanza el 100 %, lo que confirma la importancia del turismo sostenible para el público inglés y, en general, para el público mundial, dado el carácter internacional del inglés.

Por su parte, el término español sigue siendo menos buscado, con una popularidad que ronda el 25 %. No obstante, sigue una dinámica similar a la del término inglés, con un crecimiento en el mismo momento. Su pico se alcanza el mismo año, pero no en el mismo periodo. En efecto, aparece más bien a principios de 2023, lo que sugiere que el interés del público hispanohablante por el turismo sostenible se manifestó ligeramente antes.

Por último, se observa que los niveles de popularidad más bajos para ambos términos se sitúan entre finales de 2019 y principios de 2020. Este caída puede estar relacionada con la crisis del COVID-19, que ha tenido un profundo impacto en el turismo, que se ha visto paralizado, provocando una disminución de las búsquedas. Por otro lado, este acontecimiento mundial parece haber contribuido a un renovado interés por el turismo sostenible posteriormente, lo que se explica por una mayor concienciación sobre el impacto medioambiental de las actividades turísticas.

Distribución de tendencias de Google

timeline |> 
  pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |> 
  ggplot(aes(x = trend, 
             fill = term)) +
  geom_density(alpha = 0.5) +
  labs(title = "Densidad de los valores de tendencia de turismo sostenible (EN/ES)",
       x = "Tendencia",
       y = "Densidad") 

Nuestras mejoras

A este gráfico de densidad, hemos añadido un título labs(title = “Gráfico de densidad de los valores de tendencia de turismo sostenible (EN/ES)”

Nuestra interpretación

Este gráfico muestra la distribución estadística de los valores de tendencia de los términos “sustainable tourism” y “turismo sostenible” a lo largo del tiempo. El análisis de la distribución de estos valores permite observar cómo se concentran o se dispersan los valores de tendencia.

Se observa que la distribución del término en español se sitúa en la parte izquierda del gráfico, con valores muy concentrados en torno a 25. El pico de densidad en torno a 20 indica que este valor de popularidad es el que aparece con mayor frecuencia en nuestros datos.

Por el contrario, la distribución del término inglés está más dispersa, lo que revela una mayor variabilidad de sus valores a lo largo del tiempo. Aparecen dos picos distintos:
- uno primero en torno a 56, correspondiente al periodo de la pandemia de COVID-19, cuando la popularidad del término era relativamente baja.
- un segundo en torno a 80, relacionado con el periodo posterior a la COVID, marcado por un renovado interés por el turismo sostenible.

Por otra parte, se puede observar que las curvas se superponen ligeramente. Esto muestra una clara diferencia en la distribución de los valores de popularidad entre el público anglófono y el hispanohablante.

timeline |> 
  ggplot(aes(x = es_turismo_sostenible)) +
  geom_histogram(bins = 12, fill = "blue", col = "white") +
  labs(title = "Distribución de la popularidad del término 'turismo sostenible'",
      x = "Tendencia",
      y = "Frecuencia") 

Nuestras mejoras

A este histograma, hemos añadido un título labs(title = “Histograma de la distribución de la popularidad del término ‘turismo sostenible’”. Para facilitar la comprensión del gráfico, hemos traducido al español los términos de los ejes x e y insertando las siguientes líneas:
x = “Tendencia”,
y = “Frecuencia”

Nuestra interpretación

Este histograma muestra la distribución de la popularidad del término “turismo sostenible” durante las semanas estudiadas. Se observa que la mayoría de las semanas presentan una popularidad comprendida entre 15 y 25, con un pico marcado en torno a 20. Esto indica que, en la mayoría de los casos, el interés de los hispanohablantes por este término sigue siendo bajo o moderado.

Sin embargo, algunas barras relativamente altas, alrededor de 30, revelan que, a pesar de esta tendencia general, siempre hay semanas en las que el público hispanohablante muestra un interés por el turismo sostenible.

Por otra parte, este histograma muestra una distribución ligeramente asimétrica de los valores de popularidad, que se concentran más en la parte derecha del gráfico, lo que confirma que son pocas las semanas en las que la búsqueda de “turismo sostenible” alcanza un alto nivel de popularidad.

timeline |> 
  ggplot(aes(x = en_sustainable_tourism)) +
  geom_histogram(bins = 12, fill = "green", col = "white") +
  labs(title = "Distribución de la popularidad del término 'sustainable tourism'",
      x = "Tendencia",
      y = "Frecuencia") 

Nuestras mejoras

Con el objetivo de comparar con el gráfico anterior sobre la distribución de la popularidad del término “turismo sostenible”, hemos creado el mismo histograma para el término “sustainable tourism”. Para ello, hemos escrito el chunk anterior sustituyendo la línea de código: ggplot(aes(x = es_turismo_sostenible)) por ggplot(aes(x = en_sustainable_tourism)).

Nuestra interpretación

Este histograma muestra la distribución de la popularidad del término “turismo sostenible” durante las semanas indicadas. Se puede observar que los valores de popularidad se concentran entre 44 y 88 aproximadamente, con un pico de popularidad en el punto 55. Esto significa que el interés por el turismo sostenible por parte de los hispanohablantes es de moderado a alto.

En cuanto a la simetría del modelo, se puede deducir que la distribución de los valores tendenciales es asimétrica, ya que los valores moderados a altos (superiores a 30) se concentran en la parte derecha del gráfico con mayor frecuencia en comparación con los valores medios y bajos (inferiores a 20). Esto confirma el gran interés del público hispanohablante por el turismo sostenible.

timeline |> 
  pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |> 
  ggplot(aes(x = term, y = trend)) +
  geom_boxplot()+
 labs(title = "Gráfico de cajas y bigotes de los términos de turismo sostenible (EN/ES)",
      x = "Término",
      y = "Tendencia") 

Nuestras mejoras

A este gráfico de cajas y bigotes, hemos añadido un título labs(title =“Gráfico de cajas y bigotes de los términos ‘sustainable tourism’ y ‘turismo sostenible’”. Para facilitar la comprensión del gráfico, hemos traducido al español los términos de los ejes x e y insertando las siguientes líneas:
x = “Término”,
y = “Tendencia”

Nuestra interpretación

Este gráfico de cajas y bigotes muestra las tendencias de los términos “sustainable tourism” y “turismo sostenible” desde otra perspectiva. Las líneas verticales indican los puntos mínimos (debajo de la caja) y máximos (por encima de la caja) de la tendencia, mientras que las líneas horizontales representan la mediana de la tendencia para cada término.

El gráfico de la izquierda representa la tendencia del término “sustainable tourism” y el de la derecha representa la tendencia del término “turismo sostenible”. Podemos ver que la tendencia de las búsquedas en inglés se sitúa entre 24 (punto mínimo) y 100 (punto máximo), mientras que las búsquedas en español se sitúan entre 7 (punto mínimo) y 38 (punto máximo) aproximadamente.

La mediana de la tendencia del término en inglés se sitúa en torno a 63, lo que significa que el 50 % de los datos están por debajo de 63 y el 50 % están por encima. En comparación, la mediana de la tendencia del término en español se sitúa en en torno a 24, lo que significa que el 50 % de los datos están por debajo de 24 y el 50 % están por encima.

Además, se puede observar que la mitad de los valores de tendencia para el término inglés están aproximadamente entre 52 y 78, mientras que los del término en español están aproximadamente entre 23 y 27. El rango intercuartílico, es decir, la diferencia entre Q3 y Q1 para las tendencias de los dos términos (26 para el término en inglés y 4 para el término en español) muestra que existe una mayor dispersión de datos para el término en inglés y una mayor concentración de datos para el término en español.

library(summarytools)
st_options(use.x11 = FALSE)
timeline |> 
  descr(var = es_turismo_sostenible) 

Descriptive Statistics
timeline$es_turismo_sostenible
N: 262

es_turismo_sostenible
Mean 24.49
Std.Dev 6.62
Min 6.00
Q1 21.00
Median 24.00
Q3 29.00
Max 40.00
MAD 5.93
IQR 8.00
CV 0.27
Skewness -0.29
SE.Skewness 0.15
Kurtosis 0.14
N.Valid 262.00
Pct.Valid 100.00

Nuestra interpretación

Esta tabla resume todos los datos estadísticos relacionados con el término “turismo sostenible” y nos ofrece una mayor precisión de las medidas observadas en los gráficos anteriores. La media de los valores (Mean) es de 24,49, lo que confirma el interés moderado del público hispanohablante por las investigaciones sobre turismo sostenible si tomamos como referencia una escala de 100. La mediana (Median) es de 24, prácticamente similar a la media. Esto significa que la distribución de los valores es bastante simétrica en torno al centro, de ahí la ligera asimetría observada en nuestro histograma anterior. Si observamos los cuartiles, el primer cuartil (Q1) es 21 y el tercer cuartil (Q3) es 29, lo que da un rango intercuartílico (IQR) de 8. Esto muestra que el 50 % de los valores se sitúan entre Q1 y Q3 y se concentran en torno a la media.

En cuanto a la dispersión de los valores de este término, se puede observar que la desviación estándar (Std.Dev) es de 6,62, lo que demuestra que los valores están muy próximos a la media (24,49) y varían poco. Por lo tanto, la tendencia de búsqueda del término “turismo sostenible” se mantiene homogénea. Por otra parte, el valor mínimo de la tendencia (Min) es de 6, mientras que el valor máximo (Max) es de 40, lo que muestra un menor interés por la búsqueda de este término en determinados periodos y picos de popularidad en otros, aunque siguen siendo marginales. Por último, la desviación media absoluta (MAD: 5,93) y el coeficiente de variación (CV) de 0,27 confirman una baja dispersión de los valores con respecto a la media y respaldan una relativa estabilidad del interés del público hispanohablante por el turismo sostenible.

Por último, respecto la simetría del modelo, el coeficiente de asimetría (Skewness) de -0,29 muestra un modelo ligeramente asimétrico, ya que el coeficiente es negativo y cercano a 0. Además, la curtosis (Kurtosis) es de 0,14, lo que explica la curva puntiaguda formada por los datos en los gráficos anteriores.

library(summarytools)
st_options(use.x11 = FALSE)
timeline |> 
  descr(var = en_sustainable_tourism)

Descriptive Statistics
timeline$en_sustainable_tourism
N: 262

en_sustainable_tourism
Mean 63.51
Std.Dev 16.57
Min 24.00
Q1 52.00
Median 61.50
Q3 78.00
Max 100.00
MAD 18.53
IQR 26.00
CV 0.26
Skewness -0.09
SE.Skewness 0.15
Kurtosis -0.78
N.Valid 262.00
Pct.Valid 100.00

Nuestras mejoras

Para poder comparar los datos estadísticos relativos al término “turismo sostenible” con los del término “sustainable tourism”, hemos creado el resumen estadístico del término de búsqueda en inglés. Para ello, hemos escrito el chunk anterior sustituyendo descr(var = es_turismo_sostenible) por descr(var = en_sustainable_tourism).

Nuestra interpretación

El resumen estadístico relativo al término “turismo sostenible” muestra que la media (Mean) de los valores es de 63,51. Esto indica que la tendencia de búsqueda de este término es relativamente alta si tomamos como referencia una escala de 100. Por lo tanto, podemos entender que el interés por este término es global. La mediana es de 61,50 y, al igual que en la búsqueda del término en español, se sitúa cerca de la media. Esto indica una distribución casi simétrica de los valores de tendencia. Aunque se han identificado valores extremos en el gráfico de caja, se puede deducir que su impacto en la media es moderado, ya que se compensan con una alta frecuencia de búsqueda del término en inglés.

En cuanto a la dispersión de las tendencias, se puede observar que el primer cuartil (Q1) es 52 y el tercer cuartil (Q3) es 78, lo que da un rango intercuartílico (IQR) de 26. Esto significa que el 50 % de los valores se concentran entre 52 y 78, lo que muestra una dispersión moderada en comparación con la búsqueda del término en español. La desviación estándar (Std.Dev) de 16,57 y la mediana absoluta (MAD) de 18,53 también confirman una variabilidad relativamente moderada, con datos que se mantienen bastante cercanos a la media y una dispersión moderada en torno a la mediana. A pesar de las diferencias de dispersión entre los dos términos (baja para el término en español y moderada para el término en inglés), se puede observar que el coeficiente de variación (CV) es prácticamente similar (0,27 para el término en inglés y 0,26 para el término en español). Esto se explica por el hecho de que el CV compara la desviación estándar con la media y que, en ambos casos, la variabilidad es proporcional:
- término en inglés: 16,57 (desviación estándar)/ 63,51 (media) = 0,26
- término en español: 6,52 (desviación estándar)/ 24,49 (media) = 0,27

Por último, respecto a la simetría del modelo, el coeficiente de asimetría (Skewness) de -0,09 indica que es casi simétrico, se puede hablar de una asimetría muy leve, ya que el coeficiente es negativo y muy cercano a 0. Por otra parte, la curtosis (Kurtosis) es de -0,78, lo que muestra un histograma más aplanado con más barras que tienen una altura similar.

Conclusiones

Este trabajo nos ha permitido comprender cómo funciona el software estadístico y el lenguaje de programación R para realizar análisis de datos estadísticos de Google Trends. Sin tener ningún conocimiento previo de R, hemos aprendido a analizar la evolución de las búsquedas en Google de los términos “turismo sostenible” y “sustainable tourism”. Utilizamos las diferentes herramientas disponibles para crear, modificar, mejorar y personalizar códigos con el fin de crear gráficos relevantes para nuestro análisis. También utilizamos la IA para aprender más sobre el funcionamiento de R y los diferentes códigos existentes para hacer el informe más atractivo visualmente (formateo del texto, títulos de los gráficos, mejoras).

Los resultados de nuestro análisis muestran que el término en inglés se busca más que el término en español y presenta una mayor variabilidad proporcional según las semanas estudiadas que el término en español. Esta tendencia general se ha confirmado a lo largo de nuestro análisis con los diferentes gráficos que se complementan entre sí y nos ofrecen un análisis global de los dos términos. Los resúmenes estadísticos precisan la tendencia proporcionándonos un análisis cuantitativo y el mapa nos permite ver la distribución geográfica de esta tendencia.

En cuanto al trabajo en grupo, este proyecto nos permitió plantearnos preguntas y aportar respuestas interesantes para nuestro análisis. Nos dividimos las tareas, aunque la conexión única, que no permitía a todos los miembros del grupo utilizar R al mismo tiempo, puede haber complicado el trabajo en equipo. Al final, todas aprendimos a utilizar el software, a mejorar los códigos y a interpretar los resultados del análisis.

En nuestra opinión, la información más relevante es que el turismo sostenible es un fenómeno muy investigado y que está generando conciencia a nivel mundial. Los datos de nuestro análisis muestran que la pandemia de COVID-19 ha actuado como un verdadero catalizador en la evolución de estas investigaciones, aunque persisten las disparidades entre los distintos países. Sin embargo, estas diferencias no son sorprendentes si se tiene en cuenta la dimensión lingüística de nuestro análisis. Por lo tanto, sería interesante comparar nuestros resultados con la evolución del concepto de turismo sostenible en otros idiomas, como el francés o el mandarín, que se encuentran entre los idiomas más hablados del mundo.