Con el siguiente código se importan dos conjuntos de datos:
timeline: Contiene datos de la tendencia
(popularidad) del término “turismo sostenible” en español y en inglés.
Hay una fila por semana.
gtrends: Contiene datos de la tendencia del término
“sustainable tourism” en todo el mundo en un determinado mes para cada
país.
library(readxl)
timeline <- read_excel("timeline.xlsx")
gtrends <- readRDS("gtrends_geo.rds")
library(tidyr)
library(dplyr)
df_long <-timeline |>
pivot_longer(cols = 2:3,names_to = "term", values_to = "trend")
extrema <-df_long |>
group_by(term) |>
summarise(
min_week = week[which.min(trend)],
min_trend = min(trend),
max_week = week[which.max(trend)],
max_trend = max(trend)
)
library(tidyr)
library(ggplot2)
timeline |>
pivot_longer(cols = 2:3, names_to = "term", values_to = "trend")|>
ggplot(aes(x = week, y = trend,
col = term)) +
geom_line() +
geom_point(
data = extrema,
aes(x = min_week, y = min_trend, color = "Minimo"),
size = 3
) +
geom_point(
data = extrema,
aes(x = max_week, y = max_trend, color = "Maximo"),
size = 3
) +
scale_color_manual(
values = c(
"Minimo" = "green",
"Maximo" = "DarkRed",
# "en_sustainable_tourism" = "blue",
# "es_turismo_sostenible" = "violet"
setNames(
RColorBrewer::brewer.pal(length(unique(df_long$term)), "Set2")[1:length(unique(df_long$term))],
c("en_sustainable_tourism", "es_turismo_sostenible")
)
)
)+
labs(
title = "Evolución de tendencias en Google",
x = "Semanas",
y= "Tendencias"
) +
theme_minimal()
En la primera gráfica, observamos un modelo relativo a una gráfica de líneas que compara la popularidad de 2 términos: sustainable tourism en rojo y turismo sostenible en azul junto con la inclusión de puntos indicadores de los máximos y los mínimos relativos a cada término reflejandose la leyenda del siguiente modo:
Sustainable tourism: azul
Turismo sostenible: rojo
Máximos: rojo oscuro
Mínimos: verde
El periodo seleccionado para la evolución está comprendido entre el 6 de octubre de 2019 y el 6 de octubre del 2024 y el intervalo de tiempo con el que se mide la mencionada evolución es semanal.
Analizando la gráfica, vemos que las búsquedas de “sustainable tourism” tiene un nivel de búsqueda significativamente mayor que la búsqueda en español de “turismo sostenible” situándose en valores por encima de 50 en una amplia medida y, en ocasiones, superando la barrera del valor de 75. Por el contrario, las búsquedas en español se sitúan en valores por debajo de 50 que da a entender una búsqueda menos dinámica del término.
En ambas gráficas se sigue un patrón idéntico con la evolución presentando una serie de picos de búsquedas elevadas junto con caídas drásticas dando a entender que las búsquedas pueden variar constantemente en función de la estacionalidad o de otros factores notándose especialmente en el campo angloparlante, con picos mucho más pronunciado indicando que las búsquedas en inglés presentan unas fluctuaciones más amplias a lo largo del año. En español también se puede ver esta estacionalidad aunque con una menor notoriedad en comparación al término en inglés.
timeline |>
ggplot(aes(x = es_turismo_sostenible,
y = en_sustainable_tourism)) +
geom_point(col = "blue") +
theme_bw() +
labs(title = "Gráfico de dispersión de tendencias de turismo sostenible",
x = "Término 'Turismo sostenible' (ES)",
y = "Término 'Sustainable tourism' (EN')") +
geom_smooth(method = "lm", se = TRUE, color ="red")
En este gráfico los principales cambios que hemos llevado a cabo han sido:
Hemos cambiado el color de puntos que representan los valores observados, del naranja original al azul.
Hemos construido una línea de regresión a través del código “ + geom_smooth(method = “lm”, se = TRUE, color = “red”)” generando además un intervalo de confianza alrededor del ajuste.
Podemos ver juzgando la visual de la gráfica que existe una correlación entre las 2 variables. La tendencia es positiva y lineal. y se puede observar que cuando las búsquedas en inglés suben, las de español también lo hacen. Por ejemplo, cuando las búsquedas en inglés son de 40, las de español son de 10 y cuando las de inglés suben a 90 las de español también lo hacen a 40. También se puede observar que hay un cierto grado de dispersión entre las dos variables.
Hemos intentado encontrar el P valor y la R cuadrado en Posit Cloud pero no conseguimos calcular la regresión lineal. También hemos querido incluir abajo una gráfica con una recta de regresión suavizada que lo hemos logrado exitosamente.
timeline |>
ggplot(aes(x = es_turismo_sostenible,
y = en_sustainable_tourism)) +
geom_point(col = "blue") +
theme_bw() +
labs(title = "Gráfico dispersión de tendencias de turismo sostenible con curva suavizada",
x = "Término 'Turismo sostenible' (ES)",
y = "Término 'Sustainable tourism' (EN')") +
geom_smooth(se = TRUE, color ="red")
timeline |>
pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |>
ggplot(aes(x = trend,
fill = term)) +
geom_density(alpha = 0.5) +
labs(fill = "Término de búsqueda")
El término en español (azul) se concentra en valores bajos
Mayoría de valores entre 15 y 30.
Muy poca dispersión.
Eso significa que en español el interés es más estable pero bajo.
El término en inglés (salmón) tiene valores más altos y dispersos
Rango entre 40 y 100.
Varias “jorobas” → picos en distintos periodos.
Interés global mucho mayor.
Conclusión:
El interés por el término “turismo sostenible” es significativamente mayor en inglés que en español. Además, la distribución del término en inglés es más amplia y presenta múltiples picos, lo que refleja mayor volatilidad y eventos globales que impulsan su búsqueda (cumbres, informes, ODS, COP, etc.). En cambio, el término en español concentra valores bajos y estables, lo cual sugiere menor presencia en la conversación digital hispanohablante.
timeline |>
ggplot(aes(x = es_turismo_sostenible)) +
geom_histogram(bins = 12, fill = "red", col = "white")
timeline |>
ggplot(aes(x = en_sustainable_tourism)) +
geom_histogram(bins = 12, fill = "lightblue", col = "white")
Los dos gráficos comprenden las búsquedas de turismo sostenible en inglés y en español a lo largo de las semanas. Podemos observar que las búsquedas de turismo en Español se han comprendido entre 15 y 35 aproximadamente y alcanzando un número máximo de 40 unidades. Las búsquedas de turismo sostenible en inglés, han alcanzado un número máximo de 100 unidades y se han comprendido mayoritariamente entre 40 y 80 unidades ofreciendo mucho más volumen y variabilidad. A lo largo del tiempo, ha habido muchas más semanas en las que se ha alcanzado un número de entre 20 y 25 búsquedas en español. Mientras que en inglés, la media de búsquedas ha sido de entre 50 y 60.
timeline |>
pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |>
ggplot(aes(x = term, y = trend)) +
geom_boxplot()
En el boxplot se ve que el término en inglés (izquierda) tiene valores mucho más altos y con mucha más variabilidad mientras que el término en español (derecha) está muy comprimido entre valores bajos (20–30), con outliers hacia abajo.
La línea gruesa dentro de la caja:
Inglés: mediana alrededor de 65
Español: mediana alrededor de 25
-*El interés medio global por el turismo sostenible es mucho mayor en inglés.
La “caja” del término en inglés es amplia (aprox. 50–78).
La del español es estrecha (aprox. 22–28).
El término en inglés fluctúa más responde a eventos, informes, noticias, etc.
El término en español es estable pero bajo, menos impacto mediático.
En español encontramos ‘’outliers’’ a la derecha (puntitos negros) por debajo de 15. Entendemos que estos son momentos donde la conversación en español desaparece.
En conclusión, estos resultados refuerzan la idea de que la conversación digital sobre turismo sostenible está más consolidada en el ámbito anglosajón, mientras que en el contexto hispanohablante la atención es menor y más uniforme. La presencia de outliers en el término español refleja semanas con búsquedas excepcionalmente bajas, algo que no ocurre en el término en inglés, donde existen múltiples picos de alta intensidad asociados a eventos globales, informes y cumbres internacionales.
library(summarytools)
st_options(use.x11 = FALSE)
timeline |>
descr(var = es_turismo_sostenible)
Descriptive Statistics
timeline$es_turismo_sostenible
N: 262
| es_turismo_sostenible | |
|---|---|
| Mean | 24.49 |
| Std.Dev | 6.62 |
| Min | 6.00 |
| Q1 | 21.00 |
| Median | 24.00 |
| Q3 | 29.00 |
| Max | 40.00 |
| MAD | 5.93 |
| IQR | 8.00 |
| CV | 0.27 |
| Skewness | -0.29 |
| SE.Skewness | 0.15 |
| Kurtosis | 0.14 |
| N.Valid | 262.00 |
| Pct.Valid | 100.00 |
library(summarytools)
st_options(use.x11 = FALSE)
timeline |>
descr(var = en_sustainable_tourism)
Descriptive Statistics
timeline$en_sustainable_tourism
N: 262
| en_sustainable_tourism | |
|---|---|
| Mean | 63.51 |
| Std.Dev | 16.57 |
| Min | 24.00 |
| Q1 | 52.00 |
| Median | 61.50 |
| Q3 | 78.00 |
| Max | 100.00 |
| MAD | 18.53 |
| IQR | 26.00 |
| CV | 0.26 |
| Skewness | -0.09 |
| SE.Skewness | 0.15 |
| Kurtosis | -0.78 |
| N.Valid | 262.00 |
| Pct.Valid | 100.00 |
Comparando los dos gráficos de variables de búsqueda en español e inglés, podemos observar que presentan algunas diferencias. El gráfico de variables en inglés presenta variables más altas cómo la media que se sitúa en un valor de 63,41, que es mucho más alto que el valor obtenido en búsquedas en español 24,5.También podemos observar que la mediana presenta características similares , con un valor de 61,50 frente al valor de 24 en español y el máximo en ingles 100 también tiene un valor más alto que el máximo en español 40. Analizando estos datos podemos observar que las variables en inglés presentan unos valores de búsqueda mucho más amplios si los comparamos con el término en español con lo que deducimos que puede haber un mayor conocimiento o interés en este tema predominando más en el campo internacional que en el campo hispano.
library(leaflet)
gtrends |>
leaflet() |>
addTiles() |>
addPolygons(fillColor = ~colorQuantile("YlOrRd",en_sustainable_tourism)(en_sustainable_tourism),
opacity = 0.8,
label = ~Country,
weight = 1,
popup = ~paste(en_sustainable_tourism, " %")) |>
addLegend(pal = colorQuantile("YlOrRd",gtrends$en_sustainable_tourism),
values = ~en_sustainable_tourism)
Podemos analizar que el término sustainable tourism difiere por continentes. Europa, Oceanía lideran aunque la conversación digital sobre sostenibilidad también aparece en cierta parte de Asia y África.
En algunas regiones como el sureste de África, China y Oceanía, las búsquedas de turismo sostenible se comprenden en un margen de entre el 75% y el 100%, significando una mayor concienciación y popularidad de este tipo de turismo.
En otras partes del mundo como Australia, India o algunos países Europeos como Noruega, Reino Unido y Francia, se sitúan en un porcentaje menor en comparación a los primeros comprendiendo entre el 50% y 75%, pero el turismo sostenible sigue siendo un término popular y significativo.
Otras regiones demuestran una mayor indiferencia hacia este tipo de turismo comprendiendo entre el 25% y el 50% como América del Norte o ciertos países de Europa del Este.
Finalmente, destacaremos regiones como Rusia o América del sur en las que el turismo sostenible no es nada popular comprendiendo entre el 25% y el 0%.
Queremos también destacar que África es el continente con el mayor número de países en los que no se han podido extraer datos y que el término sólo contempla la búsqueda del término en inglés, obviando el término en los respectivos idiomas locales.
NOTA: Escribe un breve párrafo de conclusiones sobre este trabajo. ¿Qué has aprendido? ¿Cómo fue el trabajo en equipo? ¿Cuál es el resultado más relevante de los datos (si lo hay)?
Lo que nos gustaría destacar como conclusión es que hay que tener mucho cuidado cuando se trabaja con datos. En este caso hemos usado Google Trends, que es una herramienta potente para captar el interés digital y las tendencias discursivas. Entendemos que podría ser un error interpretar estas tendencias como indicador directo del desarrollo sostenible real. Es una aproximación complementaria, útil para entender percepciones y discursos, pero no la práctica turística en sí.
Hemos aprendido a editar las características de los gráficos, nos hemos acostumbrado un poco más a la interfaz y al uso del lenguaje R y hemos aprendido a manipular y analizar mejor los gráficos de datos.
El trabajo en equipo ha sido muy productivo, nos hemos apoyado entre todos usando habilidades complementarias para poder avanzar y agilizar el trabajo con mayor facilidad.
BONUS: Podéis publicar el informe en RPubs (icono en la barra superior del editor) y enviar el link para la evaluación.