Con el siguiente código se importan dos conjuntos de datos:
timeline: Contiene datos de la tendencia
(popularidad) del término “turismo sostenible” en español y en inglés.
Hay una fila por semana.
gtrends: Contiene datos de la tendencia del término
“sustainable tourism” en todo el mundo en un determinado mes para cada
país.
library(readxl)
timeline <- read_excel("timeline.xlsx")
gtrends <- readRDS("gtrends_geo.rds")
library(tidyr)
library(ggplot2)
timeline |>
pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |>
ggplot(aes(x = week, y = trend,
col = term)) +
geom_line()
En primer lugar, este gráfico de líneas muestra la evolución temporal de las búsquedas para los términos de turismo sostenible en inglés y en español, desde octubre de 2019 hasta octubre de 2024. Como podemos observar, la variable de popularidad de búsquedas del término “sustainable tourism” es notablemente más elevada a lo largo de los 5 años en comparación con la variable de popularidad de las búsquedas del mismo término en español.
Asimismo, respecto al término de “sustainable tourism”, este comenzó, desde finales del 2019 hasta principios del 2022, con unos valores y niveles que rondaban un 65 sobre 100 de interés y popularidad del término, llegando a mostrar un crecimiento exponencial desde dicho año hasta junio de 2024, alcanzando valores superiores a 80. Mientras que, el término en español, apenas llega a las 35 búsquedas a la semana.
En segundo lugar, la variable de popularidad del término en inglés evidencia picos regulares y frecuentes, con fluctuaciones muy pronunciadas tanto en momentos de máximo interés como de mínimo. En este caso, se puede afirmar que la tendencia aumenta con el paso del tiempo.
Respecto al término en español, aunque las búsquedas son, claramente, inferiores a las búsquedas del mismo tema en inglés, a diferencia de éste, las fluctuaciones son más suaves y también parece haber un aumento de forma gradual desde 2019.
Finalmente, suponemos que por la naturaleza del gráfico, la covarianza es positiva ya que tanto el incremento como la disminución de la variable de popularidad de ambos términos suele coincidir en los diversos periodos que muestra el gráfico.
timeline |>
ggplot(aes(x = es_turismo_sostenible,
y = en_sustainable_tourism)) +
geom_point(col = "orange") +
theme_bw() +
labs(title = "Gráfico de dispersión de tendencias de turismo sostenible",
x = "Término 'Turismo sostenible' (ES)",
y = "Término 'Sustainable tourism' (EN)")+
geom_smooth()
A continuación, procederemos a analizar el gráfico de dispersión y la regresión que hemos incorporado y que nos ayuda a medir cómo es la relación entre las 2 variables.
Aparentemente, en el gráfico se puede observar la presencia de una relación lineal positiva entre las búsquedas de los términos de “turismo sostenible” y “sustainable tourism”, ambas variables dependientes la una de la otra. Esto quiere decir que cuando la variable interés aumenta en uno de los idiomas, la variable del otro idioma también lo hace. Además, la covarianza es positiva, ya que, como hemos indicado previamente, al crecer la variable de un término, la variable del otro término también aumenta.
De igual modo, los datos no se agrupan de manera muy ajustada alrededor de la recta de regresión e, incluso, algunos puntos del gráfico están dispersos en relación con el resto de ellos. Todo ello puede derivar en una mayor cantidad de errores en la estimación.
timeline |>
pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |>
ggplot(aes(x = trend,
fill = term)) +
geom_density(alpha = 0.5) +
labs(fill = "Término de búsqueda")
Este gráfico muestra las distribuciones de densidad de las búsquedas para los términos “Sustainable tourism” y “Turismo sostenible”.
El término en inglés presenta una distribución más amplia, con valores que oscilan entre aproximadamente 25 y 100. Esta distribución es bimodal, ya que cuenta con dos picos claramente diferenciados. El primero se encuentra alrededor de 50, representando el nivel de búsqueda más común en un rango intermedio, mientras que el segundo pico aparece cerca de 80, reflejando periodos de alto interés global. Asimismo, se observa una mayor dispersión en comparación con el término en español, lo que implica una mayor variabilidad en los niveles de interés según las semanas.
Por otro lado, el término en español presenta una distribución más concentrada, con valores que se ubican mayoritariamente entre 10 y 30. La densidad máxima se alcanza alrededor del valor 25, lo que indica que este nivel de búsqueda es el más frecuente y constante durante el periodo analizado. A diferencia del término en inglés, la curva refleja menor dispersión, destacando una estabilidad notable en su popularidad. Además, se percibe una ligera asimetría hacia la izquierda, lo que significa que las semanas con valores de búsqueda más bajos son menos comunes pero aún tienen cierta influencia en la distribución general.
timeline |>
ggplot(aes(x = es_turismo_sostenible)) +
geom_histogram(bins = 12, fill = "orange", col = "white")
timeline |>
ggplot(aes(x = en_sustainable_tourism))+
geom_histogram(bins = 12, fill = "orange", col = "white")
En el primer histograma, que representa la popularidad del término en español “turismo sostenible”, se observa una clara asimetría hacia la izquierda. La distribución presenta una moda bien definida, que corresponde a los valores más frecuentes en el rango de 20 a 23 aproximadamente, los cuales se registraron durante un período de 60 semanas. Además, el rango total de valores de búsqueda para este término oscila entre 5 y 40 en términos de popularidad, reflejando una dispersión moderada pero sin extremos particularmente elevados.
En contraste, el segundo histograma, que ilustra los datos de popularidad e interés del término en inglés “sustainable tourism”, muestra una asimetría más acentuada hacia la izquierda. Este gráfico destaca por su carácter bimodal, ya que presenta dos picos que corresponden a dos modas distintas. La primera moda se encuentra en el rango de 53 a 60 en términos de popularidad, y abarca aproximadamente 48 semanas. La segunda moda se sitúa entre 72 y 78, representando un período de 36 semanas con un nivel de interés igualmente significativo. En general, los valores de búsqueda para este término cubren un rango más amplio, que van desde 24 hasta 100, lo que refleja una mayor variabilidad y un interés máximo mucho más elevado en comparación con el término en español.
timeline |>
pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |>
ggplot(aes(x = term, y = trend)) +
geom_boxplot()
En primer lugar, en lo que respecta al análisis del gráfico o diagrama de cajas y bigotes del término “sustainable tourism”, podemos observar como el 50% de los datos se encuentra dentro de la caja (la cual corresponde al rango intercuartílico), al igual que ocurre con el término en español.
Seguidamente, podemos apreciar cómo la mediana está tirando hacia los valores bajos, de manera que marca la simetría en el rango central. Esta última, se encuentra alrededor de 61, indicando que la mitad de las búsquedas son superiores a este valor y la otra mitad es inferior. De esta manera, se aprecia claramente que la distribución de los datos muestra una asimetría pronunciada. Por otro lado, los bordes de la caja, que hacen referencia al primer cuartil (línea inferior) y al tercer cuartil (linea superior), denotan valores que van desde 52 (Q1) hasta 78 (Q3), lo que muestra una mayor concentración de datos dentro de este rango intercuartílico.
Asimismo, en lo referido a los bigotes, estos marcan el número máximo (100) y número mínimo (24) de los datos, demostrando cómo los extremos del “sustainable tourism” son más variables y sus valores más altos que los del término en español. Además, la caja del término en inglés tiene mayor amplitud y con ello más variabilidad de datos que la del término en español. También cabe mencionar que en este gráfico de caja no se hallan valores atípicos o extremos, fuera de ciertos límites.
Finalmente, destacar que el término “sustainable tourism” muestra datos de búsquedas que llegan a niveles notable y claramente más elevados que los del término en español, siendo el máximo de popularidad 100 en el de inglés y 40 en el de español (cuyas búsquedas se centran en cifras intermedias/bajas). Unido a ello, la diferencia entre el máximo y el mínimo en el término en inglés es mucho más pronunciada que la del “turismo sostenible”, aspecto que denota un mayor equilibrio y uniformidad en los datos del término en español (mayor estabilidad).
En segundo lugar, en relación al gráfico de cajas del término en español, se aprecia cómo la mediana, al igual que en el término en inglés, también tiende hacia los valores bajos, marcando así la simetría en el rango central. Sin embargo, a diferencia del “sustainable tourism”, este hecho no se observa de forma tan clara en este gráfico, debido a la estrechez de la caja, que nos indica, a su vez, una menor variabilidad de los datos con respecto al término en inglés.
En esta misma línea, la mediana, se encuentra alrededor de 24, indicando que la mitad de las búsquedas son superiores a ella y la otra mitad son inferiores. Por otro lado, los bordes de la caja, que corresponden al primer cuartil y al tercer cuartil, denotan valores que van desde 21 (Q1) hasta 29 (Q3). Asimismo, se observa que la distribución de los datos es mucho más simétrica que en el término en inglés, dado que, en este caso, el mínimo es 6 y el máximo es 40. Este factor indica, a su vez, que los bigotes (extremos) del “turismo sostenible” son menos variables que los del término en inglés y que los valores del gráfico son más bajos que los del “sustainable tourism”.
Por último, es preciso destacar la existencia de valores atípicos por debajo de 10, donde cada punto corresponde a una semana, que nos revelan que durante esos periodos de tiempo se produjeron pocas búsquedas en relación al resto de los datos, por lo que, en ese entonces, el interés y popularidad del término fue excepcionalmente bajo. También es interesante destacar que la diferencia entre la mediana del gráfico en inglés (61) y la del español (24) es un claro indicador de que la popularidad general del término en inglés es mucho mayor que la del español, a pesar de que el máximo de búsqueda del “turismo sostenible” es superior al mínimo de la del “sustainable tourism”.
library(summarytools)
st_options(use.x11 = FALSE)
timeline |>
descr(var = es_turismo_sostenible)
Descriptive Statistics
timeline$es_turismo_sostenible
N: 262
| es_turismo_sostenible | |
|---|---|
| Mean | 24.49 |
| Std.Dev | 6.62 |
| Min | 6.00 |
| Q1 | 21.00 |
| Median | 24.00 |
| Q3 | 29.00 |
| Max | 40.00 |
| MAD | 5.93 |
| IQR | 8.00 |
| CV | 0.27 |
| Skewness | -0.29 |
| SE.Skewness | 0.15 |
| Kurtosis | 0.14 |
| N.Valid | 262.00 |
| Pct.Valid | 100.00 |
library(summarytools)
st_options(use.x11 = FALSE)
timeline |>
descr(var = en_sustainable_tourism)
Descriptive Statistics
timeline$en_sustainable_tourism
N: 262
| en_sustainable_tourism | |
|---|---|
| Mean | 63.51 |
| Std.Dev | 16.57 |
| Min | 24.00 |
| Q1 | 52.00 |
| Median | 61.50 |
| Q3 | 78.00 |
| Max | 100.00 |
| MAD | 18.53 |
| IQR | 26.00 |
| CV | 0.26 |
| Skewness | -0.09 |
| SE.Skewness | 0.15 |
| Kurtosis | -0.78 |
| N.Valid | 262.00 |
| Pct.Valid | 100.00 |
Este cuadro muestra las estadísticas descriptivas del término de búsqueda en inglés “sustainable tourism” a lo largo de un periodo de 262 semanas y ofrece una comparación con su equivalente en español, “turismo sostenible”.
La media del término en inglés se sitúa en 63.51, lo que refleja un interés relativamente alto en las búsquedas, en contraste con el término en español, cuya media es de 24.49, indicando un interés más moderado. La mediana del término en inglés, con un valor de 61.50, es ligeramente inferior a la media, lo que sugiere que los datos están algo sesgados hacia valores más altos. Por otro lado, la mediana del término en español es 24.00, muy próxima a su media, lo que evidencia una distribución más simétrica en torno a los valores centrales.
La desviación estándar del término en inglés es de 16.57, lo que indica una variabilidad moderada en las búsquedas. En contraste, el término en español muestra una variabilidad significativamente menor, de 6.62, lo que refleja una mayor concentración de valores alrededor de la media. Las búsquedas de “sustainable tourism” varían entre un mínimo de 24.00 y un máximo de 100.00, destacando un amplio rango de popularidad. Por otro lado, las búsquedas de “turismo sostenible” fluctúan entre 6.00 y 40.00, mostrando un rango mucho más limitado.
El coeficiente de curtosis del término en inglés es de -0.78, lo que indica que la distribución es algo más plana que una distribución normal (platocúrtica), con menos valores extremos. De forma similar, aunque menos pronunciada, el término en español presenta un coeficiente de curtosis de -0.25, lo que también sugiere una distribución moderadamente plana, con ocasionales valores que superan la mediana, pero sin grandes desviaciones extremas.
El coeficiente de variación (CV) del término en inglés es de 26.08%, lo que refleja una variabilidad relativa moderada en proporción a la media, mientras que, para el término en español, el CV es de 27.04%, mostrando una variabilidad similar a la del término en inglés.
En resumen, el término “sustainable tourism” presenta un mayor interés global y una mayor amplitud en sus valores de popularidad, mientras que “turismo sostenible” se caracteriza por un interés más moderado, con valores más concentrados y un rango más estrecho de búsquedas. Ambos términos comparten una distribución relativamente plana y una variabilidad moderada en sus datos.
library(leaflet)
gtrends |>
leaflet() |>
addTiles() |>
addPolygons(fillColor = ~colorQuantile("YlOrRd",en_sustainable_tourism)(en_sustainable_tourism),
opacity = 0.8,
label = ~Country,
weight = 1,
popup = ~paste(en_sustainable_tourism, " %")) |>
addLegend(pal = colorQuantile("YlOrRd",gtrends$en_sustainable_tourism),
values = ~en_sustainable_tourism)
Este mapa, representativo de la distribución geográfica a nivel mundial de las búsquedas del término según porcentajes de popularidad relativa, indica los diferentes niveles de interés por el “sustainable tourism” en cada país utilizando una escala de colores que va desde el interés más bajo (color blanco amarillento), pasando por el medio-bajo (color arcilla) y el medio-alto (color naranja), llegando finalmente al interés más alto (color rojo). En cuanto a los países que carecen de datos e información al respecto (NA), estos son representados por medio del color gris.
En primer lugar, tenemos las zonas de interés elevado (75%-100%). Si analizamos continente por continente, Oceanía estaría en la primera posición como el continente donde se observa el mayor nivel de popularidad del término “sustainable tourism”, ya que en las Islas Salomón el porcentaje de popularidad relativa es del 100%, indicando, que dentro de esta categoría, esta sería la zona que más interés demostró en las búsquedas del término en inglés, siguiéndola países como Fiji con un 60% y Vanuatu con un 55%. Estos datos no son de extrañar debido al historial de los países de Oceanía en materia de adopción y desarrollo de prácticas y políticas turísticas sostenibles.
La segunda posición la ocuparía África, ya que los porcentajes de algunos de sus países son bastante elevados dentro de esta clasificación. Los territorios a resaltar serían Lesoto, a la cabeza, con un 62% de interés por el “sustainable tourism”, seguido de Botsuana con un 28% de popularidad. Asimismo, la tercera posición pertenecería a América, con porcentajes del 37% en Belice y del 19% en Jamaica, la cuarta posición pasaría a ser de Asia con porcentajes del 20% en Bután y Brunéi y del 19% en las Islas Filipinas. Finalmente, el continente que ocuparía el último puesto sería Europa, con países como Chipre e Islandia con un 6% y Albania con un 4%.
En segundo lugar, estarían las zonas de interés medio (50%-75% (medio alto) y 25%-50% (medio bajo)). En estas áreas se aprecia un interés y popularidad moderados respecto al “sustainable tourism”, ya sea debido a que son regiones que presentan un desarrollo y evolución notables a nivel turístico pero que le profieren una importancia ínfima a la noción de turismo sostenible, o que son países que han empezado a interesarse por esta temática de forma muy reciente, por lo que su crecimiento y progreso en este ámbito es mínimo.
Asimismo, el continente con mayor cantidad de países pertenecientes a esta categoría es Europa. Por un lado, las naciones con un interés medio bajo en el término de “sustainable tourism” son España, Bélgica, Holanda, Italia, Serbia, Suiza, Suecia, Finlandia, Estonia, Letonia, Hungría, Rumania, Lituania, Bulgaria, Eslovaquia, Dinamarca, República Checa, Moldavia y Macedonia del Norte. Por otro lado, las naciones con un interés medio alto son Francia, Portugal, Austria, Noruega, Grecia, Montenegro, Croacia, Kosovo, Reino Unido.
En tercer lugar, nos encontramos con las zonas de interés bajo (0%-25%) que muestran los países donde la popularidad y relevancia del término es extremadamente baja. Esto puede deberse a la existencia de barreras lingüísticas (puede ser que la mayoría de búsquedas realizadas en esos países se hagan en idiomas diferentes al inglés), a la poca importancia proferida al desarrollo del turismo sostenible o a un díficil acceso o uso escaso y limitado de Internet . La región con menor interés por el término de “sustainable tourism” es América del Sur, donde la mayoría de sus países (Colombia, Venezuela, Perú, Bolivia, Brasil, Argentina, Chile y Paraguay) muestran un 0,5% de popularidad del término, siendo esta la cifra más baja dentro de la categoría en cuestión.
En cuarto lugar, estarían las zonas no disponibles (NA) que corresponden a aquellas naciones que carecen de información y datos suficientes para poder medir o cuantificar la popularidad del “sustainable tourism”. La razón de ello podría ser una carencia de búsquedas de valor significativo del término o una cantidad y flujo de usuarios de Google muy escasa. Algunos de los lugares que pertenecen a este grupo o categoría son: Groenlandia, la Antártida, países como Corea del Norte, Afganistán, Nueva Caledonia, Timor Oriental, Turkmenistán, Uruguay, Nicaragua, Haiti, Cuba, Yemen, etc.
En esta misma línea, hay dos casos excepcionales a resaltar: el de Europa, donde no hay ni un solo país que se incluya en esta clasificación y el de África, que es el continente con mayor cantidad de países pertenecientes a esta categoría de NA (Mauritania, Níger, Mali, Chad, Benín, Burkina Faso, Sudán, Guinea, Sierra Leona, Somalia, Angola, Gabón, Sudán del Sur, Sáhara Occidental, Guinea-Bisáu, Togo, Liberia, Libia, República Centroafricana, Eritrea).
A modo de conclusión, es precio resaltar que las áreas donde la popularidad del término es muy elevada pueden ser países desarrollados, en los que la comunidad y sociedad se caracterizan por tener una gran concienciación a nivel medioambiental, y que aquellas zonas donde la popularidad e interés hacia el “sustainable tourism” son tan bajos, pueden ser países donde el progreso turístico no está suficientemente desarrollado y avanzado o donde el idioma anglosajón no es la lengua principal, por lo que la mayoría de búsquedas se realizan en un idioma diferente.
En lo que respecta al aprendizaje y conocimientos adquiridos con la elaboración de este trabajo, hemos podido estudiar en profundidad gráficos de todo tipo, desde gráficos de barras o histogramas, gráficos de líneas, gráficos de dispersión (introduciendo en el mismo la línea de regresión) y tablas descriptivas de estadística, hasta gráficos de densidad, gráficos de caja y bigotes y mapas geográficos. El análisis detallado de todos ellos nos ha permitido conocer los diversos aspectos y características de los datos proporcionados, ya que cada gráfico ha aportado un tipo diferente de información relevante para la presente práctica.
De distinta manera, el trabajo en equipo fue muy enriquecedor, ya que cada uno de los miembros integrantes del grupo contribuyó con una perspectiva diferente en la interpretación de los datos de cada gráfico. El intercambio de conocimientos y búsqueda de información adicional ha sido constante durante todos los procesos de elaboración del documento en cuestión.
En último lugar, en relación al resultado de los datos, podemos afirmar que la popularidad general del “sustainable tourism” es mucho más elevada, aunque con una distribución asimétrica y gran variabilidad de los datos, que la del interés hacia el “turismo sostenible” que muestra una popularidad inferior a nivel general, asi como una menor variabilidad de los datos y una distribución uniforme y más simétrica de los mismos, con respecto al término en inglés.