Con el siguiente código se importan dos conjuntos de datos:
timeline: Contiene datos de la tendencia
(popularidad) del término “turismo sostenible” en español y en inglés.
Hay una fila por semana.
gtrends: Contiene datos de la tendencia del término
“sustainable tourism” en todo el mundo en un determinado mes para cada
país.
library(readxl)
timeline <- read_excel("timeline.xlsx")
gtrends <- readRDS("gtrends_geo.rds")
library(tidyr)
library(ggplot2)
timeline |>
pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |>
ggplot(aes(x = week, y = trend,
col = term)) +
geom_line()
GRAFICO 1.
Este gráfico de líneas o también llamado diagrama de frecuencias recoge la evolución a lo largo de un periodo sobre la variable cuantitativa nivel de popularidad (llamado “trend” en el eje de ordenadas Y) que es el número de búsquedas realizadas en Google bajo las palabras “turismo sostenible” en español (línea azul) y “sustainable tourism” en inglés (línea roja). El periodo de medición de este nivel de popularidad comprende los años 2019 (octubre) al 2024 (octubre), fragmentado por semanas cada observación (“week” en el eje de abcisas X) y agrupado visualmente por años en el gráfico en el mismo eje X.
Como podemos comprobar tanto en el gráfico como en el archivo excel, las búsquedas en inglés del término “sustainable tourism” son mayores que las búsquedas en español del término “turismo sostenible”, lo que nos dice que el término en inglés es más popular en Google que el término en español. A grandes rasgos, esto se debe a que el idioma inglés es utilizado por un mayor número de personas en Google que el idioma español, como sucede en general con los parlantes de ambos idiomas en todo el mundo, el inglés es más hablado que el español.
De forma específica y comprobando en el gráfico la distribución semanal del nivel de popularidad en ambos idiomas a lo largo de los 4 años, detectamos que, para ambos idiomas, la distribución es muy similar ya que crece y decrece la popularidad en las mismas fechas para ambos términos, aunque el nivel de popularidad sea diferente según cada idioma por la razón del uso del idioma comentado anteriormente. Por ello, podemos realizar un mismo análisis para ambos términos en cuanto a su distribución temporal. Analizando los picos de mayor popularidad, vemos que corresponden por un lado a los meses de primavera y junio y por otro lado en el comienzo del otoño (final de septiembre y octubre) para cada año analizado y para ambos idiomas. Intuimos que se debe a que los turistas comienzan a planificar las vacaciones de verano e invierno en las temporadas de primavera y otoño respectivamente, y por eso realizan más búsquedas sobre “turismo sostenible” o “sustainable tourism”.
Desde el lado contrario, los picos de menor popularidad del término para ambos idiomas corresponden a los meses estivales (julio, agosto) y los meses brumales (final de diciembre, enero). Esto puede atribuirse a la coincidencia con las vacaciones de verano e invierno que, por lo general, la mayoría de personas suelen disfrutar en esas fechas, reduciendo por tanto la necesidad de buscar el término analizado “turismo sostenible” o “sustainable tourism” ya que ya se encuentran disfrutando de las vacaciones buscadas anteriormente (buscadas en las épocas de primavera y otoño como indican los picos de popularidad). Por último, apreciamos a lo largo de los años 2020 y 2021 menores niveles de popularidad en la búsqueda del término “turismo sostenible” para ambos idiomas debido a las restricciones de movilidad impuestas a los viajeros y turistas para mitigar los efectos de la pandemia Covid-19 en todo el mundo, lo que provocó reducir los viajes en todo el mundo y por tanto reduciendo la necesidad de buscar en Google términos relacionados con los viajes.
timeline |>
ggplot(aes(x = es_turismo_sostenible,
y = en_sustainable_tourism)) +
geom_point(col = "blue") +
geom_smooth(method = lm, col = "lightyellow")+
theme_bw() +
labs(title = "Gráfico de dispersión de tendencias de turismo sostenible",
x = "Término 'Turismo sostenible' (ES)",
y = "Término 'Sustainable tourism' (EN)")
GRÁFICO 2
En este gráfico de dispersión se analiza si hay relación entre dos variables que son el término “turismo sostenible” en el eje de abcisas X y el término “sustainable tourism” en el eje de ordenadas Y.
Comprobamos una relación positiva entre ambos términos de ambos idiomas, ya que a medida que aumenta el interés por buscar un término de un idioma, también aumenta el interés por buscar el otro término del otro idioma. Esto se expresa por la línea ascendente que es la recta de regresión lineal (amarillo) así como la distribución de los puntos de forma ascendente ya que de lo contrario que no es el caso sería relación negativa o inversa.
Sin embargo, comprobamos que también hay variabilidad en el conjunto de los datos ya que no todos los puntos caen o están cerca de la recta de regresión, algunos datos incluso se alejan bastante de la recta generando residuos, por lo que podemos pensar que hay algunos datos atípicos en la distribución de los valores y que la relación entre las dos variables analizadas no es muy fuerte, si no una relación real pero moderada o débil. Habría que analizar más factores para afirmar sobre la intensidad de la relación como la covarianza o el coeficiente de correlación de Pearson. Es por ello que la ecuación de la recta de regresión que permite predecir valores de una variable a partir de los valores de la otra variable tenga un nivel de error alto por la alta variabilidad y por tanto sea poco representativo.
En cambio, la banda gris que aparece a lo largo de la recta de regresión (amarilla) es el intervalo de confianza, y al ser estrecho indica que es confiable la relación establecida entre ambas variables. Además donde más se estrecha en esta banda es entorno a la mitad coincidiendo donde más valores de ambas variables se agrupan o mayor nube de puntos encontramos, reflejando la posición de la tendencia central.
timeline |>
pivot_longer(cols = 2:3 , names_to = "term", values_to = "trend") |>
ggplot(aes(x = trend,
fill = term)) +
geom_density(alpha = 0.5) +
labs(fill = "Término de búsqueda")
GRÁFICO 3
Este es un gráfico de densidades que muestra la forma de la distribución y concentración de los datos para las dos variables que son los términos empleados en las búsquedas de Google, (“turismo sostenible” en español color azul y “sustainable tourism” color rosa en inglés). Con este gráfico podemos interpretar la curtosis o apuntamiento de los datos (forma de los datos), o, dicho de otra forma, interpretar el grado de concentración de los valores de una variable en torno a la media o medida de tendencia central.
Viendo el gráfico, la primera diferencia evidente entre ambos términos es como nos dijo el gráfico de líneas 1, es más popular el término en inglés que el término en español. Sin embargo, para cada término, la distribución y concentración de los datos no es la misma.
En el caso del término en español, la distribución de los datos tiene forma de campana leptocúrtica o muy apuntada, esto significa que, de todos los valores de popularidad observados para este término, los valores de popularidad centrales concentran la mayoría de las observaciones y acerca la moda (valor que más se repite, vértice del gráfico de densidad) a la tendencia central por ser tan apuntada en su forma. A su vez y por tener esta forma, las colas izquierda y derecha que parten de la medida central del gráfico de densidad son pesadas (con mucha pendiente) con respecto a la tendencia central reflejando que existen valores extremos incluso atípicos aunque pocos (estos son observaciones con valores máximos de popularidad o con valores mínimos de popularidad, muy alejados de la tendencia central) como venía mostrando el gráfico 2 de dispersión. Podemos apreciar además simetría de los datos con respecto a la tendencia central, lo que aumenta la concentración de las observaciones entorno a la tendencia central y no hacia la izquierda o hacia la derecha de la medida central, pero para mayor precisión habría que calcular el Índice de Asimetría de Pearson (donde seguramente coincidan la media y la moda indicando simetría y no asimetría) y determinar el valor de curtosis para clasificar el apuntamiento.
En el caso del término en inglés, la distribución de los datos sigue una distribución irregular por mostrar dos picos de densidad con diferente pendiente y su apuntamiento es platicúrtico, es decir, la distribución de los valores de la variable no quedan concentrados en torno a la tendencia central por no haber apenas apuntamiento, por lo que hay mayor dispersión de los datos a lo largo de toda la escala de valores reduciendo a la vez la existencia de datos atípicos. Esta forma de campana platicúrtica nos dice también que hay mayor variabilidad de los datos con respecto a la moda o valor que más se repite, sin embargo y de nuevo, habría que calcular el Índice de Asimetría de Pearson para determinar si la asimetría es más positiva o más negativa por la irregularidad de la distribución y los dos picos existentes. *(En las tablas 1 y 2 de más abajo se determinan y explican los valores de asimetría y curtosis)
timeline |>
ggplot(aes(x = es_turismo_sostenible)) +
geom_histogram(bins = 12, fill = "orange", col = "white")
GRÁFICO 4
En este histograma vemos la distribución de cada valor de popularidad semanal agrupado por intervalos (eje de abcisas X) según su frecuencia (eje de ordenadas Y) de la variable “turismo sostenible” en español.
Este histrograma se ajusta a una distribución normal, es decir, la distribución de los datos se parece a la Campana de Gauss, esto quiere decir que la mayoría de los datos se agrupan en torno a la tendencia central donde coinciden en el pico más alto la moda con la media y la mediana, y los valores menos frecuentes se distribuyen con cierta simetría a los lados de esa tendencia central, reduciendo la probabilidad de existencia de valores atípicos. Se podría añadir una capa más a este gráfico para visualizar la distribución normal y cómo se ajusta a la distribución del histograma, creando parecidos entre la distribución normal y la distribución de los valores de la variable turismo sostenible.
En este histograma la forma se acerca más a mesocúrtica como una distribución normal a diferencia del gráfico de densidades anterior que parecía más leptocúrtica. Es debido a que en el gráfico anterior se comparaban dos variables y se superponen bajo una misma medida de densidad, en cambio, con este gráfico de únicamente la variable turismo sostenible en español y sus frecuencias obtenemos una forma más precisa donde ya descartamos la forma leptocúrtica. En las tablas descriptivas de estas variables de más abajo, comprobamos que el índice de curtosis es muy bajo cercano a 0, por lo que nos quedamos con la forma mesocúrtica de la distribución de los valores de esta variable.
timeline |>
ggplot(aes(x = en_sustainable_tourism)) +
geom_histogram(bins = 12, fill = "pink", col = "black")
GRÁFICO 5
En este histograma vemos la distribución de cada valor de popularidad semanal agrupado por intervalos (eje de abcisas X) según su frecuencia (eje de ordenadas Y) de la variable “sustainable tourism” en inglés
Sigue una distribución irregular ya que presenta una forma asimétrica, es decir, los valores de los datos no se concentran en la tendencia central de la distribución creando dispersión de los datos con respecto a la medida central, hay varios picos (2 modas, bimodal) y asimetría negativa con cola hacia la izquierda de la medida central. La forma parece que es entre mesocúrtica y platicúrtica ya que los picos o frecuencias de valores más altos sigue una forma achatada a diferencia del histograma del término en español que se ve mucho más apuntado en su tendencia central.
timeline |>
pivot_longer(cols = 2:3, names_to = "term", values_to = "trend") |>
ggplot(aes(x = term, y = trend)) +
geom_boxplot()
GRÁFICO 6
Este es un gráfico de cajas-bigotes que analiza la concentración, dispersión y asimetría de los datos y la posible presencia de datos atípicos de una o de dos variables para realizar la comparación entre estas. En este caso, se analiza la distribución de los valores de popularidad (eje ordenadas Y) para las observaciones de las variables “sustainable tourism” en inglés y “turismo sostenible” en español (eje abcisas X).
La caja indica la concentración del 50% de los valores de popularidad centrales observados por la variable en torno a la mediana (valor central en la mitad de la distribución de valores o cuartil 50= Q2 segundo cuartil), es decir, refleja el rango de valores de popularidad que se encuentran entre el 25% y el 75% de los valores de todas las observaciones. Además, la línea negra que atraviesa la caja corresponde a la mediana, es decir, al valor de popularidad que toma la posición del 50% de la distribución de todos los valores de popularidad de las observaciones. En este caso, la caja de la variable en español es mucho más pequeña que la caja de la variable en inglés, indicando que el 50% de la distribución de valores quedan concentrados alrededor de la mediana en el caso español y para el caso inglés indica que hay mayor dispersión (y menor concentración) de la distribución de los valores con respecto a la mediana o al valor central.
Las líneas negras que salen verticalmente de las cajas son los bigotes y reflejan los valores que superan el 75% de la distribución del conjunto de observaciones o datos hasta el valor máximo (línea hacia arriba) y los valores inferiores desde el 25% de la distribución del conjunto de datos hasta el valor mínimo (línea hacia abajo) según su longitud, sin contar los valores atípicos. En nuestro gráfico, vemos que el término en inglés tiene mayor longitud de bigotes que el término español, indicando menor concentración de los valores con respecto a la mediana y mayor dispersión de los datos alejados de la tendencia central.
Por último, este gráfico muestra, para el caso de la variable “turismo sostenible” en español, puntos negros fuera de los bigotes. Estos puntos se corresponden con valores atípicos dentro del conjunto de valores observados que deben ser eliminados para una mayor significación estadística en el análisis de esta variable y así no desvirtuar los resultados estadísticos. Los valores atípicos ya podían intuirse al visualizar su histograma en gráfico 4, por los valores máximos y mínimos muy alejados de la tendencia central.
En cambio, para la variable “sustainable tourism” en inglés no presenta estos puntos fuera de los bigotes, por lo que el conjunto de valores observados para esta variable no presenta datos atípicos y su tratamiento estadístico será más significativo. Esto venía intuyéndose al visualizar su histograma, donde la distribución de los datos son más dispersos y los valores máximos y mínimos no se alejan tanto de la tendencia central como sí ocurre con la variable sustainable tourism en español.
library(summarytools)
st_options(use.x11 = FALSE)
timeline |>
descr(var = es_turismo_sostenible)
Descriptive Statistics
timeline$es_turismo_sostenible
N: 262
| es_turismo_sostenible | |
|---|---|
| Mean | 24.49 |
| Std.Dev | 6.62 |
| Min | 6.00 |
| Q1 | 21.00 |
| Median | 24.00 |
| Q3 | 29.00 |
| Max | 40.00 |
| MAD | 5.93 |
| IQR | 8.00 |
| CV | 0.27 |
| Skewness | -0.29 |
| SE.Skewness | 0.15 |
| Kurtosis | 0.14 |
| N.Valid | 262.00 |
| Pct.Valid | 100.00 |
library(summarytools)
st_options(use.x11 = FALSE)
timeline |>
descr(var = en_sustainable_tourism)
Descriptive Statistics
timeline$en_sustainable_tourism
N: 262
| en_sustainable_tourism | |
|---|---|
| Mean | 63.51 |
| Std.Dev | 16.57 |
| Min | 24.00 |
| Q1 | 52.00 |
| Median | 61.50 |
| Q3 | 78.00 |
| Max | 100.00 |
| MAD | 18.53 |
| IQR | 26.00 |
| CV | 0.26 |
| Skewness | -0.09 |
| SE.Skewness | 0.15 |
| Kurtosis | -0.78 |
| N.Valid | 262.00 |
| Pct.Valid | 100.00 |
TABLA 1 y 2
En estas dos tablas se realizan el análisis descriptivo para el conjunto de valores de popularidad observados para la variable “turismo sostenible” en español tabla 1 y “sustainable tourism” en inglés tabla 2. Indica, en orden, la media (suma de valor máximo por su frecuencia más valor mínimo por su frecuencia entre dos), desviación típica (dispersión de los datos con respecto a la media), valor mínimo, primer cuartil Q1 (valor con posición el 25% del conjunto de valores), la mediana (valor central que divide en 2 partes iguales la distribución de los valores del conjunto de datos, es decir, el valor con posición el 50% del conjunto de datos), el tercer cuartil Q3 (valor con posición el 75% del conjunto de valores) la desviación media absoluta (MAD) también para medir la dispersión de los datos con respecto a la media, el rango intercuartílico (IQR) que es la diferencia entre el Q3 y el Q1 para medir la dispersión de los datos, el Coeficiente de Variación (CV), la asimetría (Skewness), la curtosis o forma de la distribución de valores (Kurtosis), el número de observaciones válidas del conjunto de datos (N.Valid) y su porcentaje (Pct.Valid).
Para el análisis de estas dos tablas, comenzamos atendiendo a las medidas de dispersión para comparar la distribución de los valores de las dos variables. En primer lugar, la variable en español presenta menor desviación típica que la variable en inglés, demostrando lo comentado en los gráficos anteriores donde el término en español presenta menor variabilidad de los datos con respecto a la tendencia central que el término en inglés que presenta mayor desviación típica y por tanto mayor dispersión de los datos. El rango intercuartílico de ambas variables también demuestra que la variable en inglés es superior a la variable en español y por tanto presenta mayor dispersión de los datos y menor concentración con respecto a la medida central.
El coeficiente de variación, sin embargo, es similar en ambas variables, lo que indica que la media para ambas distribuciones de valores tiene el mismo nivel de representatividad y significación estadística, a pesar de que la variable en español presenta datos atípicos, lo que nos viene a decir que esos datos atípicos no desvirtuan en una medida considerable el tratamiento estadístico de la distribución de frecuencias de la variable “turismo sostenible”
En cuanto a la asimetría (skewness) de estas dos tablas nos confirma si hay simetría o el tipo de asimetría. Para la variable en español, la asimetría es negativa -0.29 y para la variable en ingles la asimetría es negativa de -0.09 siendo esta menor que el caso del término en español. Esto nos indica para ambas variables que la cola de la distribución de los valores se alarga hacia la izquierda de la media, es decir, concentra más distribución de valores a la izquierda de la media (valores inferiores al valor medio) que a la derecha de la media (valores superiores al valor medio) sobre todo para el caso de la variable en español.
Por último, atendiendo al indicador de curtosis, podemos determinar cuánto de apuntamiento tiene la distribución de valores. Para el caso de la variable en español, la curtosis es positiva y muy próxima a 0 (0.14) lo que indica que podemos ajustar su distribucion de frecuencias a una distribución Normal como ya explicamos en el gráfico 4 pero no confirma su forma leptocúrtica como parecía en el gráfico 3. Según este indicador, su forma es mesocúrtica como el de la distribución Normal.
Por otro lado, para la variable en inglés, la curtosis es negativa pero próxima a 0 (-0.78) lo que indica que la forma de su distribución de densidad no llega a ser platicúrtica como parecía en el gráfico 3 y sí se ajusta a una distribución Normal como el caso de la variable en español aunque con menor ajuste a la distribución Normal por existir mayor dispersión de los datos con respecto a la tendencia central.
library(leaflet)
gtrends |>
leaflet() |>
addTiles() |>
addPolygons(fillColor = ~colorQuantile("YlOrRd",en_sustainable_tourism)(en_sustainable_tourism),
opacity = 0.8,
label = ~Country,
weight = 1,
popup = ~paste(en_sustainable_tourism, " %")) |>
addLegend(pal = colorQuantile("YlOrRd",gtrends$en_sustainable_tourism),
values = ~en_sustainable_tourism)
GRÁFICO 7
Este gráfico se trata de un mapa de calor que refleja el porcentaje o la frecuencia de la popularidad del término o variable “sustainable tourism” en Google por países del mundo, siendo las naciones más rojizas las que más búsquedas han realizado de este término y las amarillas las que menos búsquedas han realizado de este término. No se trata de un cartograma ya que no apreciamos cambios en el tamaño de las regiones en función de su valor porcentual.
Las naciones que más han popularizado el término curiosamente corresponden a naciones en vias de desarrollo: países en África, el sudeste asiático así como Nepal, Bhutan, Nueva Zelanda o Papúa Nueva Guínea e incluso China como excepción de país en vías de desarrollo denotando un interés de estas regiones por desarrollar el turismo de forma sostenible o de realizar viajes bajo la filosofía del producto turístico sostenible.
Con este trabajo hemos aprendido a elaborar e interpretar diferentes gráficos sobre el conjunto de datos de dos variables y a elaborar tablas de análisis descriptivo con esos datos. Nos hemos dado cuenta que cada gráfico expresa un tipo de información pero elaborar diferentes tipos de gráficos y usarlos de forma complementaria ilustra en mayor medida y precisa la información vertida, sumado a ello las tablas descriptivas que aportan más información importante. Lo que parece que es por un gráfico, el dato descriptivo puede transformar esa interpretación o con la realización de otro tipo de gráfico se puede llegar a otras conclusiones e interpretaciones.
El resultado más relevante del conjunto de datos de las dos variables es que la popularidad del idioma inglés es mayor que la popularidad del idioma español para el término turismo sostenible, sin embargo, la distribución de ambos conjuntos de datos son similares, con algunas pequeñas diferencias, denotando la relación positiva entre ambas variables. Esto quiere decir que el uso en proporción del término para cada idioma en relación con sus hablantes sigue un patrón común, es decir, los hispanohablantes usan Google en una medida parecida para buscar “turismo sostenible” en Google que los angloparlantes para buscar “sustainable tourism” en Google. Sin embargo, el término en inglés muestra mayor dispersión de los datos, seguramente debido a la variedad geográfica y estacional del uso del inglés a lo largo del mundo, más que el caso del idioma español.