Introducción

El turismo es una de las actividades económicas más dinámicas y relevantes para el desarrollo de múltiples regiones a nivel mundial. Este sector involucra una amplia variedad de variables económicas y sociales que permiten analizar su comportamiento y su impacto en la economía. En el presente informe se realizará un análisis exploratorio del conjunto de datos relacionados con el turismo, donde se incluyen variables cuantitativas y categoricas como gasto turistico, ingresos del pais, indice de consumo, PIB y número de viajes. Se evaluará la distribución de estas variables, se identificarán patrones relevantes y se explorarán las relaciones existentes entre ellas. Además, se presentarán gráficos que facilitarán la visualización de estas relaciones del sector turístico. Finalmente, se desarrollará un modelo de regresión múltiple que permitirá estimar el impacto de ciertas variables sobre los ingresos generados por el turismo, con el fin de proponer estrategias que optimicen la planificación y gestión del sector en distintas regiones

Metodología

A continuación se describe la implementación del análisis de regresión múltiple aplicado al sector turístico, con el objetivo de examinar los factores que inciden en los ingresos generados por el turismo. Este análisis se realiza en conformidad con los lineamientos establecidos en la guia de trabajo, buscando garantizar la validez y confiabilidad de los resultados obtenidos:

  • Primeramente, se recopilan y seleccionan datos provenientes de distintas bases de datos para facilitar el análisis del sector turístico. Para ello, se emplea excel como herramienta de trabajo, permitiendo filtrar variables relevantes y organizar la información en una base de datos unificada.

  • Posteriormente, se realiza un análisis descriptivo de todas las variables como el gasto por turista, el PIB, el índice de consumo, los ingresos del país y la cantidad de viajes. Se estimarán medidas de tendencia central, como la media y la mediana, junto con medidas de dispersión, entre ellas la desviación estándar, para analizar el comportamiento de las variables cuantitativas. Además, se generarán gráficas tanto para variables cuantitativas como categóricas, utilizando histogramas, diagramas de caja (boxplots) y gráficos de dispersión. Todo el procesamiento y la visualización de datos se llevarán a cabo en R, haciendo uso de la librería ggplot2.

  • Se realizarán varios modelos y se escoge el mejor modelo de regresión lineal múltiple con el objetivo de analizar los factores que influyen en el comportamiento del gasto por turista, considerado como la variable dependiente. Las variables independientes para este análisis son: el índice de consumo, el PIB, los ingresos del país y la cantidad de viajes registrados.

La formulación general del modelo es la siguiente:

Yi = (β₀ + β₁X₁ + β₂X₂ + … + βnXn + ϵi)

  • β₀: Intercepto del modelo; representa el valor estimado del gasto por turista cuando todas las variables independientes son igual a cero.

  • β₁, β₂, …, βn: Coeficientes de regresión que indican el efecto promedio que tiene un cambio unitario en cada variable sobre el gasto por turista.

  • ϵi: Término de error, que representa la diferencia entre el valor observado y el valor estimado.

La ecuación final del modelo es la siguiente:

Gasto por turista = β₀ + β₁(Índice de consumo) + β₂(PIB) + β₃(Ingresos del país) + β₄(Cantidad de viajes) + ϵ.

Por último, para evaluar el modelo se tendrán en cuenta los siguientes supuestos: normalidad de residuos, homocedasticidad y multicolinealidad.

Resultados descriptivos

En el presente análisis se estudiarán datos correspondientes a 76 países, con el objetivo de evaluar el desempeño del sector turístico a nivel internacional. Se consideraron variables cuantitativas clave que permiten obtener una visión integral de la actividad turística en cada país. Las variables analizadas incluyen el gasto promedio por turista, los ingresos totales por turismo, los índices de competitividad turística, el PIB asociado al sector y el número total de viajes realizados.

A continuación, se detallan las propiedades estadísticas más relevantes de las variables, centrándose en sus medidas de tendencia central y en una visión general de su distribución entre los países evaluados.

Variables cuantitativas

Gastos turisticos

La variable gastos turisticos hace referencia a la cantidad de dinero que gastan los turistas en el pais que visitan. En esta variable dada como “GASTOS_TURISTAS” se analizan 76 paises, los cuales tienen un gasto promedio de $1.797e+10. Esto hace referencia al gasto que hacen los turistas en los paises.

Estadisticas:

  • Media: 17.515.543.019

  • Moda: 24.852.062

  • Mediana: 8.206.526.000

Percentiles

  • Percentil 25%: $2.703.000.000, indica que el 25% de los gastos por turista en los paises son menores o iguales al valor indicado.

  • Percentil 50% (mediana): $ 8.206.526.000, indica que la mitad de los gastos por turistas estan por debajo de este valor.

  • Percentil 75%: $20.130.000.000, indica que el 25% de los gastos por turistas son mayores a este valor.

Índice de consumo

La variable índice de consumo hace referencia al comportamiento de los precios de los bienes y servicios en el sector turístico, como lo es el alojamiento, alimentación, transporte, etc. Esta variable ayuda a entender cómo las condiciones económicas de un país afectan el comportamiento del turista.

Estadisticas:

  • Media: 95,989

  • Mediana: 97..743

  • Valor Mínimo: 1,304

  • Valor Maximo: 542,439

Percentiles:

  • Percentil 25%: 80,513

  • Percentil 50%: 97,743

  • Percentil 75%: 109,405

PIB

El PIB per cápita es una variable importante que mide el poder adquisitivo de la población local, así como el nivel de desarrollo económico de un país. Un mayor PIB per cápita suele estar asociado a una mayor capacidad de gasto de los ciudadanos, lo que puede significar un mayor turismo interno y una mayor inversión en infraestructura turística. Además, se usa para analizar la relación entre el desarrollo económico y la demanda turística.

Estadisticas:

  • Media: 37.113

  • Mediana: 35.292

  • Valor mínimo: 1.492

  • Valor máximo: 140.436

Percentiles:

  • Percentil 25%: 17309

  • Percentil 50%: 35.292

  • Percentil 75%: 52.606

Variables categóricas

Ingresos

La variable ingresos se refiere al nivel de ingresos de los países, clasificados en las siguientes categorías: ingreso alto, ingreso medio alto, ingreso medio bajo e ingreso bajo. Esta clasificación permite analizar la relación entre el nivel de ingresos de un país y su participación en el flujo turístico. En particular, se busca identificar si los países con mayores niveles de ingreso tienden a generar o recibir un mayor volumen de turistas.

Viajes

La variable viajes hace referencia al número total de llegadas de turistas a un país. Esta métrica es fundamental para medir el flujo de visitantes y el volumen de actividad turística que recibe un destino. Esta variable está relacionada estrechamente con el gasto turístico, dado que a medida que aumentan las llegadas de turistas, también tiende a incrementarse el nivel total de gasto en el país receptor.

Estadísticas:

  • Media: 11.739.370

  • Mediana: 5.136.500

  • Valor mínimo: 7.800

  • Valor máximo: 90.914.000

Percentiles:

  • Percentil 25%: 1.724.750

  • Percentil 50%: 5.136.500

  • Percentil 75%: 14.656.500

Gráficos

Gráfico 1. Histograma Gasto Turístico

El histograma del Gasto Turístico revela una distribución notablemente asimétrica hacia la derecha, donde la mayoría de las observaciones corresponden a valores bajos de gasto, mientras que se presentan algunos casos con montos más altos. Esta concentración desigual indica que el comportamiento del gasto turístico no es uniforme, y que existen valores extremos que podrían estar asociados a destinos o períodos específicos con inversiones inusualmente elevadas.

Gráfico 2. Boxplot por Ingreso Clasificación

El boxplot del Gasto Turístico según la Clasificación de Ingreso (bajo, medio, alto) muestra diferencias claras en la distribución del gasto entre los distintos grupos de países. Los países de altos ingresos presentan una mayor mediana de gasto y una dispersión mucho más amplia. En contraste, los países de bajos ingresos presentan valores de gasto considerablemente más bajos y menos dispersión, con la mediana cercana a cero. Los países de ingresos medio-bajo y medio-alto tienen patrones similares, con medianas bajas pero mayor variabilidad que los de bajos ingresos. En general, el gráfico resalta cómo el nivel de ingreso está asociado a diferentes niveles y rangos de gasto turístico, siendo mucho más elevado y disperso en los países con mayor capacidad económica.

Gráfica 3. Boxplot por PIB categoría

El boxplot del Gasto Turístico por Categoría del PIB revela que las tres categorías (alto, medio y bajo) presentan distribuciones similares en términos de forma y tienen una alta dispersión. Aunque no hay diferencias marcadas en las medianas, los países con PIB alto y bajo muestran una mayor dispersión en el gasto, mientras que los de PIB medio tienden a concentrarse un poco más. En general, los valores extremos son comunes en todas las categorías, lo que indica que el nivel de PIB por sí solo no explica completamente las variaciones en el gasto turístico.

Gráfica 4. Dispersión PIB vs Gasto

En el grafico de dispersión se observa una relación positiva débil entre el PIB per cápita y el gasto turístico. Aunque la línea de tendencia tiene pendiente positiva, la dispersión de los puntos es alta y no sigue un patrón claro, lo que indica una gran variabilidad en el gasto turístico para niveles similares de PIB per cápita. Además, se evidencian varios valores extremos que sobresalen del conjunto general de datos, lo que sugiere la presencia de casos atípicos.

Gráfico 5. Matriz de Correlación

La matriz de correlación revela relaciones de diferente intensidad entre las variables del estudio. La relación más destacada se observa entre el Gasto Turístico y el Número de Viajes, con una correlación positiva fuerte de 0.84, lo que indica que a mayor número de viajes realizados, mayor es el gasto turístico total. En contraste, el Gasto Turístico muestra correlaciones positivas muy débiles tanto con el Índice de Consumo (0.14) como con el PIB per cápita (0.12), lo que sugiere que ni el nivel general de consumo ni la riqueza promedio por persona influyen significativamente en el gasto turístico a nivel agregado. De forma similar, el Número de Viajes presenta correlaciones débiles con el Índice de Consumo (0.13) y el PIB per cápita (0.16), mientras que la relación entre el Índice de Consumo y el PIB per cápita también es positiva pero muy débil (0.14). En conjunto, estos resultados muestran que el número de viajes es el principal factor asociado al gasto turístico, mientras que las demás variables tienen asociaciones lineales mucho menos pronunciadas.

Resultados del Modelo

Se evaluaron tres modelos de regresión y se seleccionó el Modelo 2 por su mejor capacidad explicativa y simplicidad en comparación con los demás. Este modelo de regresión lineal múltiple tiene como objetivo analizar cómo el Gasto Turístico de un país se ve afectado por tres factores clave: el PIB per cápita, el Número de Viajes realizados y la categoría de su PIB (Medio o Bajo). A través de este enfoque, se busca obtener información relevante sobre los principales determinantes del gasto turístico de cada país. El modelo se plantea de la siguiente manera:

  • Gasto_Turistico = β0 + β1(PIB_percapita) + β2(Numero_Viajes) + β3(PIB_categoriaBajo) + β4(PIB_categoriaMedio) + ϵ

Una vez definido el modelo, se procedió a evaluarlo a través de la función summary(). Esta función nos permite conocer elementos como el valor del intercepto (β0) y los coeficientes (β1, β2, β3, β4) de cada variable incluida. Además, se examinan los valores p, los cuales indican el nivel de significancia estadística de cada factor, y se analiza el R cuadrado ajustado, que muestra qué tanto del comportamiento del gasto turístico puede ser explicado por las variables seleccionadas. En las siguientes secciones se presentan los resultados obtenidos del modelo, junto con una interpretación detallada de cada coeficiente y su influencia en la variable dependiente.

Análisis de los resultados

Resultado del Modelo Final
Estimate Std. Error t value Pr(>|t|) Significancia
(Intercept) -3159235479.12921 1513051971.40378 -2.08798873987001 0.0369672940429516 *
PIB_percapita 67216.4460280776 25092.1962242749 2.67877890907973 0.00746990991650375 **
Numero_Viajes 1420.31565020344 24.077023017586 58.9905009920052 0 ***
PIB_categoriaBajo 10594578231.6346 1765201216.76489 6.00190965823795 2.44154843930501e-09 ***
PIB_categoriaMedio 2103282842.46516 1248235194.08171 1.68500523974769 0.0921957103050953 .

Intercepto

En este modelo, el intercepto representa el valor estimado del Gasto Turístico en un escenario teórico en el que todas las variables explicativas (PIB per cápita, número de viajes y categoría del PIB) toman el valor de cero. Específicamente, se estima que el gasto turístico sería de aproximadamente -3,159 millones, lo cual ocurriría cuando el PIB per cápita es cero, el número de viajes también es cero, y el país pertenece a la categoría de PIB alto. Esto no es realista ni tiene un significado práctico pues difícilmente un país podría tener cero ingresos per cápita o cero viajes, el intercepto permite ajustar correctamente la ecuación y calcular con precisión los efectos individuales de las variables explicativas cuando estas toman valores distintos de cero.

Los coeficientes estimados

Cada uno de los coeficientes estimados indica el cambio esperado en el Gasto Turístico ante un aumento de una unidad en la variable correspondiente, manteniendo constantes las demás variables del modelo. Esta característica es esencial, ya que permite aislar el impacto individual de cada factor explicativo sobre el gasto turístico. De este modo un coeficiente positivo sugiere que, a mayor valor de esa variable, se espera un aumento en el gasto turístico y un coeficiente negativo, en cambio, indica que a medida que la variable aumenta, el gasto turístico tiende a disminuir. Este tipo de análisis permite comprender de manera precisa cómo distintos factores, como el PIB per cápita, el número de viajes o la categoría del PIB del país, influyen en el comportamiento del gasto turístico.

  • PIB per cápita (β₁)

El coeficiente β₁ = 0.0261 indica que, manteniendo constantes el número de viajes y la categoría del PIB, un aumento de una unidad en el PIB per cápita se asocia con un incremento de aproximadamente $26,100 dólares en el Gasto Turístico. Este efecto es estadísticamente significativo con un valor p = 0.00219, lo que respalda la existencia de una relación positiva entre el nivel de ingreso promedio por persona y el gasto en turismo. En términos prácticos, esto sugiere que los países con mayor riqueza individual —medida a través del PIB per cápita— tienden a invertir más en actividades turísticas. Este hallazgo confirma que el desarrollo económico de un país se traduce en una mayor capacidad de gasto turístico, reflejando una relación directa entre bienestar económico y consumo en el sector turismo.

  • Número de viajes (β₂)

El coeficiente β₂ = 0.3706 indica que el aumento de una unidad en el número de viajes se asocia con un incremento de aproximadamente $370,600 dólares en el Gasto Turístico. Este resultado es altamente significativo desde el punto de vista estadístico con un valor p = 0.000187, lo que refuerza la idea de que el número de viajes es una de las variables más influyentes en el modelo. En términos prácticos, este hallazgo sugiere que a mayor cantidad de viajes realizados por los turistas, mayor será el gasto total en el sector turístico. Este incremento no solo refleja un mayor movimiento de personas, sino también un mayor consumo de bienes y servicios relacionados con el turismo, como transporte, hospedaje, alimentación y actividades recreativas.

  • PIB medio (β₃)

El coeficiente β₃ = 16.76 indica que se espera que los países con PIB alto tengan en promedio $16.76 millones de dólares más en gasto turístico que los países con PIB medio. Este efecto es estadísticamente significativo con un valor p = 0.000557, lo cual demuestra que el nivel económico general del país también influye en el gasto turístico. Esta diferencia puede estar relacionada con elementos estructurales del país, como la inversión pública en turismo, la infraestructura, o su capacidad para atraer y retener turistas.

  • PIB bajo (β₄)

El coeficiente β₄ = 8.519 indica que los países con PIB medio presentan en promedio 8.519 millones de dólares más en gasto turístico que aquellos con PIB bajo. Este resultado es estadísticamente significativo con un valor p = 0.0165, lo cual indica que existe una diferencia real y confiable entre estas categorías. Esta diferencia puede estar asociada a características estructurales propias de los países con desarrollo económico medio o de una infraestructura turística en expansión, En conjunto, esto sugiere que el contexto económico general del país también ejerce una influencia importante sobre el nivel de gasto turístico.

R Cuadrado Ajustado

El R-cuadrado ajustado obtenido en el modelo es de 0.7079, lo que indica que aproximadamente el 70.79% de la variabilidad observada en el Gasto Turístico puede ser explicada por las variables incluidas: el PIB per cápita, el número de viajes y las categorías del PIB (medio y bajo). Un valor de 0.7079 refleja un modelo con muy buen ajuste, donde la mayoría de las variaciones en el gasto turístico pueden ser atribuidas a las variables independientes. El restante 29.21% se relaciona con factores no considerados en el modelo o con variabilidad aleatoria. Este resultado, además, está respaldado por un valor p extremadamente bajo en la prueba F global (p < 2.2e-16), lo que confirma que el modelo como conjunto es estadísticamente significativo y útil para explicar el comportamiento del gasto turístico.

Supuestos

Para garantizar la validez y confiabilidad del modelo de regresión lineal, es fundamental verificar que se cumplan los supuestos sobre los cuales se construye este tipo de análisis. Estos supuestos son necesarios para asegurar que las estimaciones de los coeficientes sean eficientes y consistentes, y que las pruebas estadísticas asociadas (como los valores p y los intervalos de confianza) sean válidas. En este contexto, se evaluaron los cuatro supuestos clave: la normalidad de los residuos, que permite asegurar la validez de las inferencias estadísticas; la homocedasticidad, que garantiza que la varianza de los errores se mantenga constante a lo largo de las observaciones; la ausencia de multicolinealidad, que asegura que las variables explicativas no estén excesivamente correlacionadas entre sí y la linealidad que asegura que existe una relación lineal entre la variable dependiente y cada una de las variables independientes. A continuación, se presentan los resultados obtenidos en la evaluación de cada uno de estos supuestos, junto con su interpretación y las implicancias que tienen para la inferencia del modelo final.

Normalidad de residuos

Resultado:

W = 0.60821, p-value < 2.2e-16.

El valor p es menor al nivel de significancia convencional (α = 0.05), lo que indica que se rechaza la hipótesis nula de normalidad de los residuos. Es decir, los residuos no siguen una distribución normal, lo cual podría afectar la validez de las pruebas de significancia individuales (valores t y p).

Homocedasticidad

Resultado:

BP = 447.85, p-value < 2.2e-16.

El valor p también es inferior a 0.05, por lo que se rechaza la hipótesis nula de homocedasticidad, indicando que el modelo presenta heterocedasticidad. Esto significa que la varianza de los errores no es constante, lo cual puede afectar la eficiencia de los estimadores y producir errores estándar incorrectos, afectando las inferencias. Una posible solución sería aplicar transformaciones a la variable dependiente.

Multicolinealidad

Resultados:

  • PIB_percapita: VIF = 2.65
  • Numero_Viajes: VIF = 1.07
  • PIB_categoria: GVIF^(1/(2*Df)) = 1.29

Todos los valores de VIF se encuentran por debajo del umbral crítico de 5, lo cual indica que no existe multicolinealidad significativa entre las variables explicativas del modelo. Por tanto, no se espera que haya distorsión en las estimaciones de los coeficientes como consecuencia de relaciones lineales fuertes entre las variables independientes.

Linealidad

Hay indicios de violación leve del supuesto de linealidad, lo que sugiere que podría haber relaciones no lineales entre algunas variables independientes y el Gasto Turístico.

Plots de diagnóstico

Análisis:

1. Residuals vs Fitted

En la evaluación de los gráficos de diagnóstico del modelo, se observa una dispersión irregular de los residuos en relación con los valores ajustados, presentando una forma de abanico que se abre hacia la derecha. Esto indica una posible violación del supuesto de homocedasticidad, ya que la varianza de los residuos no parece mantenerse constante, sino que tiende a aumentar con los valores predichos. Además, este comportamiento podría estar señalando la presencia de no linealidad en la relación entre las variables.

2. Q-Q Residuals

Al evaluar la normalidad de los residuos mediante este gráfico, se observa que los puntos se desvían notablemente de la línea diagonal, especialmente en las colas del gráfico. Esta desviación sugiere que los residuos no siguen una distribución normal, lo cual es indicativo de la presencia de valores extremos o atípicos. Esta observación visual concuerda con los resultados obtenidos previamente en la prueba de Shapiro, que también indicó una violación del supuesto de normalidad.

3. Scale-Location

Al evaluar la homocedasticidad a través del gráfico de residuos estandarizados frente a los valores ajustados, se observa una clara tendencia ascendente, con una mayor dispersión de los residuos a medida que aumentan los valores predichos. Esta patrón visual refuerza la evidencia de heterocedasticidad, es decir, que la varianza de los errores no es constante a lo largo del rango de los valores ajustados.

4. Residuals vs Leverage

Al analizar el gráfico de residuos estandarizados frente al apalancamiento(cuán alejados están los valores de las variables independientes de la media de esas variables).Esto sugiere la existencia de observaciones influyentes o valores atípicos con alto apalancamiento, es decir, datos que ejercen una influencia considerable en la estimación de los coeficientes del modelo y pueden afectar su interpretación.

Conclusión de los supuestos

El modelo presenta violaciones en los supuestos de normalidad de los residuos y homocedasticidad, aunque cumple con el supuesto de ausencia de multicolinealidad; por lo que no se puede garantizar inferencia en el modelo. A pesar de dichas violaciones, es posible realizar inferencias estadísticas válidas si se aplican ciertos ajustes metodológicos. Entre las opciones recomendadas se encuentran el uso de errores estándar robustos, la aplicación de transformaciones a la variable dependiente (por ejemplo, utilizar el logaritmo del gasto turístico para estabilizar la varianza) y la revisión o posible ajuste de las observaciones influyentes que podrían estar distorsionando los resultados del modelo.

Conclusiones y Recomendaciones

El análisis estadístico reveló que el PIB per cápita, el número de viajes y la categoría del PIB del país son factores que influyen significativamente en el gasto turístico. En particular, el número de viajes mostró el mayor impacto, seguido por el PIB per cápita, lo que confirma que tanto la movilidad turística como el nivel de ingreso individual son determinantes clave del gasto en este sector. Además, los países con un nivel económico más alto registran un mayor gasto turístico.

Sin embargo, el modelo presentó violaciones a los supuestos de normalidad y homocedasticidad, lo que sugiere la necesidad de ajustes metodológicos para asegurar inferencias válidas. Se recomienda aplicar transformaciones a la variable dependiente, usar errores estándar robustos y revisar posibles observaciones atípicas. A pesar de estas limitaciones, el modelo tiene un buen nivel de ajuste, explicando más del 70% de la variabilidad en el gasto turístico.

Al comparar entre países, se observaron patrones consistentes: el desarrollo económico impulsa el gasto turístico en todos los contextos. No obstante, existen diferencias claras entre países de distintos niveles de PIB. Para los países con PIB bajo o medio, se sugiere invertir en infraestructura turística, conectividad y promoción, con el fin de fortalecer su capacidad para atraer turistas y estimular el gasto en el sector.

Bibliografía