library(readxl) # Leer archivos Excel (.xls, .xlsx)
library(dplyr) # Manipulación de datos (filter, select, mutate, summarise, etc.)
library(ggplot2) # Visualización de datos con la gramática de gráficos
library(vcd) # Gráficos para análisis de variables categóricas y tablas de contingencia
library(ggmosaic) # Crear mosaicos de gráficos para variables categóricas con ggplot2
library(scales) # Funciones de escalas (formatos de ejes, etiquetas, breaks) para ggplot2
library(viridis) # Para seleccionar paletas de color perceptualmente uniformes
library(ggthemes) # Para elegir temas o plantillas de diseño para tus gráficos ggplot2
library(hrbrthemes) # Para elegir más temas o plantillas de diseño orientados a publicaciones
library(grid) # Sistema de gráficos base para organizar y combinar objetos gráficos (grobs)
library(leaflet) # Crear mapas interactivos en R
library(leaflet.extras) # Para funciones adicionales de leaflet, como addHeatmap
library(lubridate) # Manejo y manipulación sencilla de fechas y horas
library(corrplot) # Visualización de matrices de correlación
library(tidyverse) # Colección de paquetes para ciencia de datos (ggplot2, dplyr, tidyr, readr, etc.)
library(tidytext) # Herramientas para análisis de texto usando la gramática de datos
library(textdata) # Datasets de léxicos (sentimiento, categorías) para análisis de texto
library(wordcloud) # Generar nubes de palabras a partir de texto
library(RColorBrewer) # Paletas de color para gráficos
library(readr) # Leer archivos de texto plano (CSV, TSV) de forma rápida
library(syuzhet) # Extracción de sentimientos de texto usando varios métodos
library(stopwords) # Listas de palabras vacías (stopwords) en múltiples idiomas
library(vcd) # (Repetido) Visualización de datos categóricos y tablas de contingenciaEl turismo en Nuevo León se encuentra en una etapa de crecimiento, impulsado por el desarrollo de infraestructura, la digitalización de la industria y la organización de eventos de alto impacto, como el festival Pa’l Norte, que atrae a más de 300,000 asistentes cada año. Este tipo de eventos posiciona a la ZMM como gran atracción turística, generando una fuerte demanda en servicios de hospedaje y gastronomía.
Durante 2023, la entidad registró una derrama económica turística de más de $31,000 millones de pesos, reflejando un repunte significativo debido a la pandemia. Sin embargo, también se identifican retos en la capacidad de respuesta ante eventos masivos, así como oportunidades de crecimiento en la personalización de la oferta turística. En este contexto, el presente análisis se enfoca en entender el comportamiento y las preferencias de los turistas que asisten a Pa’l Norte, particularmente en lo que respecta a sus elecciones de hospedaje (Airbnb) y su consumo gastronómico.
A partir de encuestas aplicadas a asistentes del festival y el uso de plataformas como Google Places y Airbnb, se construyó una base de datos con información clave que nos permitirá identificar patrones de consumo, niveles de satisfacción y áreas de oportunidad para mejorar la experiencia del visitante en eventos de gran escala en Monterrey.
Monterrey, San Pedro Garza García, Guadalupe, San Nicolás, Santiago, Región Citrícola y municipios cercanos que integran la ZMM.
| Término | Definición | Fuente |
|---|---|---|
| compraBoletos | Tipo o canal de venta del boleto (por ejemplo, Venta general, Preventa) | Cuestionario Pal Norte |
| diasAsistencia | Número total de días que el asistente asistió al evento | Cuestionario Pal Norte |
| categoriaBoletos | Categoría del boleto adquirido (por ejemplo, General, VIP) | Cuestionario Pal Norte |
| proveniencia | Origen geográfico del asistente (por ejemplo, Nacional, Internacional) | Cuestionario Pal Norte |
| presupuestoBoletos | Rango de presupuesto destinado a la compra de boletos | Cuestionario Pal Norte |
| presupuestoAlojamiento | Rango de presupuesto destinado al alojamiento (por noche) | Cuestionario Pal Norte |
| presupuestoComidas | Rango de presupuesto destinado a comidas (por día) | Cuestionario Pal Norte |
| presupuestoTransporte | Rango de presupuesto destinado a transporte (por día) | Cuestionario Pal Norte |
| primeraVez | Indica si el asistente acude por primera vez (Sí/No) | Cuestionario Pal Norte |
| edad | Rango de edad del asistente (por ejemplo, Entre 26 y 35 años) | Cuestionario Pal Norte |
| ocupacion | Ocupación o profesión declarada del asistente | Cuestionario Pal Norte |
| gastoTurismo | Variable binaria que indica si el asistente gastó en actividades de turismo (1=Sí, 0=No) | Cuestionario Pal Norte |
| gastoSouvenirs | Variable binaria que indica si el asistente compró souvenirs (1=Sí, 0=No) | Cuestionario Pal Norte |
| gastoMerch | Variable binaria que indica si el asistente compró merchandising oficial (1=Sí, 0=No) | Cuestionario Pal Norte |
| gastoNo | Variable binaria que indica si el asistente no realizó ningún gasto en las categorías anteriores (1=Sí, 0=No) | Cuestionario Pal Norte |
| gastoOtro | Variable binaria que indica si el asistente gastó en otra categoría no listada (1=Sí, 0=No) | Cuestionario Pal Norte |
| Término | Definición | Fuente |
|---|---|---|
| Nombre | Nombre del lugar según la respuesta de la API de Lugares de Google | Places API |
| Tipo | Categoría o categorías del lugar (por ejemplo,
restaurant, museum, etc.) |
Places API |
| Tiempo caminando | Duración estimada de la caminata desde la ubicación del usuario hasta el lugar | Places API |
| Distancia (km) | Distancia en kilómetros desde la ubicación del usuario hasta el lugar | Places API |
| Rango de precio | Nivel de precios del lugar (de 0 = económico a 4 = muy caro) | Places API |
| Calificación | Valoración promedio del lugar en una escala de 1.0 a 5.0 | Places API |
| Rango de tiempo | Horario de apertura y cierre del lugar (por ejemplo,
09:00–18:00) |
Places API |
| Término | Definición | Fuente |
|---|---|---|
| Review text | Descripción de la reseña dejada por los usuarios a cierto alojamiento. | Reseñas Airbnb |
| User ID | El identificador del usuario que dejó la reseña. | Reseñas Airbnb |
| ADR | Average Daily Rate. Costo promedio por noche. | Airbnb principal |
| Occupancy Rate | Total de noches ocupadas sobre el total de noches disponibles. | Airbnb principal |
| Demand | Total de noches reservadas. | Airbnb principal |
| Revenue | Ganancia recibida. | Airbnb principal |
| RevPAR | Ganancia por renta disponible. Costo promedio por noche multiplicado por el porcentaje de ocupación. | Airbnb principal |
| Supply | Total de noches ofertadas. | Airbnb principal |
¿Cuál es el tipo de hospedaje más utilizado por los turistas que asisten a Pal Norte?
¿Qué zonas presentan mayor concentración de turistas en cuanto a hospedaje y gastronomía?
¿Cuál es el gasto promedio en alimentos y hospedaje por perfil de visitante (edad, procedencia)?
¿Qué tipo de cocina prefieren los turistas durante su estancia?
¿Existe relación entre la satisfacción con la experiencia gastronómica y la ubicación del restaurante?
¿Qué diferencias hay entre turistas nacionales e internacionales en patrones de consumo?
¿Cuáles son los principales factores que influyen en la elección del tipo de hospedaje?
A lo largo de 2019–2024 en la Zona Metropolitana de Monterrey, la oferta semanal de alojamientos (“Supply”) oscila entre unos 4 354 y 17 870, con un cuartil medio (Q2=12 630) por encima de la media (11 822), lo que sugiere que hay más semanas con oferta elevada y unos pocos picos muy bajos que empujan el promedio hacia abajo.
La demanda muestra un fuerte sesgo a la derecha: mientras en un 50 % de las semanas apenas se registran 303 huéspedes, el promedio (748) se ve arrastrado hacia arriba por episodios de alta ocupación de hasta 8 662 reservas. Esto se refleja en unas tasas de ocupación (“Occupancy_rate”) muy bajas de forma general, con un valor máximo de sólo 51 % en las semanas más exitosas.
El precio medio por habitación (ADR) se mantiene relativamente estable, con valores entre 46 USD y 153 USD, y una mediana de 73.71 USD casi idéntica a la media. Por su parte, el RevPAR presenta también un sesgo positivo, mostrando que la mayoría de las semanas generan muy poco ingreso por unidad, y sólo unas pocas alcanzan valores altos.
Finalmente, los ingresos semanales agregados (“Revenue”) evidencian altísima dispersión: la mitad de las semanas factura menos de 23 022 USD, pero el promedio se sitúa en 52 234 USD gracias a picos que superan los 758 770 USD. En conjunto, estos números apuntan a un negocio con ADR estable pero con grandes fluctuaciones en demanda y ocupación, que debería enfocarse en reducir la estacionalidad y en mejorar la tasa de ocupación promedio para rentabilizar la capacidad disponible.
## Supply Demand Occupancy_rate ADR
## Min. : 4354 Min. : 40.0 Min. :0.00000 Min. : 46.02
## 1st Qu.: 8591 1st Qu.: 145.0 1st Qu.:0.01004 1st Qu.: 61.40
## Median :12630 Median : 303.5 Median :0.02992 Median : 73.71
## Mean :11822 Mean : 748.0 Mean :0.06219 Mean : 75.79
## 3rd Qu.:14455 3rd Qu.: 752.2 3rd Qu.:0.06153 3rd Qu.: 83.99
## Max. :17870 Max. :8662.0 Max. :0.51464 Max. :153.45
## Rev_PAR Revenue
## Min. : 0.000 Min. : 2677
## 1st Qu.: 1.000 1st Qu.: 12890
## Median : 2.010 Median : 23022
## Mean : 4.200 Mean : 52234
## 3rd Qu.: 4.078 3rd Qu.: 49646
## Max. :52.000 Max. :758770
Gracias a estas gráficas podemos concluir lo siguiente:
Existen sesgos marcados en la distribución: Supply, la mediana (12 630) es mayor que la media (11 822), lo que indica que pocas semanas con oferta muy baja arrastran la media hacia abajo.Demand, Occupancy_rate y Revenue, aquí la media supera con creces a la mediana, mostrando un sesgo a la derecha, es decir, pocos picos de muy alta demanda y facturación elevan el promedio.
Baja ocupación relativa: Con una mediana de solo 2.99%, la mayoría de las semanas la tasa de ocupación es prácticamente nula, pese a que en algunas alcanza hasta 51%. Esto revela un desaprovechamiento sistemático de la capacidad ofertada.
Estabilidad del precio frente a volatilidad de ingresos: El ADR tiene media y mediana casi idénticas (~75 USD), lo que sugiere una política de precios consistente. Sin embargo, el RevPAR y los Revenue muestran altísima dispersión apuntando a que solo en contadas ocasiones esos precios generan ingresos sustanciales.
Identificación de outliers extremos: Los valores máximos quedan muy por encima del tercer cuartil, lo que indica eventos o temporadas excepcionales (festivales, congresos, fiestas) que conviene aprovechar estratégicamente.
De esta matriz de correlación podemos extraer varios hallazgos clave sobre cómo interactúan las métricas de Airbnb en Monterrey:
Demanda, RevPAR y Revenue van casi de la mano: Esto nos dice que el volumen de reservas es el principal motor de ingresos. A más reservas, más ingreso por habitación disponible y, en consecuencia, más facturación total.
Occupancy_rate refleja muy bien la demanda: La tasa de ocupación captura casi lo mismo que la demanda. Cuando sube la ocupación, suben directamente los ingresos por habitación.
El precio medio (ADR) no impulsa ingresos, incluso tiende a tensar la demanda: Subir precios promedio no aumenta los ingresos y puede mermar la demanda/ocupación. La estrategia óptima sería focalizarse más en elevar la ocupación que en elevar tarifas.
Supply (oferta) apenas se relaciona con ocupación e ingreso: Ampliar o reducir la oferta por sí sola no garantiza mayores ingresos ni mejor ocupación. Lo crítico es llenar esas plazas, no solo crearlas.
Esto nos llevó a generar las siguiente implicaciones prácticas resaltando lo que realmente es importante para el turísmo en la ZMM:
Priorizar campañas de captación de clientes (promociones, paquetes) para elevar la ocupación, que es lo que realmente mueve los ingresos.
Revisar la política de precios: en lugar de subir tarifas, explorar precios dinámicos que maximicen la tasa de ocupación.
Optimizar el uso de la oferta: en lugar de crecer el parque de alojamientos, centrar esfuerzos en mejorar la rotación y la conversión de reservas.
Este análisis explora el comportamiento de los asistentes al festival Pal Norte según su procedencia, condición de primerizo o reincidente y duración de la estancia. Estudiaremos cómo cada grupo distribuye su presupuesto entre alojamiento y restaurantes a través de estadísticas descriptivas y visualizaciones comparativas. Con estos insights, se podrán afinar ofertas y estrategias de comunicación adaptadas a las preferencias detectadas.
La exploración espacial de datos (ESDA) aplicada al comportamiento de las reseñas de hospedaje en Airbnb permite revelar patrones geográficos y dinámicas de concentración que de otra forma pasarían desapercibidos. En este estudio nos centramos en el estado de Nuevo León, donde cada reseña de un alojamiento está georreferenciada con coordenadas precisas. El objetivo principal es identificar zonas de alta actividad, posibles vacíos de oferta y diferencias en la percepción de los huéspedes según la ubicación.
Para ello, el primer paso consiste en generar dos visualizaciones complementarias:
Mapa de marcadores puntuales: cada reseña se representa como un marcador en el mapa, lo que permite observar de manera directa la dispersión y la densidad espacial de los comentarios a nivel de colonia o municipio. Esta visión granular facilita la detección de núcleos de hospedaje muy activos o, por el contrario, áreas con escasa presencia de reseñas.
Al hacer zoom en el mapa interactivo en donde se encuentra la mayor concentración de reseñas, la ubicación que prefieren los turistas nos habla de una elección fuera de las zonas residenciales o industriales, sino que se tiene un enfoque urbano. Esto quiere decir que no sólo se busca tener cercanía con eventos puntuales como lo puede ser “Pa’l Norte”, sino que también es importante el aspecto cultural más atractivo de la ciudad de Monterrey.
Después pasamos al mapa de calor (heatmap): a partir de la misma información geográfica, se construye un mapa de densidad que resalta las áreas con mayor concentración de reseñas. El gradiente de colores ilustra visualmente los “puntos calientes” —aquellos lugares donde la actividad de los huéspedes es más intensa—, y ayuda a contrastar las zonas de alta demanda con los espacios menos frecuentados.
Manteniendo un enfoque en la zona con mayor concentración de reseñas (sureste de Guadalupe) es posible observar cómo la fuerte presencia de reseñas en el centro de la ciudad tienen un enfoque turístico motivados por eventos específicos, pero la distribución por debajo del río Santa Catarina (división marcada por la separación de marcadores por avenida Constitución y el Parque Fundidora) tiene un mayor enfoque cultural, histórico y convencional. Esa región conocida como Zona Tec tiene atractivos distintos a los vistos en el centro de la ciudad ya que cuenta con Parques, Pabellones, alamedad y Bibliotecas, pero que aún representan una cantidad importante para el turismo de la zona.
Al momento de analizar la base de datos de restaurantes nos dimos cuenta que esta tiene una distribución normal. Encontramos que la mayor cantidad de restaurantes se encuntra en un rango de 6-10 minutos. Esto nos lleva a concluir que existe una amplia variedad de restaruatnes a un rango bastante cerca del parque fundidora. Un factor importante que tiene un impacto en esto es el hecho de que el Parque Fundidora cuenta con accesos automobilistos importantes a las principales avenidas como lo es constitución, revolución, garza sada y conección directa a barrio antiguo.
Entre todos los establecimientos que se vende comida en un rango de 0 a 30 minutos del parque fundidora el principal tipo de establecimientos son: - Restaurantes - Cafeterías - Tinedas de conveniencia
Esto nos indica que el tipo de negocios que están al rededor son negocios de comida donde la persona pasa un espacio considerado de tiempo y costos más elevados.