The One With the Holidays Analyis
El objetivo es analizar estadísticos de precios y de clima obtenidos mediante web scraping. Resulta que queremos ir de vacaciones al sur, pero no sabemos a qué lugar arribar. Tenemos tres en mente: Bariloche, El Chaltén y Calafate. Ambos con sus atractivos correspondientes.
Para simplificar el problema, serán dos los grupos: Bariloche y Calafate (incluyendo al Chaltén).
Para utilizar un criterio “estadístico” en la selección de nuestro destino, decidimos estudiar dos ejes: nivel de precios y condiciones climáticas.
Mientras que las condiciones climáticas se van a medir en función de la temperatura, la humedad y la presión, el nivel de precios se va a medir en función de una cesta compuesta por bienes de necesidad básica (alimentos e higiene) alquiler y recreación.
El enfoque será totalmente descriptivo, aunque en el análisis del clima se calcularán las probabilidades a través de un enfoque frecuentista. Por último, pueden explorarse ajustes de modelos que justifiquen los precios en función de distintos atributos.
La recolección de datos se dará a través de técnicas de web scrapping y api de Weather Channel.
Los data frames se recolectaron mediante web scraping. Puntualmente, para los precios de alquiler se utilizaron datos de la plataforma Booking, mientras que para los precios de cestas de productos, se utilizó Tindeo (la cual resume información de ciertos precios de la zona bajo análisis, pudiendo no ser representativo pero respondiendo a los datos limitados que hay disponibles). Se obtuvieron 316`resultados
| titulo | descrip | precio10 | impuesto10 | ciudad | precio_dia | impuesto_dia | total_dia | ciudad2 |
|---|---|---|---|---|---|---|---|---|
| apart las cachañas | apartamento de 1 dormitorio | 305379 | 0 | Chalten | 30537.9 | 0.0 | 30537.9 | calafate |
| desierto suites | habitación doble estándar | 208944 | 43878 | Chalten | 20894.4 | 4387.8 | 25282.2 | calafate |
| complejo de cabañas don joel | habitación doble familiar | 202515 | 42528 | Chalten | 20251.5 | 4252.8 | 24504.3 | calafate |
| solo lofts | apartamento con vistas a las montañas | 562541 | 11813 | Chalten | 56254.1 | 1181.3 | 57435.4 | calafate |
| los cerros del chaltén boutique hotel | habitación doble estándar - 1 o 2 camas | 569613 | 11961 | Chalten | 56961.3 | 1196.1 | 58157.4 | calafate |
| puesto cagliero - refugio de montaña | habitación cuádruple con baño privado | 888654 | 0 | Chalten | 88865.4 | 0.0 | 88865.4 | calafate |
Las variables que posee esta estructura de datos son:
* titulo: Título de la publicación *
descrip: Descripción de la publicación *
precio10: Precio por 10 días de reserva *
impuesto10: Impuesto por 10 días de reserva (Si es 0
está incluido en precio10) * ciudad: Ciudad
del piso * precio_dia: Precio bruto por dia *
impuesto_ida: Impuesto por día *
total_dia: Precio total por día *
ciudad2: Ciudad corregida (calafate incluye a El
Chaltén)
Como se puede observar en el histogra,am hay más información de bariloche, y se concentra en valores altos, principalmente más de $25000. Además, si discriminamos a El Chalten, podremos observar que si bien existe poca disponibilidad de datos, se concentran en valores más bajos por día.
Cuando observamos la distribución discriminando los valores de El Chalten, se puede observar que la menor concentración de precios se encuenta en El Calafate, mientras que la más alta en Bariloche.
Los alquileres fueron analizados en otro apartado. Para el caso de los precios, se utilizarán precios extraídos a través de web scraping en Tindeo, web que recoge precios disponibles en distintos supermercados de la zona.
Cabe destacar que si bien la información puede no ser representativa, también es bastante limitada.
En primer lugar se realizó una búsqueda de los siguientes productos: yerba, pan, agua, papel higienico, shampoo, fideos, arroz, salsa, aceite de girasol, vino, soja, lentejas, preservativos, cerveza, snack, queso, jamon, jabon, lechuga, tomate, toallitas. Luego se los categorizó en Alimentos, Bebidas e Higiene.
Es necesario destacar que se trabajará en la lista de compras, pero que también depende de quien esté realizando el análisis. Puede utilizarse metodología de construcción de canastas básicas para acercarse a una generalidad.
Después del proceso, se decidio omitir los valores faltantes ya que correspondían a productos no solicitados pero scrapeados. La estructura de datos quedó constituida de la siguiente manera:
| titulo | precio | Localidad | categoria |
|---|---|---|---|
| yerba mate mañanita bajo polvo 4flex 1 kg. | 670.00 | El Chalten | Bebidas |
| yerba mate playadito suave con palo 1 kg. | 748.55 | El Chalten | Bebidas |
| yerba amanda compuesta hierbas serranas 500g | 270.51 | El Chalten | Bebidas |
| yerba mate mañanita bajo polvo 4flex 500 g. | 373.00 | El Chalten | Bebidas |
| pan de hamburguesa bimbo artesano x 4 uni | 317.00 | El Chalten | Alimentos |
| pan baguette 1 un | 55.00 | El Chalten | Alimentos |
con las siguientes variables:
* titulo: Titulo del producto.
* precio: Precio unitario.
* Localidad: Localidad de búsqueda.
* categoria: Categoría del producto.
Se calculan los estadísticos para cada una de las categorías y ciudades:
## # A tibble: 4 x 2
## categoria media
## <fct> <dbl>
## 1 Alimentos NaN
## 2 Bebidas NaN
## 3 Higiene NaN
## 4 null NaN
se calcularon las medias aritméticas y las medidas de posición según categoría, para las distintas ciudades, y se realiza un gráfico comparativo: