Título

The One With the Holidays Analyis

Descripción

El objetivo es analizar estadísticos de precios y de clima obtenidos mediante web scraping. Resulta que queremos ir de vacaciones al sur, pero no sabemos a qué lugar arribar. Tenemos tres en mente: Bariloche, El Chaltén y Calafate. Ambos con sus atractivos correspondientes.

Para simplificar el problema, serán dos los grupos: Bariloche y Calafate (incluyendo al Chaltén).

Para utilizar un criterio “estadístico” en la selección de nuestro destino, decidimos estudiar dos ejes: nivel de precios y condiciones climáticas.

Mientras que las condiciones climáticas se van a medir en función de la temperatura, la humedad y la presión, el nivel de precios se va a medir en función de una cesta compuesta por bienes de necesidad básica (alimentos e higiene) alquiler y recreación.

El enfoque será totalmente descriptivo, aunque en el análisis del clima se calcularán las probabilidades a través de un enfoque frecuentista. Por último, pueden explorarse ajustes de modelos que justifiquen los precios en función de distintos atributos.

La recolección de datos se dará a través de técnicas de web scrapping y api de Weather Channel.

Análisis de Alquileres

Los data frames se recolectaron mediante web scraping. Puntualmente, para los precios de alquiler se utilizaron datos de la plataforma Booking, mientras que para los precios de cestas de productos, se utilizó Tindeo (la cual resume información de ciertos precios de la zona bajo análisis, pudiendo no ser representativo pero respondiendo a los datos limitados que hay disponibles). Se obtuvieron 316`resultados

Construcción de data frames

Data Frame con información de 326 alquileres
titulo descrip precio10 impuesto10 ciudad precio_dia impuesto_dia total_dia ciudad2
apart las cachañas apartamento de 1 dormitorio 305379 0 Chalten 30537.9 0.0 30537.9 calafate
desierto suites habitación doble estándar 208944 43878 Chalten 20894.4 4387.8 25282.2 calafate
complejo de cabañas don joel habitación doble familiar 202515 42528 Chalten 20251.5 4252.8 24504.3 calafate
solo lofts apartamento con vistas a las montañas 562541 11813 Chalten 56254.1 1181.3 57435.4 calafate
los cerros del chaltén boutique hotel habitación doble estándar - 1 o 2 camas 569613 11961 Chalten 56961.3 1196.1 58157.4 calafate
puesto cagliero - refugio de montaña habitación cuádruple con baño privado 888654 0 Chalten 88865.4 0.0 88865.4 calafate

Las variables que posee esta estructura de datos son:
* titulo: Título de la publicación * descrip: Descripción de la publicación * precio10: Precio por 10 días de reserva * impuesto10: Impuesto por 10 días de reserva (Si es 0 está incluido en precio10) * ciudad: Ciudad del piso * precio_dia: Precio bruto por dia * impuesto_ida: Impuesto por día * total_dia: Precio total por día * ciudad2: Ciudad corregida (calafate incluye a El Chaltén)

Como se puede observar en el histogra,am hay más información de bariloche, y se concentra en valores altos, principalmente más de $25000. Además, si discriminamos a El Chalten, podremos observar que si bien existe poca disponibilidad de datos, se concentran en valores más bajos por día.

Cuando observamos la distribución discriminando los valores de El Chalten, se puede observar que la menor concentración de precios se encuenta en El Calafate, mientras que la más alta en Bariloche.

Análisis de Precios

Construcción de Data Frames

Los alquileres fueron analizados en otro apartado. Para el caso de los precios, se utilizarán precios extraídos a través de web scraping en Tindeo, web que recoge precios disponibles en distintos supermercados de la zona.

Cabe destacar que si bien la información puede no ser representativa, también es bastante limitada.

En primer lugar se realizó una búsqueda de los siguientes productos: yerba, pan, agua, papel higienico, shampoo, fideos, arroz, salsa, aceite de girasol, vino, soja, lentejas, preservativos, cerveza, snack, queso, jamon, jabon, lechuga, tomate, toallitas. Luego se los categorizó en Alimentos, Bebidas e Higiene.

Es necesario destacar que se trabajará en la lista de compras, pero que también depende de quien esté realizando el análisis. Puede utilizarse metodología de construcción de canastas básicas para acercarse a una generalidad.

Después del proceso, se decidio omitir los valores faltantes ya que correspondían a productos no solicitados pero scrapeados. La estructura de datos quedó constituida de la siguiente manera:

Listado de precios
titulo precio Localidad categoria
yerba mate mañanita bajo polvo 4flex 1 kg. 670.00 El Chalten Bebidas
yerba mate playadito suave con palo 1 kg. 748.55 El Chalten Bebidas
yerba amanda compuesta hierbas serranas 500g 270.51 El Chalten Bebidas
yerba mate mañanita bajo polvo 4flex 500 g. 373.00 El Chalten Bebidas
pan de hamburguesa bimbo artesano x 4 uni 317.00 El Chalten Alimentos
pan baguette 1 un 55.00 El Chalten Alimentos

con las siguientes variables:
* titulo: Titulo del producto.
* precio: Precio unitario.
* Localidad: Localidad de búsqueda.
* categoria: Categoría del producto.

Se calculan los estadísticos para cada una de las categorías y ciudades:

## # A tibble: 4 x 2
##   categoria media
##   <fct>     <dbl>
## 1 Alimentos   NaN
## 2 Bebidas     NaN
## 3 Higiene     NaN
## 4 null        NaN

se calcularon las medias aritméticas y las medidas de posición según categoría, para las distintas ciudades, y se realiza un gráfico comparativo: