2022-09-28

## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
## Rows: 56739 Columns: 74
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (24): listing_url, name, description, neighborhood_overview, picture_ur...
## dbl  (37): id, scrape_id, host_id, host_listings_count, host_total_listings_...
## lgl   (8): host_is_superhost, host_has_profile_pic, host_identity_verified, ...
## date  (5): last_scraped, host_since, calendar_last_scraped, first_review, la...
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
##  [1] "name"                        "host_response_time"         
##  [3] "host_has_profile_pic"        "host_identity_verified"     
##  [5] "neighbourhood"               "latitude"                   
##  [7] "longitude"                   "property_type"              
##  [9] "room_type"                   "bathrooms_text"             
## [11] "bedrooms"                    "beds"                       
## [13] "price"                       "minimum_nights"             
## [15] "maximum_nights"              "has_availability"           
## [17] "number_of_reviews"           "number_of_reviews_ltm"      
## [19] "review_scores_value"         "review_scores_cleanliness"  
## [21] "review_scores_checkin"       "review_scores_communication"
## [23] "review_scores_location"      "instant_bookable"           
## [25] "reviews_per_month"           "wifi"                       
## [27] "hot_water"

Introducción

Objetivo

Buscamos entender que factores son decisivos en los consumidores que se van a hospedar en una zona turística como París, mediante el análisis de datos, comparación y relación de las variables obtenidas.

Relevancia

Es importante conocer que tanto se ve afectada la decisión de los turistas al momento de escoger un lugar donde alojarse en París. Conocer esta información facilitará la toma de decisiones de nuestros consumidores, además permitirá que las empresas de viajes puedan usar nuestros resultados para crear paquetes turísticos mejor elaborados según la calidad de los establecimientos.

Planificación

Diagrama de Gantt

Datos

Proceso de recolección de datos

Para obtener nuestra base de datos se realizó una búsqueda en fuentes confiables tales como el portal de la Plataforma Nacional de Datos Abiertos y estudios estadísticos de Airbnb.

Población, muestra y muestreo

1) Población

La población de nuestro estudio son hospedajes publicadas en la página web de Airbnb.

2) Muestra

Está conformada por 200 observaciones extraída de la base de datos de hospedajes brindada por Airbnb.

3) Muestreo

Se utilizará el método de muestreo aleatorio simple.

1. Variables Numéricas

2. Variables Categórica

Análisis descriptivo

Una variable

boxplot(DF$bathrooms_text)

stripchart(DF$bathrooms_text,col=rgb(0,0,0,0.2))

hist(DF$bathrooms_text)

Media :

## [1] 1.1

Mediana :

## [1] 1

Moda :

##   1 
## 182

Cuantiles :

##   0%  25%  50%  75% 100% 
##    0    1    1    1    4

Rango :

## [1] 4

Rango intercuartil :

## [1] 0

Desviación estandar :

## [1] 0.3882702

Varianza :

## [1] 0.1507538

Coeficiente de variación

## [1] 0.3529729

Bedrooms

boxplot(DF$bedrooms)

stripchart(DF$bedrooms,col=rgb(0,0,0,0.2))

hist(DF$bedrooms)

Media

## [1] 1.360947

Moda

##   1 
## 125

Cuantiles

##   0%  25%  50%  75% 100% 
##    1    1    1    2    5

Rango

## [1] 4

Rango intercuartil

## [1] 1

Desviación estandar

## [1] 0.711229

Varianza

## [1] 0.5058467

Coeficiente de variación

## [1] 0.5225987

Beds

Descriptores gráficos

stripchart(DF$beds,col=rgb(0,0,0,0.2))

hist(DF$beds)

Media

## [1] 1.753846

Moda

##   1 
## 110

Cuantiles

##   0%  25%  50%  75% 100% 
##    1    1    1    2    9

Rango intercuartil

## [1] 1

Desviación estandar

## [1] 1.158084

Varianza

## [1] 1.341158

Coeficiente de variación

## [1] 0.6603109

Price

boxplot(DF$price)

stripchart(DF$price, col=rgb(0,0,0,0.2))

#Histograma
hist(DF$price)

Media

## [1] 151.885

Mediana

## [1] 82

Moda

## 90 
## 11

Cuantiles

##     0%    25%    50%    75%   100% 
##   18.0   59.5   82.0  119.5 5000.0

Rango

## [1] 4982

Rango intercuartil

## [1] 59.5

Desviación estándar

## [1] 410.5115

Varianza

## [1] 168519.7

Coeficiente de variación

## [1] 2.702779

Planteamiento de hipótesis

  1. La limpieza y la calidad de servicio debería afectar a la puntuación del hospedaje.

  2. Las puntuaciones del hospedaje deberían tener una relación lineal con el precio.

  3. Hablar sobre los requisitos necesarios que debe cumplir un hospedaje (wifi y hot_water en análisis descriptivo)

Review_scores_value y latitude

cor : [1] 0.03786446

plot(DF$review_scores_value,DF$latitude, pch=20, col=rgb(0,0,0,0.2))
abline(lm(DF$latitude ~ DF$review_scores_value), col = "red")

cor(DF$review_scores_value,DF$latitude,use="complete.obs")
## [1] 0.03786446

Review_scores_valuee y longitude

plot(DF$review_scores_value,DF$longitude, pch=20, col=rgb(0,0,0,0.2)) 
abline(lm(DF$longitude ~ DF$review_scores_value), col = "red") 

Review_scores_value y bathrooms_text

cor :[1] 0.05847747

plot(DF$review_scores_value,DF$bathrooms_text, pch=20, col=rgb(0,0,0,0.2))
abline(lm(DF$bathrooms_text ~ DF$review_scores_value), col = "red") 

cor(DF$review_scores_value,DF$bathrooms_text,use="complete.obs")
## [1] 0.05847747

Review_scores_valuee y bedrooms

cor :[1] -0.0009348458

plot(DF$review_scores_value,DF$bedrooms, pch=20, col=rgb(0,0,0,0.2)) 
abline(lm(DF$bedrooms ~ DF$review_scores_value), col = "red")

cor(DF$review_scores_value,DF$bedrooms,use="complete.obs")
## [1] -0.0009348458

Review_scores_value y beds

cor:[1] 0.03158904

plot(DF$review_scores_value,DF$beds, pch=20, col=rgb(0,0,0,0.2))
abline(lm(DF$beds ~ DF$review_scores_value), col = "red")

cor(DF$review_scores_value,DF$beds,use="complete.obs")
## [1] 0.03158904

Review_scores_valuee y price

cor: [1] 0.08833289

plot(DF$review_scores_value,DF$price, pch=20, col=rgb(0,0,0,0.2))
abline(lm(DF$price ~ DF$review_scores_value), col = "red")

cor(DF$review_scores_value,DF$price,use="complete.obs")
## [1] 0.08833289

Review_scores_value y minimum_nights

cor : [1] 0.001533371

## [1] 0.001533371

Review_scores_value y maximum_nights

cor :[1] 0.001533371

## [1] -0.1193779

Review_scores_value y number_of_reviews

cor: [1] 0.03936833

## [1] 0.03936833

Review_scores_value y number_of_reviews_ltm

cor: [1] -0.003583444

## [1] -0.003583444

Review_scores_value y review_scores_cleanliness

cor :[1] 0.7505672

## [1] 0.7505672

Review_scores_value y review_scores_communication

cor: [1] 0.417285

## [1] 0.417285

Review_scores_value y review_scores_location

cor : [1] 0.4547669

## [1] 0.4547669

Review_scores_value y reviews_per_monthn

cor :[1] 0.01052898

## [1] 0.01052898

Conclusiones de las relaciones de review_scores_value

La limpieza es la variable que más relación lineal tiene con la puntuación general del hospedaje, es decir, la limpieza influye fuertemente en la valoración de un hospedaje en Francia. Además, también influyen los puntajes de atención al cliente y la localización, pero en menor medida. El resto de variables no influyen.

Variables que se relacionen con price

También nos interesa saber qué variables se relacionan con el precio, puesto que el estudio va dirigido a los dueños de hospedajes que buscan un precio justo acorde a lo que ofrezcan.

Price y bathrooms_text

## [1] 0.1773508

Price y bathrooms_text

## [1] 0.102996

Price y beds

## [1] -0.01288816

Price y review_scores_cleanliness

## [1] 0.1235552

Price y review_scores_checkin

## [1] 0.07731279

Price y review_scores_communication

## [1] 0.04419501

Price y review_scores_location

## [1] -0.005237485

Price y reviews_per_month

## [1] -0.106259

Price y number_of_reviews

## [1] -0.07218971

Price y number_of_reviews_ltm

## [1] -0.07218971

Relaciones entre variables categóricas

Mosaico de hot_water y wifi

Mosaico de host_identity_verifies y hot_water

Mosaico de hot_water y beds

Conclusiones:

  1. Para que un hospedaje pueda competir contra los demás, debe tener mínimamente verificación de indentidad del dueño, agua caliente, wifi y 1 cama.

  2. Las variables que más influyen linealmente en el puntaje de un hospedaje son la limpieza, atención al cliente, rapidez en el registro y atención al cliente.

  3. Ninguna variable tiene una relación lineal significativa con el precio. Esto refuta algunas suposiciones que la gente podría plantearse al inicio, por ejemplo, que el costo debería aumentar linealmente con la cantidad de habitaciones, camas o baños.

  4. La limpieza, atención al cliente, comunicación y localización sí tienen una relación lineal con la puntuación total del hospedaje