1.

¿Cuál es la media del precio de las viviendas (price)?

url<-'https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv'
house_prices <- read.csv(url)
head(house_prices)
##           id            date   price bedrooms bathrooms sqft_living sqft_lot
## 1 7129300520 20141013T000000  221900        3      1.00        1180     5650
## 2 6414100192 20141209T000000  538000        3      2.25        2570     7242
## 3 5631500400 20150225T000000  180000        2      1.00         770    10000
## 4 2487200875 20141209T000000  604000        4      3.00        1960     5000
## 5 1954400510 20150218T000000  510000        3      2.00        1680     8080
## 6 7237550310 20140512T000000 1225000        4      4.50        5420   101930
##   floors waterfront view condition grade sqft_above sqft_basement yr_built
## 1      1          0    0         3     7       1180             0     1955
## 2      2          0    0         3     7       2170           400     1951
## 3      1          0    0         3     6        770             0     1933
## 4      1          0    0         5     7       1050           910     1965
## 5      1          0    0         3     8       1680             0     1987
## 6      1          0    0         3    11       3890          1530     2001
##   yr_renovated zipcode     lat     long sqft_living15 sqft_lot15
## 1            0   98178 47.5112 -122.257          1340       5650
## 2         1991   98125 47.7210 -122.319          1690       7639
## 3            0   98028 47.7379 -122.233          2720       8062
## 4            0   98136 47.5208 -122.393          1360       5000
## 5            0   98074 47.6168 -122.045          1800       7503
## 6            0   98053 47.6561 -122.005          4760     101930
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
glimpse(house_prices)
## Rows: 21,613
## Columns: 21
## $ id            <dbl> 7129300520, 6414100192, 5631500400, 2487200875, 19544005…
## $ date          <chr> "20141013T000000", "20141209T000000", "20150225T000000",…
## $ price         <dbl> 221900, 538000, 180000, 604000, 510000, 1225000, 257500,…
## $ bedrooms      <int> 3, 3, 2, 4, 3, 4, 3, 3, 3, 3, 3, 2, 3, 3, 5, 4, 3, 4, 2,…
## $ bathrooms     <dbl> 1.00, 2.25, 1.00, 3.00, 2.00, 4.50, 2.25, 1.50, 1.00, 2.…
## $ sqft_living   <int> 1180, 2570, 770, 1960, 1680, 5420, 1715, 1060, 1780, 189…
## $ sqft_lot      <int> 5650, 7242, 10000, 5000, 8080, 101930, 6819, 9711, 7470,…
## $ floors        <dbl> 1.0, 2.0, 1.0, 1.0, 1.0, 1.0, 2.0, 1.0, 1.0, 2.0, 1.0, 1…
## $ waterfront    <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,…
## $ view          <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0,…
## $ condition     <int> 3, 3, 3, 5, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 4, 4,…
## $ grade         <int> 7, 7, 6, 7, 8, 11, 7, 7, 7, 7, 8, 7, 7, 7, 7, 9, 7, 7, 7…
## $ sqft_above    <int> 1180, 2170, 770, 1050, 1680, 3890, 1715, 1060, 1050, 189…
## $ sqft_basement <int> 0, 400, 0, 910, 0, 1530, 0, 0, 730, 0, 1700, 300, 0, 0, …
## $ yr_built      <int> 1955, 1951, 1933, 1965, 1987, 2001, 1995, 1963, 1960, 20…
## $ yr_renovated  <int> 0, 1991, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,…
## $ zipcode       <int> 98178, 98125, 98028, 98136, 98074, 98053, 98003, 98198, …
## $ lat           <dbl> 47.5112, 47.7210, 47.7379, 47.5208, 47.6168, 47.6561, 47…
## $ long          <dbl> -122.257, -122.319, -122.233, -122.393, -122.045, -122.0…
## $ sqft_living15 <int> 1340, 1690, 2720, 1360, 1800, 4760, 2238, 1650, 1780, 23…
## $ sqft_lot15    <int> 5650, 7639, 8062, 5000, 7503, 101930, 6819, 9711, 8113, …
mean(house_prices$price)
## [1] 540088.1

2

¿Qué medida se utiliza para describir el valor central cuando hay valores atípicos extremos?

#Rta:La tendencia centarl que podemos utilizar es la mediana o median.

3

Calcula la desviación estándar de la variable sqft_living (área habitable). ¿Qué indica este valor en este contexto?

mean(house_prices$sqft_living)
## [1] 2079.9
sd(house_prices$sqft_living)
## [1] 918.4409

#La desviación estandar nos esta diciendo que los datos se desvian 918.4408 pies cuadrados de la media.

4

¿Cuál de las siguientes variables tiene mayor dispersión: price, sqft_lot, bedrooms? Justifica tu respuesta con base en medidas de dispersión.

mean(house_prices$sqft_lot)
## [1] 15106.97
mean(house_prices$bedrooms)
## [1] 3.370842
sd(house_prices$sqft_lot)
## [1] 41420.51
sd(house_prices$bedrooms)
## [1] 0.9300618

#La variable que tiene mayor disperción es la variable sqft_lot teniendo en cuenta que la desviasión estandar es alta lo que nos dice que los datos tienen una gran dispersión

5

¿Qué variable presenta mayor número de ceros: sqft_basement o yr_renovated?

sum(house_prices$sqft_basement ==0)
## [1] 13126
sum(house_prices$yr_renovated ==0)
## [1] 20699

#La variable que más representa ceros o datos nulos es la variable yr_renovated

6

¿Qué tipo de gráfico usarías para representar la distribución de price? Realizar el grafico

hist(house_prices$price,
     main = "Distribución de Price",
     xlab = "Price",
     col = "skyblue",
     border = "black")

#El grafico a utilizar es un histograma donde vemos bien la distribución de los datos que nos dice que nuestros precios van desde o hasta 8 millones de pesos.

7

Dibuja un histograma para la variable sqft_living. Describe brevemente la forma de la distribución.

hist(house_prices$sqft_living,
     main = "Distribución de sqft_living",
     xlab = "sqft_living",
     col = "skyblue",
     border = "red")

8

Construye un boxplot de la variable price según la variable waterfront. ¿Qué muestra este gráfico respecto al precio de casas con vista al agua vs sin vista?

boxplot(house_prices$waterfront,
        main = "Boxplot de waterfront",
        ylab = "waterfront",
        col = "yellow")

9