library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
url<-'https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv'
house_prices <- read.csv(url)
glimpse(house_prices)
## Rows: 21,613
## Columns: 21
## $ id <dbl> 7129300520, 6414100192, 5631500400, 2487200875, 19544005…
## $ date <chr> "20141013T000000", "20141209T000000", "20150225T000000",…
## $ price <dbl> 221900, 538000, 180000, 604000, 510000, 1225000, 257500,…
## $ bedrooms <int> 3, 3, 2, 4, 3, 4, 3, 3, 3, 3, 3, 2, 3, 3, 5, 4, 3, 4, 2,…
## $ bathrooms <dbl> 1.00, 2.25, 1.00, 3.00, 2.00, 4.50, 2.25, 1.50, 1.00, 2.…
## $ sqft_living <int> 1180, 2570, 770, 1960, 1680, 5420, 1715, 1060, 1780, 189…
## $ sqft_lot <int> 5650, 7242, 10000, 5000, 8080, 101930, 6819, 9711, 7470,…
## $ floors <dbl> 1.0, 2.0, 1.0, 1.0, 1.0, 1.0, 2.0, 1.0, 1.0, 2.0, 1.0, 1…
## $ waterfront <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,…
## $ view <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0,…
## $ condition <int> 3, 3, 3, 5, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 4, 4,…
## $ grade <int> 7, 7, 6, 7, 8, 11, 7, 7, 7, 7, 8, 7, 7, 7, 7, 9, 7, 7, 7…
## $ sqft_above <int> 1180, 2170, 770, 1050, 1680, 3890, 1715, 1060, 1050, 189…
## $ sqft_basement <int> 0, 400, 0, 910, 0, 1530, 0, 0, 730, 0, 1700, 300, 0, 0, …
## $ yr_built <int> 1955, 1951, 1933, 1965, 1987, 2001, 1995, 1963, 1960, 20…
## $ yr_renovated <int> 0, 1991, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,…
## $ zipcode <int> 98178, 98125, 98028, 98136, 98074, 98053, 98003, 98198, …
## $ lat <dbl> 47.5112, 47.7210, 47.7379, 47.5208, 47.6168, 47.6561, 47…
## $ long <dbl> -122.257, -122.319, -122.233, -122.393, -122.045, -122.0…
## $ sqft_living15 <int> 1340, 1690, 2720, 1360, 1800, 4760, 2238, 1650, 1780, 23…
## $ sqft_lot15 <int> 5650, 7639, 8062, 5000, 7503, 101930, 6819, 9711, 8113, …
mean(house_prices$price)
## [1] 540088.1
sd(house_prices$sqft_living)
## [1] 918.4409
Que hay muchos valores atipicos, ya que la desviacion estandar nos indica que tan alejados o cerca estan de la media.
sd(house_prices$price)
## [1] 367127.2
var(house_prices$price)
## [1] 134782378397
sd(house_prices$sqft_lot)
## [1] 41420.51
var(house_prices$sqft_lot)
## [1] 1715658774
sd(house_prices$bedrooms)
## [1] 0.9300618
var(house_prices$bedrooms)
## [1] 0.865015
La variable price tiene la mayor dispersion ya que su desviacion estandar y su varianza es mayor.
ceros_var.sqft_basement<-sum(house_prices$sqft_basement == 0)
print(ceros_var.sqft_basement)
## [1] 13126
ceros_var.yr_renovated<-sum(house_prices$yr_renovated == 0)
print(ceros_var.yr_renovated)
## [1] 20699
hist(house_prices$price,main ="Histograma", xlab = "Valores", ylab = "Frecuencia", col = "pink", border = "lightblue")
- 7.Dibuja un histograma para la variable sqft_living. Describe
brevemente la forma de la distribución.
hist(house_prices$sqft_living,main = "Histograma", xlab = "Valores", ylab = "Frecuencia", col = "#544", border = "brown")
- 8.Construye un boxplot de la variable price según la variable
waterfront. ¿Qué muestra este gráfico respecto al precio de casas con
vista al agua vs sin vista?
boxplot(house_prices$waterfront,house_prices$price)
las casas con vista al agua tienden a ser más caras y hay mas variedad
de precios, mientras que las casas sin vista al agua presentan precios
más bajos. - 9.calcular la media, mediana y desviación estándar
del precio (price). Describir el significado
mean(house_prices$price)
## [1] 540088.1
median(house_prices$price)
## [1] 450000
sd(house_prices$price)
## [1] 367127.2
Los precios de las casas varian mucho, ya que hay algunas casas muy costosas que elevan el promedio.