library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
precio_casa %>% pull(price) %>% mean
## [1] 540088.1
Utilizamos la media para describir el valor central cuando hay valores atipicos estremos
library(dplyr)
url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
precio_casa %>% pull(price) %>% median
## [1] 450000
library(dplyr)
url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
precio_casa %>% pull(sqft_living ) %>% sd
## [1] 918.4409
este valor undica que los valores de las areas habitables varia bastante a la media, osea que algunas de las casas pueden ser mucho mas grandes o mas pequeñas que otras
library(dplyr)
url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
precio_casa %>% pull(sqft_lot) %>% sd
## [1] 41420.51
precio_casa %>% pull(price) %>% sd
## [1] 367127.2
precio_casa %>% pull(bedrooms) %>% sd
## [1] 0.9300618
la mayor dispersion de datos se encuentra en el tamaño de los terrenos ya que este tiene una gran diferencia de crecimientos de ellos
url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
sum(is.na(precio_casa$sqft_basement))
## [1] 0
sum(is.na(precio_casa$yr_renovated))
## [1] 0
dando asi que yr_renovated como sqft_basement no tienen valores perdidos
realizamos un histogramas para una mejor visualizacion
url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
hist(precio_casa$price,
main = "Distribucion de precios",
xlab = "precios",
col = "skyblue",
border = "black")
url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
hist(precio_casa$sqft_living,
main = "Distribucion del area habitable",
xlab = "area habitable",
col = "skyblue",
border = "black")
la distribucion muestra que hay una gran cantidad de area que es habitable y la que no es bastante poca, la que tenemos es suficiente para sostener a los datos que se necesiten
url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
boxplot(price ~ waterfront, data = precio_casa,
main = "Distribucion del Precio de Casas si tienen Vista al Agua o no",
xlab = "Vista al Agua (0 = No, 1 = Si)",
ylab = "Precio de la Casa",
col = "skyblue", border = "black")
se denota que las casa sin vista al agua tienen unprecio muco menor en comparacion a las que si tienen vista al agua que sus precios se pueden llegar a inflar bastante debido a este pequeño cambio en las variables
url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
precio_casa %>% pull(price) %>% mean
## [1] 540088.1
precio_casa %>% pull(price) %>% median
## [1] 450000
precio_casa %>% pull(price) %>% sd
## [1] 367127.2
la media nos indica que las casas tienen entre si un valor promedio de 540008 dolares que pueden verse afectadas por valores externos
la mediana que es de 450000 dolares lo que nos indica en que rangos de precios se pueden encontrar las casa de entre mas de esta o menos de esta
la desviacion estandar es muy elevada lo que nos indica que existe una varicon de precios de casa a casa de 367127 dolares lo que nos dice que podemos encontrar casas mas caras que otras.