library(readxl) # para leer y cargar documentos de exel (xls)
library(readr) # para leer y cargar documentos de exel (csv)
library(dplyr) # grametica y manipulacion de la data
##
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
Data <- ('https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv')
Data_ <- read.csv(Data)
head(Data_)
## id date price bedrooms bathrooms sqft_living sqft_lot
## 1 7129300520 20141013T000000 221900 3 1.00 1180 5650
## 2 6414100192 20141209T000000 538000 3 2.25 2570 7242
## 3 5631500400 20150225T000000 180000 2 1.00 770 10000
## 4 2487200875 20141209T000000 604000 4 3.00 1960 5000
## 5 1954400510 20150218T000000 510000 3 2.00 1680 8080
## 6 7237550310 20140512T000000 1225000 4 4.50 5420 101930
## floors waterfront view condition grade sqft_above sqft_basement yr_built
## 1 1 0 0 3 7 1180 0 1955
## 2 2 0 0 3 7 2170 400 1951
## 3 1 0 0 3 6 770 0 1933
## 4 1 0 0 5 7 1050 910 1965
## 5 1 0 0 3 8 1680 0 1987
## 6 1 0 0 3 11 3890 1530 2001
## yr_renovated zipcode lat long sqft_living15 sqft_lot15
## 1 0 98178 47.5112 -122.257 1340 5650
## 2 1991 98125 47.7210 -122.319 1690 7639
## 3 0 98028 47.7379 -122.233 2720 8062
## 4 0 98136 47.5208 -122.393 1360 5000
## 5 0 98074 47.6168 -122.045 1800 7503
## 6 0 98053 47.6561 -122.005 4760 101930
glimpse(Data_)
## Rows: 21,613
## Columns: 21
## $ id <dbl> 7129300520, 6414100192, 5631500400, 2487200875, 19544005…
## $ date <chr> "20141013T000000", "20141209T000000", "20150225T000000",…
## $ price <dbl> 221900, 538000, 180000, 604000, 510000, 1225000, 257500,…
## $ bedrooms <int> 3, 3, 2, 4, 3, 4, 3, 3, 3, 3, 3, 2, 3, 3, 5, 4, 3, 4, 2,…
## $ bathrooms <dbl> 1.00, 2.25, 1.00, 3.00, 2.00, 4.50, 2.25, 1.50, 1.00, 2.…
## $ sqft_living <int> 1180, 2570, 770, 1960, 1680, 5420, 1715, 1060, 1780, 189…
## $ sqft_lot <int> 5650, 7242, 10000, 5000, 8080, 101930, 6819, 9711, 7470,…
## $ floors <dbl> 1.0, 2.0, 1.0, 1.0, 1.0, 1.0, 2.0, 1.0, 1.0, 2.0, 1.0, 1…
## $ waterfront <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,…
## $ view <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0,…
## $ condition <int> 3, 3, 3, 5, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 4, 4,…
## $ grade <int> 7, 7, 6, 7, 8, 11, 7, 7, 7, 7, 8, 7, 7, 7, 7, 9, 7, 7, 7…
## $ sqft_above <int> 1180, 2170, 770, 1050, 1680, 3890, 1715, 1060, 1050, 189…
## $ sqft_basement <int> 0, 400, 0, 910, 0, 1530, 0, 0, 730, 0, 1700, 300, 0, 0, …
## $ yr_built <int> 1955, 1951, 1933, 1965, 1987, 2001, 1995, 1963, 1960, 20…
## $ yr_renovated <int> 0, 1991, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,…
## $ zipcode <int> 98178, 98125, 98028, 98136, 98074, 98053, 98003, 98198, …
## $ lat <dbl> 47.5112, 47.7210, 47.7379, 47.5208, 47.6168, 47.6561, 47…
## $ long <dbl> -122.257, -122.319, -122.233, -122.393, -122.045, -122.0…
## $ sqft_living15 <int> 1340, 1690, 2720, 1360, 1800, 4760, 2238, 1650, 1780, 23…
## $ sqft_lot15 <int> 5650, 7639, 8062, 5000, 7503, 101930, 6819, 9711, 8113, …
mean(Data_$price)
## [1] 540088.1
La \(Mediana\) ya que al ser el valor que esta en el medio del conjunto de datos ordenados, no cambia mucho si hay datos muy bajos o altos.
Bajo este contexto muestra que tanto se dispersa o aleja el area habitable del promedio de estos datos, o bien el promedio que se considera como area habitable segun los datos.
sd(Data_$sqft_living)
## [1] 918.4409
var(Data_$price)
## [1] 134782378397
var(Data_$sqft_lot)
## [1] 1715658774
var(Data_$bedrooms)
## [1] 0.865015
ya que la varianza mide que tanto se dispersan los datos respecto a la media. entonces se tiene que \(bedrooms\) es quien presenta menos dispercion.
sum(Data_$sqft_basement == 0)
## [1] 13126
sum(Data_$yr_renovated == 0)
## [1] 20699
RTA: yr_renovated, presenta mayor numero de ceros
hist(Data_$price,
main = "Precios",
xlab = "valor",
col = "skyblue",
border = "black")
hist(Data_$sqft_living,
col = "red",
border = "black")
Para la variable sqft_living su distribucion no es tan dispersa, ya que los valores de los datos se encuentran mayormente en 1000 a 3000
para la variable \(waterfront\) describe la vista al agua como \(1\) y sin vista como \(0\).
boxplot(price ~ waterfront, data = Data_,
names = c("Sin vista al agua", "Con vista al agua"),
col = c("lightblue", "lightgreen"),
main = "Precio de casas según vista al agua",
ylab = "Precio",
xlab = "Vista al agua")
Para calcular estos datos podemos hacer lo siguiente, aplicando el codigo summary.
summary(Data_$price)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 75000 321950 450000 540088 645000 7700000
o tambien podemos calcularlo de forma individual.
mean(Data_$price)
## [1] 540088.1
median(Data_$price)
## [1] 450000
sd(Data_$price)
## [1] 367127.2
\(Media\), se trata del valor central promedio de un conjunto de datos, indicando una medida de tendencia central dando una idea de donde estan centrados los datos.
\(mediana\), se trata del valor del centro de un conjunto ordenado de datos, este dato o valor esta en la mitad de los datos ordenados, es decir que la mediana divide a los Datos en dos partes iguales.
\(Desviacion-estandar\), este describe que tanto se dispersan los datos respecto al promedio de los datos o bien la media.