1 Libreria

library(readxl) # para leer y cargar documentos de exel (xls)
library(readr) # para leer y cargar documentos de exel (csv)
library(dplyr) # grametica y manipulacion de la data
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

2 Taller 1

2.1 datos a trabajar hoy

Data <- ('https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv')

Data_ <- read.csv(Data)

head(Data_)
##           id            date   price bedrooms bathrooms sqft_living sqft_lot
## 1 7129300520 20141013T000000  221900        3      1.00        1180     5650
## 2 6414100192 20141209T000000  538000        3      2.25        2570     7242
## 3 5631500400 20150225T000000  180000        2      1.00         770    10000
## 4 2487200875 20141209T000000  604000        4      3.00        1960     5000
## 5 1954400510 20150218T000000  510000        3      2.00        1680     8080
## 6 7237550310 20140512T000000 1225000        4      4.50        5420   101930
##   floors waterfront view condition grade sqft_above sqft_basement yr_built
## 1      1          0    0         3     7       1180             0     1955
## 2      2          0    0         3     7       2170           400     1951
## 3      1          0    0         3     6        770             0     1933
## 4      1          0    0         5     7       1050           910     1965
## 5      1          0    0         3     8       1680             0     1987
## 6      1          0    0         3    11       3890          1530     2001
##   yr_renovated zipcode     lat     long sqft_living15 sqft_lot15
## 1            0   98178 47.5112 -122.257          1340       5650
## 2         1991   98125 47.7210 -122.319          1690       7639
## 3            0   98028 47.7379 -122.233          2720       8062
## 4            0   98136 47.5208 -122.393          1360       5000
## 5            0   98074 47.6168 -122.045          1800       7503
## 6            0   98053 47.6561 -122.005          4760     101930
glimpse(Data_) 
## Rows: 21,613
## Columns: 21
## $ id            <dbl> 7129300520, 6414100192, 5631500400, 2487200875, 19544005…
## $ date          <chr> "20141013T000000", "20141209T000000", "20150225T000000",…
## $ price         <dbl> 221900, 538000, 180000, 604000, 510000, 1225000, 257500,…
## $ bedrooms      <int> 3, 3, 2, 4, 3, 4, 3, 3, 3, 3, 3, 2, 3, 3, 5, 4, 3, 4, 2,…
## $ bathrooms     <dbl> 1.00, 2.25, 1.00, 3.00, 2.00, 4.50, 2.25, 1.50, 1.00, 2.…
## $ sqft_living   <int> 1180, 2570, 770, 1960, 1680, 5420, 1715, 1060, 1780, 189…
## $ sqft_lot      <int> 5650, 7242, 10000, 5000, 8080, 101930, 6819, 9711, 7470,…
## $ floors        <dbl> 1.0, 2.0, 1.0, 1.0, 1.0, 1.0, 2.0, 1.0, 1.0, 2.0, 1.0, 1…
## $ waterfront    <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,…
## $ view          <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0,…
## $ condition     <int> 3, 3, 3, 5, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 3, 3, 3, 4, 4,…
## $ grade         <int> 7, 7, 6, 7, 8, 11, 7, 7, 7, 7, 8, 7, 7, 7, 7, 9, 7, 7, 7…
## $ sqft_above    <int> 1180, 2170, 770, 1050, 1680, 3890, 1715, 1060, 1050, 189…
## $ sqft_basement <int> 0, 400, 0, 910, 0, 1530, 0, 0, 730, 0, 1700, 300, 0, 0, …
## $ yr_built      <int> 1955, 1951, 1933, 1965, 1987, 2001, 1995, 1963, 1960, 20…
## $ yr_renovated  <int> 0, 1991, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,…
## $ zipcode       <int> 98178, 98125, 98028, 98136, 98074, 98053, 98003, 98198, …
## $ lat           <dbl> 47.5112, 47.7210, 47.7379, 47.5208, 47.6168, 47.6561, 47…
## $ long          <dbl> -122.257, -122.319, -122.233, -122.393, -122.045, -122.0…
## $ sqft_living15 <int> 1340, 1690, 2720, 1360, 1800, 4760, 2238, 1650, 1780, 23…
## $ sqft_lot15    <int> 5650, 7639, 8062, 5000, 7503, 101930, 6819, 9711, 8113, …

2.2 Preguntas

2.2.1 ¿Cuál es la media del precio de las viviendas (price)?

mean(Data_$price)
## [1] 540088.1

2.2.2 ¿Qué medida se utiliza para describir el valor central cuando hay valores atípicos extremos?

La \(Mediana\) ya que al ser el valor que esta en el medio del conjunto de datos ordenados, no cambia mucho si hay datos muy bajos o altos.

2.2.3 Calcula la desviación estándar de la variable sqft_living (área habitable). ¿Qué indica este valor en este contexto?

Bajo este contexto muestra que tanto se dispersa o aleja el area habitable del promedio de estos datos, o bien el promedio que se considera como area habitable segun los datos.

sd(Data_$sqft_living)
## [1] 918.4409

2.2.4 ¿Cuál de las siguientes variables tiene mayor dispersión: price, sqft_lot, bedrooms? Justifica tu respuesta con base en medidas de dispersión.

var(Data_$price)
## [1] 134782378397
var(Data_$sqft_lot)
## [1] 1715658774
var(Data_$bedrooms)
## [1] 0.865015

ya que la varianza mide que tanto se dispersan los datos respecto a la media. entonces se tiene que \(bedrooms\) es quien presenta menos dispercion.

2.2.5 ¿Qué variable presenta mayor número de ceros: sqft_basement o yr_renovated?

sum(Data_$sqft_basement == 0)
## [1] 13126
sum(Data_$yr_renovated == 0)
## [1] 20699

RTA: yr_renovated, presenta mayor numero de ceros

2.2.6 ¿Qué tipo de gráfico usarías para representar la distribución de price? Realizar el grafico

hist(Data_$price,
     main = "Precios",
     xlab = "valor",
     col = "skyblue",
     border = "black")

2.2.7 Dibuja un histograma para la variable sqft_living. Describe brevemente la forma de la distribución.

hist(Data_$sqft_living,
     col = "red",
     border = "black")

Para la variable sqft_living su distribucion no es tan dispersa, ya que los valores de los datos se encuentran mayormente en 1000 a 3000

2.2.8 Construye un boxplot de la variable price según la variable waterfront. ¿Qué muestra este gráfico respecto al precio de casas con vista al agua vs sin vista?

para la variable \(waterfront\) describe la vista al agua como \(1\) y sin vista como \(0\).

boxplot(price ~ waterfront, data = Data_,
        names = c("Sin vista al agua", "Con vista al agua"),
        col = c("lightblue", "lightgreen"),
        main = "Precio de casas según vista al agua",
        ylab = "Precio",
        xlab = "Vista al agua")

2.2.9 calcular la media, mediana y desviación estándar del precio (price). Describir el significado

Para calcular estos datos podemos hacer lo siguiente, aplicando el codigo summary.

summary(Data_$price)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   75000  321950  450000  540088  645000 7700000

o tambien podemos calcularlo de forma individual.

mean(Data_$price)
## [1] 540088.1
median(Data_$price)
## [1] 450000
sd(Data_$price)
## [1] 367127.2

\(Media\), se trata del valor central promedio de un conjunto de datos, indicando una medida de tendencia central dando una idea de donde estan centrados los datos.

\(mediana\), se trata del valor del centro de un conjunto ordenado de datos, este dato o valor esta en la mitad de los datos ordenados, es decir que la mediana divide a los Datos en dos partes iguales.

\(Desviacion-estandar\), este describe que tanto se dispersan los datos respecto al promedio de los datos o bien la media.