trabajo

  1. ¿Cuál es la media del precio de las viviendas (price)?
 library(dplyr)
## Warning: package 'dplyr' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
 url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
 precio_casa %>% pull(price) %>% mean
## [1] 540088.1
  1. ¿Qué medida se utiliza para describir el valor central cuando hay valores atípicos extremos?

Utilizamos la media para describir el valor central cuando hay valores atipicos estremos

 library(dplyr)
 url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
 precio_casa %>% pull(price) %>% median
## [1] 450000
  1. Calcula la desviación estándar de la variable sqft_living (área habitable). ¿Qué indica este valor en este contexto?
 library(dplyr)
 url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
 precio_casa %>% pull(sqft_living ) %>% sd
## [1] 918.4409

este valor undica que los valores de las areas habitables varia bastante a la media, osea que algunas de las casas pueden ser mucho mas grandes o mas pequeñas que otras

  1. ¿Cuál de las siguientes variables tiene mayor dispersión: price, sqft_lot, bedrooms? Justifica tu respuesta con base en medidas de dispersión.
 library(dplyr)
 url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
precio_casa %>% pull(sqft_lot) %>% sd
## [1] 41420.51
precio_casa %>% pull(price) %>% sd
## [1] 367127.2
precio_casa %>% pull(bedrooms) %>% sd
## [1] 0.9300618

la mayor dispersion de datos se encuentra en el tamaño de los terrenos ya que este tiene una gran diferencia de crecimientos de ellos

  1. ¿Qué variable presenta mayor número de ceros: sqft_basement o yr_renovated?
 url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
sum(is.na(precio_casa$sqft_basement))
## [1] 0
sum(is.na(precio_casa$yr_renovated))
## [1] 0

dando asi que yr_renovated como sqft_basement no tienen valores perdidos

  1. ¿Qué tipo de gráfico usarías para representar la distribución de price? Realizar el grafico

realizamos un histogramas para una mejor visualizacion

 url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)

hist(precio_casa$price,
     main = "Distribucion de precios",
      xlab = "precios",
      col = "skyblue",
      border = "black")

  1. Dibuja un histograma para la variable sqft_living. Describe brevemente la forma de la distribución.
 url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)

hist(precio_casa$sqft_living,
     main = "Distribucion del area habitable",
      xlab = "area habitable",
      col = "skyblue",
      border = "black")

la distribucion muestra que hay una gran cantidad de area que es habitable y la que no es bastante poca, la que tenemos es suficiente para sostener a los datos que se necesiten

  1. Construye un boxplot de la variable price según la variable waterfront. ¿Qué muestra este gráfico respecto al precio de casas con vista al agua vs sin vista?
 url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)
boxplot(price ~ waterfront, data = precio_casa,
        main = "Distribucion del Precio de Casas si tienen Vista al Agua o no",
        xlab = "Vista al Agua (0 = No, 1 = Si)",
        ylab = "Precio de la Casa",
        col = "skyblue", border = "black")

se denota que las casa sin vista al agua tienen unprecio muco menor en comparacion a las que si tienen vista al agua que sus precios se pueden llegar a inflar bastante debido a este pequeño cambio en las variables

  1. calcular la media, mediana y desviación estándar del precio (price). Describir el significado
 url<-"https://raw.githubusercontent.com/moderndive/moderndive/master/data-raw/kc_house_data.csv"
precio_casa<-read.csv(url)

 precio_casa %>% pull(price) %>% mean
## [1] 540088.1
  precio_casa %>% pull(price) %>% median
## [1] 450000
   precio_casa %>% pull(price) %>% sd
## [1] 367127.2

la media nos indica que las casas tienen entre si un valor promedio de 540008 dolares que pueden verse afectadas por valores externos

la mediana que es de 450000 dolares lo que nos indica en que rangos de precios se pueden encontrar las casa de entre mas de esta o menos de esta

la desviacion estandar es muy elevada lo que nos indica que existe una varicon de precios de casa a casa de 367127 dolares lo que nos dice que podemos encontrar casas mas caras que otras.