taller 2 Estadistica Descriptiva

Preguntas

¿Cuál es la media del precio de las viviendas (price)?

media_price <- mean(house_prices$price, na.rm = TRUE)

print(paste("la media de los precios de las viviendas es", media_price ))

## [1] "la media de los precios de las viviendas es 540088.141766529"

¿Qué medida se utiliza para describir el valor central cuando hay valores atípicos extremos? la mediana

# Calcular media y mediana de 'price'
mean_price <- mean(house_prices$price, na.rm = TRUE)
median_price <- median(house_prices$price, na.rm = TRUE)

print(paste("comparacion promedio y mediana del precio de la vivienda"))

## [1] "comparacion promedio y mediana del precio de la vivienda"

cat("Media (promedio):", mean_price, "\nMediana:", median_price)

## Media (promedio): 540088.1 
## Mediana: 450000

print(paste("como la media es mayor que la mediana, entonces el promedio de los precios esta por encima de la mitad de los presicos"))

## [1] "como la media es mayor que la mediana, entonces el promedio de los precios esta por encima de la mitad de los presicos"

# Calcular media y mediana de 'sqft_above'
mean_sqft_above <- mean(house_prices$sqft_above, na.rm = TRUE)
median_sqft_above <- median(house_prices$sqft_above, na.rm = TRUE)
print(paste("comparacion promedio y mediana del area de la vivienda"))

## [1] "comparacion promedio y mediana del area de la vivienda"

cat("Media (promedio):", mean_sqft_above, "\nMediana:", median_sqft_above)

## Media (promedio): 1788.391 
## Mediana: 1560

print(paste("como la media es mayor que la mediana, entonces el promedio de las areas esta por encima de la mitad de los datos"))

## [1] "como la media es mayor que la mediana, entonces el promedio de las areas esta por encima de la mitad de los datos"

Calcula la desviación estándar de la variable sqft_living (área habitable). ¿Qué indica este valor en este contexto?

sd_sqft <- sd(house_prices$sqft_living, na.rm = TRUE)
print(paste("La desviación estándar de sqft_living es:", round(sd_sqft, 2), "nos indica cuánto varían los tamaños de las áreas habitables entre las viviendas:Un valor alto indica mucha variabilidad (hay casas con áreas muy diferentes), Un valor bajo indica poca variabilidad (la mayoría de casas tienen tamaños similares), esto en relacion con la media"))

## [1] "La desviación estándar de sqft_living es: 918.44 nos indica cuánto varían los tamaños de las áreas habitables entre las viviendas:Un valor alto indica mucha variabilidad (hay casas con áreas muy diferentes), Un valor bajo indica poca variabilidad (la mayoría de casas tienen tamaños similares), esto en relacion con la media"

mean_sqft <- mean(house_prices$sqft_living, na.rm = TRUE)
cv <- (sd_sqft/mean_sqft)*100
print(paste("Coeficiente de variación:", round(cv, 1), "% Un CV > 30% sugiere alta dispersión relativa"))

## [1] "Coeficiente de variación: 44.2 % Un CV > 30% sugiere alta dispersión relativa"

¿Cuál de las siguientes variables tiene mayor dispersión: price, sqft_lot, bedrooms? Justifica tu respuesta con base en medidas de dispersión.

library(dplyr)

## Warning: package 'dplyr' was built under R version 4.4.3

## 
## Adjuntando el paquete: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

# Calcular para cada variable
dispersion_metrics <- house_prices %>%
  summarise(
    # Price
     #desviacion estandar
    sd_price = sd(price, na.rm = TRUE),
    #coeficiente de variacion
    cv_price = (sd(price, na.rm = TRUE) / mean(price, na.rm = TRUE)) * 100,
     #Rango Intercuartílico (IQR)
    iqr_price = IQR(price, na.rm = TRUE),
    
    # Sqft_lot
    sd_sqft_lot = sd(sqft_lot, na.rm = TRUE),
    cv_sqft_lot = (sd(sqft_lot, na.rm = TRUE) / mean(sqft_lot, na.rm = TRUE)) * 100,
    iqr_sqft_lot = IQR(sqft_lot, na.rm = TRUE),
    
    # Bedrooms
    sd_bedrooms = sd(bedrooms, na.rm = TRUE),
    cv_bedrooms = (sd(bedrooms, na.rm = TRUE) / mean(bedrooms, na.rm = TRUE)) * 100,
    iqr_bedrooms = IQR(bedrooms, na.rm = TRUE)
  )

print(dispersion_metrics)

##   sd_price cv_price iqr_price sd_sqft_lot cv_sqft_lot iqr_sqft_lot sd_bedrooms
## 1 367127.2 67.97542    323050    41420.51    274.1815         5648   0.9300618
##   cv_bedrooms iqr_bedrooms
## 1    27.59138            1

print(paste())

## character(0)

library(patchwork)

## Warning: package 'patchwork' was built under R version 4.4.3

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.4.3

p1 <- ggplot(house_prices, aes(x = price)) + 
  geom_density(fill = "steelblue") + 
  ggtitle("Price (CV = 67.98%)")

p2 <- ggplot(house_prices, aes(x = sqft_lot)) + 
  geom_density(fill = "red") + 
  scale_x_log10() + 
  ggtitle("Sqft_lot (CV = 274.18%)")

p3 <- ggplot(house_prices, aes(x = bedrooms)) + 
  geom_bar(fill = "forestgreen") + 
  ggtitle("Bedrooms (CV = 27.59%)")

(p1 | p2 | p3) + plot_layout(ncol = 3)

Dispersión Relativa (CV):

sqft_lot (274.18%): Muestra la mayor variabilidad relativa. Esto indica que el tamaño de los lotes varía enormemente en proporción a su tamaño promedio (posiblemente algunos lotes muy grandes entre muchos pequeños).

price (67.98%): Dispersión moderada-alta. Los precios varían considerablemente alrededor de la media.

bedrooms (27.59%): La menos dispersa. La mayoría de viviendas tienen un número similar de habitaciones.

Dispersión Absoluta (SD e IQR):

price tiene la mayor dispersión absoluta (SD=367K, IQR=323K), lo que refleja grandes diferencias de precio entre propiedades.

sqft_lot muestra una SD alta (41K) pero un IQR relativamente bajo (5,648), sugiriendo que los valores extremos afectan fuertemente la desviación estándar.

bedrooms es la más homogénea (IQR=1, SD=0.93), indicando que el 50% central de las viviendas difiere en solo 1 habitación.

¿Qué variable presenta mayor número de ceros: sqft_basement o yr_renovated?

ninguno tiene datos perdidos

house_prices$sqft_basement[is.na(house_prices$sqft_basement)]

## integer(0)

house_prices$yr_renovated[is.na(house_prices$yr_renovated)]

## integer(0)

¿Qué tipo de gráfico usarías para representar la distribución de price? Realizar el grafico

usar ungrafico de histgrama con curva de densidad.

library(ggplot2)

ggplot(house_prices, aes(x = price)) +
  geom_density(fill = "steelblue", alpha = 0.6) +
  labs(title = "Distribución de Precios de Viviendas",
       x = "Precio",
       y = "Densidad") +
  theme_minimal()

ggplot(house_prices, aes(x = price)) +
  geom_histogram(aes(y = ..density..), 
                 bins = 30, 
                 fill = "lightblue", 
                 color = "white") +
  geom_density(color = "red", linewidth = 1) +
  labs(title = "Distribución de Precios",
       subtitle = "Histograma con curva de densidad",
       x = "Precio",
       y = "Densidad")

## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

Dibuja un histograma para la variable sqft_living. Describe brevemente la forma de la distribución.

hist(house_prices$sqft_living)

print(paste("el mayor número de viviedas tienen entre 1000 y 3000 pies cuadrados."))

## [1] "el mayor número de viviedas tienen entre 1000 y 3000 pies cuadrados."

taller 2 Estadistica Descriptiva

Maura Cuellar

2025-04-04

Preguntas