Cargue el archivo realEstatedata.csv proveído por el profesor.Pongale el nombre que usted desee.
df <- read.csv("realEstatedata2.csv",sep = ";")
Para las variables precio y m2_de_construccion realice lo siguiente: Obtenga la desviación estándar de ambas variables e interprete
library(dplyr)
casas <- df %>%
group_by(categoria) %>%
summarise(sdm2construccion = sd(m2_de_construccion,na.rm = TRUE),
sdprecio = sd(precio,na.rm = TRUE),
)
casas
## # A tibble: 3 x 3
## categoria sdm2construccion sdprecio
## <chr> <dbl> <dbl>
## 1 "" 510. 343868.
## 2 "Casas" 175. 221149.
## 3 "Proyectos nuevos" NA NA
En cuanto a la desviación estándar, podemos observar que:
Obtenga un resumen de los tipos de datos del dataframe original, en el que muestre que tipo de variable es cada columna
str(df)
## 'data.frame': 300 obs. of 28 variables:
## $ id : int 10885302 11089430 11717462 11743717 11980900 11984117 12579647 12930992 13256737 13707929 ...
## $ altura : chr "" "" "" "" ...
## $ ano_de_construccion : int NA 2018 NA NA NA NA NA NA NA NA ...
## $ balcon_terraza : chr "terraza" "terraza" "terraza" "" ...
## $ banos : chr "3.5" "" "2.5" "2.5" ...
## $ categoria : chr "" "" "" "Casas" ...
## $ costos_de_mantenimiento : int 220 NA NA NA NA NA 240000 NA NA NA ...
## $ direccion_exacta : chr "" "" "" "" ...
## $ enviado : chr "21/10/2020" "2/11/2020" "" "25/10/2020" ...
## $ localizacion : chr "Santa Ana" "Santa Ana" "" "San Rafael" ...
## $ m2 : chr "" "" "" "" ...
## $ m2.1 : int NA NA NA NA NA NA NA NA NA NA ...
## $ m2_de_construccion : num 217 NA 254 150 95 NA 326 202 800 250 ...
## $ niveles : int NA 4 2 NA NA NA NA NA NA NA ...
## $ parking : chr "2" "" "2" "3" ...
## $ piscina : chr "si" "si" "no" "" ...
## $ piso_numero : chr "" "" "" "" ...
## $ precio : num 269000 360000 NA 298000 95082 ...
## $ precio_m2_de_construccion: chr "1,239.63" "1,333.33" "" "66.22" ...
## $ precio_m2_de_terreno : chr "996.29" "1,607.14" "" "" ...
## $ precio_m2 : chr "" "" "" "" ...
## $ recamaras : chr "3" "3" "3" "" ...
## $ tamano_del_lote : chr "270" "224" "" "" ...
## $ tipo_de_pisos : chr "" "Porcelanato" "Porcelanato" "" ...
## $ description : chr "" "" "" "Casa hermosa muy comoda con excelente distribucion amplios espacios buena ventilacion y mucha luz natural \"| __truncated__ ...
## $ feature : chr "" "" "Dispensador de agua caliente Calentador de agua" "Dispensador de agua caliente Calentador de agua" ...
## $ land_sq_meter : num NA NA NA NA NA NA NA NA NA NA ...
## $ title : chr "" "" "" "Casas en Santa Ana VENTA CASA SANTA ANA 165 000 SANTA ANA RC171" ...
¿Cuáles variables no tienen el tipo correcto?
Convierta la variable piso_numero a su formato correcto( guarde en un nuevo dataframe y muestre el resultado)
piso_numero <- as.numeric(df$piso_numero)
piso_numero
## [1] NA NA NA NA NA NA NA 2 NA NA NA NA NA 2 NA NA 1 NA NA NA NA NA 1 NA NA
## [26] NA NA NA NA NA NA NA NA NA 1 NA NA NA NA NA 4 NA NA NA NA NA NA NA NA NA
## [51] NA NA NA NA NA NA 2 NA NA NA NA NA NA 1 NA NA NA NA NA NA NA NA NA NA NA
## [76] NA NA 2 NA NA NA NA NA 2 NA NA NA NA NA 2 NA 1 NA NA NA NA NA NA NA NA
## [101] NA NA NA NA NA NA NA NA NA NA NA 1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## [126] 1 NA NA NA NA 2 NA NA NA NA NA NA NA NA NA NA 2 NA NA NA NA NA NA NA NA
## [151] 1 NA NA NA NA 1 NA NA NA 1 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## [176] NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA 8 NA NA NA
## [201] NA NA NA NA 8 NA NA NA NA NA NA NA NA NA NA 1 NA NA NA NA NA NA NA NA NA
## [226] NA NA NA NA NA 2 NA NA NA NA NA NA 1 NA NA NA 2 NA NA NA NA NA NA NA NA
## [251] NA NA NA NA NA NA NA NA NA NA NA NA 9 NA NA NA NA NA NA NA NA NA NA NA NA
## [276] NA NA NA NA NA NA NA 2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA