Grupo 03: Kervin Alfaro, Karol Esquivel

Ejercicio #1

Cargue el archivo realEstatedata.csv proveído por el profesor.Pongale el nombre que usted desee.

df <- read.csv("realEstatedata2.csv",sep = ";")

Ejercicio #2 y 3

Guarde un nuevo dataframe filtrando solamente por categoría casas

Para las variables precio y m2_de_construccion realice lo siguiente: Obtenga la desviación estándar de ambas variables e interprete

library(dplyr)

casas <- df %>%
  group_by(categoria) %>%
  summarise(sdm2construccion = sd(m2_de_construccion,na.rm = TRUE),
            sdprecio = sd(precio,na.rm = TRUE),
  )
casas
## # A tibble: 3 x 3
##   categoria          sdm2construccion sdprecio
##   <chr>                         <dbl>    <dbl>
## 1 ""                             510.  343868.
## 2 "Casas"                        175.  221149.
## 3 "Proyectos nuevos"              NA       NA
En cuanto a la desviación estándar, podemos observar que:
  • Para la variable m2 de construcción: La desviación estándar de las construcciones sin categoría o categoría " " (en blanco) es mayor que la de la categoría casas 510 > 175. Esto quiere decir que los registros de m2 de las construcciones con categoría “en blanco” tienen mayor disperción que los datos registrados para las casas.
  • Para la variable precio: Al igual que con m2 de construccion la categoría " " (en blanco) tiene una desviación estándar mayor 343868 > 221149 En ambas situaciones vemos que los datos de la categoría " " tienen mayor dispersión con respecto a la media.

Ejercicio #4

Obtenga un resumen de los tipos de datos del dataframe original, en el que muestre que tipo de variable es cada columna

str(df)
## 'data.frame':    300 obs. of  28 variables:
##  $ id                       : int  10885302 11089430 11717462 11743717 11980900 11984117 12579647 12930992 13256737 13707929 ...
##  $ altura                   : chr  "" "" "" "" ...
##  $ ano_de_construccion      : int  NA 2018 NA NA NA NA NA NA NA NA ...
##  $ balcon_terraza           : chr  "terraza" "terraza" "terraza" "" ...
##  $ banos                    : chr  "3.5" "" "2.5" "2.5" ...
##  $ categoria                : chr  "" "" "" "Casas" ...
##  $ costos_de_mantenimiento  : int  220 NA NA NA NA NA 240000 NA NA NA ...
##  $ direccion_exacta         : chr  "" "" "" "" ...
##  $ enviado                  : chr  "21/10/2020" "2/11/2020" "" "25/10/2020" ...
##  $ localizacion             : chr  "Santa Ana" "Santa Ana" "" "San Rafael" ...
##  $ m2                       : chr  "" "" "" "" ...
##  $ m2.1                     : int  NA NA NA NA NA NA NA NA NA NA ...
##  $ m2_de_construccion       : num  217 NA 254 150 95 NA 326 202 800 250 ...
##  $ niveles                  : int  NA 4 2 NA NA NA NA NA NA NA ...
##  $ parking                  : chr  "2" "" "2" "3" ...
##  $ piscina                  : chr  "si" "si" "no" "" ...
##  $ piso_numero              : chr  "" "" "" "" ...
##  $ precio                   : num  269000 360000 NA 298000 95082 ...
##  $ precio_m2_de_construccion: chr  "1,239.63" "1,333.33" "" "66.22" ...
##  $ precio_m2_de_terreno     : chr  "996.29" "1,607.14" "" "" ...
##  $ precio_m2                : chr  "" "" "" "" ...
##  $ recamaras                : chr  "3" "3" "3" "" ...
##  $ tamano_del_lote          : chr  "270" "224" "" "" ...
##  $ tipo_de_pisos            : chr  "" "Porcelanato" "Porcelanato" "" ...
##  $ description              : chr  "" "" "" "Casa hermosa  muy comoda  con excelente distribucion  amplios espacios  buena ventilacion y mucha luz natural \"| __truncated__ ...
##  $ feature                  : chr  "" "" "Dispensador de agua caliente  Calentador de agua" "Dispensador de agua caliente  Calentador de agua" ...
##  $ land_sq_meter            : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ title                    : chr  "" "" "" "Casas en Santa Ana   VENTA CASA SANTA ANA 165 000 SANTA ANA RC171" ...
¿Cuáles variables no tienen el tipo correcto?
Las variables que no tienen asignado el tipo correcto son:
  • altura: chr / debería ser: num, ejemplo: 11.5 mtrs
  • banos: chr / debería ser int o bien num si se quiere expresar por ejemplo: 2.5 baños
  • costos_de_mantenimiento: num
  • enviado: chr / debería ser date
  • m2: chr / debería ser num
  • m2.1 int / mejor asignarle el tipo num para que acepte datos (metros) no enteros, ejemplo 200.75 mts.
  • parking: chr / debería ser int
  • precio_m2_de_construccion: chr / debería ser: num
  • precio_m2_de_terreno: chr / debería ser: num
  • precio_m2: chr / debería ser: num
  • recamaras: chr / debería ser: num, por ejemplo si se quiere decir que hay 2.5 recámaras, como es costumbre en ciertos lugares dependiendo del tamaño de las habitaciones.
  • tamano_del_lote: chr / debería ser: num

Ejercicio #5

Convierta la variable piso_numero a su formato correcto( guarde en un nuevo dataframe y muestre el resultado)

piso_numero <- as.numeric(df$piso_numero)
piso_numero
##   [1] NA NA NA NA NA NA NA  2 NA NA NA NA NA  2 NA NA  1 NA NA NA NA NA  1 NA NA
##  [26] NA NA NA NA NA NA NA NA NA  1 NA NA NA NA NA  4 NA NA NA NA NA NA NA NA NA
##  [51] NA NA NA NA NA NA  2 NA NA NA NA NA NA  1 NA NA NA NA NA NA NA NA NA NA NA
##  [76] NA NA  2 NA NA NA NA NA  2 NA NA NA NA NA  2 NA  1 NA NA NA NA NA NA NA NA
## [101] NA NA NA NA NA NA NA NA NA NA NA  1 NA NA NA NA NA NA NA NA NA NA NA NA NA
## [126]  1 NA NA NA NA  2 NA NA NA NA NA NA NA NA NA NA  2 NA NA NA NA NA NA NA NA
## [151]  1 NA NA NA NA  1 NA NA NA  1  2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## [176] NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA  8 NA NA NA
## [201] NA NA NA NA  8 NA NA NA NA NA NA NA NA NA NA  1 NA NA NA NA NA NA NA NA NA
## [226] NA NA NA NA NA  2 NA NA NA NA NA NA  1 NA NA NA  2 NA NA NA NA NA NA NA NA
## [251] NA NA NA NA NA NA NA NA NA NA NA NA  9 NA NA NA NA NA NA NA NA NA NA NA NA
## [276] NA NA NA NA NA NA NA  2 NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA