##Análisis de Datos de Vivienda #Instalar Paquetes

Hay que instalar los paquetes manualmente ya que al Kinitiar no permite que instalemos los paquetes para publicar

#Llamar paquetes

#Cargue de Datos

El setwd se usa para que en adelante todos los archivos que se llamen se busquen esa ruta y no tener que volver a escribir todo. En windows hay que cambiar los backslsh  por slash / cuando se copia la ruta Una vez ejecutado el setwd podemos llamar archivos directamente sin poner toda la ruta hay que revisar porque al aprecer la IA no recomienda usar este comando, sino llamar el archivo con la ruta completa

setwd("/Users/edisonrianoumana/Downloads")
viviendas=read_excel("datos_vivienda.xlsx")
head(viviendas)
## # A tibble: 6 × 2
##   Area_contruida precio_millon
##            <dbl>         <dbl>
## 1             86           250
## 2            118           385
## 3            130           395
## 4            181           419
## 5             86           240
## 6             98           320

#Análisis descriptivo Área El comando attach, me permite llamar columnas sin tener que usar el nombre del DataFrame y el $

El usar Attach es una MALA PRÁCTICA

attach(viviendas)
min_a =min(Area_contruida)
prom_a = mean(Area_contruida)
desv_a = sd(Area_contruida)
p25_a = quantile(Area_contruida, prob = c(0.25)) #Q1
p50_a= quantile(Area_contruida, prob = c(0.50)) #Mediana
p75_a= quantile(Area_contruida, prob = c(0.75)) #Q3
max_a=max(Area_contruida)
#Vamos a agrupar estos valores en un Data.Frame

data.frame(min_a,prom_a,desv_a,p25_a,p50_a,p75_a, max_a)
##     min_a   prom_a   desv_a p25_a p50_a p75_a max_a
## 25%    80 115.7469 35.54332    86    97   130   195

#Análisis descriptivo Precio

min_p =min(precio_millon)
prom_p = mean(precio_millon)
desv_p= sd(precio_millon)
p25_p = quantile(precio_millon, prob = c(0.25)) #Q1
p50_p= quantile(precio_millon, prob = c(0.50)) #Mediana
p75_p= quantile(precio_millon, prob = c(0.75)) #Q3
max_p=max(precio_millon)
#Vamos a agrupar estos valores en un Data.Frame

data.frame(min_p,prom_p,desv_p,p25_p,p50_p,p75_p,max_p)
##     min_p   prom_p   desv_p  p25_p p50_p p75_p max_p
## 25%   240 332.0769 82.14423 251.25   305   395   480

#Graficar Histograma

En el siguiente link se encuentran los colores en R https://r-charts.com/es/colores/ Para llamar los colores se puede por el nombre directamente o por su código Hexadecimal

ggplot(viviendas,aes(Area_contruida)) + geom_histogram(bins = 30,
                                                       fill = "bisque",
                                                       color="black") + theme_minimal() + labs(title= "Histograma de Área Construida",
                      x= "Área m^2",
                      y ="Frecuencia")

ggplot(viviendas,aes(precio_millon)) + geom_histogram(bins = 30,
                                                       fill = "cadetblue",
                                                       color="black") + theme_minimal() + labs(title= "Histograma de Precio",
                      x= "Precio en Millones",
                      y ="Frecuencia")

#BoxPlot

par(mfrow = c(1,2)) #Dibujar varios gráficos: 1 fila dos columnas
boxplot(Area_contruida, col="bisque", main="BXP Área Construida", ylab="m^2")
boxplot(precio_millon, col="cadetblue", main="BXP Precio", ylab="Millones de Pesos")

#Plot / Dispersión de 2 Variables

Es una gráfica de dispersión básica en puntos de DOS columnas seleccionadas pch, es la forma de los puntos que queremos, puede ser circulo, rombo, triangulo, etc. 21 para círculo, para fijar el relleno se debe usar primero la función pch.

plot(Area_contruida, precio_millon,pch=21, bg="red",col="black", main = "Dispersión Precio vs Área", ylab = "Precio en millones", xlab = "Área Construida en m2")

#Correlación

cor(precio_millon,Area_contruida)
## [1] 0.9190295

Modelo de Regresión Lineal

modelo_lm = lm(precio_millon~Area_contruida)
summary(modelo_lm)
## 
## Call:
## lm(formula = precio_millon ~ Area_contruida)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -51.673 -25.612  -6.085  24.875  67.650 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      86.234     22.479   3.836 0.000796 ***
## Area_contruida    2.124      0.186  11.422 3.45e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared:  0.8446, Adjusted R-squared:  0.8381 
## F-statistic: 130.5 on 1 and 24 DF,  p-value: 3.45e-11

#Graficar la Regresión Realizada

plot(Area_contruida, precio_millon,pch=21, bg="red",col="black", main = "Dispersión Precio vs Área", ylab = "Precio en millones", xlab = "Área Construida en m2")

abline(modelo_lm, col="cadetblue",lwd=2)

#Conclusiones Finales

Se realiza una interpretación básica de los resultados del modelo, principalmente se resalta un buen R^2 de 0,83

Se publicará el código en la siguiente plataforma: https://rpubs.com/