##Análisis de Datos de Vivienda #Instalar Paquetes
Hay que instalar los paquetes manualmente ya que al Kinitiar no permite que instalemos los paquetes para publicar
#Llamar paquetes
#Cargue de Datos
El setwd se usa para que en adelante todos los archivos que se llamen se busquen esa ruta y no tener que volver a escribir todo. En windows hay que cambiar los backslsh por slash / cuando se copia la ruta Una vez ejecutado el setwd podemos llamar archivos directamente sin poner toda la ruta hay que revisar porque al aprecer la IA no recomienda usar este comando, sino llamar el archivo con la ruta completa
setwd("/Users/edisonrianoumana/Downloads")
viviendas=read_excel("datos_vivienda.xlsx")
head(viviendas)
## # A tibble: 6 × 2
## Area_contruida precio_millon
## <dbl> <dbl>
## 1 86 250
## 2 118 385
## 3 130 395
## 4 181 419
## 5 86 240
## 6 98 320
#Análisis descriptivo Área El comando attach, me permite llamar columnas sin tener que usar el nombre del DataFrame y el $
El usar Attach es una MALA PRÁCTICA
attach(viviendas)
min_a =min(Area_contruida)
prom_a = mean(Area_contruida)
desv_a = sd(Area_contruida)
p25_a = quantile(Area_contruida, prob = c(0.25)) #Q1
p50_a= quantile(Area_contruida, prob = c(0.50)) #Mediana
p75_a= quantile(Area_contruida, prob = c(0.75)) #Q3
max_a=max(Area_contruida)
#Vamos a agrupar estos valores en un Data.Frame
data.frame(min_a,prom_a,desv_a,p25_a,p50_a,p75_a, max_a)
## min_a prom_a desv_a p25_a p50_a p75_a max_a
## 25% 80 115.7469 35.54332 86 97 130 195
#Análisis descriptivo Precio
min_p =min(precio_millon)
prom_p = mean(precio_millon)
desv_p= sd(precio_millon)
p25_p = quantile(precio_millon, prob = c(0.25)) #Q1
p50_p= quantile(precio_millon, prob = c(0.50)) #Mediana
p75_p= quantile(precio_millon, prob = c(0.75)) #Q3
max_p=max(precio_millon)
#Vamos a agrupar estos valores en un Data.Frame
data.frame(min_p,prom_p,desv_p,p25_p,p50_p,p75_p,max_p)
## min_p prom_p desv_p p25_p p50_p p75_p max_p
## 25% 240 332.0769 82.14423 251.25 305 395 480
#Graficar Histograma
En el siguiente link se encuentran los colores en R https://r-charts.com/es/colores/ Para llamar los colores se puede por el nombre directamente o por su código Hexadecimal
ggplot(viviendas,aes(Area_contruida)) + geom_histogram(bins = 30,
fill = "bisque",
color="black") + theme_minimal() + labs(title= "Histograma de Área Construida",
x= "Área m^2",
y ="Frecuencia")
ggplot(viviendas,aes(precio_millon)) + geom_histogram(bins = 30,
fill = "cadetblue",
color="black") + theme_minimal() + labs(title= "Histograma de Precio",
x= "Precio en Millones",
y ="Frecuencia")
#BoxPlot
par(mfrow = c(1,2)) #Dibujar varios gráficos: 1 fila dos columnas
boxplot(Area_contruida, col="bisque", main="BXP Área Construida", ylab="m^2")
boxplot(precio_millon, col="cadetblue", main="BXP Precio", ylab="Millones de Pesos")
#Plot / Dispersión de 2 Variables
Es una gráfica de dispersión básica en puntos de DOS columnas seleccionadas pch, es la forma de los puntos que queremos, puede ser circulo, rombo, triangulo, etc. 21 para círculo, para fijar el relleno se debe usar primero la función pch.
plot(Area_contruida, precio_millon,pch=21, bg="red",col="black", main = "Dispersión Precio vs Área", ylab = "Precio en millones", xlab = "Área Construida en m2")
#Correlación
cor(precio_millon,Area_contruida)
## [1] 0.9190295
modelo_lm = lm(precio_millon~Area_contruida)
summary(modelo_lm)
##
## Call:
## lm(formula = precio_millon ~ Area_contruida)
##
## Residuals:
## Min 1Q Median 3Q Max
## -51.673 -25.612 -6.085 24.875 67.650
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 86.234 22.479 3.836 0.000796 ***
## Area_contruida 2.124 0.186 11.422 3.45e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 33.05 on 24 degrees of freedom
## Multiple R-squared: 0.8446, Adjusted R-squared: 0.8381
## F-statistic: 130.5 on 1 and 24 DF, p-value: 3.45e-11
#Graficar la Regresión Realizada
plot(Area_contruida, precio_millon,pch=21, bg="red",col="black", main = "Dispersión Precio vs Área", ylab = "Precio en millones", xlab = "Área Construida en m2")
abline(modelo_lm, col="cadetblue",lwd=2)
#Conclusiones Finales
Se realiza una interpretación básica de los resultados del modelo, principalmente se resalta un buen R^2 de 0,83
Se publicará el código en la siguiente plataforma: https://rpubs.com/