Para el desarrollo del taller final se buscó una base de datos que se clasifica como un corte transversal. Este conjunto de datos contiene los precios de las casas en la ciudad de Boston sobre la base de 16 características de vivienda para 506 distritos censales de Boston del censo de 1970.
Las variables que se encuentran en la base de datos BostonHousing2 se resumen en la siguiente tabla:
| Nombre | Descripción de la Variable | Tipo de Variable |
|---|---|---|
| crim | Tasa de criminalidad per cápita por ciudad | Numérica |
| zn | Proporción de suelo residencial zonificado para lotes de más de 25,000 pies cuadrados | Numérica |
| indus | Proporción de acres comerciales no minoristas por ciudad | Numérica |
| chas | Variable ficticia de Charles River (= 1 si el tramo limita con el río; 0 en caso contrario) | Categórica |
| nox | Concentración de óxidos nítricos (partes por 10 millones) | Numérica |
| rm | Promedio de cuartos por vivienda | Numérica |
| age | Proporción de unidades ocupadas por sus propietarios construidas antes de 1940 | Numérica |
| dis | Distancias ponderadas a cinco centros de empleo de Boston | Numérica |
| rad | Índice de accesibilidad a carreteras radiales | Categórica |
| tax | Tasa de impuesto a la propiedad de valor total por USD 10,000 | Categórica |
| ptratio | Proporción de alumnos por maestro por ciudad | Numérica |
| b | Proporción de gente de raza negra por ciudad | Numérica |
| lstat | Porcentaje de estatus inferior de la población | Numérica |
| cmedv | Valor medio de las viviendas ocupadas por sus propietarios en miles de USD | Numérica |
| tract | Tramo censal | Categórica |
| lon | Longitud del sector censal | Numérica |
| lat | Latitud del sector censal | Numérica |
A traves de los datos de BostonHousing2 se intenta explicar el comportamiento del valor medio de las viviendas ocupadas por sus propietarios en miles de USD solo por medio de las variables relevantes descritas a continuación:
Para finalmente crear el siguiente modelo de regresión multiple:
\[ cmedv_i = \beta_0 + \beta_1crim_i + \beta_2zn_i + \beta_3chas_i + \beta_4nox_i + \beta_5rm_i + \beta_6dis_i+ \beta_7rad_i + \beta_8tax_i + \beta_9ptratio_i + \beta_{11}b_i + \beta_{11}lstat_i + \epsilon_i \]
Directorio de Trabajo
setwd("C:/Programacion en R/1. INF. PARA ECONOMISTAS/SISECO-EJ11")
Librerias Necesarias
library(tidyverse)
library(GGally)
library(corrplot)
Base de Datos Utilizada
if(!require('mlbench')) {
install.packages('mlbench')
library('mlbench')
}
data(BostonHousing2)
View(BostonHousing2)
DATA <- BostonHousing2 %>%
select(crim, zn, indus, chas, nox, rm, age, dis, rad, tax, ptratio, b, lstat,
tract, lon, lat, cmedv)
glimpse(DATA)
View(DATA)
Modelos de Regresión
M1<-lm(data = DATA, cmedv ~.)
summary(M1)
M2<-lm(data = DATA, cmedv ~. - indus - age - tract - lon - lat)
summary(M2)
plot(M2)
setwd("C:/Programacion en R/1. INF. PARA ECONOMISTAS/SISECO-EJ11")
library(tidyverse)
library(GGally)
library(corrplot)
if(!require('mlbench')) {
install.packages('mlbench')
library('mlbench')
}
data(BostonHousing2)
DATA <- BostonHousing2 %>%
select(crim, zn, indus, chas, nox, rm, age, dis, rad, tax, ptratio, b, lstat,
tract, lon, lat, cmedv)
M1<-lm(data = DATA, cmedv ~.)
summary(M1)
##
## Call:
## lm(formula = cmedv ~ ., data = DATA)
##
## Residuals:
## Min 1Q Median 3Q Max
## -16.0059 -2.7057 -0.6068 1.6900 25.7237
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.608e+02 3.223e+02 -0.809 0.418749
## crim -1.051e-01 3.257e-02 -3.227 0.001334 **
## zn 4.447e-02 1.378e-02 3.228 0.001333 **
## indus 1.444e-02 6.166e-02 0.234 0.814988
## chas1 2.520e+00 8.645e-01 2.915 0.003715 **
## nox -1.634e+01 4.012e+00 -4.071 5.45e-05 ***
## rm 3.792e+00 4.166e-01 9.100 < 2e-16 ***
## age 2.636e-03 1.333e-02 0.198 0.843366
## dis -1.400e+00 2.085e-01 -6.713 5.29e-11 ***
## rad 2.256e-01 8.409e-02 2.683 0.007545 **
## tax -1.345e-02 3.738e-03 -3.598 0.000354 ***
## ptratio -9.295e-01 1.401e-01 -6.635 8.60e-11 ***
## b 9.124e-03 2.659e-03 3.431 0.000652 ***
## lstat -5.370e-01 5.034e-02 -10.668 < 2e-16 ***
## tract -6.972e-04 4.427e-04 -1.575 0.115976
## lon -5.158e+00 3.455e+00 -1.493 0.136153
## lat -1.594e+00 5.327e+00 -0.299 0.764852
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.693 on 489 degrees of freedom
## Multiple R-squared: 0.747, Adjusted R-squared: 0.7388
## F-statistic: 90.26 on 16 and 489 DF, p-value: < 2.2e-16
M2<-lm(data = DATA, cmedv ~. - indus - age - tract - lon - lat)
summary(M2)
##
## Call:
## lm(formula = cmedv ~ . - indus - age - tract - lon - lat, data = DATA)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.566 -2.686 -0.552 1.790 26.167
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 36.244827 5.022209 7.217 2.02e-12 ***
## crim -0.106657 0.032487 -3.283 0.001099 **
## zn 0.047099 0.013402 3.514 0.000481 ***
## chas1 2.727209 0.846606 3.221 0.001360 **
## nox -17.316823 3.503652 -4.943 1.06e-06 ***
## rm 3.778662 0.402685 9.384 < 2e-16 ***
## dis -1.520270 0.184071 -8.259 1.35e-15 ***
## rad 0.296555 0.062836 4.720 3.08e-06 ***
## tax -0.012077 0.003342 -3.613 0.000333 ***
## ptratio -0.917035 0.127912 -7.169 2.77e-12 ***
## b 0.009202 0.002650 3.473 0.000561 ***
## lstat -0.528441 0.047001 -11.243 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.694 on 494 degrees of freedom
## Multiple R-squared: 0.7444, Adjusted R-squared: 0.7387
## F-statistic: 130.8 on 11 and 494 DF, p-value: < 2.2e-16
En esta sección solo se van a interpretar los estimadores asociados a variables cuantitativas, es decir que se van a pasar por alto las interpretaciones de las variables cualitativas chas, rad y tax.
Cuando la variable crim aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye en 0.106657 miles de USD, suponiendo todo lo demás constante.
Cuando la variable zn aumenta en una 1 unidad, el precio medio de las viviendas de Boston aumenta en 0.047099 miles de USD, suponiendo todo lo demás constante.
Cuando la variable nox aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye en 17.316823 miles de USD, suponiendo todo lo demás constante.
Cuando la variable rm aumenta en una 1 unidad, el precio medio de las viviendas de Boston aumenta en 3.778662 miles de USD, suponiendo todo lo demás constante.
Cuando la variable dis aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye en 1.520270 miles de USD, suponiendo todo lo demás constante.
Cuando la variable ptratio aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye 0.917035 miles de USD, suponiendo todo lo demás constante.
Cuando la variable b aumenta en una 1 unidad, el precio medio de las viviendas de Boston aumenta 0.009202 miles de USD, suponiendo todo lo demás constante.
Cuando la variable lstat aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye 0.528441 miles de USD, suponiendo todo lo demás constante.
La variable dependiente crim es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 5%.
La variable dependiente zn es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente chas es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 5%.
La variable dependiente nox es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente rm es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente dis es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente rad es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente tax es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente ptratio es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente b es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente lstat es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
Las variables independientes incorporadas en el modelo explican la variación del precio medio de las viviendas de Boston en un 73.87% considerando los grados de libertad.