TALLER FINAL DE INFORMÁTICA PARA ECONOMISTAS I

Introducción

Para el desarrollo del taller final se buscó una base de datos que se clasifica como un corte transversal. Este conjunto de datos contiene los precios de las casas en la ciudad de Boston sobre la base de 16 características de vivienda para 506 distritos censales de Boston del censo de 1970.

Clasificación de Variables

Las variables que se encuentran en la base de datos BostonHousing2 se resumen en la siguiente tabla:

Nombre Descripción de la Variable Tipo de Variable
crim Tasa de criminalidad per cápita por ciudad Numérica
zn Proporción de suelo residencial zonificado para lotes de más de 25,000 pies cuadrados Numérica
indus Proporción de acres comerciales no minoristas por ciudad Numérica
chas Variable ficticia de Charles River (= 1 si el tramo limita con el río; 0 en caso contrario) Categórica
nox Concentración de óxidos nítricos (partes por 10 millones) Numérica
rm Promedio de cuartos por vivienda Numérica
age Proporción de unidades ocupadas por sus propietarios construidas antes de 1940 Numérica
dis Distancias ponderadas a cinco centros de empleo de Boston Numérica
rad Índice de accesibilidad a carreteras radiales Categórica
tax Tasa de impuesto a la propiedad de valor total por USD 10,000 Categórica
ptratio Proporción de alumnos por maestro por ciudad Numérica
b Proporción de gente de raza negra por ciudad Numérica
lstat Porcentaje de estatus inferior de la población Numérica
cmedv Valor medio de las viviendas ocupadas por sus propietarios en miles de USD Numérica
tract Tramo censal Categórica
lon Longitud del sector censal Numérica
lat Latitud del sector censal Numérica
El Modelo de Regresión Multiple

A traves de los datos de BostonHousing2 se intenta explicar el comportamiento del valor medio de las viviendas ocupadas por sus propietarios en miles de USD solo por medio de las variables relevantes descritas a continuación:

  • crim
  • zn
  • chas1
  • nox
  • rm
  • dis
  • rad
  • tax
  • ptratio
  • b
  • lstat

Para finalmente crear el siguiente modelo de regresión multiple:

\[ cmedv_i = \beta_0 + \beta_1crim_i + \beta_2zn_i + \beta_3chas_i + \beta_4nox_i + \beta_5rm_i + \beta_6dis_i+ \beta_7rad_i + \beta_8tax_i + \beta_9ptratio_i + \beta_{11}b_i + \beta_{11}lstat_i + \epsilon_i \]

El Modelo de Regresión Multiple en R

Directorio de Trabajo

setwd("C:/Programacion en R/1. INF. PARA ECONOMISTAS/SISECO-EJ11")

Librerias Necesarias

library(tidyverse)
library(GGally)
library(corrplot)

Base de Datos Utilizada

if(!require('mlbench')) {
  install.packages('mlbench')
  library('mlbench')
}

data(BostonHousing2)
View(BostonHousing2)

DATA <- BostonHousing2 %>% 
  select(crim, zn, indus, chas, nox, rm, age, dis, rad, tax, ptratio, b, lstat,
         tract, lon, lat, cmedv)
glimpse(DATA)
View(DATA)

Modelos de Regresión

M1<-lm(data = DATA, cmedv ~.)
summary(M1)

M2<-lm(data = DATA, cmedv ~. - indus - age - tract - lon - lat)
summary(M2)
plot(M2)
Código Completo en R
setwd("C:/Programacion en R/1. INF. PARA ECONOMISTAS/SISECO-EJ11")

library(tidyverse)
library(GGally)
library(corrplot)

if(!require('mlbench')) {
  install.packages('mlbench')
  library('mlbench')
}

data(BostonHousing2)

DATA <- BostonHousing2 %>% 
  select(crim, zn, indus, chas, nox, rm, age, dis, rad, tax, ptratio, b, lstat,
         tract, lon, lat, cmedv)

M1<-lm(data = DATA, cmedv ~.)
summary(M1)
## 
## Call:
## lm(formula = cmedv ~ ., data = DATA)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -16.0059  -2.7057  -0.6068   1.6900  25.7237 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2.608e+02  3.223e+02  -0.809 0.418749    
## crim        -1.051e-01  3.257e-02  -3.227 0.001334 ** 
## zn           4.447e-02  1.378e-02   3.228 0.001333 ** 
## indus        1.444e-02  6.166e-02   0.234 0.814988    
## chas1        2.520e+00  8.645e-01   2.915 0.003715 ** 
## nox         -1.634e+01  4.012e+00  -4.071 5.45e-05 ***
## rm           3.792e+00  4.166e-01   9.100  < 2e-16 ***
## age          2.636e-03  1.333e-02   0.198 0.843366    
## dis         -1.400e+00  2.085e-01  -6.713 5.29e-11 ***
## rad          2.256e-01  8.409e-02   2.683 0.007545 ** 
## tax         -1.345e-02  3.738e-03  -3.598 0.000354 ***
## ptratio     -9.295e-01  1.401e-01  -6.635 8.60e-11 ***
## b            9.124e-03  2.659e-03   3.431 0.000652 ***
## lstat       -5.370e-01  5.034e-02 -10.668  < 2e-16 ***
## tract       -6.972e-04  4.427e-04  -1.575 0.115976    
## lon         -5.158e+00  3.455e+00  -1.493 0.136153    
## lat         -1.594e+00  5.327e+00  -0.299 0.764852    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.693 on 489 degrees of freedom
## Multiple R-squared:  0.747,  Adjusted R-squared:  0.7388 
## F-statistic: 90.26 on 16 and 489 DF,  p-value: < 2.2e-16
M2<-lm(data = DATA, cmedv ~. - indus - age - tract - lon - lat)
summary(M2)
## 
## Call:
## lm(formula = cmedv ~ . - indus - age - tract - lon - lat, data = DATA)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -15.566  -2.686  -0.552   1.790  26.167 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  36.244827   5.022209   7.217 2.02e-12 ***
## crim         -0.106657   0.032487  -3.283 0.001099 ** 
## zn            0.047099   0.013402   3.514 0.000481 ***
## chas1         2.727209   0.846606   3.221 0.001360 ** 
## nox         -17.316823   3.503652  -4.943 1.06e-06 ***
## rm            3.778662   0.402685   9.384  < 2e-16 ***
## dis          -1.520270   0.184071  -8.259 1.35e-15 ***
## rad           0.296555   0.062836   4.720 3.08e-06 ***
## tax          -0.012077   0.003342  -3.613 0.000333 ***
## ptratio      -0.917035   0.127912  -7.169 2.77e-12 ***
## b             0.009202   0.002650   3.473 0.000561 ***
## lstat        -0.528441   0.047001 -11.243  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.694 on 494 degrees of freedom
## Multiple R-squared:  0.7444, Adjusted R-squared:  0.7387 
## F-statistic: 130.8 on 11 and 494 DF,  p-value: < 2.2e-16
Interpretación de los Estimadores

En esta sección solo se van a interpretar los estimadores asociados a variables cuantitativas, es decir que se van a pasar por alto las interpretaciones de las variables cualitativas chas, rad y tax.

  • Cuando la variable crim aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye en 0.106657 miles de USD, suponiendo todo lo demás constante.

  • Cuando la variable zn aumenta en una 1 unidad, el precio medio de las viviendas de Boston aumenta en 0.047099 miles de USD, suponiendo todo lo demás constante.

  • Cuando la variable nox aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye en 17.316823 miles de USD, suponiendo todo lo demás constante.

  • Cuando la variable rm aumenta en una 1 unidad, el precio medio de las viviendas de Boston aumenta en 3.778662 miles de USD, suponiendo todo lo demás constante.

  • Cuando la variable dis aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye en 1.520270 miles de USD, suponiendo todo lo demás constante.

  • Cuando la variable ptratio aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye 0.917035 miles de USD, suponiendo todo lo demás constante.

  • Cuando la variable b aumenta en una 1 unidad, el precio medio de las viviendas de Boston aumenta 0.009202 miles de USD, suponiendo todo lo demás constante.

  • Cuando la variable lstat aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye 0.528441 miles de USD, suponiendo todo lo demás constante.

Interpretación de los p-valores
  • La variable dependiente crim es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 5%.

  • La variable dependiente zn es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

  • La variable dependiente chas es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 5%.

  • La variable dependiente nox es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

  • La variable dependiente rm es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

  • La variable dependiente dis es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

  • La variable dependiente rad es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

  • La variable dependiente tax es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

  • La variable dependiente ptratio es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

  • La variable dependiente b es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

  • La variable dependiente lstat es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

Interpretación del Coeficiente de Determinación Ajustado

Las variables independientes incorporadas en el modelo explican la variación del precio medio de las viviendas de Boston en un 73.87% considerando los grados de libertad.