Taller Final

TALLER FINAL DE INFORMÁTICA PARA ECONOMISTAS I

Introducción

Para el desarrollo del taller final se buscó una base de datos que se clasifica como un corte transversal. Este conjunto de datos contiene los precios de las casas en la ciudad de Boston sobre la base de 16 características de vivienda para 506 distritos censales de Boston del censo de 1970.

Clasificación de Variables

Las variables que se encuentran en la base de datos BostonHousing2 se resumen en la siguiente tabla:

Nombre	Descripción de la Variable	Tipo de Variable
crim	Tasa de criminalidad per cápita por ciudad	Numérica
zn	Proporción de suelo residencial zonificado para lotes de más de 25,000 pies cuadrados	Numérica
indus	Proporción de acres comerciales no minoristas por ciudad	Numérica
chas	Variable ficticia de Charles River (= 1 si el tramo limita con el río; 0 en caso contrario)	Categórica
nox	Concentración de óxidos nítricos (partes por 10 millones)	Numérica
rm	Promedio de cuartos por vivienda	Numérica
age	Proporción de unidades ocupadas por sus propietarios construidas antes de 1940	Numérica
dis	Distancias ponderadas a cinco centros de empleo de Boston	Numérica
rad	Índice de accesibilidad a carreteras radiales	Categórica
tax	Tasa de impuesto a la propiedad de valor total por USD 10,000	Categórica
ptratio	Proporción de alumnos por maestro por ciudad	Numérica
b	Proporción de gente de raza negra por ciudad	Numérica
lstat	Porcentaje de estatus inferior de la población	Numérica
cmedv	Valor medio de las viviendas ocupadas por sus propietarios en miles de USD	Numérica
tract	Tramo censal	Categórica
lon	Longitud del sector censal	Numérica
lat	Latitud del sector censal	Numérica

El Modelo de Regresión Multiple

A traves de los datos de BostonHousing2 se intenta explicar el comportamiento del valor medio de las viviendas ocupadas por sus propietarios en miles de USD solo por medio de las variables relevantes descritas a continuación:

crim
zn
chas1
nox
rm
dis
rad
tax
ptratio
b
lstat

Para finalmente crear el siguiente modelo de regresión multiple:

\[ cmedv_i = \beta_0 + \beta_1crim_i + \beta_2zn_i + \beta_3chas_i + \beta_4nox_i + \beta_5rm_i + \beta_6dis_i+ \beta_7rad_i + \beta_8tax_i + \beta_9ptratio_i + \beta_{11}b_i + \beta_{11}lstat_i + \epsilon_i \]

El Modelo de Regresión Multiple en R

Directorio de Trabajo

setwd("C:/Programacion en R/1. INF. PARA ECONOMISTAS/SISECO-EJ11")

Librerias Necesarias

library(tidyverse)
library(GGally)
library(corrplot)

Base de Datos Utilizada

if(!require('mlbench')) {
  install.packages('mlbench')
  library('mlbench')
}

data(BostonHousing2)
View(BostonHousing2)

DATA <- BostonHousing2 %>% 
  select(crim, zn, indus, chas, nox, rm, age, dis, rad, tax, ptratio, b, lstat,
         tract, lon, lat, cmedv)
glimpse(DATA)
View(DATA)

Modelos de Regresión

M1<-lm(data = DATA, cmedv ~.)
summary(M1)

M2<-lm(data = DATA, cmedv ~. - indus - age - tract - lon - lat)
summary(M2)
plot(M2)

Código Completo en R

setwd("C:/Programacion en R/1. INF. PARA ECONOMISTAS/SISECO-EJ11")

library(tidyverse)
library(GGally)
library(corrplot)

if(!require('mlbench')) {
  install.packages('mlbench')
  library('mlbench')
}

data(BostonHousing2)

DATA <- BostonHousing2 %>% 
  select(crim, zn, indus, chas, nox, rm, age, dis, rad, tax, ptratio, b, lstat,
         tract, lon, lat, cmedv)

M1<-lm(data = DATA, cmedv ~.)
summary(M1)

## 
## Call:
## lm(formula = cmedv ~ ., data = DATA)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -16.0059  -2.7057  -0.6068   1.6900  25.7237 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2.608e+02  3.223e+02  -0.809 0.418749    
## crim        -1.051e-01  3.257e-02  -3.227 0.001334 ** 
## zn           4.447e-02  1.378e-02   3.228 0.001333 ** 
## indus        1.444e-02  6.166e-02   0.234 0.814988    
## chas1        2.520e+00  8.645e-01   2.915 0.003715 ** 
## nox         -1.634e+01  4.012e+00  -4.071 5.45e-05 ***
## rm           3.792e+00  4.166e-01   9.100  < 2e-16 ***
## age          2.636e-03  1.333e-02   0.198 0.843366    
## dis         -1.400e+00  2.085e-01  -6.713 5.29e-11 ***
## rad          2.256e-01  8.409e-02   2.683 0.007545 ** 
## tax         -1.345e-02  3.738e-03  -3.598 0.000354 ***
## ptratio     -9.295e-01  1.401e-01  -6.635 8.60e-11 ***
## b            9.124e-03  2.659e-03   3.431 0.000652 ***
## lstat       -5.370e-01  5.034e-02 -10.668  < 2e-16 ***
## tract       -6.972e-04  4.427e-04  -1.575 0.115976    
## lon         -5.158e+00  3.455e+00  -1.493 0.136153    
## lat         -1.594e+00  5.327e+00  -0.299 0.764852    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.693 on 489 degrees of freedom
## Multiple R-squared:  0.747,  Adjusted R-squared:  0.7388 
## F-statistic: 90.26 on 16 and 489 DF,  p-value: < 2.2e-16

M2<-lm(data = DATA, cmedv ~. - indus - age - tract - lon - lat)
summary(M2)

## 
## Call:
## lm(formula = cmedv ~ . - indus - age - tract - lon - lat, data = DATA)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -15.566  -2.686  -0.552   1.790  26.167 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  36.244827   5.022209   7.217 2.02e-12 ***
## crim         -0.106657   0.032487  -3.283 0.001099 ** 
## zn            0.047099   0.013402   3.514 0.000481 ***
## chas1         2.727209   0.846606   3.221 0.001360 ** 
## nox         -17.316823   3.503652  -4.943 1.06e-06 ***
## rm            3.778662   0.402685   9.384  < 2e-16 ***
## dis          -1.520270   0.184071  -8.259 1.35e-15 ***
## rad           0.296555   0.062836   4.720 3.08e-06 ***
## tax          -0.012077   0.003342  -3.613 0.000333 ***
## ptratio      -0.917035   0.127912  -7.169 2.77e-12 ***
## b             0.009202   0.002650   3.473 0.000561 ***
## lstat        -0.528441   0.047001 -11.243  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.694 on 494 degrees of freedom
## Multiple R-squared:  0.7444, Adjusted R-squared:  0.7387 
## F-statistic: 130.8 on 11 and 494 DF,  p-value: < 2.2e-16

Interpretación de los Estimadores

En esta sección solo se van a interpretar los estimadores asociados a variables cuantitativas, es decir que se van a pasar por alto las interpretaciones de las variables cualitativas chas, rad y tax.

Cuando la variable crim aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye en 0.106657 miles de USD, suponiendo todo lo demás constante.
Cuando la variable zn aumenta en una 1 unidad, el precio medio de las viviendas de Boston aumenta en 0.047099 miles de USD, suponiendo todo lo demás constante.
Cuando la variable nox aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye en 17.316823 miles de USD, suponiendo todo lo demás constante.
Cuando la variable rm aumenta en una 1 unidad, el precio medio de las viviendas de Boston aumenta en 3.778662 miles de USD, suponiendo todo lo demás constante.
Cuando la variable dis aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye en 1.520270 miles de USD, suponiendo todo lo demás constante.
Cuando la variable ptratio aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye 0.917035 miles de USD, suponiendo todo lo demás constante.
Cuando la variable b aumenta en una 1 unidad, el precio medio de las viviendas de Boston aumenta 0.009202 miles de USD, suponiendo todo lo demás constante.
Cuando la variable lstat aumenta en una 1 unidad, el precio medio de las viviendas de Boston disminuye 0.528441 miles de USD, suponiendo todo lo demás constante.

Interpretación de los p-valores

La variable dependiente crim es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 5%.
La variable dependiente zn es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente chas es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 5%.
La variable dependiente nox es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente rm es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente dis es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente rad es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente tax es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente ptratio es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente b es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.
La variable dependiente lstat es relevante para explicar el precio medio de las viviendas de Boston con un nivel de significancia del 1%.

Interpretación del Coeficiente de Determinación Ajustado

Las variables independientes incorporadas en el modelo explican la variación del precio medio de las viviendas de Boston en un 73.87% considerando los grados de libertad.