Parte 1: Estadística Multivariada

Introducción

Este documento presenta un comparativo de los resultados de predicción de datos entre diferentes modelos de regresión numérica. Para este ejercicio se usa el conjunto de datos Boston disponible e la librería ISLR2. Este es un conjunto de datos comúnmente usado para la ilustración de aplicación de modelos de regresión. James, G., Witten, D., Hastie, T., & Tibshirani en su libro An Introduction to Statistical Learning presentan el desarrollo de una regresión lineal simple y una regresión lineal múltiple, entre otras, usando el dataset mencionado; R.Chollet, F., & Allaire, J. J en su libro Deep Learning with R explican la aplicación de modelos de Redes Neuronales Artificiales en regresiones numéricas haciendo uso de este conjunto de datos, solo por mencionar algunos.

1.1. Exploración inicial del conjunto de datos

El dataset Boston utilizado en este desarrollo se carga desde la librería ISRL2 (librería que hace parte del libro An Introduction to Statistical Learning with Applications in R Second Edition) presenta 13 variables con información promedio de las viviendas en la ciudad de Boston (otras versiones de este conjunto de datos contemplan una variable más) . En este ejercicio se contempla una única variable dependiente que hace referencia al valor medio de las viviendas (en miles de dólares) que está en función de las características promedio de las viviendas y del vecindario:

  1. CRIM - razón de crimen per cápita del vecindario
  2. ZN - proporción de terreno residencial zonificado (lotes por encima de 25 mil pies cuadrados)
  3. INDUS - proporción de negocios no minoristas (grandes empresas o industrias)
  4. CHAS - Proximidad al río Charles (1 si limita con el río; 0 para los demás casos)
  5. NOX - concentración de óxido nítrico (partes por 10 millones)
  6. RM - número medio de habitaciones por vivienda
  7. AGE - proporción de unidades ocupadas por sus propietarios (construidas antes de 1940)
  8. DIS - distancia ponderada a los cinco centros de empleo de la ciudad
  9. RAD - índice de accesibilidad a las autopistas
  10. TAX - tasa de impuesto de la propiedad por cada 10mil dólares
  11. PTRATIO - razón maestros-alumnos en el vecindario
  12. LSTAT - porcentaje de población de bajo estrato en el vecindario
  13. MEDV - valor medio de las viviendas ocupadas en el vecindario (miles de dólares)

El conjunto de datos dispone de 506 observaciones.

Dataset Boston
crim zn indus chas nox rm age dis rad tax ptratio lstat medv
0.00632 18 2.31 0 0.538 6.575 65.2 4.0900 1 296 15.3 4.98 24.0
0.02731 0 7.07 0 0.469 6.421 78.9 4.9671 2 242 17.8 9.14 21.6
0.02729 0 7.07 0 0.469 7.185 61.1 4.9671 2 242 17.8 4.03 34.7
0.03237 0 2.18 0 0.458 6.998 45.8 6.0622 3 222 18.7 2.94 33.4
0.06905 0 2.18 0 0.458 7.147 54.2 6.0622 3 222 18.7 5.33 36.2
0.02985 0 2.18 0 0.458 6.430 58.7 6.0622 3 222 18.7 5.21 28.7
Resumen de las variables
crim zn indus chas nox rm age dis rad tax ptratio lstat medv
Min. : 0.00632 Min. : 0.00 Min. : 0.46 0:471 Min. :0.3850 Min. :3.561 Min. : 2.90 Min. : 1.130 24 :132 Min. :187.0 Min. :12.60 Min. : 1.73 Min. : 5.00
1st Qu.: 0.08205 1st Qu.: 0.00 1st Qu.: 5.19 1: 35 1st Qu.:0.4490 1st Qu.:5.886 1st Qu.: 45.02 1st Qu.: 2.100 5 :115 1st Qu.:279.0 1st Qu.:17.40 1st Qu.: 6.95 1st Qu.:17.02
Median : 0.25651 Median : 0.00 Median : 9.69 NA Median :0.5380 Median :6.208 Median : 77.50 Median : 3.207 4 :110 Median :330.0 Median :19.05 Median :11.36 Median :21.20
Mean : 3.61352 Mean : 11.36 Mean :11.14 NA Mean :0.5547 Mean :6.285 Mean : 68.57 Mean : 3.795 3 : 38 Mean :408.2 Mean :18.46 Mean :12.65 Mean :22.53
3rd Qu.: 3.67708 3rd Qu.: 12.50 3rd Qu.:18.10 NA 3rd Qu.:0.6240 3rd Qu.:6.623 3rd Qu.: 94.08 3rd Qu.: 5.188 6 : 26 3rd Qu.:666.0 3rd Qu.:20.20 3rd Qu.:16.95 3rd Qu.:25.00
Max. :88.97620 Max. :100.00 Max. :27.74 NA Max. :0.8710 Max. :8.780 Max. :100.00 Max. :12.127 2 : 24 Max. :711.0 Max. :22.00 Max. :37.97 Max. :50.00
NA NA NA NA NA NA NA NA (Other): 61 NA NA NA NA

La variable dependiente “medv” toma valores entre 5 y 50, es decir, el valor de las casas en Boston oscila entre 5mil y 50mil dólares (es de anotar que la información del dataset se publicó por primera vez en el año 1978: https://lib.stat.cmu.edu/datasets/boston); el valor promedio es de 22.530 dólares y el 75% de las observaciones registran un valor medio menor o igual a 25mil dólares.

1.1.1. Análisis gráfico de la dispersión de los datos

En el caso del valor medio de las propiedades, la información descrita anteriormente se podría visualizar gráficamente así:

En cuanto a las variables independientes, la dispersión de los datos se presenta en la siguiente gráfica (previo se modifica estandariza la escala de los datos de tal manera que pueda compararse su dispersión)

Para las variables numéricas (se excluye “chas” y “rad”) se evidencia variabilidad considerable para “crim” y en menor proporción para “rm” y “zn”. La dispersión total (que se presentara más adelante con el calculo de varianza total) supone un reto para los modelos planteados en cuando a su precisión y capacidad de predicción.

Con respecto a las variables categóricas incluidas en el conjunto de datos, mediante un gráfico de barras se presentan los valores más frecuentes. En el caso de la variable “chas”, la mayoría de las observaciones se relacionan a vecindarios que no están en la rivera del río Charles mientras que para el índice de accesibilidad a las autopistas (rad) los valores 4, 5 y 24 son los más frecuentes.

La relación existente entre las variables independientes y la variable de respuesta se puede observar mediante gráfico de pares, el cual presenta datos relevantes para determinar aquellas variables que presentan una mayor influencia en la variable de respuesta y así tener una idea inicial respecto a cuales podrían explicar su variabilidad. En este gráfico se excluyen las variables categóricas.

Los resultados de correlación proporcionan información importante respecto a posible explicación de la varianza de la variable de respuesta (esto es, en función de las variables independientes) y en cuanto a la existencia o no de colinealidad (relación entre las variables independientes). Para la interpretación de los resultados de coeficiente de correlación nos enfocamos en aquellos que están alrededor de 0.7 o por encima. La función ggpairs (de la librería GGally) con la cual se construyó el anterior gráfico presenta los resultados de correlación calculados con el método “Pearson”.

Frente a los resultado se resalta lo siguiente:

  • Los valores absolutos más altos de correlación se encuentran alrededor de 0.7.

  • La variable de respuesta presenta la mayor correlación con la variable lstat la cual está en -0.738, siendo esta negativa, es decir a medida que aumenta el valor de lstat disminuye el valor de medv.

  • Un valor de correlación frente a la variable de respuesta que está muy cerca a 0.7 es rm, esta correlación se posiciona en 0.695, esto es, una relación directamente proporcional.

  • Las demás variables independientes no tienen un nivel de correlación importante, pues los valores absolutos de correlación se encuentran alrededor de 0.5 y 0.2.

  • Al analizar las variables independientes se evidencia que nox tiene un nivel de correlación importante con tres variables: age, dis e indus de las cuales se tiene coeficientes de correlación de 0.731, -0.769 y 0.764, respectivamente, entre dis y age se observa una relación -0.748.

  • Otra variable con unos valores importantes de relación es indus, adicional a la ya mencionada con nox, se observan valores de R de 0.645 con la variable age, -0.708 con la variable dis y 0.721 con la variable tax.

Si bien las conclusiones anteriormente expuestas requieren pruebas de hipótesis que permitan concluir que estos resultados son válidos y aplicables a toda la población, el gráfico de correlación presentado incluye información implícita de dicha prueba lo que permite soportarlas. No obstante en una sección posterior se lo valores que permitan concluir si existe o no relación entre variables.

1.2. Medición de la varianza y relación entre variables

1.2.1 Matriz de covarianza

La matriz de covarianza valida los resultados de correlación anteriormente presentados en cuanto a la dirección de la relación existente entre par de variables, esto es, si es inversamente proporcional (valores negativos) o directamente proporcional (valores positivos). Las “cantidad”” de varianza (diagonal) y de covarianza no pueden interpretarse teniendo en cuenta las magnitudes de la matriz por si solos, se debe acompañar con los valores de la medias.

crim zn indus nox rm age dis tax ptratio lstat medv
crim 73.987 -40.216 23.992 0.420 -1.325 85.405 -6.877 844.822 5.399 27.986 -30.719
zn -40.216 543.937 -85.413 -1.396 5.113 -373.902 32.629 -1236.454 -19.777 -68.783 77.315
indus 23.992 -85.413 47.064 0.607 -1.888 124.514 -10.228 833.360 5.692 29.580 -30.521
nox 0.420 -1.396 0.607 0.013 -0.025 2.386 -0.188 13.046 0.047 0.489 -0.455
rm -1.325 5.113 -1.888 -0.025 0.494 -4.752 0.304 -34.583 -0.541 -3.080 4.493
age 85.405 -373.902 124.514 2.386 -4.752 792.358 -44.329 2402.690 15.937 121.078 -97.589
dis -6.877 32.629 -10.228 -0.188 0.304 -44.329 4.434 -189.665 -1.060 -7.473 4.840
tax 844.822 -1236.454 833.360 13.046 -34.583 2402.690 -189.665 28404.759 168.153 654.715 -726.256
ptratio 5.399 -19.777 5.692 0.047 -0.541 15.937 -1.060 168.153 4.687 5.783 -10.111
lstat 27.986 -68.783 29.580 0.489 -3.080 121.078 -7.473 654.715 5.783 50.995 -48.448
medv -30.719 77.315 -30.521 -0.455 4.493 -97.589 4.840 -726.256 -10.111 -48.448 84.587

1.2.2. Matriz de correlaciones

Los resultados presentados en la matriz a continuación son los mismos observados en el gráfico de pares (se usa el mismo método), sin embargo, los valores se extraen en una tabla para posteriormente calcular los p-valor.

crim zn indus nox rm age dis tax ptratio lstat medv
crim 1.00 -0.20 0.41 0.42 -0.22 0.35 -0.38 0.58 0.29 0.46 -0.39
zn -0.20 1.00 -0.53 -0.52 0.31 -0.57 0.66 -0.31 -0.39 -0.41 0.36
indus 0.41 -0.53 1.00 0.76 -0.39 0.64 -0.71 0.72 0.38 0.60 -0.48
nox 0.42 -0.52 0.76 1.00 -0.30 0.73 -0.77 0.67 0.19 0.59 -0.43
rm -0.22 0.31 -0.39 -0.30 1.00 -0.24 0.21 -0.29 -0.36 -0.61 0.70
age 0.35 -0.57 0.64 0.73 -0.24 1.00 -0.75 0.51 0.26 0.60 -0.38
dis -0.38 0.66 -0.71 -0.77 0.21 -0.75 1.00 -0.53 -0.23 -0.50 0.25
tax 0.58 -0.31 0.72 0.67 -0.29 0.51 -0.53 1.00 0.46 0.54 -0.47
ptratio 0.29 -0.39 0.38 0.19 -0.36 0.26 -0.23 0.46 1.00 0.37 -0.51
lstat 0.46 -0.41 0.60 0.59 -0.61 0.60 -0.50 0.54 0.37 1.00 -0.74
medv -0.39 0.36 -0.48 -0.43 0.70 -0.38 0.25 -0.47 -0.51 -0.74 1.00

Los datos de la siguiente matriz son los p-valor que me permiten, frente a la definición del nivel de significancia, concluir respecto a la existencia o no de correlación, es decir, si el coeficiente de correlación es cero o diferente de cero:

Ho: R = 0

Ha: R != 0

Los p-valores calculados con un nivel de confianza de 95% son:

crim zn indus nox rm age dis tax ptratio lstat medv
crim 0.0000000 0.0064143 0.0013776 0.0017872 0.0059140 0.0038309 0.0033845 0.0001535 0.0114604 0.0007654 0.0014867
zn 0.0064143 0.0000000 0.0000194 0.0000395 0.0098110 0.0000074 0.0000080 0.0003783 0.0040136 0.0005412 0.0040217
indus 0.0013776 0.0000194 0.0000000 0.0000002 0.0018720 0.0000055 0.0000036 0.0000017 0.0050873 0.0000334 0.0006035
nox 0.0017872 0.0000395 0.0000002 0.0000000 0.0061668 0.0000005 0.0000002 0.0000176 0.0211178 0.0001112 0.0023123
rm 0.0059140 0.0098110 0.0018720 0.0061668 0.0000000 0.0089022 0.0215207 0.0016618 0.0017603 0.0000239 0.0000019
age 0.0038309 0.0000074 0.0000055 0.0000005 0.0089022 0.0000000 0.0000002 0.0001760 0.0177054 0.0001531 0.0033525
dis 0.0033845 0.0000080 0.0000036 0.0000002 0.0215207 0.0000002 0.0000000 0.0001278 0.0242711 0.0007686 0.0102364
tax 0.0001535 0.0003783 0.0000017 0.0000176 0.0016618 0.0001760 0.0001278 0.0000000 0.0023680 0.0000588 0.0002877
ptratio 0.0114604 0.0040136 0.0050873 0.0211178 0.0017603 0.0177054 0.0242711 0.0023680 0.0000000 0.0027193 0.0004639
lstat 0.0007654 0.0005412 0.0000334 0.0001112 0.0000239 0.0001531 0.0007686 0.0000588 0.0027193 0.0000000 0.0000018
medv 0.0014867 0.0040217 0.0006035 0.0023123 0.0000019 0.0033525 0.0102364 0.0002877 0.0004639 0.0000018 0.0000000

En este orden de ideas, ninguno de los p-valor observados son mayores a 0.05, por lo que en todos los casos se rechaza la hipótesis que establece que la correlación es 0.

1.2.3. Evaluación de multicolinealidad

Con base en el anterior resultado y los coeficientes se puede concluir respecto al “nivel de colinealidad” por pares de variables independientes. En la siguiente gráfica, para círculos grandes, tendientes a color azul existe una correlación positiva mientras que para círculos grandes, tendientes a color rojo existe una correlación negativa.

Los resultados obtenidos en esta primera parte permiten identificar que variables pueden tener más impacto en modelos de regresión, cuales podrían excluirse de los modelos a plantearse y adicionalmente reconocer que cierta combinación de variables (que presentan colinealidad) podrían afectar los modelos resultantes en cuanto a la precisión en las predicciones.