Presentación.

En este documento se seguirá trabajando con los datos y las variables utilizadas respecto del documento sobre regresión lineal simple, que se vio anteriormente.
Sin embargo, en este documento se hace una explicación de corte práctica y operativa sobre la implementación de un modelo de regresión múltiple, y se dejará de lado la referencia a los supuestos teórico estadísticos que sustentan a los resultados.

Los elementos a abordar en este documento son:

  • Examinar los datos antes de ajustar el modelo.
  • Encajando el modelo.
  • Comprobando los supuestos del modelo.
  • Interpretar la salida del modelo.
  • Evaluación de la bondad de ajuste del modelo.
  • Usar el modelo para hacer predicciones.

0. Ambiente de trabajo.

A continuación se recomienda realizar algunos de los ajustes para configurar a R previo al proceso del tratamiento de los datos.

Al comenzar siempre es importante establecer el idioma adecuado para que el programa reconozca caractreres especiales. En el caso de definir al idioma español, la instrucción a utilizar es:

Sys.setlocale("LC_ALL", "en_US.UTF-8")
## [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8"
Sys.setenv(LANG = "spa")

También es importante instalar las librerías que se utilizarán posteriormente:

library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.1 ──
## ✓ ggplot2 3.3.5     ✓ purrr   0.3.4
## ✓ tibble  3.1.6     ✓ dplyr   1.0.7
## ✓ tidyr   1.1.4     ✓ stringr 1.4.0
## ✓ readr   2.1.2     ✓ forcats 0.5.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(PerformanceAnalytics)
## Loading required package: xts
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
## Attaching package: 'xts'
## The following objects are masked from 'package:dplyr':
## 
##     first, last
## 
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
## 
##     legend
library(equatiomatic)

Finalmente se debe cargar la base de datos o data frame en el ambiente del programa, con el que se analizará la información. Para ello habrá que “cargar” la información sobre el Índice de Desarrollo Humano generado por el PNUD-ONU para cada uno de los municipios en México en el año 2000 y 2005.

datos_idh <- read.csv("~/Dropbox/R/idh_mpio_2000_2005.csv", header = TRUE) #ruta de acceso a los datos, 'header = TRUE' en caso de que el archivo cuente con nombres de las variables.

Y ahora se debe explorar la estructura de la matriz de datos para identificar las dimensiones de la base así como el tipo de variables registradas en el data frame.

str(datos_idh)
## 'data.frame':    2454 obs. of  22 variables:
##  $ id_mpio                      : int  9014 19019 20350 9016 9003 19046 8019 28009 15054 15020 ...
##  $ entidad                      : chr  "Distrito Federal" "Nuevo León" "Oaxaca" "Distrito Federal" ...
##  $ mpio                         : chr  "Benito Juárez" "San Pedro Garza García" "San Sebastián Tutla" "Miguel Hidalgo" ...
##  $ clasificacion_2000           : int  1 2 16 4 3 6 13 21 9 20 ...
##  $ grado_idh_2005               : chr  "alto" "alto" "alto" "alto" ...
##  $ idh_2000                     : num  0.916 0.892 0.854 0.882 0.884 ...
##  $ clasificacion_2005           : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ idh_2005                     : num  0.951 0.95 0.92 0.919 0.917 ...
##  $ tasa_moralidad_infantil_2000 : num  17.6 18.4 18 19.1 18.8 ...
##  $ tasa_mortalidad_infantil_2005: num  3.02 3.19 5.28 7.3 6.96 ...
##  $ tasa_alfabetizacion_2000     : num  98.9 97.9 97.3 97.9 97.5 ...
##  $ tasa_alfabetizacion_2005     : num  97.7 98.3 98.5 97.9 97.9 ...
##  $ tasa_asistencia_escolar_2000 : num  77.4 65.3 80.5 70.6 73.6 ...
##  $ tasa_asistencia_escolar_2005 : num  78.7 67.4 81.8 73.1 75.1 ...
##  $ usd_ppc_2000                 : num  31182 27914 10349 21290 20911 ...
##  $ usd_ppc_2005                 : num  27824 33813 16441 21549 19724 ...
##  $ indice_salud_2000            : num  0.874 0.868 0.871 0.862 0.864 ...
##  $ indice_salud_2005            : num  1 0.998 0.98 0.963 0.966 ...
##  $ indice_educacion_2000        : num  0.917 0.87 0.917 0.888 0.895 ...
##  $ indice_educacion_2005        : num  0.914 0.88 0.929 0.897 0.903 ...
##  $ indice_ingreso_2000          : num  0.958 0.94 0.774 0.895 0.892 ...
##  $ indice_ingreso_2005          : num  0.939 0.972 0.852 0.897 0.882 ...

1. Exploración descriptiva de los datos.

En este documento seguiremos trabajando con los datos sobre el Índice de Desarrollo Humano elaborado por el PNUD para los años del 2000 y 2005. Y se buscará explicar a la variable de la Tasa de Mortadilidad Infantil (\(Y\)) del año 2005, a partir de otra serie variables independientes: Ingreso per Cápita (\(X_1\)), Tasa de Alfabetización (\(X_2\)) y Tasa de Asistencia Escolar (\(X_3\)), todas para el año 2005. Con esto podemos crear un objeto que integre solo a las variables de interés.

idh_reg <- datos_idh %>%
  select(tasa_mortalidad_infantil_2005,
         tasa_alfabetizacion_2005,
         tasa_asistencia_escolar_2005,
         usd_ppc_2005)

A partir de estas variables, en el fondo se sigue evaluando el efecto que tiene el Ingreso per Cápita (\(X_1\)) sobre la Tasa de Mortalidad Infantil (\(Y\)), que se asume que es la variable causal más importante a entender. Sin embargo ahora surge la importancia de implementar un control sobre el efecto de \(X_1\) sobre \(Y\) para, así, identificar si la importancia de \(X_1\) depende, también, de otras variables o factores del contexto en que funciona en la realidad.

En un primer momento debemos examinar los datos de manera descriptiva para, así, evaluar si la regresión lineal múltiple será un buen modelo para ajustarse a la información existente. En particular, debemos verificar si las variables explicativas o independientes tienen una asociación lineal con la variable dependiente, lo que indicaría que un modelo de regresión lineal múltiple puede ser adecuado.

Para hacerlo, podemos usar la función pairs() para crear un diagrama de dispersión de cada posible par de variables:

chart.Correlation(idh_reg, #aquí se carga el objeto tipo matriz
                  histogram = TRUE, #se acepta la elaboración de histograma
                  method = "pearson") #se define el método estadístico para calcular la correlación

De este diagrama de pares podemos ver lo siguiente:

  • La tasa de mortalidad infantil tiene una asociación negativa y moderada con la Tasa de Alfabetización.
  • La tasa de mortalidad infantil tiene una asociación negativa y baja con la Tasa de Asistencia Escolar.
  • La tasa de mortalidad infantil tiene una asociación negativa y moderada con el Ingreso per Cápita, pero tiene una forma curva.

En gran medida se puede asumir que las variables tienen una asociación lineal con la variable dependiente, por lo que valdría la pena continuar con la construcción del modelo de regresión lineal múltiple.

2. Ajuste del modelo.

La realización de un modelo de regresión lineal múltiple supone que existirán más de una variable en la ecuación del lado de posición en que se ubican a las independientes o explicativas. Inicialmente se puede asumir que el efecto de estas variables es aditivo entre sí, o que sus efectos se suman, al momento de explicar de manera conjunta al comportamiento de la variable dependiente.

Este tipo de modelos se contruyen con el comando lm() de la siguiente forma:

lm (variable_respuesta ~ variable_predictor1 + variable_predictor2 + ..., datos = datos)

El modelo de regresión lineal múltiple para nuestros datos es el siguiente:

m1 <- lm(tasa_mortalidad_infantil_2005 ~  #Variable Dependiente
         usd_ppc_2005 +                   #Variable Independiente
         tasa_asistencia_escolar_2005 +   #Variable de control 1
         tasa_alfabetizacion_2005,        #Variable de control 2
         data = datos_idh)

Con esto se crea un objeto del tipo “lista” que contiene 13 elementos, y que serán utilizados en diversos momentos del análisis de la regresión lineal, a semejanza de la manera en que se revisa para el modelo simple.

3. Comprobación de supuestos del modelo.

Antes de proceder a verificar los resultados del modelo (significancia estadística del modelo y valores de los coeficientes de regresión), primero debemos verificar que se cumplan los supuestos del modelo. Es decir, necesitamos verificar lo siguiente:

  1. La distribución de los residuos del modelo debe ser aproximadamente normal.
    Podemos comprobar si se cumple esta suposición creando un histograma simple de residuos:
hist (resid(m1))

En el caso de la gráfica de histograma sobre la distribución de los valores de los residuos (\(e_i = \hat{Y} - Y_i\)) se observa que cuenta con una curva parecida a una distribución normal, la que también ubica al centro de su distirbución sobre el valor de 0 (cero). Esto hace pensar que sí cuenta con una distribución del tipo normal. Sin embargo se debe tomar en consideración que tiene un sesgo muy grande hacia la derecha. Por ello es necesario evaluar la forma de su distribución mediante una prueba estadística.

Otra forma de verificar su distribución normal de forma más precisa es mediante una prueba estadística sobre la normalidad de su distribución. Para ello se utiliza la prueba de Shapiro Wilkinson, que se manda a llamar con el comando shapiro.test().

shapiro.test(m1 $ residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  m1$residuals
## W = 0.92391, p-value < 2.2e-16

La H0 que se está evaluando consiste en que “la distribución de los residuos es igual a una distribución normal.” En este caso se debe rechazar H0. Y con este resultado se está infiriendo que los valores de los residuos no se distribuyen normalmente; esto es un problema inicial para este modelo y para la interpretación de sus resultados. Sin embargo, por cuestión de practicidad, se continuará en el desarrollo de este ejercicio.

  1. La varianza de los residuales debe ser consistente para todas las observaciones.  Esta condición se conoce como homocedasticidad. La violación de este supuesto se conoce como heterocedasticidad . Para comprobar gráficamente si se cumple esta suposición, podemos crear un valor ajustado (fitted values) frente a una gráfica residual:
plot(fitted.values(m1), #extraer los valores ajustados para Y
      resid(m1)) #extraer el valor de los residuos para cada caso X
abline(h = 0, lty = 2) #add línea horizontal en 0

Idealmente, lo que se busca encontrar es que los valores residuales estuvieran igualmente dispersos en cada valor ajustado (fitted value). Sin embargo esto no es lo que se observa en la gráfica, sino que ocurre que existe una tendencia creciente al aumento de los valores de los residuos en la parte superior de la gráfica, entre el rango de 0 a 30 fitted values. Esto es, conforme aumentan los valores ajustados (fitted values), tamién se tiende a incrementar el valor de los residuos, lo que da pie a la heteroscedasticidad de la varianza. Esto es indicativo de la falta de normalidad en la distribución de los residuos, confirmando lo visto en la prueba de normalidad en la distribución.

4. Interpretación de los valores del modelo de regresión aditiva.

Una vez que hayamos verificado que los supuestos del modelo se cumplen suficientemente, se pueden ver los valores calculados para el modelo usando la función summary():

options(scipen = 999)
summary(m1)
## 
## Call:
## lm(formula = tasa_mortalidad_infantil_2005 ~ usd_ppc_2005 + tasa_asistencia_escolar_2005 + 
##     tasa_alfabetizacion_2005, data = datos_idh)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -15.451  -3.542  -0.725   2.711  42.928 
## 
## Coefficients:
##                                 Estimate  Std. Error t value
## (Intercept)                  73.97817371  1.44802893   51.09
## usd_ppc_2005                 -0.00087216  0.00004614  -18.90
## tasa_asistencia_escolar_2005 -0.29936215  0.01923568  -15.56
## tasa_alfabetizacion_2005     -0.31801928  0.01268678  -25.07
##                                         Pr(>|t|)    
## (Intercept)                  <0.0000000000000002 ***
## usd_ppc_2005                 <0.0000000000000002 ***
## tasa_asistencia_escolar_2005 <0.0000000000000002 ***
## tasa_alfabetizacion_2005     <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.345 on 2450 degrees of freedom
## Multiple R-squared:  0.5682, Adjusted R-squared:  0.5677 
## F-statistic:  1075 on 3 and 2450 DF,  p-value: < 0.00000000000000022

A partir de los resultados de salida se pueden evaluar 2 dimensiones del modelo:

  1. La significancia estadística y la bondad de ajuste del modelo en general.
  2. El valor del coeficiente de correlación para cada variable, controlando por el efecto del resto de variables.

4.1. Significancia y bondad de ajuste del modelo.

Al evaluar la pertinencia del modelo de regresión múltiple que se diseñó, se puede evaluar tanto su bondad de ajuste así como, también, su significancia estadística.

La bondad de ajuste del modelo se calcula a partir del valor del coeficiente de determinación, o R cuadrado. Debido a que se trata de un modelo de regresión múltiple, se debe observar el valor del coeficiente R cuadrado ajustado, pues este realiza ajustes en su cálculo a medida que se añade una variable nueva en el modelo.

En el caso del modelo diseñado hasta el momento, el valor calculado de R cuadrado ajustado es de una proporción de 0.5677. Si este valor se transforma en valores porcentuales (0.5677 * 100 = 56.77%), se puede establecer que el modelo permite explicar al 56.77% de los casos de \(Y\). O, dicho de otra manera, a partir de las variables incluidas en el modelo de regresión se puede entender el comportamiento de más de la mitad de los casos de la variable dependiente (\(Y\)) incluidos en la muestra.

Por su parte, la significancia estadística del modelo se calcula a partir de una prueba de distribución de varianzas, que se apoya en el cálculo del estadístico de distribución F de Fisher, y mediante el que se puede calcular el p-value asociado a la hipótesis nula del modelo mismo. En este caso, la \(H_a\) plantea que el modelo explica al 56.77% de los casos, mientras que la H0 plantea que el modelo estadístico no explica lo indicado por el R cuadrado ajustado.

El p-value asociado al modelo está por debajo de un nivel de significancia (\(\alpha\)) de 0.05, por lo que se puede rechazar a la H0 como la mejor explicación posible. Y, por descarte, podemos asumir la pertinencia de nuestra \(H_a\) para explicar a la variable dependiente (\(Y\)) en la población que atañe al estudio.

4.2. Coeficientes de regresión y control estadístico.

Una vez que se ha aceptado la utilidad explicativa del modelo en la población de estudio, tras la prueba de significancia del modelo mismo, se puede avanzar a la revisión de cada uno de los coeficientes de regresión asociados a cada variable incluida.

De manera inicial se identifica que todas las variables son estadísticamente significativas. Esto se observa a partir de los valores del p-value asociado a cada una de las variables y a sus coeficientes de regresión. Asimismo se confirma mediante la cantidad de asteriscos ubicados a un costado de cada p-value. Estos nos refieren el nivel de significancia estadística en que se evaluó cada p-value.

Posteriormente se puede identificar el valor de cada coeficiente de regresión:

  1. Para el caso de la variable independiente \(X_1\), Ingreso per Cápita, es de -0.00087216, con un error estándar de 0.00004614 unidades de desviación estándar.
  2. Para el caso de la variable independiente \(X_2\), Tasa de asistencia escolar, es de -0.29936215, con un error estándar de 0.01923568 unidades de desviación estándar.
  3. Para el caso de la variable independiente \(X_3\), Tasa de alfabetización, es de -0.31801928, con un error estándar de 0.01268678 unidades de desviación estándar.

Un elemento que se puede resaltar en este momento es el signo negativo en los 3 coeficientes de regresión. Con esto se confirma la correlación negativa que se observó al inicio del análisis.

A la vez, otro elemento que se observa consiste en el tamaño del error estándar de cada coeficiente de regresión. Todos se encuentran por debajo de una unidad de desviación estándar, lo que es indicativo de errores pequeños. Esto permite inferir que los valores de los coeficientes de regresión son buenos predictores del comportamiento de \(Y\).

A partir de estos valores calculados se puede construir el modelo de regresión, definiendo las magnitudes para cada elemento en la ecuación del modelo mismo.

equatiomatic::extract_eq(m1, use_coefs = TRUE)

\[ \operatorname{\widehat{tasa\_mortalidad\_infantil\_2005}} = 73.98 + 0(\operatorname{usd\_ppc\_2005}) - 0.3(\operatorname{tasa\_asistencia\_escolar\_2005}) - 0.32(\operatorname{tasa\_alfabetizacion\_2005}) \]

4.3. Interpretación de los coeficientes de regresión.

Una vez que se evaluó la significancia estadística de las variables del modelo, es importante realizar la interpretación de cada uno de los coeficientes de regresión asociado a cada variable incluida.

Es importante tener en consideración que uno de los principales aportes analíticos de los modelos de regresión consiste en la capacidad de ejercer control estadístico del efecto de cada una de las variables simultáneamente, ante la inclusión de otras variables intervinientes. De esta manera cada vez que se incluye una nueva variable interviniente (\(X_{n-1}\)), se está descontando o controlando su efecto sobre el efecto que, a su vez, ejerce la variable independiente de interés (\(X_1\)).

A partir de esta consideración sobre la importancia del control de las variables intervinientes, la interpretación de los coeficientes de regresión adoptan una estructura específica, de la siguiente manera:

  1. En el caso de la variable \(X_1\) se puede interpretar de manera que, con un nivel de confianza del 95%, por cada aumento en una unidad del Ingreso per Cápita (medido en dólares al año), la tasa de mortalidad infantil (\(Y\)) decrecerá en 0.00087216 unidades (medido en el número de fallecimientos de niños menores a 1 año de edad por cada 1000 nacimientos), descontando (o controlando) el efecto del resto de las condiciones incluidas en el modelo.
  2. En el caso de la variable \(X_2\) se puede interpretar de manera que, con un nivel de confianza del 95%, por cada aumento en una unidad en la tasa de asistencia escolar (medido como la población que asiste a la escuela entre 6 y 24 años de entre la población de 6 a 24 años de 2005.), la tasa de mortalidad infantil (\(Y\)) decrecerá en 0.29936215 unidades, descontando, controlando o manteniendo constante el resto de las condiciones.
  3. En el caso de la variable \(X_3\) se puede interpretar como: con un nivel de confianza del 95%, por cada aumento de una unidad en la tasa de alfabetización (medido como la población alfabeta de 15 y más años de entre la población de 15 y más años de edad), la tasa de mortalidad infantil (\(Y\)) decrecerá en 0.31801928 unidades, manteniendo constante el resto de las condiciones.

De esta manera se ha construido un modelo de regresión lineal múltiple en donde los efectos de cada variable independiente (\(X_n\)) son aditivos, esto se refiere a que sus efectos se “suman” o añaden entre sí para, así, explicar el comportamiento de la variable dependiente (\(Y\)). Y de la que se deriva la ecuación:

equatiomatic::extract_eq(m1)

\[ \operatorname{tasa\_mortalidad\_infantil\_2005} = \alpha + \beta_{1}(\operatorname{usd\_ppc\_2005}) + \beta_{2}(\operatorname{tasa\_asistencia\_escolar\_2005}) + \beta_{3}(\operatorname{tasa\_alfabetizacion\_2005}) + \epsilon \]

Y sobre la que se ha evaluado la significancia estadística tanto del modelo en general así como de cada uno de los coeficientes de regresión asociados a cada variable explicativa o independiente.

5. Modelo de regresión lineal con interacciones.

Hasta el momento se ha revisado un modelo de regresión lineal múltiple con efectos aditivos, en donde se evalúa el efecto causal de cada una de las variables independientes por separado. Sin embargo esto, en cierta forma, es una explicación limitada de la realidad, pues supone pensar que en la realidad (o población) las variables explicativas se encuentran completamente aisladas entre sí y, de esa manera, influyen sobre la variable explicada.

Con el fin de complejizar los modelos de regresión, y de esa manera intentar acercarlos un poco más al funcionamiento de la realidad social, es posible incluir interacciones entre las variables. Esto plantea que, en ocasiones, algunas variables no operan de manera aislada sino que, en cambio, antes de impactar sobre \(Y\), dichas variables intervinientes interactúan o combinan sus influencias previamente y, una vez ocurrido, después ejercen su efecto casual sobre la variable explicada.

La manera en que se representa dicha interacción en un modelo de regresión lineal múltiple es mediante la creación de una nueva variable interviniente \(X_{n*(n+1)}\), que es producto de la interacción multiplicativa de las variables originales que, el analista considera que combinan sus efectos.

Las interacciones se pueden realizar entre variables con distintas escalas de medición, pero lo más recomendable es utilizar variables solamente continuas entre sí o, también, evaluar interacciones entre variables continuas junto con variables dummy. El incluir una interacción que incluya a una variable categórica multinomial corre el riesgo de que la interpretación sea demasiado compleja.

5.1. Regresión con interacción de variables continuas.

Por ejemplo, al modelo de regresión que se construyó anteriormente, se le puede añadir una nueva variable interviniente (\(X_4\)) en la que se concentre el efecto del factor educación, y que represente a la interacción de las variables \(X_2\) (tasa de asistencia escolar) y \(X_3\) (tasa de alfabetización) para el año 2005, de la siguiente forma en R: tasa_asistencia_escolar_2005 * tasa_alfabetizacion_2005

m2 <- lm(tasa_mortalidad_infantil_2005 ~      #variable dependiente
           usd_ppc_2005 +                     #variable X_1
           tasa_asistencia_escolar_2005 *     #variable X_2, se incluye un signo de multiplicación para interacción
           tasa_alfabetizacion_2005,          #variable X_3, que se evalúa en interacción con X_2
         data = datos_idh)                    #objeto o data frame
equatiomatic::extract_eq(m2)

\[ \operatorname{tasa\_mortalidad\_infantil\_2005} = \alpha + \beta_{1}(\operatorname{usd\_ppc\_2005}) + \beta_{2}(\operatorname{tasa\_asistencia\_escolar\_2005}) + \beta_{3}(\operatorname{tasa\_alfabetizacion\_2005}) + \beta_{4}(\operatorname{tasa\_asistencia\_escolar\_2005} \times \operatorname{tasa\_alfabetizacion\_2005}) + \epsilon \]

Así se ha construido una nueva ecuación del modelo de regresión lineal múltiple con interacción.
Al mandar a llamar a los coeficientes de regresión para evaluarlos individualmente, así como para evaluar la significancia estadística del modelo se observa un valor calculado para el coeficiente de regresión de cada variable, a la vez que se añade una variable nueva (la interacción) con un valor particular.

summary(m2)
## 
## Call:
## lm(formula = tasa_mortalidad_infantil_2005 ~ usd_ppc_2005 + tasa_asistencia_escolar_2005 * 
##     tasa_alfabetizacion_2005, data = datos_idh)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -15.601  -3.557  -0.711   2.709  42.832 
## 
## Coefficients:
##                                                          Estimate  Std. Error
## (Intercept)                                           78.82816171  7.60524403
## usd_ppc_2005                                          -0.00088013  0.00004775
## tasa_asistencia_escolar_2005                          -0.37729203  0.12149823
## tasa_alfabetizacion_2005                              -0.37780297  0.09290175
## tasa_asistencia_escolar_2005:tasa_alfabetizacion_2005  0.00096684  0.00148835
##                                                       t value
## (Intercept)                                            10.365
## usd_ppc_2005                                          -18.433
## tasa_asistencia_escolar_2005                           -3.105
## tasa_alfabetizacion_2005                               -4.067
## tasa_asistencia_escolar_2005:tasa_alfabetizacion_2005   0.650
##                                                                   Pr(>|t|)    
## (Intercept)                                           < 0.0000000000000002 ***
## usd_ppc_2005                                          < 0.0000000000000002 ***
## tasa_asistencia_escolar_2005                                       0.00192 ** 
## tasa_alfabetizacion_2005                                         0.0000492 ***
## tasa_asistencia_escolar_2005:tasa_alfabetizacion_2005              0.51601    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.345 on 2449 degrees of freedom
## Multiple R-squared:  0.5683, Adjusted R-squared:  0.5676 
## F-statistic:   806 on 4 and 2449 DF,  p-value: < 0.00000000000000022

A partir de estos valores calculados se pueden identificar algunas características del modelo de regresión con interacciones entre variables continuas:

  1. El modelo en general es estadísticamente significativo, y su valor del coeficiente de determinación ajustado (R cuadrado ajustado) es de 0.5676. En comparación con el modelo anterior (aditivo), no mejoró la capacidad explicativa del útlimo modelo.
  2. Hubo un cambio en el valor específico de cada uno de los coeficientes de regresión, y se mantuvieron los signos negativos de los coeficientes individuales. Asimismo estos coeificientes mantuvieron su significancia estadística.
  3. La interacción entre \(X_2\) y \(X_3\) mostró un coeficiente de regresión con signo positivo (algo que parece contraintuitivo), sin embargo no resultó estadísticamente significativo (pues su p-value) pues su probabilidad se ubicó por encima de un nivel de significancia de 0.05. Por ello, analíticamente, se debe excluir del modelo para explicar a \(Y\).

Para efectos de este ejercicio de explicación de un modelo de regresión lineal múltiple con interacciones, si se asume que la interacción hubiese resultado ser estadísticamente significativa (esto es, que su p-value se ubicara por debajo del nivel de significancia), la manera de interpretar el valor de su coeficiente debería ser:

  • Con un nivel de confianza del 95%, se puede inferir que por cada aumento en una unidad en la interacción entre la tasa de asistencia escolar (\(X_2\)) y la tasa de alfabetización (\(X_3\)) para el año 2005, la tasa de mortalidad infantil (\(Y\)) aumentaría en 0.00096684 unidades, manteniendo (o descontando) constante el efecto del resto de las variables.

Y la manera en que se representa dicho modelo mediante su ecuación y valores de coeficientes es:

equatiomatic::extract_eq(m2, use_coefs = TRUE)

\[ \operatorname{\widehat{tasa\_mortalidad\_infantil\_2005}} = 78.83 + 0(\operatorname{usd\_ppc\_2005}) - 0.38(\operatorname{tasa\_asistencia\_escolar\_2005}) - 0.38(\operatorname{tasa\_alfabetizacion\_2005}) + 0(\operatorname{tasa\_asistencia\_escolar\_2005} \times \operatorname{tasa\_alfabetizacion\_2005}) \]

5.2. Regresión con variables categóricas.

Hasta el momento se ha revisado la construcción de modelos de regresión lineal múltiple en donde se utilizan solo variables independientes de tipo continuas. Pero también es posible la incorporación de variables categóricas del lado de las independientes, ya sea que se evalúe su efecto de manera aislada o en interacción con otras variables.

En este caso se debe tomar en cuenta la manera en que dichas variables categóricas son tratadas por R al momento de incorporarlas a un modelo de regresión lineal. Esto es importante, pues las variables categóricas pueden ser de corte binomial (dos valores de respuesta o atributos) o multinomiales (más de dos valores de respuesta o atributos), pero al momento de ser incluidas en un modelo de regresión lineas, serán tratadas como variables tipo “dummy”. Estas variables se caracterizan por adoptar solo 2 valores o atributos posibles, asignándoles valores de codificación de 0 (para los casos considerados como “fracasos”) y 1 (para los casos considerados como “éxito”). De manera que una variable categórica multinomial, al momento de transformarse en variable dummy, será “partida” en tantas variables dummy según la cantidad de valores o atributos que contengan a la variable original, y al final una de esas categorías será ubicada como una categoría de referencia.

Otra característica del análisis de regresión múltiple que incorpora a una variable categórica consiste en que, al momento de evaluar los efectos causales de dicha variable transformada en dummy, los coeficientes de regresión calculados se interpretan como las diferencias de efecto que ejerce cada una de las categorías dummy respecto de la categoría de referencia. Esto es, en el modelo de regresión se compara el efecto de cada uno de los valores de respuesta o atributos aisladamente con respecto a la categoría de referencia.

Usualmente algunos software de análisis estadístico (como por ej. SPSS), requieren que antes de incorporar a una variable categórica en el análisis, esta debe ser transformada en una variable dummy. Sin embargo, R cuenta con la capacidad para trabajar directamente con las variables categóricas (ya sean binomiales o multinomiales), y puede incorporarlas a un modelo de regresión lineal en el que las transforma en dummy automáticamente.

A continuación se continua con el ejercicio del modelo de regresión lineal múltiple y, además, se incorporará a la variable categórica (\(X_5\)) del “Grado del Índice de Desarrollo Humano” calculado para cada municipio mexicano en el año 2005 (grado_idh_2005), que cuenta con 3 categorías: alto, medio y bajo.

table(datos_idh $grado_idh_2005)
## 
##  alto  bajo medio 
##   606     4  1844

La manera de incorporar a dicha variable categórica multinomial en el modelo de regresión lineal múltiple es mediante llamarla directamente en el modelo, así como su inclusión en la ecuación correspondiente.

m3 <- lm(tasa_mortalidad_infantil_2005 ~     #variable dependiente
           usd_ppc_2005 +                     #variable X_1
           tasa_asistencia_escolar_2005 +     #variable X_2
           tasa_alfabetizacion_2005 +         #variable X_3
           grado_idh_2005,                    #variable X_5, categórica con 3 atributos
         data = datos_idh)                    #data frame
equatiomatic::extract_eq(m3)

\[ \operatorname{tasa\_mortalidad\_infantil\_2005} = \alpha + \beta_{1}(\operatorname{usd\_ppc\_2005}) + \beta_{2}(\operatorname{tasa\_asistencia\_escolar\_2005}) + \beta_{3}(\operatorname{tasa\_alfabetizacion\_2005}) + \beta_{4}(\operatorname{grado\_idh\_2005}_{\operatorname{bajo}}) + \beta_{5}(\operatorname{grado\_idh\_2005}_{\operatorname{medio}}) + \epsilon \]

5.3.1. Interpretación de los coeficientes de regresión para una variable categórica.

Y a partir de mandar a llamar los resultados del modelo de regresión m3 se puede observar lo siguiente:

summary(m3)
## 
## Call:
## lm(formula = tasa_mortalidad_infantil_2005 ~ usd_ppc_2005 + tasa_asistencia_escolar_2005 + 
##     tasa_alfabetizacion_2005 + grado_idh_2005, data = datos_idh)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -14.429  -3.423  -0.692   2.677  43.884 
## 
## Coefficients:
##                                 Estimate  Std. Error t value
## (Intercept)                  64.91199137  1.72416072  37.648
## usd_ppc_2005                 -0.00063954  0.00005596 -11.428
## tasa_asistencia_escolar_2005 -0.25203389  0.01951447 -12.915
## tasa_alfabetizacion_2005     -0.28918329  0.01279313 -22.605
## grado_idh_2005bajo           20.72894993  2.74385392   7.555
## grado_idh_2005medio           2.92880062  0.37247457   7.863
##                                          Pr(>|t|)    
## (Intercept)                  < 0.0000000000000002 ***
## usd_ppc_2005                 < 0.0000000000000002 ***
## tasa_asistencia_escolar_2005 < 0.0000000000000002 ***
## tasa_alfabetizacion_2005     < 0.0000000000000002 ***
## grado_idh_2005bajo            0.00000000000005893 ***
## grado_idh_2005medio           0.00000000000000557 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.242 on 2448 degrees of freedom
## Multiple R-squared:  0.5849, Adjusted R-squared:  0.5841 
## F-statistic:   690 on 5 and 2448 DF,  p-value: < 0.00000000000000022
  1. El modelo en general sigue siendo estadísticamente significativo, y su bondad de ajuste aumentó a 0.5841 respecto del modelo inicial m1, por lo que parece que la incorporación de la nueva variable categórica \(X_5\) ayudó a mejor la capacidad explicativa del modelo.
  2. Los coeficientes de manera individual sufrieron ligeros cambios en sus coeficientes de regresión respecto del modelo inicial m1.
  3. Todas las variables fueron estadísticamente significativas, por lo que vale la pena mantenerlas en el modelo así como en las explicaciones sobre el comportamiento de \(Y\).
  4. Los coeficientes de regresión para las distintas variables dummy creadas (grado_idh_2005bajo, grado_idh_2005medio) a partir de la variable \(X_5\) (grado_idh_2005) cuentan con signos o efectos “positivos” sobre el comportamiento de \(Y\).

Centrando solo la atención a los coeficientes de regresión de la variable categórica, su interpretación se puede realizar de la siguiente manera:

  1. Tomando en consideración todos los valores de respuesta o atributos de la variable \(X_5\), primero se debe identificar cuál es la categoría que sirvió de referencia o punto de comparación. En este caso, R tomó como categoría de referencia al atributo de grado de IDH “alto”. Y eso se identifica a partir de que es la variable que no fue incorporada en los resultados del modelo; esto es, no se arrojó un valor calculado para el coeficiente de regresión para dicha categoría. Está ausente.
  2. La interpretación de la primer variable dummy que se presenta en el reporte de resultados, que se refiere al grado bajo de IDH (grado_idh_2005bajo), procede de la siguiente manera: Con un nivel de confianza del 95%, se puede inferir que en aquellos municipios que cuentan con un nivel bajo de IDH tienden a registrar un aumento de 20.72 en la tasa de mortalidad para el año 2005 en comparación con los municipios que cuentan con un nivel alto de IDH para el año 2005, manteniendo el resto de las condiciones constantes (o controlando por el resto de las variables en el modelo).
  3. La interpretación de la segunda variables dummy que se presenta en el reporte de resultados, que se refiere al grado medio de IDH (grado_idh_2005medio), procede de la siguiente manera: Con un nivel de confianza del 95%, se puede inferir que en aquellos municipios que cuentan con un nivel medio de IDH tienden a registrar un aumento de 2.93 en la tasa de mortalidad en comparación con los municipios que cuentan con un nivel alto de IDH para el año 2005, manteniendo el resto de las condiciones constantes (o controlando por el resto de las variables en el modelo).

Comentarios finales.

La utilidad central de un modelo de regresión lineal múltiple consiste en que, además de permitir la incorporación de una mayor cantidad de variables independientes e intervinientes, y así complejizar los modelos de efectos causales, es una estrategia importante para ejercer control estadístico sobre las variables independientes al momento de evaluar su influencia sobre la variables explicada (\(Y\)).
Esto es importante en términos explicativos de la realidad social pues, si bien se sabe que los fenómenos tienden a ser multifactoriales, analíticamente suele ser muy relevante reconocer de manera aislada la influencia de una variable explicativa de interés pero, simultáneamente, también es crucial controlar o descontar la influencia de variables intervinientes que operan en la realidad y que, al final, pueden confundirnos al intentar explicar al fenómeno de interés.

