En el siguiente chunk se muestra el código para importar la base de datos y la creación de la nueva variable educ2.
df1 <- read.delim("contaminacion.txt")
tab1 <- df1 %>% mutate(educ2 = if_else(educ <= 10.5, 1, 0))
Como se observa en la figura 1, esta variable posee una distribución simétrica. El promedio de la tasa de mortalidad para todas las observaciones entregadas es de 9.397% con una desviación estándar de 0.626.
Figura 1. Histograma de la variable Tasa de Mortalidad
Como se observa en la figura 2, esta variable no posee una distribución simétrica, por lo tanto se describirá de forma no paramétrica. La mediana para esta variable es de 31.5 ºF, y los valores de los cuartiles 1 y 3 fueron de 27 y 40 respectivamente (rango intercuartil 13).
Figura 2. Histograma de la variable temperatura
Como se observa en la figura 3, esta variable no posee una distribución simétrica. La mediana para esta variable es de 81.145%, y los valores de los cuartiles 1 y 3 fueron de 78.3725 y 83.6 respectivamente (rango intercuartil 5.2275).
Figura 3. Histograma de la variable % de viviendas seguras y equipadas.
Como se ve en el histograma, esta variable tampoco tiene distribución simétrica. La mediana es de 10.4%, y los valores de los cuartiles 1 y 3 fueron de 4.9475 y 15.65 respectivamente (rango intercuartil 10.7025).
Figura 4. Histograma de la variable raza.
Esta variable tampoco muestra distribución simétrica, por lo tanto, la mediana es de 30%, y los valores de los cuartiles 1 y 3 fueron de 11 y 15.65 respectivamente (rango intercuartil 58).
Figura 5. Histograma de la variable raza.
La variable educación fue tomada como variable dicotómica: <10.5 años de estudio vs >10.5 años de estudio. Se obtuvo que un 0.7% tenía menos de 10.5 años de estudio, y que un 0.3% tenía más de 10.5 años de estudio. En la figura 6 se muestra el gráfico para esta variable.
Figura 6. Histograma de la variable raza.
Los siguientes resultados fueron obtenidos considerando la tasa de mortalidad como la variable respuesta en el análisis univariado. Se utilizó la correlación de Pearson para dos variables numéricas y t de student para comparar promedios.
-No se observó la existencia de una correlación significativa entre la temperatura durante el mes de enero y la tasa de mortalidad (r de Pearson: -0.033, p= 0.804).
-Hubo una correlación lineal significativa (figura 7b) con pendiente negativa entre el porcentaje de viviendas seguras y equipadas con la tasa de mortalidad en dicha localidad (r de Pearson: -0.423, p= 0.001). Se concluye que a mayor porcentaje de viviendas seguras y equipadas por localidad, la tasa de mortalidad disminuirá.
-Hubo una correlación lineal significativa (figura 7c) con pendiente positiva entre el porcentaje de raza no blanca con la tasa de mortalidad en dicha localidad (r de Pearson: 0.647, p= <0.001). Por lo tanto, una mayor proporción de raza no blanca está asociada con una mayor tasa de mortalidad por localidad.
-Hubo una correlación lineal significativa (figura 7d) con pendiente positiva entre el índice de contaminación y la tasa de mortalidad en dicha localidad (r de Pearson: 0.423, p= 0.001). Por lo tanto, el índice de contaminación por dióxidos sulfúricos está asociado con una mayor tasa de mortalidad por localidad.
-Para comparar los promedios según la variable educación dicotomizada, primero se realizó el test de Levene para comparar la varianza de ambos grupos. Con el test se rechaza que las varianzas sean diferentes (p= 0.882). Por lo tanto, se utilizó t de student para varianzas iguales. Se obtiene que la tasa de mortalidad promedio de las ciudades con un promedio de educación >10.5 años es significativamente menor que las ciudades con un promedio de educación <10.5 años ((9.231 % vs 9.783%, p= 0.002903695).
Figura 7. Gráficos de los análisis univariados.
Tasa de mortalidad(%) = beta x “Temperatura promedio en enero”.
Tasa de mortalidad(%) = -0.002 x “Temperatura promedio en enero”.
En la figura 8a. se observa que se cumple el supuesto para la regresión lineal que los residuos se distribuyen con media 0 de manera aleatoria en morfología tipo “nube de puntos”, permitiendo suponer que presentan varianza constante (homocedasticidad).
En la figura 8b. se observa que se cumple que los residuos sigan una distribución normal. En 8c. el q-q plot muestra una linealidad entre los residuos observados y los teóricos, aunque no es perfecta. Dado esto, usando el test de Shapiro-Wilk se rechaza que los residuos obtenidos no pertenezcan a una curva de distribución gaussiana (p= 0.9685).
Figura 8. Histograma y QQplot de los residuos de la regresión 1.
Por lo tanto, teniendo en cuenta los puntos c1 y c2, se cumplen los supuestos de la regresión.
El parámetro de la regresión obtenida no es significativo (beta= -0.002 p= 0.8037619). El test de hipótesis utilizado usa H0: El parámetro beta = 0; Ha: El parámetro beta es distinto de 0. Por lo tanto, con el valor p obtenido, no se puede rechazar que beta sea distinto de 0.
La interpretación del parámetro obtenido sería que por cada grado de aumento en la temperatura promedio (ºF), la tasa de mortalidad disminuye en 0.002 puntos.
El valor esperado de mortalidad en una localidad con 30ºF en promedio durante enero sería de 9.4%.
El modelo ajustado con selección forward obtenido en R se ilustra en la tabla 1. Cabe destacar que el resultado obtenido mediante forward selection en R es distinto al obtenido en Stata, dado que R selecciona por AIC y Stata por valores p.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 10.2372 | 1.0993 | 9.3122 | 0.0000 |
| temp | -0.0195 | 0.0060 | -3.2608 | 0.0019 |
| educ2 | 0.2027 | 0.1360 | 1.4899 | 0.1421 |
| vivienda | -0.0116 | 0.0137 | -0.8466 | 0.4009 |
| raza | 0.0468 | 0.0076 | 6.1898 | 0.0000 |
| cont | 0.0027 | 0.0009 | 2.9862 | 0.0042 |
A continuación en la figura 10 se muestran los gráficos de residuos versus cada variable explicativa (a-d). En la figura 10e se observa linealidad entre los residuos observados y los teóricos, lo que se corrobora con el test de Shapiro-Wilk (p= 0.3305).
Figura 10. Residuos versus variables explicativas para regresión 2
Temperatura: El parámetro obtenido para la variable temperatura en este modelo es de -0.02 (IC 95% -0.032 - -0.008), lo que indica que por cada aumento en una unidad del promedio de temperatura en enero en una ciudad, la tasa de mortalidad promedio aumentará entre -0.032 y -0.008 puntos con un 95% de confianza, ajustado por las demás variables del modelo. El test de hipótesis en esta situación contempla H0: beta = 0 y Ha: beta distinto de 0. Dado el valor p obtenido (tabla 1), se rechaza H0 al encontrarse bajo el alfa de 5%.
Promedio educacional menor o igual a 10.5 años: El parámetro obtenido para la variable educ2 en este modelo es de 0.203 (IC 95% -0.07 - 0.475). La interpretación estricta de este resultado es que con un 95% de confianza, cuando en una ciudad el promedio de años de escolaridad sea menor a 10.5 años, la tasa de mortalidad promedio aumentará entre -0.07 y 0.475 ajustado por las demás variables del modelo, sin embargo, esto no tendría significancia estadística dado que el intervalo de confianza cruza el 0 (pendiente plana). El test de hipótesis en esta situación contempla H0: beta = 0 y Ha: beta distinto de 0. Concordante con lo mostrado por el intervalo de confianza, dado el valor p obtenido (tabla 1), no es posible rechazar H0 al encontrarse sobre alfa 5%.
Porcentaje de raza no blanca: El parámetro obtenido para la variable educ2 en este modelo es de 0.047 (IC 95% 0.032 - 0.062), lo que indica que por cada aumento en una unidad de la proporción de raza no blanca en una ciudad, la tasa de mortalidad promedio aumentará entre 0.032 y 0.062 puntos con un 95% de confianza, ajustado por las demás variables del modelo. El test de hipótesis en esta situación contempla H0: beta = 0 y Ha: beta distinto de 0. Dado el valor p obtenido (tabla 1), se rechaza H0.
Índice de contaminación por dióxidos sulfúricos: El parámetro obtenido para la variable cont en este modelo es de 0.003 (IC 95% 0.001 - 0.004), lo que indica que por cada aumento de una unidad del índice de contaminación, la tasa de mortalidad aumentará entre 0.001 y 0.004 puntos con un 95% de confianza, ajustado por las demás variables del modelo. El test de hipótesis en esta situación contempla H0: beta = 0 y Ha: beta distinto de 0. Dado el valor p obtenido (tabla 1), se rechaza H0.
Proporción de viviendas seguras y equipadas: El parámetro obtenido para la variable vivienda en este modelo es de -0.012 (IC 95% -0.039 - 0.016). La interpretación estricta de este resultado es que con un 95% de confianza, por cada punto de aumento en la proporción de viviendas seguras en una ciudad, la tasa de mortalidad disminuirá entre -0.039 y 0.016 ajustado por las demás variables del modelo, sin embargo, esto no tendría significancia estadística dado que el intervalo de confianza cruza el 0 (pendiente plana). El test de hipótesis en esta situación contempla H0: beta = 0 y Ha: beta distinto de 0. Dado el valor p obtenido (tabla 1), no es posible rechazar H0.
(Comentario: En Stata la variable vivienda no es incluida en la selección forward. Cambe mencionar que los métodos de selección de variables usados por Stata no son los utilizados para el presente análisis en R.)
En la tabla 3 se muestran las variables incluidas luego de realizar una selección backward de variables.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 9.3200 | 0.1862 | 50.0616 | 0.0000 |
| temp | -0.0212 | 0.0056 | -3.7810 | 0.0004 |
| educ2 | 0.2661 | 0.1133 | 2.3496 | 0.0224 |
| raza | 0.0498 | 0.0066 | 7.5016 | 0.0000 |
| cont | 0.0024 | 0.0008 | 2.8883 | 0.0055 |
De lo obtenido en la tabla 3, se observa que esta vez sí se excluyó la variable vivienda en el ajuste del modelo utilizando un método backward, dado que la medida de bondad de ajuste obtenida fue más favorable.