Regresión lineal simple
Importar
datos
Numero de personas muertas por uso del tabacco en Afghanistan y numero de personas muertas por problemas respiratorios en Afghanistan por año
datos obtenidos de https://ourworldindata.org/drug-use#deaths-from-substance-use-disorders
## [1] "Year" "Deaths_Tobacco" "respiratory"
Visualizar
- Gráfico de correlación, gráfico de pares
## muertes.Deaths_Tobacco muertes.respiratory
## 1 10440.11 5954.959
## 2 10461.21 6023.386
## 3 10741.91 6217.245
## 4 11398.45 6468.245
## 5 11978.70 6678.496
## 6 12232.11 6805.618
modelar
Grado de correlación lineal
- Matriz de coeficientes de correlación:
## muertes.Deaths_Tobacco muertes.respiratory
## muertes.Deaths_Tobacco 1.0000000 0.7766596
## muertes.respiratory 0.7766596 1.0000000
### Cálculo y representación de la recta de mínimos cuadrados
regresion <- lm( Deaths_Tobacco~respiratory , data=muertes)
summary(regresion)##
## Call:
## lm(formula = Deaths_Tobacco ~ respiratory, data = muertes)
##
## Residuals:
## Min 1Q Median 3Q Max
## -601.8 -571.3 -175.5 403.4 1224.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4315.9132 2718.5508 -1.588 0.124
## respiratory 2.5176 0.4005 6.287 1.18e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 621.2 on 26 degrees of freedom
## Multiple R-squared: 0.6032, Adjusted R-squared: 0.5879
## F-statistic: 39.52 on 1 and 26 DF, p-value: 1.18e-06
- Entonces, la recta de mínimos cuadrados, sería la siguiente:
\[ y = -4315.9132 + 2.5176 x\]
Inferencia en el modelo de regresión lineal simple
Suponemos que los datos proceden de un modelo de regresión simple de la forma:
\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n,\] en donde:
Los errores aleatorios \(\epsilon_i\) son independientes con distribución normal de media 0 y varianza \(\sigma^2\)
Bajo este modelo:
Los errores típicos de los estimadores de los parámetros \(\beta_0\) y \(\beta_1\) se encuentran en la columna Std Error de la salidad anterior. Los valores son: 29.6376 y 0.7243 respesctivamente.
Los intervalos de confianza de los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por lo regular es 0.95)
## 2.5 % 97.5 %
## (Intercept) -9903.97433 1272.147897
## respiratory 1.69445 3.340748
## 5 % 95 %
## (Intercept) -8952.722106 320.895672
## respiratory 1.834574 3.200624
¿Que tan confiable es este modelo? Comparativa de datos reales vs datos predecidos
Los intervalos de confianza para la respuesta media y los intervalos de confianza para la respuesta se pueden obtener con el comando predict. Por ejemplo el código a continuación estima y representa los dos tipos de intervalores (para el rango de eddades de 20 a 60 años), los de predicción en rojo.
ANOVA
- La tabla de análisis de varianza se obtiene con el comando ANOVA
## Analysis of Variance Table
##
## Response: Deaths_Tobacco
## Df Sum Sq Mean Sq F value Pr(>F)
## respiratory 1 15252590 15252590 39.524 1.18e-06 ***
## Residuals 26 10033525 385905
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Análisis de confianza Son pares de números en los que se determina si se encontrarán valores desconocidos con un determinado nivel de confianza, calculándose a partir de datos de una muestra.
Análisis de anova Es el análisis de la varianza, evaluando la variabilidad de datos.
#Redaccion En este ejercicio se obtuvieron los datos de las muertes por causa del tabaco en Afganistán y las muertes por causa de problemas respiratorios en Afganistán desde 1990 hasta el 2017. Correlacionamos estos datos para ver que tanto influye las muertes de consumo de tabaco con las muertes de problemas respiratorios por año. Los datos obtuvieron un 77% de relación. Se hizo un Análisis de confianza y un Análisis de Anova