library(pacman)
p_load("readr", "tidyverse", "DT","prettydoc")

Regresión lineal simple

Importar

datos

Numero de personas muertas por uso del tabacco en Afghanistan y numero de personas muertas por problemas respiratorios en Afghanistan por año

datos obtenidos de https://ourworldindata.org/drug-use#deaths-from-substance-use-disorders

muertes <- read.csv("substances-risk-factor-vs-direct-deaths.csv")
names(muertes)

## [1] "Year"           "Deaths_Tobacco" "respiratory"

Transformar

datos1 <- data.frame(muertes$Deaths_Tobacco, muertes$respiratory)

Visualizar

Gráfico de correlación, gráfico de pares

head(datos1)

##   muertes.Deaths_Tobacco muertes.respiratory
## 1               10440.11            5954.959
## 2               10461.21            6023.386
## 3               10741.91            6217.245
## 4               11398.45            6468.245
## 5               11978.70            6678.496
## 6               12232.11            6805.618

pairs(datos1)

modelar

Grado de correlación lineal

Matriz de coeficientes de correlación:

cor(datos1) # que tan relacionado esta los datos

##                        muertes.Deaths_Tobacco muertes.respiratory
## muertes.Deaths_Tobacco              1.0000000           0.7766596
## muertes.respiratory                 0.7766596           1.0000000

### Cálculo y representación de la recta de mínimos cuadrados 

regresion <- lm( Deaths_Tobacco~respiratory , data=muertes)
summary(regresion)

## 
## Call:
## lm(formula = Deaths_Tobacco ~ respiratory, data = muertes)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -601.8 -571.3 -175.5  403.4 1224.5 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -4315.9132  2718.5508  -1.588    0.124    
## respiratory     2.5176     0.4005   6.287 1.18e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 621.2 on 26 degrees of freedom
## Multiple R-squared:  0.6032, Adjusted R-squared:  0.5879 
## F-statistic: 39.52 on 1 and 26 DF,  p-value: 1.18e-06

Entonces, la recta de mínimos cuadrados, sería la siguiente:

\[ y = -4315.9132 + 2.5176 x\]

Representación gráfica de la recta

plot (muertes$Deaths_Tobacco, muertes$respiratory, xlab = "Muertes por tabacco", ylab="Muertes por efermedades respiratorias")
abline(regresion)

Inferencia en el modelo de regresión lineal simple

Suponemos que los datos proceden de un modelo de regresión simple de la forma:

\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \ \ \ \ i=1,\ldots,n,\] en donde:

Los errores aleatorios \(\epsilon_i\) son independientes con distribución normal de media 0 y varianza \(\sigma^2\)

Bajo este modelo:

Los errores típicos de los estimadores de los parámetros \(\beta_0\) y \(\beta_1\) se encuentran en la columna Std Error de la salidad anterior. Los valores son: 29.6376 y 0.7243 respesctivamente.
Los intervalos de confianza de los parámetros se obtienen con el comando confint. El parámetro level permite elegir el nivel de confianza (por lo regular es 0.95)

confint(regresion)

##                   2.5 %      97.5 %
## (Intercept) -9903.97433 1272.147897
## respiratory     1.69445    3.340748

confint(regresion, level=0.90)

##                      5 %       95 %
## (Intercept) -8952.722106 320.895672
## respiratory     1.834574   3.200624

¿Que tan confiable es este modelo? Comparativa de datos reales vs datos predecidos
Los intervalos de confianza para la respuesta media y los intervalos de confianza para la respuesta se pueden obtener con el comando predict. Por ejemplo el código a continuación estima y representa los dos tipos de intervalores (para el rango de eddades de 20 a 60 años), los de predicción en rojo.

ANOVA

La tabla de análisis de varianza se obtiene con el comando ANOVA

anova(regresion)

## Analysis of Variance Table
## 
## Response: Deaths_Tobacco
##             Df   Sum Sq  Mean Sq F value   Pr(>F)    
## respiratory  1 15252590 15252590  39.524 1.18e-06 ***
## Residuals   26 10033525   385905                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Análisis de confianza Son pares de números en los que se determina si se encontrarán valores desconocidos con un determinado nivel de confianza, calculándose a partir de datos de una muestra.

Análisis de anova Es el análisis de la varianza, evaluando la variabilidad de datos.

#Redaccion En este ejercicio se obtuvieron los datos de las muertes por causa del tabaco en Afganistán y las muertes por causa de problemas respiratorios en Afganistán desde 1990 hasta el 2017. Correlacionamos estos datos para ver que tanto influye las muertes de consumo de tabaco con las muertes de problemas respiratorios por año. Los datos obtuvieron un 77% de relación. Se hizo un Análisis de confianza y un Análisis de Anova

U1A9

Jose Ibarra

9/22/2020