U1A9

Jose Ibarra

9/22/2020

library(pacman)
p_load("readr", "tidyverse", "DT","prettydoc")

Regresión lineal simple

Importar

datos

Numero de personas muertas por uso del tabacco en Afghanistan y numero de personas muertas por problemas respiratorios en Afghanistan por año

datos obtenidos de https://ourworldindata.org/drug-use#deaths-from-substance-use-disorders

muertes <- read.csv("substances-risk-factor-vs-direct-deaths.csv")
names(muertes)
## [1] "Year"                       "Deaths_Tobacco"            
## [3] "Deaths_respiratorydiseases"

Transformar

datos1 <- data.frame(muertes$Deaths_Tobacco, muertes$Deaths_respiratorydiseases) 

Visualizar

  • Gráfico de correlación, gráfico de pares
head(datos1)
##   muertes.Deaths_Tobacco muertes.Deaths_respiratorydiseases
## 1               10440.11                           5954.959
## 2               10461.21                           6023.386
## 3               10741.91                           6217.245
## 4               11398.45                           6468.245
## 5               11978.70                           6678.496
## 6               12232.11                           6805.618
pairs(datos1)

modelar

Grado de correlación lineal

  • Matriz de coeficientes de correlación:
cor(datos1) # que tan relacionado esta los datos 
##                                    muertes.Deaths_Tobacco
## muertes.Deaths_Tobacco                          1.0000000
## muertes.Deaths_respiratorydiseases              0.7766596
##                                    muertes.Deaths_respiratorydiseases
## muertes.Deaths_Tobacco                                      0.7766596
## muertes.Deaths_respiratorydiseases                          1.0000000
### Cálculo y representación de la recta de mínimos cuadrados 

regresion <- lm( Deaths_Tobacco~Deaths_respiratorydiseases , data=muertes)
summary(regresion)
## 
## Call:
## lm(formula = Deaths_Tobacco ~ Deaths_respiratorydiseases, data = muertes)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -601.8 -571.3 -175.5  403.4 1224.5 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                -4315.9132  2718.5508  -1.588    0.124    
## Deaths_respiratorydiseases     2.5176     0.4005   6.287 1.18e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 621.2 on 26 degrees of freedom
## Multiple R-squared:  0.6032, Adjusted R-squared:  0.5879 
## F-statistic: 39.52 on 1 and 26 DF,  p-value: 1.18e-06
  • Entonces, la recta de mínimos cuadrados, sería la siguiente:

\[ y = -4315.9132 + 2.5176 x\]

Representación gráfica de la recta

plot (muertes$Deaths_Tobacco, muertes$Deaths_respiratorydiseases, xlab = "Muertes por tabacco", ylab="Muertes por efermedades respiratorias")
abline(regresion)

#Redaccion En este ejercicio se obtuvieron los datos de las muertes por causa del tabaco en Afganistán y las muertes por causa de problemas respiratorios en Afganistán desde 1990 hasta el 2017. Correlacionamos estos datos para ver que tanto influye las muertes de consumo de tabaco con las muertes de problemas respiratorios por año. Los datos obtuvieron un 77% de relación.