U1A14

Isabel Valenzuela

29/9/2020

Regresión lineal de las búsquedas de bajar de peso y dieta keto

Baja rápida de peso con dieta keto

  • Para este ejercicio se importarán datos de google trends a un csv local acerca de las búsquedas de baja de peso y dieta keto

  • Importar datos

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(readr)
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
pk <- read.csv("pesoketo.csv")
  • Conociendo los datos
glimpse(pk )
## Rows: 52
## Columns: 2
## $ peso <int> 62, 66, 50, 63, 57, 57, 61, 52, 48, 49, 44, 61, 84, 81, 75, 73...
## $ keto <int> 8, 10, 9, 11, 9, 9, 7, 8, 7, 7, 6, 12, 20, 18, 13, 16, 14, 13,...
  • Resumen estadístico
summary(pk)
##       peso             keto     
##  Min.   : 44.00   Min.   : 6.0  
##  1st Qu.: 62.75   1st Qu.: 9.0  
##  Median : 72.00   Median :13.0  
##  Mean   : 73.27   Mean   :12.9  
##  3rd Qu.: 84.00   3rd Qu.:16.0  
##  Max.   :100.00   Max.   :22.0
  • Matriz de diagramas de dispersión
pairs(pk)

*Matriz de diagramas de coeficientes de correlación

cor(pk)
##           peso      keto
## peso 1.0000000 0.7931701
## keto 0.7931701 1.0000000
  • Correlación de pearson
cor.test(x = pk$peso, y = pk$keto, method = "pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  pk$peso and pk$keto
## t = 9.2095, df = 50, p-value = 2.382e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6639959 0.8763737
## sample estimates:
##       cor 
## 0.7931701
ggpairs(pk, lower = list(continuous="smooth"), diag = list(continous= "bar"), axisLabels = "none")

De lo analizado hasta aquí, podemos concluir que:

  1. La variable “peso” está relacionada con la variable “keto”, por lo cual la usaremos como respuesta en este modelo.

  2. El coeficiente de pearson es importante (0.7931701) y el valor de P es pequeño (p-value < 2.382e-12), esto indica una correlación entre ambas variables.

  3. SI tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia.

Modelo de regresión lineal simple

modelo.lineal <- lm(peso ~ keto, data = pk)
summary(modelo.lineal)
## 
## Call:
## lm(formula = peso ~ keto, data = pk)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -15.5389  -6.8015  -0.7717   7.4909  17.2661 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  37.0735     4.1192   9.000 4.92e-12 ***
## keto          2.8050     0.3046   9.209 2.38e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.893 on 50 degrees of freedom
## Multiple R-squared:  0.6291, Adjusted R-squared:  0.6217 
## F-statistic: 84.81 on 1 and 50 DF,  p-value: 2.382e-12
  • Ecuación de la recta de mínimos cuadrados

\[y= 37.0735 + 2.8050x\]

  • Intervalos de confianza
confint(modelo.lineal)
##                 2.5 %    97.5 %
## (Intercept) 28.799780 45.347205
## keto         2.193264  3.416806
ggplot(data = pk, mapping = aes(x = peso, y = keto)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Baja de peso- dieta keto", x = "Peso", y = "Keto") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) 
## `geom_smooth()` using formula 'y ~ x'

Verificar condiciones para aceptar o no el modelo

*Para evaluar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.

par(mfrow=c(1,2))
plot(modelo.lineal)

Contraste de hipótesis (normalidad de los residuos)

Según el método de prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.95705, p-value = 0.05831

Redacción personal

Se denota que las variables sí están en realación, debido que su correlación fue de 0.7931701, siendo la razón que la gente cuando desea bajar de peso de manera rápida busca dietas que se hacen relevantes por la eficacia que tienen. También al obtener el valor de Pearson (p-value < 2.382e-12) y este ser muy pequeño se confirmó que ambas variables tienen correlación. Sin embargo, en la gráfica de intervalos de confianza hubo algunos valores dispersos. Finalmente se acepta el modelo, ya que al hacer un contraste de hipótesis con Shapiro-Wilk se demostró de nuevo la correlación.