setwd("~/probabilidadyestadistica")

Regresión lineal simple parte 2

Para este ejercicio se utilizará la serie de datos “calorias” que son datos de las calorias que se queman al correr

Correr

Importar datos

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(readr)
Calorias <- read_csv("~/Probabilidadyestadistica/Calorias.csv", 
    col_types = cols(Peso = col_number(), 
        Caloriasq = col_number()))
head(Calorias)

## # A tibble: 6 x 3
##    Peso Velocidad Caloriasq
##   <dbl>     <dbl>     <dbl>
## 1    57       5.6       120
## 2    70       5.6       149
## 3    84       5.6       178
## 4    57       6.4       135
## 5    70       6.4       167
## 6    84       6.4       200

Conociendo los datos

glimpse(Calorias)

## Rows: 30
## Columns: 3
## $ Peso      <dbl> 57, 70, 84, 57, 70, 84, 57, 70, 84, 57, 70, 84, 57, 70, 8...
## $ Velocidad <dbl> 5.6, 5.6, 5.6, 6.4, 6.4, 6.4, 7.2, 7.2, 7.2, 8.0, 8.0, 8....
## $ Caloriasq <dbl> 120, 149, 178, 135, 167, 200, 150, 186, 222, 195, 242, 28...

Resumen estadístico

summary(Calorias)

##       Peso         Velocidad       Caloriasq    
##  Min.   :57.00   Min.   : 5.60   Min.   :120.0  
##  1st Qu.:57.00   1st Qu.: 7.20   1st Qu.:196.2  
##  Median :70.00   Median : 8.95   Median :332.5  
##  Mean   :70.33   Mean   : 9.76   Mean   :347.9  
##  3rd Qu.:84.00   3rd Qu.:12.00   3rd Qu.:459.8  
##  Max.   :84.00   Max.   :16.00   Max.   :733.0

Matriz de diagramas de dispersión

pairs(Calorias)

Se puede observar las calorias quemadas y la velocidad están relacionadas.

Matriz de diagramas de coeficientes de correlación

cor(Calorias)

##                    Peso     Velocidad Caloriasq
## Peso       1.000000e+00 -6.582816e-21 0.3339803
## Velocidad -6.582816e-21  1.000000e+00 0.9149345
## Caloriasq  3.339803e-01  9.149345e-01 1.0000000

Prueba de Correlación de pearson

cor.test(x = Calorias$Velocidad, y = Calorias$Caloriasq, method = "pearson", digits=3)

## 
##  Pearson's product-moment correlation
## 
## data:  Calorias$Velocidad and Calorias$Caloriasq
## t = 11.995, df = 28, p-value = 1.503e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8273927 0.9590718
## sample estimates:
##       cor 
## 0.9149345

library(GGally)

## Loading required package: ggplot2

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

ggpairs(Calorias, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")

## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

De lo analizado hasta aquí, podemos concluir que:

La variable “Caloriasq” está relacionada con la variable “Volumen”, por lo cual la usaremos como respuesta en este modelo
El coeficiente de correlación de pearson es muy alto (0.9149345) y el valor de P es significativo (p-value < 1.503e-12), esto indica una correlación intensa.
SI tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia importantes.

Modelo de regresión lineal simple

modelo.lineal <- lm(Caloriasq ~ Velocidad, data= Calorias)
summary(modelo.lineal)

## 
## Call:
## lm(formula = Caloriasq ~ Velocidad, data = Calorias)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -147.992  -40.667   -3.453   30.496  121.185 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -113.740     40.481   -2.81  0.00894 ** 
## Velocidad     47.296      3.943   11.99  1.5e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 68.82 on 28 degrees of freedom
## Multiple R-squared:  0.8371, Adjusted R-squared:  0.8313 
## F-statistic: 143.9 on 1 and 28 DF,  p-value: 1.503e-12

Ecuación de la recta de mínimos cuadrados

\[ 113.740 +47.296x \]

Intervalos de confianza

confint(modelo.lineal)

##                  2.5 %    97.5 %
## (Intercept) -196.66245 -30.81747
## Velocidad     39.21926  55.37226

Representación grafica del modelo

library(ggplot2)
ggplot(data = Calorias, mapping = aes(x = Velocidad, y = Caloriasq)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Calorias ~ Velocidad", x = "Velocidad", y = "Calorias quemadas") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5))

## `geom_smooth()` using formula 'y ~ x'

Verificar condiciones para aceptar o no el modelo

Para evaluar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos

#Para los valores que sobran 
par(mfrow =c(1,2))
plot(modelo.lineal)

#que proporcion existe entre los valores que sobran y los que si se ajustan

Contraste de hipótesis (normalidad de los residuos)

Según el método de prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.96867, p-value = 0.5035

Conclusión

Se puede concluir que las variables Calorias quemadas (Caloriasq) y Velocidad (Velocidad) están relacionadas, ya que entre más rápido se corra, más calorias se van a quemar. Se realizaron una serie de pruebas para comparar los datos con los que se pudo observar que la correlación entre estas dos variables era muy alta.

U1A14

Silvia Flores

5/10/2020