- Regresión lineal simple parte 2
- Conociendo los datos
- Resumen estadístico
- Matriz de diagramas de dispersión
- Matriz de diagramas de coeficientes de correlación
- Prueba de Correlación de pearson
- Modelo de regresión lineal simple
- Ecuación de la recta de mínimos cuadrados
- Intervalos de confianza
- Representación grafica del modelo
- Verificar condiciones para aceptar o no el modelo
- Contraste de hipótesis (normalidad de los residuos)
- Conclusión
Regresión lineal simple parte 2
- Para este ejercicio se utilizará la serie de datos “calorias” que son datos de las calorias que se queman al correr
Correr
- Importar datos
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(readr)
Calorias <- read_csv("~/Probabilidadyestadistica/Calorias.csv",
col_types = cols(Peso = col_number(),
Caloriasq = col_number()))
head(Calorias)## # A tibble: 6 x 3
## Peso Velocidad Caloriasq
## <dbl> <dbl> <dbl>
## 1 57 5.6 120
## 2 70 5.6 149
## 3 84 5.6 178
## 4 57 6.4 135
## 5 70 6.4 167
## 6 84 6.4 200
Conociendo los datos
## Rows: 30
## Columns: 3
## $ Peso <dbl> 57, 70, 84, 57, 70, 84, 57, 70, 84, 57, 70, 84, 57, 70, 8...
## $ Velocidad <dbl> 5.6, 5.6, 5.6, 6.4, 6.4, 6.4, 7.2, 7.2, 7.2, 8.0, 8.0, 8....
## $ Caloriasq <dbl> 120, 149, 178, 135, 167, 200, 150, 186, 222, 195, 242, 28...
Resumen estadístico
## Peso Velocidad Caloriasq
## Min. :57.00 Min. : 5.60 Min. :120.0
## 1st Qu.:57.00 1st Qu.: 7.20 1st Qu.:196.2
## Median :70.00 Median : 8.95 Median :332.5
## Mean :70.33 Mean : 9.76 Mean :347.9
## 3rd Qu.:84.00 3rd Qu.:12.00 3rd Qu.:459.8
## Max. :84.00 Max. :16.00 Max. :733.0
Matriz de diagramas de dispersión
Se puede observar las calorias quemadas y la velocidad están relacionadas.
Matriz de diagramas de coeficientes de correlación
## Peso Velocidad Caloriasq
## Peso 1.000000e+00 -6.582816e-21 0.3339803
## Velocidad -6.582816e-21 1.000000e+00 0.9149345
## Caloriasq 3.339803e-01 9.149345e-01 1.0000000
Prueba de Correlación de pearson
##
## Pearson's product-moment correlation
##
## data: Calorias$Velocidad and Calorias$Caloriasq
## t = 11.995, df = 28, p-value = 1.503e-12
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8273927 0.9590718
## sample estimates:
## cor
## 0.9149345
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(Calorias, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
De lo analizado hasta aquí, podemos concluir que:
La variable “Caloriasq” está relacionada con la variable “Volumen”, por lo cual la usaremos como respuesta en este modelo
El coeficiente de correlación de pearson es muy alto (0.9149345) y el valor de P es significativo (p-value < 1.503e-12), esto indica una correlación intensa.
SI tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia importantes.
Modelo de regresión lineal simple
##
## Call:
## lm(formula = Caloriasq ~ Velocidad, data = Calorias)
##
## Residuals:
## Min 1Q Median 3Q Max
## -147.992 -40.667 -3.453 30.496 121.185
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -113.740 40.481 -2.81 0.00894 **
## Velocidad 47.296 3.943 11.99 1.5e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 68.82 on 28 degrees of freedom
## Multiple R-squared: 0.8371, Adjusted R-squared: 0.8313
## F-statistic: 143.9 on 1 and 28 DF, p-value: 1.503e-12
Ecuación de la recta de mínimos cuadrados
\[ 113.740 +47.296x \]
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -196.66245 -30.81747
## Velocidad 39.21926 55.37226
Representación grafica del modelo
library(ggplot2)
ggplot(data = Calorias, mapping = aes(x = Velocidad, y = Caloriasq)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Calorias ~ Velocidad", x = "Velocidad", y = "Calorias quemadas") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) ## `geom_smooth()` using formula 'y ~ x'
Verificar condiciones para aceptar o no el modelo
- Para evaluar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos
Conclusión
Se puede concluir que las variables Calorias quemadas (Caloriasq) y Velocidad (Velocidad) están relacionadas, ya que entre más rápido se corra, más calorias se van a quemar. Se realizaron una serie de pruebas para comparar los datos con los que se pudo observar que la correlación entre estas dos variables era muy alta.