Regresión lineal parte 2
- Este ejemplo se hará de con datos de arboles de cerezas negras “black cherry”
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
- Primer vistazo a los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
Se observa que obtuvimos 3 columnas cada una con un número de 31 filas
- Resumen de posición central
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Se obtuvieron los valores mínimos, maximos así como la media, mediana además del 1er quadril y el 3er quadril de cada columna
- Matriz de diagramas de dispersión
Se observa que en el diagrama de dispersión la relación entre Girth y Volume los puntos estan mas juntos y lineales que en la relación entre Height y Volume
- Matriz de coeficientes de correlación lineal
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
Se obtuvo un valor del 96% de coeficiente de relacíon entre Girth y Volume
- Prueba de correlación de pearson
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(trees, lower = list(continous = "smooth"), diag = list(continous = "bar"), axisLabels = "none") ## Conclusiones
De lo hasta ahora analizado, podemos concluir que:
Observando los diagramas de dispersión notamos que: la variable de dámetro (girth) y volumen (volume) están relacionadas.
El coeficiente de correlación de pearson es bastante alto (r =0.9671194) y tenemos un valor de P significativo (p-value < 2.2e-16). Esto significa que hay una intensa correlación entre ambas variables.
¿La correlación implica causalidad? R = No necesariamente
Cálculo del modelo de regresión lineal simple
Girth es nuestra variable independiente “x”, siendo Volume nuestra variable dependiente “y”.
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
- Ecuación de la recta de mínimos cuadrados
\[ y = -36.9435 + 5.0659x\]
- Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
Prueba de pearson
El coeficiente de correlación de Pearson, pensado para variables cuantitativas (escala mínima de intervalo), es un índice que mide el grado de covariación entre distintas variables relacionadas linealmente
Intervalo de confianza
Se llama intervalo de confianza a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con un determinado nivel de confianza. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional.
Valor de P