Regresión lineal simple parte 2
- Este ejemplo se hará con datos de árboles de cerezas negras “black cherry”
## Warning: package 'dplyr' was built under R version 3.6.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
Primer vistazo a los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
Resumen de posición central
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Matriz de coeficientes de correlación lineal
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
Prueba de correlación de pearson
La función de la correlación de Pearson es determinar si existe una relación lineal entre dos variables a nivel intervalar y que esta relación no sea debida al azar; es decir, que la relación sea estadísticamente significativa.
- Ejemplo: Se desea saber si existe relación entre la autoestima y la depresión en estudiantes de preparatoria. Para ello, un investigador aplica una escala de depresión en la que los estudiantes con calificaciones más altas tienen mayor depresión; también utiliza una escala de autoestima en la que los puntajes mayores indican mayor autoestima.
Decisiones para seleccionar el coeficiente de correlación de Pearson
• Es un problema de Asociación
• V1: Depresión
• V2: Autoestima
2 variables medidas a nivel intervalar (puntaje de depresión y calificación de autoestima)
• Ho: No hay relación lineal entre el puntaje de depresión y el de autoestima en estudiantes de preparatoria (r = 0)
• Prueba estadística: coeficiente de correlación de Pearson
• Regla de decisión: Si p ≤ 0.05 se rechaza Ho
Nota: El nivel de significancia que se establece en ciencias sociales y en psicología normalmente es 0.05, este puede variar en la regla de decisión a 0.01 y 0.001 si se requiere mayor certeza en la prueba de hipótesis.
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
## Warning: package 'GGally' was built under R version 3.6.3
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 3.6.3
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(trees, lower = list( continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Conclusiones
De lo hasta ahora analizado, podemos concluir que:
Observando los diagramas de dispersión notamos que: la variable de dámetro (girth) y volumen (volume) están relacionadas.
El coeficiente de correlación de pearson es bastante alto (r =0.9671194) y tenemos un valor de P significativo (p-value < 2.2e-16). Esto significa que hay una intensa correlación entre ambas variables.
¿La correlación implica causalidad?
Cálculo del modelo de regresión lineal simple
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados
\[ y = -36.9435 + 5.0659x\]
Intervalos de confianza
En estadística, se llama intervalo de confianza a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con un determinado nivel de confianza. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. El nivel de confianza representa el porcentaje de intervalos que tomados de 100 muestras independientes distintas contienen en realidad el valor desconocido.
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
Verificación de las condiciones para aceptar (o no) el modelo
Conclusión
En este ejercicio se logro hacer una interpretación de correlacion sobre los datos obtenidos de los árboles de cerezo negro, en el ánalisis de de diametro vs volumen, como fue de esperarse, la correlación era evidente, dandonos un coeficiente de 0.96. En el analisis de la prueba de Shapiro.Wilk, se encontro que los valores residuales no eran lo suficiente significativos para decir que el modelo lineal que fue propuesto fuera equivocado.