Regresión lineal simple parte 2

Este ejemplo se hará con datos de árboles de cerezas negras “black cherry”

library(dplyr)

## Warning: package 'dplyr' was built under R version 3.6.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

head(trees)

##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

Primer vistazo a los datos

glimpse(trees)

## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...

Resumen de posición central

summary(trees)

##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Matriz de diagramas de dispersión

pairs(trees)

Matriz de coeficientes de correlación lineal

cor(trees)

##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlación de pearson

La función de la correlación de Pearson es determinar si existe una relación lineal entre dos variables a nivel intervalar y que esta relación no sea debida al azar; es decir, que la relación sea estadísticamente significativa.

Ejemplo: Se desea saber si existe relación entre la autoestima y la depresión en estudiantes de preparatoria. Para ello, un investigador aplica una escala de depresión en la que los estudiantes con calificaciones más altas tienen mayor depresión; también utiliza una escala de autoestima en la que los puntajes mayores indican mayor autoestima.

Decisiones para seleccionar el coeficiente de correlación de Pearson

• Es un problema de Asociación

• V1: Depresión

• V2: Autoestima

2 variables medidas a nivel intervalar (puntaje de depresión y calificación de autoestima)

• Ho: No hay relación lineal entre el puntaje de depresión y el de autoestima en estudiantes de preparatoria (r = 0)

• Prueba estadística: coeficiente de correlación de Pearson

• Regla de decisión: Si p ≤ 0.05 se rechaza Ho

Nota: El nivel de significancia que se establece en ciencias sociales y en psicología normalmente es 0.05, este puede variar en la regla de decisión a 0.01 y 0.001 si se requiere mayor certeza en la prueba de hipótesis.

cor.test(x = trees$Girth, y = trees$Volume, method = "pearson", digits= 3)

## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194

library(GGally)

## Warning: package 'GGally' was built under R version 3.6.3

## Loading required package: ggplot2

## Warning: package 'ggplot2' was built under R version 3.6.3

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

ggpairs(trees, lower = list( continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")

## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Conclusiones

De lo hasta ahora analizado, podemos concluir que:

Observando los diagramas de dispersión notamos que: la variable de dámetro (girth) y volumen (volume) están relacionadas.
El coeficiente de correlación de pearson es bastante alto (r =0.9671194) y tenemos un valor de P significativo (p-value < 2.2e-16). Esto significa que hay una intensa correlación entre ambas variables.

¿La correlación implica causalidad?

Cálculo del modelo de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data = trees)
summary(modelo.lineal)

## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados

\[ y = -36.9435 + 5.0659x\]

Intervalos de confianza

Imagen intervalo de confianza En estadística, se llama intervalo de confianza a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con un determinado nivel de confianza. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. El nivel de confianza representa el porcentaje de intervalos que tomados de 100 muestras independientes distintas contienen en realidad el valor desconocido.

confint(modelo.lineal)

##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Verificación de las condiciones para aceptar (o no) el modelo

Análisis gráfico de residuos

par(mfrow=c(1,2))
plot(modelo.lineal)

Contraste de hipótesis

A través de la prueba de Shapiro-Wilk

shapiro.test(modelo.lineal$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811

Conclusión

En este ejercicio se logro hacer una interpretación de correlacion sobre los datos obtenidos de los árboles de cerezo negro, en el ánalisis de de diametro vs volumen, como fue de esperarse, la correlación era evidente, dandonos un coeficiente de 0.96. En el analisis de la prueba de Shapiro.Wilk, se encontro que los valores residuales no eran lo suficiente significativos para decir que el modelo lineal que fue propuesto fuera equivocado.

U1A11

Bernardo Valenzuela

04/10/2020