Regresión Lineal Simple parte 2}

*Este ejemplo se hará con datos de árboles de cerezas negras “Black Cherry”

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7
glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00
pairs(trees)

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
cor.test(x = trees$Girth, y = trees$Volume, method = "pearson", digits= 3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower = list( continous = "smooth"), diag = list(continous = "bar"), axislabels = "nome")
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislabels" are
## being ignored. If these are meant to be aesthetics, submit them using the
## 'mapping' variable within ggpairs with ggplot2::aes or ggplot2::aes_string.

De lo que se pudo analizar, se puede concluir que:

  1. Se Observa que los diagrmas de dispersión que la variable de diametro y volumen estan relacionados.

  2. En el coeficiente de correlación de pearson es bastante alto (r=0.9671194) y tenemos un valor de p significativo (p-value < 2.2e-16)

Cálculo del modelto de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data = trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de mímino cuadrados

\[ y = -36.9435 + 5.0659x\] * Intervalos de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Verificación de las condiciones para aceptar ( o no) el modelo

###Analis de residuos * A través de un análisis de residuos*

par(mfrow=c(1,2))
plot(modelo.lineal)

###contraste de hipótesis

A través de la prueba de shapito-wilk

shapiro.test(modelo.lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811

Con este ejercicio se pudo realizar la examinacion de algunos metodos para evaluar el comportamiento y dispersion de ciertos datos con la ayuda del caso de arboles de moras con la relacion al diametro y volumen. se evaluo el comportamiento de el coeficiente de correlacion de pearson el cual opera con dos variables de una forma dependiente, ademas evaluamos los intervalos de confianza el cual consiste en un par o varios para estimar un determinado valor de confianza de un determinado valor x.

por lo anteriormente visto en clase se puede observar que el valor p=.7811 y se maneja que un valor de p>0.05 indica que nuestro modelo es correcto y por lo tanto no puede considerarse equivocado.