U1A13

Isabel Valenzuela

29/9/2020

Regresión lineal simple parte 2

árboles black cherry

  • Para este ejercicio se utilizará la serie de datos “trees” que son medidas de árboles de “Black cherry”

  • Importar datos

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7
  • Conociendo los datos
glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
  • Resumen estadístico
summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00
  • Matriz de diagramas de dispersión
pairs(trees)

*Matriz de diagramas de coeficientes de correlación

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
  • Correlación de pearson
cor.test(x = trees$Girth, y = trees$Volume, method = "pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower = list(continuous="smooth"), diag = list(continous= "bar"), axisLabels = "none")

De lo analizado hasta aquí, podemos concluir que:

  1. La variable “girth” está relacionada con la variable “volume”, por lo cual la usaremos como respuesta en este modelo.

  2. El coeficiente de pearson es muy alto (0.9671194) y el valor de P es significativo (p-value < 2.2e-16), esto indica una correlación intensa.

  3. SI tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia importantes.

Modelo de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data = trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[y= -36.9435 + 5.0659x\]

  • Intervalos de confianza
confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799
ggplot(data = trees, mapping = aes(x = Girth, y = Volume)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Volumen ~ Diámetro", x = "Diámetro", y = "Volumen") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) 
## `geom_smooth()` using formula 'y ~ x'

Verificar condiciones para aceptar o no el modelo

*Para evaluar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.

par(mfrow=c(1,2))
plot(modelo.lineal)

Contraste de hipótesis (normalidad de los residuos)

Según el método de prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811

Asignación

Prueba de correlación de Pearson

El fundamento del coeficiente de Pearson es el siguiente: Cuanto más intensa sea la concordancia (en sentido directo o inverso) de las posiciones relativas de los datos en las dos variables, el producto del numerador toma mayor valor (en sentido absoluto). Si la concordancia es exacta, el numerador es igual a N (o a -N), y el índice toma un valor igual a 1 (o -1). y su fórmula esta dada por: \[ r_xy =\frac{\Sigma\ z_x z_y\ }{N}\]

Prueba de Shapiro-wilk

Cuando la muestra es como máximo de tamaño 50 se puede contrastar la normalidad con la prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la media y la varianza muestral, S2, y se ordenan las observaciones de menor a mayor. A continuación se calculan las diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero y el antepenúltimo, etc. y se corrigen con unos coeficientes tabulados por Shapiro y Wilk. El estadístico de prueba es:

\[W= \frac{D^2}{nS^2}\]

Smirnov Kolmogorov

Cuando la prueba Kolmogorov-Smirnov kolmogorov se aplica para contrastar la hipótesis de normalidad de la población, el estadístico de prueba es la máxima diferencia:

\[D= máx|F_n(x)-F_0(x)|\]

Análisis de residuales

Si bien para la estimación por mínimos cuadrados de los coeficientes de un modelo de regresión, sólo es necesaria la asunción de linealidad, la normalidad de los mismos, en base a la cual se realizan los contrastes de hipótesis, está basada también en las asunciones de normalidad y homoscedasticidad. Por consiguiente, conviene asegurar que dichas asunciones se cumplen en cada caso.

Redacción personal

Con este segundo ejercicio de regresión lineal simple se entendieron mejor los conceptos. Ésta vez el análisis hecho con los árboles “Black Cherry”, viendo que existe una correlación muy grande (0.96) entre el volumen y diametro del árbol. Se analizó con correlación de Pearson, donde reafirmaron esta relación, ya que p tuvo un valore de <2.2e-16. Después a traves del modelo de regresión lineal simple se observó como el intervalo de confianza era muy reducido. También se verificó que este modelo fuera aceptado a través de un análisis de residuos.