U1A13

Marijose González del Real

29/Sep/2020

Regresión lineal simple parte 2

  • Para este ejercicio se utilizará la serie de datos “trees” que son medidas de árboles de “black cherry”

Black cherry tree

  • Importar datos
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7
  • Conociendo los datos
glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
  • Resumen estadístico
summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00
  • Matriz de diagramas de dispersión
pairs(trees)

  • Matriz de diagramas de coeficientes de correlación
cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
  • Prueba de correlación de pearson
cor.test(x= trees$Girth, y= trees$Volume, method="pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower=list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

De lo analizado hasta aquí, podemos concluir que:

  1. La variable “girth” esta relacionada con la variable “volume”, por lo cual la usaremos como respuesta en este modelo.

  2. El coeficiente de correlación de pearson es muy alto (0.9671194) y el valor de P es significativo (p-value < 2.2e-16), esto indica una correlación intensa.

  3. SI tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia importantes

Modelo de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data=trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16
  • Ecuación de la recta de mínimos cuadrados

\[ y = -36.9435 + 5.0659 x \] * Intervalos de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799
library(ggplot2)
ggplot(data = trees, mapping = aes(x = Girth, y = Volume)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Volumen ~ Diámetro", x = "Diámetro", y = "Volumen") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5))
## `geom_smooth()` using formula 'y ~ x'

Verificar condiciones para aceptar o no el modelo

  • Para evaluar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.
par(mfrow =c(1,2))
plot(modelo.lineal)

Contraste de hipótesis (normalidad de residuos)

Según el método de prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811

Asignación

  • Prueba de correlación pearson

Coeficiente que da cuenta de la correlación entre dos variables. Fórmula:
Fórmula del coeficiente de Pearson

Función relevante en R: cor. Equivalente en inglés: «Pearson coefficient».

  • prueba de Shapiro-wilk

Prueba estadística que nos permite estimar en qué medida una muestra proviene de una distribución normal. Equivalente en inglés: «Shapiro-Wilks Test».

La prueba de normalidad de Shapiro-Wilk es aplicable cuando se analizan muestras compuestas por menos de 50 elementos (muestras pequeñas).

  • Smirnov Cosmogorov

La prueba de Kolmogórov-Smirnov es una propia perteneciente a la estadística, concretamente a la estadística inferencial. La estadística inferencial pretende extraer información sobre las poblaciones.

Se trata de una prueba de bondad de ajuste, es decir, sirve para verificar si las puntuaciones que hemos obtenido de la muestra siguen o no una distribución normal. Es decir, permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen de una población que tiene la distribución teórica especificada, es decir, lo que hace es contrastar si las observaciones podrían razonablemente proceder de la distribución especificada.

Para aplicar este test utilizamos la función lillie.test del paquete [5, nortest].

  • Residuales

Llamamos residuos a las diferencias entre los valores de la variable dependiente observados y los valores que predecimos a partir de nuestra recta de regresión.

Conclusión

Se realizó un análisis acerca de las medidas de árboles de cereza negra, las cuales eran “girth” que es el diámetro del árbol, “volume” que es el volumen y “height” que es la altura. En el diagráma de dispersión se pudo observar que las variables “girth” y “volume” estaban relacionadas debido a que los datos seguían una linealidad notoria de correlación positiva, directamente proporcionales. Por consiguiente, se obtuvieron los coeficientes de correlación y se afirmó la idea de que la correlación entre las variables era muy alta (0.9671194). Además se hizo uso de la prueba de correlación de pearson para asegurar aún más la idea anterior, entonces, se obtuvo un valor de 0.9671194 de correlación y una p de 2.2e-16, como el valor de p es muy pequeño y la correlación muy alta, se afirma tener una correlación intensa entre las variables. Por ello, se generó el modelo de regresión lineal simple, del cual se obtuvo la ecuación de la recta de mínimos cuadrados y además se analizaron los intervalos de confianza. Los datos se encontraron con muy poca dispersión y se realizó un análisis de residuos para evaluar las condiciones que permiten decir si el modelo es válido o no. Finalmente, se encontraron muy pocos residuos y se utilizó la prueba de Shapiro-wilk, el cual indicó un indice de correlación alto de 0.97889 y una p algo pequeña con un valor de 0.7811. Por lo tanto, se dice que el modelo es válido y SI se relacionan las variables, puesto que a medida que un árbol aumenta en volumen, generalemente aumentará su diámetro.

Girth & Volume

Referencias