U1A13

Erick Luke

29/9/2020

Regresión lineal simple parte 2

  • Para este ejercicio se utilizará la serie de datos “trees” que son medidas de árboles de “black cherry”

  • Importar datos

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

Conociendo los datos

glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...

Resumen estadístico

summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Matriz de diagramas de dispersión

pairs(trees)

Matriz de diagramas de coeficientes de correlación

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de Correlación de pearson

cor.test(x = trees$Girth, y= trees$Volume, method="pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

De lo analizado hasta aquí, podemos concluír que:

  1. La variable “girth” esta relacionada con la variable “volume”, por lo cual la usarmeos como respuesta en este modelo.

  2. El coeficiente de correlación de pearson es muy alto (0.9671194) y el valor de P es significativo (p-value < 2.2e-16), esto indica una correlación intensa.

  3. SI tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia importantes

Modelo de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data= trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados

\[y = -36.9435 + 5.0659x \]

Intervalos de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Representación gráfica del modelo

library(ggplot2)
ggplot(data = trees, mapping = aes(x = Girth, y = Volume)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Volumen ~ Diámetro", x = "Diámetro", y = "Volumen") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) 
## `geom_smooth()` using formula 'y ~ x'

## Verificar condiciones para aceptar o no el modelo

  • para evualuar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.
par(mfrow =c(1,2))
plot(modelo.lineal)

Contraste de hipótesis (normalidad de los residuos)

Según el método de prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811

Asignación

  • Prueba de correlación pearson

El Coeficiente de Correlación de Pearson es una medida de la correspondencia o relación lineal entre dos variables cuantitativas aleatorias. Se puede definir como un índice utilizado para medir el grado de relación que tienen dos variables, ambas cuantitativas.

Teniendo dos variables, la correlación facilita que se hagan estimaciones del valor de una de ellas, con conocimiento del valor de la otra variable.

Este coeficiente es una medida que indica la situación relativa de los sucesos respecto a las dos variables, es decir, representa la expresión numérica que indica el grado de correspondencia o relación que existe entre las 2 variables. Estos números varían entre límites de +1 y -1.

  • prueba de Shapiro-wilk

Prueba de Shapiro–Wilk se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hipótesis nula que una muestra x1, …, xn proviene de una población normalmente distribuida.

La hipótesis nula se rechazará si W es demasiado pequeño.3​El valor de W puede oscilar entre 0 y 1.

Siendo la hipótesis nula que la población está distribuida normalmente, si el p-valor es menor a alfa (nivel de significancia) entonces la hipótesis nula es rechazada (se concluye que los datos no vienen de una distribución normal). Si el p-valor es mayor a alfa, se concluye que no se puede rechazar dicha hipótesis.

  • Smirnov kosmogorov

La prueba de Kolmogorov-Smirnov se puede aplicar sobre una muestra para comprobar si una variable (por ejemplo, las notas académicas o los ingresos) se distribuyen normalmente. Esto a veces es necesario saberlo, ya que muchas pruebas paramétricas requieren que las variables que emplean sigan una distribución normal.

Sirve para verificar si las puntuaciones que hemos obtenido de la muestra siguen o no una distribución normal. Es decir, permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica.

  • Residuales

Los residuos de un modelo ajustado son las diferencias entre las respuestas observadas en cada combinación de valores de las variables explicativas y la correspondiente predicción de la respuesta calculada utilizando la función de regresión.

Conclusión

En este ejercicio se realizó un análisis de las medidas de árboles de “black cherry), donde las variables “girth” que representa el diámetro , “volume” representando el volumen del arbol y “height” representando la altura. Analzando el diagráma de dispersión se llego a la conclusion de que el diametro y el volumen estan relacionados, ya que los datos siguen una linealidad notoria de correlación positiva. Los coficientes dieron como resultado una relacion de 0.9671194 confirmando el resultado observado en el diagrama de dispercion.La prueba de correlación de pearson para asegurar aún más la idea anterior, entonces, se obtuvo un valor de 0.9671194 de correlación y una p de 2.2e-16, como el valor de p es significativo y la correlación muy intensa. Dado los resultados se obtuvo una correlacion, se generó el modelo de regresión lineal simple, se analizaron los intervalos de confianza tambien se genero una recta de minimos cuadrados.se realizó un análisis de residuos para verificar si el modelo es valido dando como resultado una minima parte de residuos, para finalizar el ejercicio se ultilizo el metodo de prueba de Shapiro-wilk, el cual indicó un indice de correlación alto de W = 0.97889 y p = 0.7811. Interpretando los resultados, cuando el volumen aumenta aumenta el diametro, marcando una correlacion y comprobando que el modelo SI es valido.