Regresión lineal simple, parte 2

  • Este ejemplo se hara con datos de arboles de cerezas negras (black Cherrys)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7
  • Primer vistazo a los datos
glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
  • Resumen de posición central
summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00
  • Matriz de diagrama de dispersión
pairs(trees)

  • Matriz de coeficientes de relación lineal
cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
  • Prueba de correlación de Pearson
cor.test(x = trees$Girth, y = trees$Volume, method = "pearson", digits= 3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower = list(continous = "smooth", diag = list(continous = "bar"), axislabels = "none"))

Conclusiones

  • de lo hasta ahora analizado, podemos concluir que:

1.- Observando los diagramas de dispersión notamos que el diametro y el volumen se relacionan entre sí.

2.- El coeficiente de correlación de Pearson es bastante alto (r=0.9671194) y tenemos un valor de P significativo (p-value < 2.2e-16), significando que hay una gran correlación entre ambas.

Cálulo del modelo de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data = trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

\[ y=-36.9435 + 5.0659x \]

  • Intervalos de confianza
confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Redacción de lo hecho en esta clase.

  • Continuamos con la regresión lineal simple, ahora tomamos unos datos de aquí mismo con los que hicimos la actividad. Había tres datos de los cuales solo dos tenian relación entre sí (se vio cuando hicimos la matriz de diagrama de dispersión) entonces con esos datos fuimos trabajando. Obtuvimos los coeficientes de relación entre los 3 datos y vimos que dos de ellos eran muy altos por lo que decidimos utilizar una prueba de pearson para verificar si esa relación era significativa. Por último, cálculmos el modelo de regresión lineal simple y hicimos uso de los intervalos de confianza.

Investigación:

  • Prueba de Pearson.- El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente. El coeficiente de correlación puede tomar un rango de valores de +1 a -1. 0 indica que no hay asociación entre variables, +1 que la relación es positiva (ambas variables aumentan) y -1 que la relación es negativa (una variable aumenta y otra disminuye).

  • Intervalos de confianza.- El intervalo de confianza describe la variabilidad entre la medida obtenida en un estudio y la medida real de la población (el valor real). Corresponde a un rango de valores, cuya distribución es normal y en el cual se encuentra, con alta probabilidad, el valor real de una determinada variable.

  • Valor de P.- Se define como la probabilidad de que un valor estadístico calculado sea posible dada una hipótesis nula cierta. Recibe diferentes nombres: valor p, conocido también como p, p-valor, valor de p consignado, o directamente en inglés p-value.