Regresión lineal simple parte 2

Este ejemplo se hará con datos de árboles de cerezas negras

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

head(trees)

##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

Primer vistazo a los datos

glimpse(trees)

## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...

Resumen de posición central

summary(trees)

##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Matriz de diagrama de dispersión

pairs(trees)

Matriz de coeficientes de correlación lineal

cor(trees)

##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlación de pearson

cor.test(x = trees$Girth, y = trees$Volume, method = "pearson", digits = 3)

## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194

library(GGally)

## Loading required package: ggplot2

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

ggpairs(trees, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")

## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Conclusiones

De lo hasta ahora analizado, podemos concluir que:

1.- Observarndo los diagramas de dispersión notamos que: la variable de dámetro (girth) y volumen (volume) estan relacionados.

2.- El coeficiente de correlación de pearson es bastante alto (r = 0.9671194) y tenemos un valor de P significativo (p-value < 2.2e-16). Esto significa que hay una intensa correlación entre ambas variables.

¿la correlación implica casualidad?

Cálculo del model de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data = trees) 
summary(modelo.lineal) #resumen del ajuste del modelo

## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados \[ y = -36.9435 + 5.0659x\]
Intervalos de confianza

# Intervalos de confianza para los coeficientes del modelo
confint(modelo.lineal)

##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Representación gráfica del modelo **aqui representamos la linea de mínimos cuadrados y el intervalo de confianza

# importare el paquete que utilizare
library(ggplot2)
ggplot(data = trees, mapping = aes(x = Girth, y = Volume)) +
  geom_point(color = "green", size = 2) +
  geom_smooth(method = "lm", se = TRUE, color = "black") +
  labs(title = "Volumen ~ Diametro", x = "diametro", y = "Volumen") +
  theme_bw() + theme(plot.title = element_text(hjust = 0.5))

## `geom_smooth()` using formula 'y ~ x'

Prueba de pearson

Se considera una prueba no parametrica que mide la discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando en qué medidas las diferencias existentes entre ambas, de habverlas, se deben al azar en el contraste de hipótesis.

el Valor P en estadistica

Se define como la probabilidad de que un valor estadístico calculado sea posible dada una hipótesis nula cierta.

Verificación de las condiciones para aceptar (o no) el modelo

A través de un análisis de residuos

par(mfrow=c(1,2))
plot(modelo.lineal)

Contraste de hipotesis

A traves de la prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811

U1A11

Gerardo G. Rojas

30/9/2020