Regresión lineal simple parte 2
- Este ejemplo se hará con datos de árboles de cerezas negras
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
- Primer vistazo a los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
- Resumen de posición central
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
- Matriz de diagrama de dispersión
- Matriz de coeficientes de correlación lineal
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
- Prueba de correlación de pearson
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(trees, lower = list(continous = "smooth"), diag = list(continous = "bar"), axisLabels = "none")Conclusiones
De lo hasta ahora analizado, podemos concluir que:
1.- Observarndo los diagramas de dispersión notamos que: la variable de dámetro (girth) y volumen (volume) estan relacionados.
2.- El coeficiente de correlación de pearson es bastante alto (r = 0.9671194) y tenemos un valor de P significativo (p-value < 2.2e-16). Esto significa que hay una intensa correlación entre ambas variables.
¿la correlación implica casualidad?
Cálculo del model de regresión lineal simple
modelo.lineal <- lm(Volume ~ Girth, data = trees)
summary(modelo.lineal) #resumen del ajuste del modelo##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados \[ y = -36.9435 + 5.0659x\]
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
- Representación gráfica del modelo **aqui representamos la linea de mínimos cuadrados y el intervalo de confianza
# importare el paquete que utilizare
library(ggplot2)
ggplot(data = trees, mapping = aes(x = Girth, y = Volume)) +
geom_point(color = "green", size = 2) +
geom_smooth(method = "lm", se = TRUE, colo = "black") +
labs(title = "Volumen ~ Diametro", x = "diametro", y = "Volumen") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5))## Warning: Ignoring unknown parameters: colo
## `geom_smooth()` using formula 'y ~ x'
Prueba de pearson
Se considera una prueba no parametrica que mide la discrepancia entre una distribución observada y otra teórica (bondad de ajuste), indicando en qué medidas las diferencias existentes entre ambas, de habverlas, se deben al azar en el contraste de hipótesis.
el Valor P en estadistica
Se define como la probabilidad de que un valor estadístico calculado sea posible dada una hipótesis nula cierta.