Regresion lineal simple parte 2
- Este ejemplo se hara con datos de arboles de cerezas negra “black cherry”
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
- primer vistazo a los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
- resumen de posicion central
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
- matriz de diagrama de dispersion
- matris de coefiencientes de correlacion lineal
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
- prueba de correlacion de Pearson
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(trees,lower = list( continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
conclusiones
De lo hasta ahora analizado, podemos concluir que:
Obervando los diagramas de dispersion notamos que: la variable de diametro (girth) y volumen (volume) estan relacionados.
El coeficiente de correlacion de Pearson es bastante alta (r=0.9671194) y tenemos un valor de P significativo (p-value < 2.2e-16). esto significa que hay una intensa correlacion entre ambas variables.
¿La correlacion implica casualidad?
calculo del modelo de regresion lineal simple
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuacion de la recta de minimos cuadrados
\[ y = -36.9435 + 5.0659x\]
Asignacion
En esta actividad el tema fue respecto a unos arboles de cerezas negra “black cherry”, donde los datos obtenidos fueron, el diametro del tronco, la altura y el volumen, donse se observo que existe una relacion con el diametro y el volumen, donde se ultizo un nuevo modelo que es El coeficiente de correlacion de Pearson el cual nos arrojo que si existe una gran correlacion con las dos variables mencionadas antes.
Prueba de Pearson prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.
Intervalo de confianza Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad). Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro poblacional.
Valor de P se define como la probabilidad de que un valor estadístico calculado sea posible dada una hipótesis nula cierta.
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
Verificación de las condiciones para aceptar (o no) el modelo
Contraste de hipótesis
A través de la prueba de Shapiro-Wilk
##
## Shapiro-Wilk normality test
##
## data: modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811
- Conclusion En esta asignacion se retomo el el tema de unos arboles de cerezas negra “black cherry”, donde los datos obtenidos fueron, el diametro del tronco, la altura y el volumen, donse se observo que existe una relacion con el diametro y el volumen. A esto se le agrego los ultimos puntos que fueron los intervalos de confianza, otro tipo de grafica y el tema mas importante que fue la prueba de Shapiro-Wilk el cual se usa para contrastar la normalidad de un conjunto de datos.