*Este ejemplo se hará con datos de árboles de cerezas negras “Black Cherry”
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
head(trees)
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
summary(trees)
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
pairs(trees)
cor(trees)
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
cor.test(x = trees$Girth, y = trees$Volume, method = "pearson", digits= 3)
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(trees, lower = list( continous = "smooth"), diag = list(continous = "bar"), axislabels = "nome")
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislabels" are
## being ignored. If these are meant to be aesthetics, submit them using the
## 'mapping' variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
De lo que se pudo analizar, se puede concluir que:
Se Observa que los diagrmas de dispersión que la variable de diametro y volumen estan relacionados.
En el coeficiente de correlación de pearson es bastante alto (r=0.9671194) y tenemos un valor de p significativo (p-value < 2.2e-16)
modelo.lineal <- lm(Volume ~ Girth, data = trees)
summary(modelo.lineal)
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de mímino cuadrados
\[ y = -36.9435 + 5.0659x\] * Intervalos de confianza
confint(modelo.lineal)
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
###Analis de residuos * A través de un análisis de residuos*
par(mfrow=c(1,2))
plot(modelo.lineal)
###contraste de hipótesis
A través de la prueba de shapito-wilk
shapiro.test(modelo.lineal$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811
Con este ejercicio se pudo realizar la examinacion de algunos metodos para evaluar el comportamiento y dispersion de ciertos datos con la ayuda del caso de arboles de moras con la relacion al diametro y volumen. se evaluo el comportamiento de el coeficiente de correlacion de pearson el cual opera con dos variables de una forma dependiente, ademas evaluamos los intervalos de confianza el cual consiste en un par o varios para estimar un determinado valor de confianza de un determinado valor x.
por lo anteriormente visto en clase se puede observar que el valor p=.7811 y se maneja que un valor de p>0.05 indica que nuestro modelo es correcto y por lo tanto no puede considerarse equivocado.