##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
Primer vistazo a los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
Resumen estadístico de posicón central
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Análisis de correlación
Matris de coedicientes de correlación
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
Prueba de correlación de pearson
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
Resumen de análisis de correlación
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Conclusiones del análisis de correlación:
Observando las gráficas de diagramas de dispersión, tenemos que: el diámetro (girth) está relacionado con el volumen (volume).
El coeficiente de correlación de pearson es bastante alto (0.9671194) y tenemos un valo de p significativo (< 2.2e-16)
Tiene sentido realizar un modelo de regresión lineal.
Cálcilo del modelo de regresión lineal simple
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados \[ y= -36.9435 + 5.0659x \]
## [1] "coefficients" "residuals" "effects" "rank"
## [5] "fitted.values" "assign" "qr" "df.residual"
## [9] "xlevels" "call" "terms" "model"
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
Tarea
- Correlación de pearson El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r), o si se aplica la población Coeficiente de Pearson poblacional (ρ).
- Prueba de confianza Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad).
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
##
## Welch Two Sample t-test
##
## data: trees$Height and trees$Volume
## t = 14.474, df = 38.816, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 39.42348 52.23459
## sample estimates:
## mean of x mean of y
## 76.00000 30.17097
- Shapiro-wilk El test de Shapiro-Wilk es un contraste de ajuste que se utiliza para comprobar si unos datos determinados (X1, X2,…, Xn) han sido extraídos de una población normal.
##
## Shapiro-Wilk normality test
##
## data: trees$Volume
## W = 0.88757, p-value = 0.003579
- Residuales En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la variable dependiente observados y los valores que predecimos a partir de nuestra recta de regresión.
## 1 2 3 4 5
## -0.0173575709 -0.0914655430 -0.1224091973 -0.0080289384 0.1023407552
## 6 7 8 9 10
## 0.1239522051 -0.0925692013 0.0272330496 0.0781804436 0.0219819323
## 11 12 13 14 15
## 0.0606594333 0.0318293773 0.0305938202 -0.0657241262 0.0244530463
## 16 17 18 19 20
## 0.0014544591 0.1042094690 0.1356744210 -0.0507418809 -0.1520675606
## 21 22 23 24 25
## 0.0161048145 0.0500715215 -0.0420989256 -0.0756756848 -0.0218186199
## 26 27 28 29 30
## -0.0107127115 0.0006307133 -0.0320930199 -0.0110885506 -0.0095441044
## 31
## -0.0059738262
- Gráfico Q-Q Un gráfico Cuantil-Cuantil permite observar cuan cerca está la distribución de un conjunto de datos a alguna distribución ideal ó comparar la distribución de dos conjuntos de datos.
Conclusión
Con lo anteriormente visto, se pudo aprender a utilizar los datos de la circunferencia, el volumen y su altura, sacando su correlación. También identificamos el residuo de los datos y su ecuación de la recta de mínimos cuadrados.
Bibliografías
Amat, J. (2016). Correlación lineal y Regresión lineal simple. Recuperado de: https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal
Jiménez, A. (2006). Contraste de Shapiro-Wilk. Recuperado de: https://www.xatakaciencia.com/matematicas/contraste-de-shapiro-wilk
Kelmansky, D. (2008). Análisis de datos. Recuperado de: http://www.dm.uba.ar/materias/analisis_de_datos/2008/1/teoricas/Teor5.pdf
Marco, F. (S.F.). Intervalo de confianza. Recuperado de: https://economipedia.com/definiciones/intervalo-de-confianza.html
Menéndez, F. (2002). Residuos, Residuos studentizados y valores DFFIT. Recuperado de: http://tabarefernandez.tripod.com/coco2.pdf