Para este ejemplo usaremos datos de arboles de cereza negros
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Observando las graficas de diagramas de dispersión, teneemos que: el diámetro (girth) está relacionado con el volumen (Volume).
El coeficiente de correlación de pearson es bastante alto (0.9671194) y tenemos un valor de P significativo (< 2.2e-16)
Tiene sentido realizar un model de regresión lineal.
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de minimos cuadrados
\[ y = -36.9435 + 5.0659x \]
## [1] "coefficients" "residuals" "effects" "rank"
## [5] "fitted.values" "assign" "qr" "df.residual"
## [9] "xlevels" "call" "terms" "model"
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos alternativas.
Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad).
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
##
## Welch Two Sample t-test
##
## data: trees$Height and trees$Volume
## t = 14.474, df = 38.816, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 39.42348 52.23459
## sample estimates:
## mean of x mean of y
## 76.00000 30.17097
La Prueba Shapiro Wilk evalúa si una muestra de la población está distribuida normalmente. Esta prueba es interpretada basada en el valor P. Identifica el nivel alfa. Este nivel se usa cuando comparas el valor P. El nivel alfa se ofrece con frecuencia en problemas o puede localizarse en la gráfica alfa.
##
## Shapiro-Wilk normality test
##
## data: trees$Volume
## W = 0.88757, p-value = 0.003579
Diferencia entre el valor observado de la variable dependiente y el valor proyectado por la ecuación de regresión.
## 1 2 3 4 5
## -0.0173575709 -0.0914655430 -0.1224091973 -0.0080289384 0.1023407552
## 6 7 8 9 10
## 0.1239522051 -0.0925692013 0.0272330496 0.0781804436 0.0219819323
## 11 12 13 14 15
## 0.0606594333 0.0318293773 0.0305938202 -0.0657241262 0.0244530463
## 16 17 18 19 20
## 0.0014544591 0.1042094690 0.1356744210 -0.0507418809 -0.1520675606
## 21 22 23 24 25
## 0.0161048145 0.0500715215 -0.0420989256 -0.0756756848 -0.0218186199
## 26 27 28 29 30
## -0.0107127115 0.0006307133 -0.0320930199 -0.0110885506 -0.0095441044
## 31
## -0.0059738262
Los gráficos Q-Q (cuantil-cuantil) comparan dos distribuciones de probabilidad mediante el trazado de sus cuantiles uno contra el otro. Un gráfico Q-Q se utiliza para comparar las formas de las distribuciones, proporcionando una vista gráfica de cómo las propiedades, como la ubicación, la escala y la asimetría, son similares o diferentes en las dos distribuciones.
Amat J. (2016) Correlacion lineal y Regresion lineal simple. Recuperado el 2 de octubre del 2020 de: https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal#bibliograf%C3%ADa
Washigton J. (2018). Cómo interpretar la prueba Shapiro Wilk. Geniolandia. Recuperado el 2 de octubre del 2020 de: https://www.geniolandia.com/13131914/como-interpretar-la-prueba-shapiro-wilk
Sin autor (2017). Residual. Recuperado el 2 de octubre del 2020 de: https://glosarios.servidor-alicante.com/terminos-estadistica/residual
IBM (S.f). Gráficos Q-Q. Recuperado el 2 de octubre del 2020 de: https://www.ibm.com/support/knowledgecenter/es/SSLVMB_subs/statistics_mainhelp_ddita/spss/base/chart_creation_qqplot.html
En este script aprendimos ademas del analisis de correlacion, acerca de la correlacion de pearson, la prueba de confianza aunque ya la habiamos usado anteriormente, el shapiro-wilk, los residuales y el grafico Q-Q, aprendimos a como utilizarlos en R Markdown y analisar las graficas y las tablas que nos van surgiendo.