Regresión lineal simple parte 2
Análisis exploratorio de datos
Para este ejemplo usaremos datos de árboles de cereza negros
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
- Primer vistazo a los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
- Resumen estadístico de posición central
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Análisis de correlación
Matriz de coeficientes de correlación
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
Prueba de correlación de pearson
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
Resumen de análisis de correlación
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Conclusiones del análisis de correlación:
Observando las gráficas de diagramas de dispersión, tenemos que: el diámetro (girth) está relacionado con el volumen (Volume).
El coeficiente de correlación de pearson es bastante alto (0.9671194) y tenemos un valor de P significativo (< 2.2e-16)
Tiene sentido realizar un model de regresión lineal.
Cálculo del modelo de regresión lineal simple
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados
\[ y = -36.9435 + 5.0659x\]
## [1] "coefficients" "residuals" "effects" "rank"
## [5] "fitted.values" "assign" "qr" "df.residual"
## [9] "xlevels" "call" "terms" "model"
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
Representación grafica del modelo
Está es una representacion grafica de nuestro modelo, podremos observar su comportamiento para así poder sacar nuestras hipotesis
ggplot(data = trees, mapping = aes(x =Girth, y = Volume))+
geom_point(color= "firebrick", size = 2)+
geom_smooth(method = "lm", se = TRUE, color="black")+
labs(title = "Volumen - Diametro", x = "Diametro", y = "Volumen")+
theme_bw()+ theme(plot.title = element_text(hjust=0.5))
## `geom_smooth()` using formula 'y ~ x'
Tarea
- Correlación de pearson
- Prueba de confianza
- Shapiro-wilk
- Residuales
- Gráfico Q-Q
Correlación de pearson
El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.
El coeficiente de correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva. Es decir, a medida que aumenta el valor de una variable, también lo hace el valor de la otra. Un valor menor que 0 indica una asociación negativa; es decir, a medida que aumenta el valor de una variable, el valor de la otra disminuye. ### ________________________________________________________________________________________________________________________________________________________________
Prueba de confianza
Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad). Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro poblacional.
________________________________________________________________________________________________________________________________________________________________
Shapiro-wilk
El test de Shapiro-Wilk es un contraste de ajuste que se utiliza para comprobar si unos datos determinados (X1, X2,…, Xn) han sido extraídos de una población normal. Los parámetros de la distribución no tienen porqué ser conocidos y está adecuado para muestras pequeñas (n<50).
Un contraste de ajuste tiene como objetivo comprobar si con base en la información suministrada por una muestra se puede aceptar que la población de origen sigue una determinada distribución de probabilidad, en nuestro caso, la distribución normal. ### ________________________________________________________________________________________________________________________________________________________________
Residuales
El estudio de residuos es una herramienta formidable en el estudio de las regresiones
lineales. Nos sirve para saber si se están cumpliendo las premisas de linealidad de las relaciones, homocedasticidad y normalidad de los residuos. Los residuos studentizados y los valores DFFIT nos ayudan a encontrar casos desviantes y puntos influyentes. Es más fácil de comprender su lógica en el caso de las regresiones lineales simples. Por ello, se comenzaremos viendo su aplicación a éstas.
Definición de residuo
En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la variable dependiente observados y los valores que predecimos a partir de nuestra recta de regresión. ### ________________________________________________________________________________________________________________________________________________________________
Grafico Q-Q
Un gráfico Cuantil-Cuantil permite observar cuan cerca está la
distribución de un conjunto de datos a alguna distribución ideal ó comparar la distribución de dos conjuntos de datos.
Grafica de pearson
## Grafica (Q-Q)
## Loading required package: carData
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
##
## Welch Two Sample t-test
##
## data: trees$Height and trees$Volume
## t = 14.474, df = 38.816, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 39.42348 52.23459
## sample estimates:
## mean of x mean of y
## 76.00000 30.17097
Shapiro-wilk
##
## Shapiro-Wilk normality test
##
## data: trees$Volume
## W = 0.88757, p-value = 0.003579
Residuales
## 1 2 3 4 5
## -0.0173575709 -0.0914655430 -0.1224091973 -0.0080289384 0.1023407552
## 6 7 8 9 10
## 0.1239522051 -0.0925692013 0.0272330496 0.0781804436 0.0219819323
## 11 12 13 14 15
## 0.0606594333 0.0318293773 0.0305938202 -0.0657241262 0.0244530463
## 16 17 18 19 20
## 0.0014544591 0.1042094690 0.1356744210 -0.0507418809 -0.1520675606
## 21 22 23 24 25
## 0.0161048145 0.0500715215 -0.0420989256 -0.0756756848 -0.0218186199
## 26 27 28 29 30
## -0.0107127115 0.0006307133 -0.0320930199 -0.0110885506 -0.0095441044
## 31
## -0.0059738262
Grafica de residuales
Conclusión
Podemos conclir la enorme relación que hay entre el diametro y el volumen de X arbol, en este ejercició se logra concluir que en efecto hay una corelación muy grande entre los datos comparados, tambien aprendimos definiciones nuevas y como poder desarrolla un modelo de regrecion lineal de manera muy completa.
Bibliografias
Anonimo. (2020). ¿Qué es el coeficiente de correlación de Pearson?. 01/10/2020, de QuestionPro Sitio web: https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-pearson/
Alonzo Jimenez. (2006). Probabilidad y estadistica: Shapiro-wilk. 01/10/2020, de AtakaCiencia Sitio web: https://www.xatakaciencia.com/matematicas/contraste-de-shapiro-wilk
Florentino Mendez. (2002). Residuos en la estadistica. 01/10/2020, de PDF Sitio web: http://tabarefernandez.tripod.com/coco2.pdf
Dra. Diana M. Kelmansky . (2008). Graficas Q-Q. 01/10/2020, de PDF Sitio web: http://www.dm.uba.ar/materias/analisis_de_datos/2008/1/teoricas/Teor5.pdf