- Regresión lineal simple parte 2
- Conociendo los datos
- Resumen estadístico
- Matriz de diagramas de dispersión
- Matriz de diagramas de coeficientes de correlación
- Prueba de Correlación de pearson
- Modelo de regresión lineal simple
- Ecuación de la recta de mínimos cuadrados
- Intervalos de confianza
- Representación grafica del modelo
- Verificar condiciones para aceptar o no el modelo
- Contraste de hipótesis (normalidad de los residuos)
- Investigación
- Conclusión
- Bibliografia
Regresión lineal simple parte 2
- Para este ejercicio se utilizará la serie de datos “trees” que son medidas de árboles de “black cherry”
Black cherry tree
- Importar datos
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
Conociendo los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
Resumen estadístico
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Matriz de diagramas de dispersión
Matriz de diagramas de coeficientes de correlación
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
Prueba de Correlación de pearson
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(trees, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
De lo analizado hasta aquí, podemos concluir que:
La variable “girth” está relacionada con la variable “volume”, por lo cual la usaremos como respuesta en este modelo
El coeficiente de correlación de pearson es muy alto (0.9671194) y el valor de P es significativo (p-value < 2.2e-16), esto indica una correlación intensa.
SI tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correkación y significancia importantes.
Modelo de regresión lineal simple
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados
\[y = 36.9435 +5.0659x \]
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
Representación grafica del modelo
#Si los intervalos de confianza son muy grandes no son confiables
library(ggplot2)
ggplot(data = trees, mapping = aes(x = Girth, y = Volume)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Volumen ~ Diámetro", x = "Diámetro", y = "Volumen") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) ## `geom_smooth()` using formula 'y ~ x'
Verificar condiciones para aceptar o no el modelo
- Para evaluar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos
Contraste de hipótesis (normalidad de los residuos)
Según el método de prueba de Shapiro-wilk
##
## Shapiro-Wilk normality test
##
## data: modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811
Investigación
Prueba de correlación pearson
Prueba de correlación Pearson
El coeficiente de correlación de Pearson se utilza para estudiar la relación (o correlación) entre dos variables aleatorias cuantitativas (escala mínima de intervalo). Se debe de tener.
El coeficiente de correlación de Pearson comprende valores entre el -1 y el +1. Así, dependiendo de su valor, tendrá un significado u otro. Si el coeficiente de correlación de Pearson es igual a 1 o a -1, podemos considerar que la correlación que existe entre las variables estudiadas es perfecta.
Si el coeficiente es mayor que 0, la correlación es positiva (“A más, más, y a menos menos). En cambio, si es menor que 0 (negativo), la correlación es negativa (“A más, menos, y a menos, más). Finalmente, si el coeficiente es igual a 0, sólo podemos afirmar que no hay relación lineal entre las variables, pero puede haber algún otro tipo de relación.
Prueba de Shapiro-Wilk
Prueba estadística que nos permite estimar en qué medida una muestra proviene de una distribución normal.
El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal. Eligimos un nivel de significanza, por ejemplo 0,05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.
Tenemos:
\(H_0\): La distribución es normal \(H_1\): La distribución no es normal
o más formalmente aún:
\(H_0: X \sim \mathcal{N}(\mu,\sigma^2)\) \(H_1: X \nsim \mathcal{N}(\mu,\sigma^2)\)
Ahora el test Shapiro-Wilks intenta rechazar la hipotesis nula a nuestro nivel de significanza. Para realizar el test usamos la función shapiro.test en R:
Smirnov Kolmogrov
Smirnov Kolmogrov
La prueba de Kolmogórov-Smirnov es una propia perteneciente a la estadística, concretamente a la estadística inferencial. La estadística inferencial pretende extraer información sobre las poblaciones.
Se trata de una prueba de bondad de ajuste, es decir, sirve para verificar si las puntuaciones que hemos obtenido de la muestra siguen o no una distribución normal. Es decir, permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen de una población que tiene la distribución teórica especificada, es decir, lo que hace es contrastar si las observaciones podrían razonablemente proceder de la distribución especificada.
Residuals
En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la variable dependiente observados y los valores que predecimos a partir de nuestra recta de regresión.
El estudio de residuos es una herramienta formidable en el estudio de las regresiones lineales. Nos sirve para saber si se están cumpliendo las premisas de linealidad de las relaciones, homocedasticidad y normalidad de los residuos.
Conclusión
Se puede concluir que las variables diametro (girth) y Volumen (Volume) están relacionadas, ya que entre mayor sea la circuenferencia del árbol, mayor será el volumen. Se realizaron una serie de pruebas para comparar los datos con los que se pudo observar que la correlación entre estas dos variaables era muy alta.
Bibliografia
Dietrichson, A. (2019, 22 junio). 7.2 Prueba de Shapiro-Wilks | Métodos Cuantitativos. bookdown. https://bookdown.org/dietrichson/metodos-cuantitativos/test-de-normalidad.html
Ruiz Mitjana, L. (s. f.). Coeficiente de correlación de Pearson: qué es y cómo se usa. Psicología y Mente. Recuperado 1 de octubre de 2020, de https://psicologiaymente.com/miscelanea/coeficiente-correlacion-pearson
Menéndez, F. (2002). Residuos, Residuos studentizados y valores DFFIT. Universidad de la Republica. Recuperado 1 de octubre de 2020, de http://tabarefernandez.tripod.com/coco2.pdf