Regresión lineal simple parte 2
- Para este ejercicio se utilizará la serie de datos “trees” que son medidas de árboles de “black cherry”
Black Cherry Tree
- Importar datos
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
Conociendo los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
Resumen estadístico
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Matriz de diagramas de coeficientes de correlación
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
Prueba de Correlación de pearson
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(trees, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
De lo analizado hasta aquí, podemos concluír que:
La variable “girth” esta relacionada con la variable “volume”, por lo cual la usarmeos como respuesta en este modelo.
El coeficiente de correlación de pearson es muy alto (0.9671194) y el valor de P es significativo (p-value < 2.2e-16), esto indica una correlación intensa.
SI tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia importantes
Modelo de regresión lineal simple
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados
\[y = -36.9435 + 5.0659x \]
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
Representación gráfica del modelo
library(ggplot2)
ggplot(data = trees, mapping = aes(x = Girth, y = Volume)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Volumen ~ Diámetro", x = "Diámetro", y = "Volumen") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) ## `geom_smooth()` using formula 'y ~ x'
## Verificar condiciones para aceptar o no el modelo
- para evualuar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.
Asignación
Redactar este ejercicio con sus palabras y sus conclusiones
En este ejercicio se elaboro un ánalisis muy detallado sobre las variables obtenidas de una serie de datos guardados en R (GGally) sobre las dimensiones de los árboles de “black cherry”. Una vez que conocimos los datos y hecho un resumen estadístico de los mismos, realizammos una matriz de dispersión para poder visualizar que datos estaban más correlacionados, y con la matriz de diagramas de coeficientes de correlación se confirma el valor exacto de relación de las las variables del diamtetro y el volumen de la madera de los árboles, con un valor del 96.71%al sr casi del 100% es facil demostrar el modelo de regresión lineal, por el cual graficamos la recta de mínimos cuadrados e ontervalos de confianza. Como ultima parte de este trabajo, se realizó un análisis más profundo al ejecutar diferentes pruebas, como lo son la prueba de Shapiro-Wilk, Kolmogorov-Smirnov, análisis de residuos, y de correlación de Pearson; donde obtenemos un p-value, es decir, la cantidad de valores marginados del modelo lineal, entre menor sea su valor, más acertado es el modelo. En la investigación siguiente define a detalle en que consiste cada una de estas pruebas.
Prueba de correlación pearson
El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.
El coeficiente de correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva. Es decir, a medida que aumenta el valor de una variable, también lo hace el valor de la otra. Un valor menor que 0 indica una asociación negativa; es decir, a medida que aumenta el valor de una variable, el valor de la otra disminuye.
Para llevar a cabo la correlación de Pearson es necesario cumplir lo siguiente:
- La escala de medida debe ser una escala de intervalo o relación.
- Las variables deben estar distribuida de forma aproximada.
- La asociación debe ser lineal.
- No debe haber valores atípicos en los datos.
- Cómo se calcula el coeficiente de correlación de Pearson
- La fórmula del coeficiente de correlación de Pearson es la siguiente:
Donde:
“x” es igual a la variable número uno, “y” pertenece a la variable número dos, “zx” es la desviación estándar de la variable uno, “zy” es la desviación estándar de la variable dos y “N” es es número de datos.Prueba de Shapiro-wilk
La prueba de normalidad de Shapiro-Wilk es aplicable cuando se analizan muestras compuestas por menos de 50 elementos (muestras pequeñas).
Las hipótesis estadísticas son las siguientes:
H0: La variable presenta una distribución normal H1: La variable presenta una distribución no normal
Toma de decisión: Sig(p valor) > alfa: No rechazar H0 (normal). Sig(p valor) < alfa: Rechazar H0 (no normal)
Donde alfa representa la significancia, que en este ejemplo hipotético es igual al 5% (0,05).
#Se trabajará con la variable Datos
datos<- c(23,34,45,65,54,32,23,43,54,67,87,65,45,34,54)
shapiro.test(datos)##
## Shapiro-Wilk normality test
##
## data: datos
## W = 0.9556, p-value = 0.6164
Como el p valor (0,6164) es mayor a alfa (0,05), no se rechaza la hipótesis nula (H0), por lo tanto, la variable “Datos” presenta un comportamiento normal o paramétrico.
La sintaxis básica para genera la prueba en R es:
shapiro.test(variable)
Prueba de smirnov kolmogorov
La prueba de Kolmogorov-Smirnov para una muestra es un procedimiento de “bondad de ajuste”, que permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Su objetivo es señalar si los datos provienen de una población que tiene la distribución teórica especificada, es decir, contrasta si las observaciones podrían razonablemente proceder de la distribución especificada.
Residuales
Para un valor dado X de la variable independiente, al valor Yi de la recta de regresión con frecuencia se le denomina valor ajustado de la variable independiente. La diferencia entre el valor observado Y y el valor ajustado Yi se denomina el residuo para esa observación y se denota por e:El análisis de residuales permite cotejar si las suposiciones del modelo de regresión se cumplen. Se puede detectar: a) Si efectivamente la relación entre las variables X e Y es lineal. b) Si hay normalidad de los errores. c) Si hay valores anormales en la distribución de errores (Si se usa Residual estandarizado, cualquier observación con un residual mayor de 2 o menor de -2 es considerado “outlier”) d) Si hay varianza constante (propiedad de Homocedasticidad) e) Si hay independencia de los errores.
Bibliografia
¿Qué es el coeficiente de correlación de Pearson?. (2020). Retrieved 2 October 2020, from https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-pearson/#:~:text=El%20coeficiente%20de%20correlaci%C3%B3n%20de%20Pearson%20es%20una%20prueba%20que,estad%C3%ADstica%20entre%20dos%20variables%20continuas.&text=El%20coeficiente%20de%20correlaci%C3%B3n%20puede,0%20indica%20una%20asociaci%C3%B3n%20positiva.
ÁNALISIS RESIDUAL. (s. f.). prezi.com. https://prezi.com/pk7ljkvas8az/analisis-residual/#:%7E:text=El%20an%C3%A1lisis%20residual%20permite%20evaluar,si%20los%20supuestos%20se%20cumplen