U1A13

Felipe Escarrega

29/9/2020

Regresión lineal simple parte 2

  • Para este ejercicio se utilizará la serie de datos “trees” que son medidas de árboles de “black cherry”

cherry.jpg

  • Importar datos
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

Conociendo los datos

glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...

Resumen estadístico

summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Matriz de diagramas de dispersión

pairs(trees)

Matriz de diagramas de coeficientes de correlación

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de Correlación de pearson

cor.test(x = trees$Girth, y= trees$Volume, method="pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

De lo analizado hasta aquí, podemos concluír que:

  1. La variable “girth” esta relacionada con la variable “volume”, por lo cual la usarmeos como respuesta en este modelo.

  2. El coeficiente de correlación de pearson es muy alto (0.9671194) y el valor de P es significativo (p-value < 2.2e-16), esto indica una correlación intensa.

  3. SI tiene sentido generar un modelo de regresión lineal simple, dado que tiene una correlación y significancia importantes

Modelo de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data= trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados

\[y = -36.9435 + 5.0659x \]

Intervalos de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Representación gráfica del modelo

library(ggplot2)
ggplot(data = trees, mapping = aes(x = Girth, y = Volume)) +
geom_point(color = "firebrick", size = 2) +
geom_smooth(method = "lm", se = TRUE, color = "black") +
labs(title = "Volumen ~ Diámetro", x = "Diámetro", y = "Volumen") +
theme_bw() + theme(plot.title = element_text(hjust = 0.5)) 
## `geom_smooth()` using formula 'y ~ x'

## Verificar condiciones para aceptar o no el modelo

  • para evualuar las condiciones que permiten decir que el modelo es válido, se hará un análisis de residuos.
par(mfrow =c(1,2))
plot(modelo.lineal)

Contraste de hipótesis (normalidad de los residuos)

Según el método de prueba de Shapiro-wilk

shapiro.test(modelo.lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811

Asignación

Redactar este ejercicio con sus palabras y sus conclusiones

En este ejricio hizimos un analisis muy completo de los arboles de black cherry sobre que su anchura de tronco estaba relacionado con el volumen y la correlacion daba un 96% que es muy bueno(alto), despues de esto hicimos una prueba de correlacion de pearson y nos dio el mism oporcentaje con una P muy pequeña lo que esto quiere decir que nuestro modelo es muy bueno y procedimos a hacer un alnalisis mas completo,sacamos la ecuacion de minimos cuadrados y graficamos para ver si los datos estaban muy cerca de la linea principal,al graficar nos dimos cuenta que en efecto muchos datos estaban juntos tenian poca dispersin y solo habiam uy pocos residuos para finalizar hicimos un analisis de los residuos como lo podemos ver en las graficas de arriba.

Prueba de correlación pearson

pc.png El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.

El coeficiente de correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva. Es decir, a medida que aumenta el valor de una variable, también lo hace el valor de la otra. Un valor menor que 0 indica una asociación negativa; es decir, a medida que aumenta el valor de una variable, el valor de la otra disminuye.

Para llevar a cabo la correlación de Pearson es necesario cumplir lo siguiente:

-La escala de medida debe ser una escala de intervalo o relación. -Las variables deben estar distribuida de forma aproximada. -La asociación debe ser lineal. -No debe haber valores atípicos en los datos.

Prueba de Shapiro-wilk

La prueba de normalidad de Shapiro-Wilk es aplicable cuando se analizan muestras compuestas por menos de 50 elementos (muestras pequeñas).

Las hipótesis estadísticas son las siguientes:

H0: La variable presenta una distribución normal H1: La variable presenta una distribución no normal

Toma de decisión: Sig(p valor) > alfa: No rechazar H0 (normal). Sig(p valor) < alfa: Rechazar H0 (no normal)

Donde alfa representa la significancia, que en este ejemplo hipotético es igual al 5% (0,05).

#Se trabajará con la variable Datos
datos<- c(23,34,45,65,54,32,23,43,54,67,87,65,45,34,54)
shapiro.test(datos)
## 
##  Shapiro-Wilk normality test
## 
## data:  datos
## W = 0.9556, p-value = 0.6164

Como el p valor (0,6164) es mayor a alfa (0,05), no se rechaza la hipótesis nula (H0), por lo tanto, la variable “Datos” presenta un comportamiento normal o paramétrico.

La sintaxis básica para genera la prueba en R es:

shapiro.test(variable)

Smirnov Cosmogorov

sk.jpg

La prueba de Kolmogorov–Smirnoff (K-S) es un contraste no paramétrico que tiene como objetivo determinar si la frecuencia de dos conjuntos de datos distintos siguen la misma distribución alrededor de su media.

En otras palabras, la prueba Kolmogorov–Smirnoff (K-S) es un test que se adapta a la forma de los datos y se utiliza para comprobar si dos muestras distintas siguen la misma distribución.

Residuales

En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la variable dependiente observados y los valores que predecimos a partir de nuestra recta de regresión. El estudio de residuos es una herramienta formidable en el estudio de las regresiones lineales. Nos sirve para saber si se están cumpliendo las premisas de linealidad de las relaciones, homocedasticidad y normalidad de los residuos. Los residuos studentizados y los valores DFFIT nos ayudan a encontrar casos desviantes y puntos influyentes. Es más fácil de comprender su lógica en el caso de las regresiones lineales simples. Por ello, se comenzaremos viendo su aplicación a éstas.

Bibliografia

Paula Rodo. (2016). Prueba de Kolmogorov – Smirnoff (K-S). 2020, de Economiapedia Sitio web: https://economipedia.com/definiciones/prueba-de-kolmogorov-smirnoff-k-s.html

Amon, J. (1990). Estadística para psicólogos (1). Estadística Descriptiva. Madrid: Pirámide. (*)