Regresión lineal simple parte 2

Para este ejemplo usaremos datos de árboles de cereza negros

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

*Primer vistazo a los datos

glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Analisis de correlación

Matriz de diagramas de disperción

pairs(trees)

Matriz de coeficiente de correlación

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlación de pearson

cor.test(x=trees$Girth, y= trees$Volume, method="pearson", digital=3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194

Resumen de analisis de correlacion

library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower= list(continuous="smooth"), diag=list(continuous= "bar"), axislab="none")
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

conclusiones

  1. Observando las graficas de diagramas de dispersión, tenemos que: el diametro (girth) esta relacionado con el volumen (volume).

  2. El coeficiente de correlación de pearson es bastante alto (0.9671194) y tenemos un valor de P significativo (<2.2e-16)

  3. Tiene sentido realizar un model de regresion lineal.

Calculo del modelo de regresion lineal simple

modelo.lineal <- lm(Volume ~ Girth, data= trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Recta de minimos cuadrados

\[ y=-36.9435 + 5.0659x\]

names(modelo.lineal)
##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"

Intervalos de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Condiciones para aceptar el modelo

Analisis de residuales

par(mfrow=c(1,2))
plot(modelo.lineal)

### Definiciones

Correlación de Pearson

El coeficiente de correlación de Person, normalmente denotado como “r”, es un valor estadístico que mide la relación linear entre dos variables. Los rangos de valor van de +1 a -1, lo que indica una perfecta relación linear positiva y negativa respectivamente entre ambas variables.Reporta un valor de correlación cercano a 0 como un indicador de que no hay relación linear entre las dos variables. Conforme el coeficiente de correlación se acerque al 0, los valores se vuelven menos correlacionados, lo que identifica las variables que no pueden ser relacionadas entre sí. Reporta un valor de correlación cercano al 1 como indicador de que existe una relación linear positiva entre las dos variables. Un valor mayor a cero que se acerque a 1 da como resultado una mayor correlación positiva entre la información. Reporta un valor de correlación cercano a -1 como indicador de que hay una relación linear negativa entre las dos variables. Conforme el coeficiente se acerca a -1, las variables se vuelven negativamente más correlacionadas, lo que indica que conforme una variable aumenta, la variable disminuye por una cantidad correspondiente.

Prueba de confianza

Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad). Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro poblacional.

Shapiro-wilk

La Prueba Shapiro Wilk evalúa si una muestra de la población está distribuida normalmente. Esta prueba es interpretada basada en el valor P. Identifica el nivel alfa. Este nivel se usa cuando comparas el valor P. El nivel alfa se ofrece con frecuencia en problemas o puede localizarse en la gráfica alfa. Compara el nivel alfa con el valor P. Rechaza la hipótesis nula de que el valor P es menor que el nivel alfa. Si éste es mayor que el nivel alfa, no rechaces la hipótesis nula.

Residuales

En estadística, la variación residual es otro nombre para denominar las variaciones inexplicables, la suma de cuadros de diferencias entre el valor y de cada par ordenado en la línea de regresión y cada valor de “y” estimado correspondiente; suele usarse para calcular el error estándar del cálculo aproximado.

Gráficos Q-Q

Un gráfico Cuantil-Cuantil permite observar cuan cerca está la distribución de un conjunto de datos a alguna distribución teórica ó comparar la distribución de dos conjuntos de datos.

Bibliografías en orden: 1. Perdue, M. (2018, 1 febrero). Cómo usar el coeficiente de correlación de Pearson. Geniolandia. https://www.geniolandia.com/13169112/similitudes-de-analisis-estadistico-univariado-y-multivariado

  1. Sanjuán, F. J. M. (2020, 28 abril). Intervalo de confianza. Economipedia. https://economipedia.com/definiciones/intervalo-de-confianza.html

  2. Washigton, J. (2018, 1 febrero). Cómo interpretar la prueba Shapiro Wilk. Geniolandia. https://www.geniolandia.com/13131914/como-interpretar-la-prueba-shapiro-wilk

  3. VanNatta, E. (2018, 1 febrero). ¿Cómo calcular la variación residual? Cuida tu dinero. https://www.cuidatudinero.com/13075465/como-calcular-la-variacion-residual

  4. Kelmansky, D. M. (2013). Gráficos Cuantil-Cuantil (Q-Q plots). Universidad de Buenos Aires. http://www.dm.uba.ar/materias/analisis_de_datos/2013/2/Teoricas/Teor5.pdf

Correlación de Pearson

library(ggplot2)

ggplot(data= trees, aes(x=Girth, y= Volume))+ geom_point()

Gráficos Q-Q

qqplot(trees$Girth, trees$Height)

Prueba de confianza

library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
t.test(trees$Height, trees$Volume)
## 
##  Welch Two Sample t-test
## 
## data:  trees$Height and trees$Volume
## t = 14.474, df = 38.816, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  39.42348 52.23459
## sample estimates:
## mean of x mean of y 
##  76.00000  30.17097

Shapiro-wilk

shapiro.test(trees$Volume)
## 
##  Shapiro-Wilk normality test
## 
## data:  trees$Volume
## W = 0.88757, p-value = 0.003579

Residuales

fit <- lm(log(trees$Height,)~trees$Volume)
#Los residuos e(i) 
e<- residuals(fit); e
##             1             2             3             4             5 
## -0.0173575709 -0.0914655430 -0.1224091973 -0.0080289384  0.1023407552 
##             6             7             8             9            10 
##  0.1239522051 -0.0925692013  0.0272330496  0.0781804436  0.0219819323 
##            11            12            13            14            15 
##  0.0606594333  0.0318293773  0.0305938202 -0.0657241262  0.0244530463 
##            16            17            18            19            20 
##  0.0014544591  0.1042094690  0.1356744210 -0.0507418809 -0.1520675606 
##            21            22            23            24            25 
##  0.0161048145  0.0500715215 -0.0420989256 -0.0756756848 -0.0218186199 
##            26            27            28            29            30 
## -0.0107127115  0.0006307133 -0.0320930199 -0.0110885506 -0.0095441044 
##            31 
## -0.0059738262
#Los residuos estandarizados
sfit<- summary(fit)

plot(fit)

Conclusión

En este ejercicio hemos aprendido nuevas definiciones y sus comandos. Como se aprecia hicimos una comparación de datos entre la altura, circunferencia y volumen de los árboles. Aprendimos aplicar las nuevas definiciones en estos datos como ejemplo entre la circunferencia y el volumen, la circunferencia y la altura o finalmente, la altura y el volumen.