U1A10

Andres

9/30/2020


Regresión lineal simple parte 2

Analisis exploratorio de datos

Para este ejemplo usaremos datos de arboles de cereza negros

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7
  • Primer vistazo a los datos
glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
  • Resumen estadistico de posición central
summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Analisis de correalación

Matriz de diagramas de disperción

pairs(trees)

Matriz de coeficientes de correlación

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlación de pearson

cor.test(x = trees$Girth, y = trees$Volume, method="pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194

Resumen de analisis de correlación

library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower= list(continuous="smooth"), diag=list(continuous= "bar"), axislab="none")
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Conclusión del analisis de correlación:

  1. Observando las graficas de diagramas de dispersión, teneemos que: el diámetro (girth) está relacionado con el volumen (Volume).

  2. El coeficiente de correlación de pearson es bastante alto (0.9671194) y tenemos un valor de P significativo (< 2.2e-16)

  3. Tiene sentido realizar un model de regresión lineal.

calculo del modelo de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data = trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de minimos cuadrados

\[ y = -36.9435 + 5.0659x \]

names(modelo.lineal)
##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"

Intervalos de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Condiciones para aceptar el modelo

Analisis de residuos

par(mfrow=c(1,2))
plot(modelo.lineal)

Tarea

* Correlación de pearson

La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos alternativas.

library(ggplot2)

ggplot(data= trees, aes(x=Girth, y= Volume))+ geom_point()

* Prueba de confianza

Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad).

library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
t.test(trees$Height, trees$Volume)
## 
##  Welch Two Sample t-test
## 
## data:  trees$Height and trees$Volume
## t = 14.474, df = 38.816, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  39.42348 52.23459
## sample estimates:
## mean of x mean of y 
##  76.00000  30.17097

* Shapiro-wilk

La Prueba Shapiro Wilk evalúa si una muestra de la población está distribuida normalmente. Esta prueba es interpretada basada en el valor P. Identifica el nivel alfa. Este nivel se usa cuando comparas el valor P. El nivel alfa se ofrece con frecuencia en problemas o puede localizarse en la gráfica alfa.

shapiro.test(trees$Volume)
## 
##  Shapiro-Wilk normality test
## 
## data:  trees$Volume
## W = 0.88757, p-value = 0.003579

* Residuales

Diferencia entre el valor observado de la variable dependiente y el valor proyectado por la ecuación de regresión.

nose <- lm(log(trees$Height,)~trees$Volume)
#Los residuos res(i) 
res<- residuals(nose); res
##             1             2             3             4             5 
## -0.0173575709 -0.0914655430 -0.1224091973 -0.0080289384  0.1023407552 
##             6             7             8             9            10 
##  0.1239522051 -0.0925692013  0.0272330496  0.0781804436  0.0219819323 
##            11            12            13            14            15 
##  0.0606594333  0.0318293773  0.0305938202 -0.0657241262  0.0244530463 
##            16            17            18            19            20 
##  0.0014544591  0.1042094690  0.1356744210 -0.0507418809 -0.1520675606 
##            21            22            23            24            25 
##  0.0161048145  0.0500715215 -0.0420989256 -0.0756756848 -0.0218186199 
##            26            27            28            29            30 
## -0.0107127115  0.0006307133 -0.0320930199 -0.0110885506 -0.0095441044 
##            31 
## -0.0059738262
#Los residuos estandarizados
snose<- summary(nose)
plot(nose)

* Gráfico Q-Q

Los gráficos Q-Q (cuantil-cuantil) comparan dos distribuciones de probabilidad mediante el trazado de sus cuantiles uno contra el otro. Un gráfico Q-Q se utiliza para comparar las formas de las distribuciones, proporcionando una vista gráfica de cómo las propiedades, como la ubicación, la escala y la asimetría, son similares o diferentes en las dos distribuciones.

qqplot(trees$Girth, trees$Height)

Bibliografía

  1. Amat J. (2016) Correlacion lineal y Regresion lineal simple. Recuperado el 2 de octubre del 2020 de: https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal#bibliograf%C3%ADa

  2. Washigton J. (2018). Cómo interpretar la prueba Shapiro Wilk. Geniolandia. Recuperado el 2 de octubre del 2020 de: https://www.geniolandia.com/13131914/como-interpretar-la-prueba-shapiro-wilk

  3. Sin autor (2017). Residual. Recuperado el 2 de octubre del 2020 de: https://glosarios.servidor-alicante.com/terminos-estadistica/residual

  4. IBM (S.f). Gráficos Q-Q. Recuperado el 2 de octubre del 2020 de: https://www.ibm.com/support/knowledgecenter/es/SSLVMB_subs/statistics_mainhelp_ddita/spss/base/chart_creation_qqplot.html

Conclusión

En este script aprendimos ademas del analisis de correlacion, acerca de la correlacion de pearson, la prueba de confianza aunque ya la habiamos usado anteriormente, el shapiro-wilk, los residuales y el grafico Q-Q, aprendimos a como utilizarlos en R Markdown y analisar las graficas y las tablas que nos van surgiendo.