Regresión lineal simple parte 2

Para este ejemplo usaremos datos de árboles de cereza negros

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

head(trees)

##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

Primer vistazo a los datos

glimpse(trees)

## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...

Resumen estadístico de posición central

summary(trees)

##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Analaisis de correlacion

Matriz de diagramas de dispersion

pairs(trees)

* En base al siguiente gráfico podemos determinar que en las variables “girth” y “volume” existe una tendencia similar.

Matriz de coeficientes de correlacion

cor(trees)

##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlación de pearson

cor.test(x = trees$Girth, y = trees$Volume, method="pearson", digits=3)

## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194

Resumen de análisis de correlación

library(GGally)

## Loading required package: ggplot2

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

library(ggplot2)
ggpairs(trees, lower = list(continuous = "smooth"), diag = list(continuous = "bar"), axislab = "none")

## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.

## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Conclusiones del análisis de correlación:

Observando las gráficas de diagramas de dispersión, tenemos que: el diámetro (girth) esta relacionado con el volumen (volume)

2.-El coeficiente de correlacion de pearson es bastante alto (0.9671194) y tenemos un valor de P significativo (< 2.2e-16)

3.- Tiene sentido realizar un modelo de regresión lineal.

Cálculo del modelo de regresión lineal simple.

modelo.lineal <- lm(Volume ~ Girth, data = trees)
summary(modelo.lineal)

## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de minimos cuadrados

\[ y = -36.9435 + 5.0659x\]

names(modelo.lineal)

##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"

Intervalos de confianza

confint(modelo.lineal)

##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Condiciones para aceptar el modelo

Análisis de residuales

par(mfrow = c(1,2))
plot(modelo.lineal)

Tarea

Correlación de pearson

La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos alternativas.

Recuperado de: https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Prueba de confianza

La muestra debe de contener al menos 10 observaciones verdaderas y 10 observaciones falsas. Esto para tener el nivel de confianza que tienen las gráficas al momento de predecir.

Recuperado de: https://www.cienciadedatos.net/documentos/15_inferencia_para_proporciones

Shapiro-wilk

El test de Shapiro-Wilks plantea la hipótesis nula que una muestra proviene de una distribución normal. Eligimos un nivel de significanza, por ejemplo 0,05, y tenemos una hipótesis alternativa que sostiene que la distribución no es normal.

Recuperado de: https://bookdown.org/dietrichson/metodos-cuantitativos/test-de-normalidad.html

Residuales

Puede suponerse que si la ausencia de datos se concentra en algunas variables y tiene una magnitud muy baja, se trata la falta de valores como una categoria residual que se agrega en todos los analisis.

Recuperado de: https://www.um.es/docencia/pguardio/documentos/Tec3.pdf

Gráfico Q-Q

Un gráfico Cuantil-Cuantil permite observar cuan cerca está la distribución de un conjunto de datos a alguna distribución ideal ó comparar la distribución de dos conjuntos de datos.

Recuperado de: http://www.dm.uba.ar/materias/analisis_de_datos/2008/1/teoricas/Teor5.pdf

U1A10

Juan Valenzuela

30/9/2020