se establece la libreria para dar diseño.

library(pacman)
p_load("prettydoc")
setwd("~/probabilidad y estadistica")

Regresion lineal simple parte 2

Analisis exploratorio de datos

Para esto ejemplo usaremos datos de arnoles de cereza negros

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7
  • Primer vistazo a los datos
glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
  • Resumen estadístico de posición central
summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

#Analisis de correlacion

Matriz de diagramas de dispersion

pairs(trees)

### Matriz de coeficientes de correlacion

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlacion de pearson

cor.test(x=trees$Girth,y=trees$Volume, method = "pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194

Resumen de analisis de correlacion

library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower= list(continuous = "smooth"), diag = list(continuous ="bar"), axislab="none")
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

conclusion del analisis de correlacion:

  1. Observando las graficas de diagramas de dispersion, tenemos que el diametro (girth) esta relacionado con el volumen (volume).

  2. El coeficiente de correlacion de pearson es bastante alto (0.9671194 ) y tenemos un valor de P significativo ( < 2.2e-16)

3.Tiene sentido realizar un modelo de regresion lineal.

Calculo del modelo de regresion lineal simple

modelo.lineal = lm(Volume ~ Girth, data = trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuacion de la recta de minimos cuadrados \[ y= -36.9435 + 5.0659x\]

names(modelo.lineal)
##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"

Intervalos de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

condiciones para aceptar el modelo

Analisis de residuales

par(mfrow=c(1,2))
plot(modelo.lineal)

Tarea

Investigar los siguientes conceptos: Correlacion de pearson , Prueba de confianza , Shapiro-wilk , Residuales *, Grafico Q-Q

Coeficiente Correlacion de pearson

Basicamente es una prueba que mide le relacion estadistica entre variables continuas. Existe una condicion importante dentro de este coeficiente y es que si la asociacion entre los elementos no es lineal, entonces el coeficiente no es correcto, por lo tanto no se encuentra presentado adecuadamente.

Prueba de confianza

Esto se podria considerar intervalo de confianza, que es un intervalo que incluye a un rango de valores derivados de la estadistica de muestra, que posiblemente incluya un valor de una parametro desconocido. Es decir es un intervalo de extremos aleatorios que contiene el parametro deseado.

Shapiro-wilk

El test o prueba de shapiro-wilk nos plantea una hipotesis nula que nos dice que una muestra directamente proviene de una distribucion normal, su funcion principal es contrastar la normalidad de un conjunto de datos.

Residuales

Podriamos interprestar la palabra residuales como basura o algo que sobra directamente, por lo tanto podemos inferir un poco en el concepto de residual dentro del coeficiente, por lo tanto se podria definir como la varianza residual, que nos dice que cuando para describir una variable estadística, se utiliza su media, la crítica de la representatividad de ésta viene dada mediante la medida de dispersión que conocemos con el nombre de varianza.

Grafico Q-Q

Los graficos cuantil-cuantil es un metodo grafico que sirve para el diagnostico de las distintas diferencias entre la distribucion de probabilidad de ciertos datos de los que se ha extraido una muestra aleatoria y la respectiva distribucion utilizada para la comparacion.

Conclusion

Podemos concluir con esta actvidad que nos llevamos un poco mas de informacion sobre estos conceptos, tambien sobre los analisis de correlacion y la correlacion de pearson.