U1A10

HéctorZapata

30/9/2020

Regresión lineal simple parte 2

Análisis exploratorio de datos

Para este ejemplo usaremos datos de árboles de cereza negros

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7
  • Primer vistazo a los datos
glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
  • Resumen estadístico de posición central
summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Análisis de correlación

Matriz de diagramas de dispersión

pairs(trees)

Matriz de coeficientes de correlación

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlación de pearson

cor.test(x = trees$Girth, y = trees$Volume, method="pearson", digits=3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194

Resumen de análisis de correlación

library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower= list(continuous = "smooth"), diag = list(continuous ="bar"), axislab="none")
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Conclusiones del análisis de correlación:

  1. Observando las gráficas de diagramas de dispersión, tenemos que: el diámetro (girth) está relacionado con el volumen (Volume).

  2. El coeficiente de correlación de pearson es bastante alto (0.9671194) y tenemos un valor de P significativo (< 2.2e-16)

  3. Tiene sentido realizar un model de regresión lineal.

Cálculo del modelo de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data= trees )
summary(modelo.lineal )
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados

\[ y = -36.9435 + 5.0659x\]

names(modelo.lineal)
##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"

Intervalos de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Condiciones para aceptar el modelo

Análisis de residuales

par(mfrow=c(1,2))
plot(modelo.lineal)

________________________________________________________________________________________________________________________-

Representación grafica del modelo

Está es una representacion grafica de nuestro modelo, podremos observar su comportamiento para así poder sacar nuestras hipotesis

ggplot(data = trees, mapping = aes(x =Girth, y = Volume))+
  geom_point(color= "firebrick", size = 2)+
  geom_smooth(method = "lm", se = TRUE, color="black")+
  labs(title = "Volumen - Diametro", x = "Diametro", y = "Volumen")+
  theme_bw()+ theme(plot.title = element_text(hjust=0.5))
## `geom_smooth()` using formula 'y ~ x'

Tarea

  • Correlación de pearson
  • Prueba de confianza
  • Shapiro-wilk
  • Residuales
  • Gráfico Q-Q

Correlación de pearson

El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se encuentra representado adecuadamente.

El coeficiente de correlación puede tomar un rango de valores de +1 a -1. Un valor de 0 indica que no hay asociación entre las dos variables. Un valor mayor que 0 indica una asociación positiva. Es decir, a medida que aumenta el valor de una variable, también lo hace el valor de la otra. Un valor menor que 0 indica una asociación negativa; es decir, a medida que aumenta el valor de una variable, el valor de la otra disminuye. ### ________________________________________________________________________________________________________________________________________________________________

Prueba de confianza

Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad). Un intervalo de confianza nos va a permitir calcular dos valores alrededor de una media muestral (uno superior y otro inferior). Estos valores van a acotar un rango dentro del cual, con una determinada probabilidad, se va a localizar el parámetro poblacional.

________________________________________________________________________________________________________________________________________________________________

Shapiro-wilk

El test de Shapiro-Wilk es un contraste de ajuste que se utiliza para comprobar si unos datos determinados (X1, X2,…, Xn) han sido extraídos de una población normal. Los parámetros de la distribución no tienen porqué ser conocidos y está adecuado para muestras pequeñas (n<50).

Un contraste de ajuste tiene como objetivo comprobar si con base en la información suministrada por una muestra se puede aceptar que la población de origen sigue una determinada distribución de probabilidad, en nuestro caso, la distribución normal. ### ________________________________________________________________________________________________________________________________________________________________

Residuales

El estudio de residuos es una herramienta formidable en el estudio de las regresiones

lineales. Nos sirve para saber si se están cumpliendo las premisas de linealidad de las relaciones, homocedasticidad y normalidad de los residuos. Los residuos studentizados y los valores DFFIT nos ayudan a encontrar casos desviantes y puntos influyentes. Es más fácil de comprender su lógica en el caso de las regresiones lineales simples. Por ello, se comenzaremos viendo su aplicación a éstas.

Definición de residuo

En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la variable dependiente observados y los valores que predecimos a partir de nuestra recta de regresión. ### ________________________________________________________________________________________________________________________________________________________________

Grafico Q-Q

Un gráfico Cuantil-Cuantil permite observar cuan cerca está la

distribución de un conjunto de datos a alguna distribución ideal ó comparar la distribución de dos conjuntos de datos.


Grafica de pearson

library(ggplot2)

ggplot(data= trees, aes(x=Girth, y= Volume))+ geom_point()

## Grafica (Q-Q)

library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
t.test(trees$Height, trees$Volume)
## 
##  Welch Two Sample t-test
## 
## data:  trees$Height and trees$Volume
## t = 14.474, df = 38.816, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  39.42348 52.23459
## sample estimates:
## mean of x mean of y 
##  76.00000  30.17097

Shapiro-wilk

shapiro.test(trees$Volume)
## 
##  Shapiro-Wilk normality test
## 
## data:  trees$Volume
## W = 0.88757, p-value = 0.003579

Residuales

 fit <- lm(log(trees$Height,)~trees$Volume)
 x<- residuals(fit); x
##             1             2             3             4             5 
## -0.0173575709 -0.0914655430 -0.1224091973 -0.0080289384  0.1023407552 
##             6             7             8             9            10 
##  0.1239522051 -0.0925692013  0.0272330496  0.0781804436  0.0219819323 
##            11            12            13            14            15 
##  0.0606594333  0.0318293773  0.0305938202 -0.0657241262  0.0244530463 
##            16            17            18            19            20 
##  0.0014544591  0.1042094690  0.1356744210 -0.0507418809 -0.1520675606 
##            21            22            23            24            25 
##  0.0161048145  0.0500715215 -0.0420989256 -0.0756756848 -0.0218186199 
##            26            27            28            29            30 
## -0.0107127115  0.0006307133 -0.0320930199 -0.0110885506 -0.0095441044 
##            31 
## -0.0059738262

Grafica de residuales

sfit<- summary(fit)

plot(fit)

Conclusión

Podemos conclir la enorme relación que hay entre el diametro y el volumen de X arbol, en este ejercició se logra concluir que en efecto hay una corelación muy grande entre los datos comparados, tambien aprendimos definiciones nuevas y como poder desarrolla un modelo de regrecion lineal de manera muy completa.

Bibliografias

Anonimo. (2020). ¿Qué es el coeficiente de correlación de Pearson?. 01/10/2020, de QuestionPro Sitio web: https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-pearson/

Alonzo Jimenez. (2006). Probabilidad y estadistica: Shapiro-wilk. 01/10/2020, de AtakaCiencia Sitio web: https://www.xatakaciencia.com/matematicas/contraste-de-shapiro-wilk

Florentino Mendez. (2002). Residuos en la estadistica. 01/10/2020, de PDF Sitio web: http://tabarefernandez.tripod.com/coco2.pdf

Dra. Diana M. Kelmansky . (2008). Graficas Q-Q. 01/10/2020, de PDF Sitio web: http://www.dm.uba.ar/materias/analisis_de_datos/2008/1/teoricas/Teor5.pdf