U1A10

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

head(trees)

##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

Primer vistazo a los datos

glimpse(trees)

## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...

Resumen estadístico de posicón central

summary(trees)

##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Análisis de correlación

Matriz de diagramas de dispersión

pairs(trees)

Matris de coedicientes de correlación

cor(trees)

##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlación de pearson

cor.test(x= trees$Girth, y= trees$Volume, method="pearson", digits=3)

## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194

Resumen de análisis de correlación

library(GGally)

## Loading required package: ggplot2

## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2

ggpairs(trees, lower= list(continuous= "smooth"), diag= list(continuous="bar"), axislab= "none")

## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.

## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Conclusiones del análisis de correlación:

Observando las gráficas de diagramas de dispersión, tenemos que: el diámetro (girth) está relacionado con el volumen (volume).
El coeficiente de correlación de pearson es bastante alto (0.9671194) y tenemos un valo de p significativo (< 2.2e-16)
Tiene sentido realizar un modelo de regresión lineal.

Cálcilo del modelo de regresión lineal simple

modelo.lineal <- lm(Volume ~ Girth, data=trees)
summary(modelo.lineal)

## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados \[ y= -36.9435 + 5.0659x \]

names(modelo.lineal)

##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"

Intervalos de confianza

confint(modelo.lineal)

##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Condiciones para aceptar el modelo

Análisis de residuales

par(mfrow=c(1,2))
plot(modelo.lineal)

Tarea

Correlación de pearson El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r), o si se aplica la población Coeficiente de Pearson poblacional (ρ).

ggplot(data= trees, aes(x=Girth, y= Volume))+ geom_point()

Prueba de confianza Un intervalo de confianza es una técnica de estimación utilizada en inferencia estadística que permite acotar un par o varios pares de valores, dentro de los cuales se encontrará la estimación puntual buscada (con una determinada probabilidad).

library(car)

## Loading required package: carData

## 
## Attaching package: 'car'

## The following object is masked from 'package:dplyr':
## 
##     recode

t.test(trees$Height, trees$Volume)

## 
##  Welch Two Sample t-test
## 
## data:  trees$Height and trees$Volume
## t = 14.474, df = 38.816, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  39.42348 52.23459
## sample estimates:
## mean of x mean of y 
##  76.00000  30.17097

Shapiro-wilk El test de Shapiro-Wilk es un contraste de ajuste que se utiliza para comprobar si unos datos determinados (X1, X2,…, Xn) han sido extraídos de una población normal.

shapiro.test(trees$Volume)

## 
##  Shapiro-Wilk normality test
## 
## data:  trees$Volume
## W = 0.88757, p-value = 0.003579

Residuales En el contexto de la regresión lineal, llamamos residuos a las diferencias entre los valores de la variable dependiente observados y los valores que predecimos a partir de nuestra recta de regresión.

fit <- lm(log(trees$Height,)~trees$Volume)
#Los residuos e(i) 
e<- residuals(fit); e

##             1             2             3             4             5 
## -0.0173575709 -0.0914655430 -0.1224091973 -0.0080289384  0.1023407552 
##             6             7             8             9            10 
##  0.1239522051 -0.0925692013  0.0272330496  0.0781804436  0.0219819323 
##            11            12            13            14            15 
##  0.0606594333  0.0318293773  0.0305938202 -0.0657241262  0.0244530463 
##            16            17            18            19            20 
##  0.0014544591  0.1042094690  0.1356744210 -0.0507418809 -0.1520675606 
##            21            22            23            24            25 
##  0.0161048145  0.0500715215 -0.0420989256 -0.0756756848 -0.0218186199 
##            26            27            28            29            30 
## -0.0107127115  0.0006307133 -0.0320930199 -0.0110885506 -0.0095441044 
##            31 
## -0.0059738262

#Los residuos estandarizados
sfit<- summary(fit)
plot(fit)

Gráfico Q-Q Un gráfico Cuantil-Cuantil permite observar cuan cerca está la distribución de un conjunto de datos a alguna distribución ideal ó comparar la distribución de dos conjuntos de datos.

qqplot(trees$Girth, trees$Height)

Conclusión

Con lo anteriormente visto, se pudo aprender a utilizar los datos de la circunferencia, el volumen y su altura, sacando su correlación. También identificamos el residuo de los datos y su ecuación de la recta de mínimos cuadrados.

Bibliografías

Amat, J. (2016). Correlación lineal y Regresión lineal simple. Recuperado de: https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_lineal

Jiménez, A. (2006). Contraste de Shapiro-Wilk. Recuperado de: https://www.xatakaciencia.com/matematicas/contraste-de-shapiro-wilk

Kelmansky, D. (2008). Análisis de datos. Recuperado de: http://www.dm.uba.ar/materias/analisis_de_datos/2008/1/teoricas/Teor5.pdf

Marco, F. (S.F.). Intervalo de confianza. Recuperado de: https://economipedia.com/definiciones/intervalo-de-confianza.html

Menéndez, F. (2002). Residuos, Residuos studentizados y valores DFFIT. Recuperado de: http://tabarefernandez.tripod.com/coco2.pdf