se establece la libreria para dar diseño.
Regresion lineal simple parte 2
Analisis exploratorio de datos
Para esto ejemplo usaremos datos de arnoles de cereza negros
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
- Primer vistazo a los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
- Resumen estadístico de posición central
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
#Analisis de correlacion
Prueba de correlacion de pearson
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
Resumen de analisis de correlacion
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
## Warning in warn_if_args_exist(list(...)): Extra arguments: "axislab" are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
conclusion del analisis de correlacion:
Observando las graficas de diagramas de dispersion, tenemos que el diametro (girth) esta relacionado con el volumen (volume).
El coeficiente de correlacion de pearson es bastante alto (0.9671194 ) y tenemos un valor de P significativo ( < 2.2e-16)
3.Tiene sentido realizar un modelo de regresion lineal.
Calculo del modelo de regresion lineal simple
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuacion de la recta de minimos cuadrados \[ y= -36.9435 + 5.0659x\]
## [1] "coefficients" "residuals" "effects" "rank"
## [5] "fitted.values" "assign" "qr" "df.residual"
## [9] "xlevels" "call" "terms" "model"
Intervalos de confianza
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
Tarea
Investigar los siguientes conceptos: Correlacion de pearson , Prueba de confianza , Shapiro-wilk , Residuales *, Grafico Q-Q
Coeficiente Correlacion de pearson
Basicamente es una prueba que mide le relacion estadistica entre variables continuas. Existe una condicion importante dentro de este coeficiente y es que si la asociacion entre los elementos no es lineal, entonces el coeficiente no es correcto, por lo tanto no se encuentra presentado adecuadamente.
Prueba de confianza
Esto se podria considerar intervalo de confianza, que es un intervalo que incluye a un rango de valores derivados de la estadistica de muestra, que posiblemente incluya un valor de una parametro desconocido. Es decir es un intervalo de extremos aleatorios que contiene el parametro deseado.
Shapiro-wilk
El test o prueba de shapiro-wilk nos plantea una hipotesis nula que nos dice que una muestra directamente proviene de una distribucion normal, su funcion principal es contrastar la normalidad de un conjunto de datos.
Residuales
Podriamos interprestar la palabra residuales como basura o algo que sobra directamente, por lo tanto podemos inferir un poco en el concepto de residual dentro del coeficiente, por lo tanto se podria definir como la varianza residual, que nos dice que cuando para describir una variable estadística, se utiliza su media, la crítica de la representatividad de ésta viene dada mediante la medida de dispersión que conocemos con el nombre de varianza.
Grafico Q-Q
Los graficos cuantil-cuantil es un metodo grafico que sirve para el diagnostico de las distintas diferencias entre la distribucion de probabilidad de ciertos datos de los que se ha extraido una muestra aleatoria y la respectiva distribucion utilizada para la comparacion.
Conclusion
Podemos concluir con esta actvidad que nos llevamos un poco mas de informacion sobre estos conceptos, tambien sobre los analisis de correlacion y la correlacion de pearson.