#Regresion lineal simple parte 2 ##Analisis exploracion de datos

*Para este ejemplo usaremos datos de arboles de cereza negros

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

*vistazo a los datos

glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11.3,…
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, 74…
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, 24…

*Resumen estadisticos de posicion central

summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

##Analisis de correlacion

###Primero es la matriz de diagramas de dispersion

pairs(trees)

Segunto matris de coeficiente de correlacion

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlacion de pearson

*la variable x es el diametro y la y es el volumen

cor.test(x = trees$Girth, y = trees$Volume, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194

###Veremos a continuacion un resumen de correlacion todo lo que hemos hecho resumido hay que instalar la libreria GGally **smooth pondra los intevalos de confianza

library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower= list(continuous = "smooth"), diag = list(continuous ="bar"), axislab="none")
## Warning in warn_if_args_exist(list(...)): Extra arguments: 'axislab' are being
## ignored. If these are meant to be aesthetics, submit them using the 'mapping'
## variable within ggpairs with ggplot2::aes or ggplot2::aes_string.
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

*————————————————————————————————– ##CONLUSION DEL ANALISIS DE CORRELACION

  1. Observando las graficas de diagramas de dispercion tenemos que: el diametro esta relacionado con el volumen

  2. El coeficiente de icorrelacion de pearson es bastante alta(0.9671194 ) y tenemos un valor de P significativo (<2.2e-16)

  3. Tiene sentido realizar un modelo *————————————————————————————————–

##Calculo de modelo de regresion lineal simple En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes Xᵢ y un término aleatorio ε.

modelo.lineal <- lm(Volume ~ Girth, data= trees )
summary(modelo.lineal )
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuacion de la recta de minimos cuadrados

\[y = -36.9435 + 5.0659x\] es una función de acceso genérica y names <- es una función de reemplazo genérica. Los métodos predeterminados obtienen y establecen el atributo “nombres” de un vector (incluida una lista) o pairlist.

names(modelo.lineal)
##  [1] "coefficients"  "residuals"     "effects"       "rank"         
##  [5] "fitted.values" "assign"        "qr"            "df.residual"  
##  [9] "xlevels"       "call"          "terms"         "model"

##Intervalo de confianza

confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

##el intervalo de confianza no es el resultado final para comprobar un buen analisis

###Condiciones para aceptar el modelo #residuales son lo que estimamos en contra de lo real asi se le entiende Analisis de residuales

par(mrfrow=c(1,2))
## Warning in par(mrfrow = c(1, 2)): "mrfrow" is not a graphical parameter
plot(modelo.lineal)

##Tarea

*Correlacion de pearson

correlacion de pearson se le conoce como de una medida lineal entre dos variables aleatorias cuantitativas, que nos permite conocer la intensidad y dirección de la relación entre ellas.

*Prueba de confianza

Es para corroborar que el programa o la ecuacion que estamos haciendo va salir a la prefeccion en el resultado final

*shapiro-wilk

Es una de las más utilizadas y eficientes para comprobar la normalidad de una variable, considerara que el tamaño de la muestra debe ser menor de 5000. En caso de tener más pueden usarse alguna de las muchas pruebas de normalidad que hay.

*Residuales

conocida tambien como regresion expresa la relación entre una variable numérica con otras variables predictoras. En general, muchos modelos creados en R admiten llamadas de las funciones summary y plot , que producen los resultados esperados.

*Graficos Q-Q

permite observar cuan cerca está la distribución de un conjunto de datos a alguna distribución ideal ó comparar la distribución de dos conjuntos de datos.

*————————————————————————————————-

##Conlusion

Aprendimos diferentes tipos de graficas junto invesitgar un poco las definiciones me gustaria saber como se utilizaran esas graficas q-q o shapiro-wilk en un programa tengo intriga de eso

*————————————————————————————————-