Regresión líneal simple parte No.2

library(prettydoc)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

Primer vistazo de datos

glimpse(trees)
## Rows: 31
## Columns: 3
## $ Girth  <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...

Resumen de posición central

summary(trees)
##      Girth           Height       Volume     
##  Min.   : 8.30   Min.   :63   Min.   :10.20  
##  1st Qu.:11.05   1st Qu.:72   1st Qu.:19.40  
##  Median :12.90   Median :76   Median :24.20  
##  Mean   :13.25   Mean   :76   Mean   :30.17  
##  3rd Qu.:15.25   3rd Qu.:80   3rd Qu.:37.30  
##  Max.   :20.60   Max.   :87   Max.   :77.00

Matriz de diagramas de dispersión

pairs(trees)

      *Volumen depende más del diámetro del árbol (no necesariamente con la altura)*

Correlación:

cor(trees)
##            Girth    Height    Volume
## Girth  1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000

Prueba de correlación de Pearson y valor de “P”

El Coeficiente de Correlación de Pearson es una medida de la correspondencia o relación lineal entre dos variables cuantitativas aleatorias. En palabras más simples se puede definir como un índice utilizado para medir el grado de relación que tienen dos variables, ambas cuantitativas.

Para determinar si la correlación entre las variables es significativa, se debe comparar el valor p con su nivel de significancia. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un α de 0.05 indica que el riesgo de concluir que existe una correlación, cuando en realidad no es así, es 5%. El valor p indica si el coeficiente de correlación es significativamente diferente de 0. (Un coeficiente de 0 indica que no existe una relación lineal).

1. Valor p ≤ α: La correlación es estadísticamente significativa

Si el valor p es menor que o igual al nivel de significancia, entonces usted puede concluir que la correlación es diferente de 0.

2. Valor p > α: La correlación no es estadísticamente significativa

Si el valor p es mayor que el nivel de significancia, entonces usted no puede concluir que la correlación es diferente de 0.

prueba de pearson

  • Determinando:
cor.test(x = trees$Girth, y = trees$Volume, method = "pearson", digits= 3)
## 
##  Pearson's product-moment correlation
## 
## data:  trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.9322519 0.9841887
## sample estimates:
##       cor 
## 0.9671194
library(GGally)
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
ggpairs(trees, lower = list( continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")
## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Nota: Continous —-> curva , continuous——-> histograma (forma)

### Conclusiones

De lo hasta ahora analizado, podemos concluir que:

  1. Observando los diagramas de dispersión notamos que : la variable de diámetro (girth) y volumen (volume) estan relacionadas.

  2. El coeficiente de correlación de pearson es bastante alto (r=0.9671) y tenemos un valor de p significativo (p-value < 2.2e-16). Esto significa que hay una intensa correlación entre las variables.

¿La correlación implica causalidad?

Cálculo del modelo de regresión lineal simple.

modelo.lineal <- lm(Volume ~ Girth, data = trees)
summary(modelo.lineal)
## 
## Call:
## lm(formula = Volume ~ Girth, data = trees)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -8.065 -3.107  0.152  3.495  9.587 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -36.9435     3.3651  -10.98 7.62e-12 ***
## Girth         5.0659     0.2474   20.48  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared:  0.9353, Adjusted R-squared:  0.9331 
## F-statistic: 419.4 on 1 and 29 DF,  p-value: < 2.2e-16

Ecuación de la recta de mínimos cuadrados.

\[ y= -36.9435 + 5.0659x\]

Intervalos de confianza

Un intervalo de confianza es un rango de valores, derivado de los estadísticos de la muestra, que posiblemente incluya el valor de un parámetro de población desconocido. Debido a su naturaleza aleatoria, es poco probable que dos muestras de una población en particular produzcan intervalos de confianza idénticos. Sin embargo, si usted repitiera muchas veces su muestra, un determinado porcentaje de los intervalos de confianza resultantes incluiría el parámetro de población desconocido.

Intervalos de confianza

  • Determinando el intervalo de confianza:
confint(modelo.lineal)
##                  2.5 %     97.5 %
## (Intercept) -43.825953 -30.060965
## Girth         4.559914   5.571799

Verificación de las condiciones para aceptar (o no) el modelo

Análisis gráfico de residuo

A tráves de un análisis de residuos

par(mfrow=c(1,2))
plot(modelo.lineal)

Puntos fuera del área sombreada , no se ajustan ala tendencia Comparación de modelo c/datos reales

Contraste de hipótesis

A tráves de la prueba de Shapiro-Wilk

shapiro.test(modelo.lineal$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811
# ver si Residuales son represenativos para el modelo.

si p>0.05 nos es significativo los residuos para considerar una equivocación

Nota: entre más chico el intervalo de confianza mayor confiabilidad

Tarea :

1. Terminar ejercicio incluyendo parte teorica y terminar codigo,y redacción.

2. Buscar una hipotesis a comprobar(Tema: 2 ó 3 cosas relacionadas——> Equipo 3 personas). . . . .

Tema: La falta de recursos económicos y tecnológicos es lo que ocasiona el atraso educativo en las zonas rurales.

Fuente: (A. 2016,07. Ejemplo de Hipótesis. Revista Ejemplode.com. Obtenido 07, 2016, de https://www.ejemplode.com/13-ciencia/4373-ejemplo_de_hipotesis.html)

Fuente: https://www.ejemplode.com/13-ciencia/4373-ejemplo_de_hipotesis.html#ixzz6Zw2iLxfm

Conclusión

Se logró establecer sí realmente exisitía algún tipo de correlación entre los datos obtenidos para el árbol de cerezo negro, en el cual se podía ver como tanto el diámetro y el volumen del mismo tenían una alta correlación entre sí , esto se pudo observar debido a que hubo un coeficinte de correlación de 0.96 , lo cual tiene sentido , ya que a mayor diametro , mayor volumen aunque no es una ley que tenga que ser así, debido a que puede ser un árbol más ancho pero más bajo.

Para el caso de la prueba de Shapiro-Wilk, se logró observar que los residuales no son bastantemente significativos para considerar el modelo líneal propuesto como erroneo.