Regresión líneal simple parte No.2
- Este ejemplo se hará con datos de árboles de cerezas negras “blackcherry”.
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
Primer vistazo de datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
Resumen de posición central
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Matriz de diagramas de dispersión
*Volumen depende más del diámetro del árbol (no necesariamente con la altura)*
Correlación:
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
Prueba de correlación de Pearson y valor de “P”
El Coeficiente de Correlación de Pearson es una medida de la correspondencia o relación lineal entre dos variables cuantitativas aleatorias. En palabras más simples se puede definir como un índice utilizado para medir el grado de relación que tienen dos variables, ambas cuantitativas.
Para determinar si la correlación entre las variables es significativa, se debe comparar el valor p con su nivel de significancia. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un α de 0.05 indica que el riesgo de concluir que existe una correlación, cuando en realidad no es así, es 5%. El valor p indica si el coeficiente de correlación es significativamente diferente de 0. (Un coeficiente de 0 indica que no existe una relación lineal).
1. Valor p ≤ α: La correlación es estadísticamente significativa
Si el valor p es menor que o igual al nivel de significancia, entonces usted puede concluir que la correlación es diferente de 0.
2. Valor p > α: La correlación no es estadísticamente significativa
Si el valor p es mayor que el nivel de significancia, entonces usted no puede concluir que la correlación es diferente de 0.
prueba de pearson
- Determinando:
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
## Loading required package: ggplot2
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(trees, lower = list( continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Nota: Continous —-> curva , continuous——-> histograma (forma)
### Conclusiones
De lo hasta ahora analizado, podemos concluir que:
Observando los diagramas de dispersión notamos que : la variable de diámetro (girth) y volumen (volume) estan relacionadas.
El coeficiente de correlación de pearson es bastante alto (r=0.9671) y tenemos un valor de p significativo (p-value < 2.2e-16). Esto significa que hay una intensa correlación entre las variables.
¿La correlación implica causalidad?
Cálculo del modelo de regresión lineal simple.
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados.
\[ y= -36.9435 + 5.0659x\]
Intervalos de confianza
Un intervalo de confianza es un rango de valores, derivado de los estadísticos de la muestra, que posiblemente incluya el valor de un parámetro de población desconocido. Debido a su naturaleza aleatoria, es poco probable que dos muestras de una población en particular produzcan intervalos de confianza idénticos. Sin embargo, si usted repitiera muchas veces su muestra, un determinado porcentaje de los intervalos de confianza resultantes incluiría el parámetro de población desconocido.
Intervalos de confianza
- Determinando el intervalo de confianza:
## 2.5 % 97.5 %
## (Intercept) -43.825953 -30.060965
## Girth 4.559914 5.571799
Verificación de las condiciones para aceptar (o no) el modelo
Análisis gráfico de residuo
A tráves de un análisis de residuos
Puntos fuera del área sombreada , no se ajustan ala tendencia Comparación de modelo c/datos reales
Contraste de hipótesis
A tráves de la prueba de Shapiro-Wilk
##
## Shapiro-Wilk normality test
##
## data: modelo.lineal$residuals
## W = 0.97889, p-value = 0.7811
si p>0.05 nos es significativo los residuos para considerar una equivocación
Nota: entre más chico el intervalo de confianza mayor confiabilidad
Tarea :
1. Terminar ejercicio incluyendo parte teorica y terminar codigo,y redacción.
2. Buscar una hipotesis a comprobar(Tema: 2 ó 3 cosas relacionadas——> Equipo 3 personas). . . . .
Tema: La falta de recursos económicos y tecnológicos es lo que ocasiona el atraso educativo en las zonas rurales.
Fuente: (A. 2016,07. Ejemplo de Hipótesis. Revista Ejemplode.com. Obtenido 07, 2016, de https://www.ejemplode.com/13-ciencia/4373-ejemplo_de_hipotesis.html)
Fuente: https://www.ejemplode.com/13-ciencia/4373-ejemplo_de_hipotesis.html#ixzz6Zw2iLxfm
Conclusión
Se logró establecer sí realmente exisitía algún tipo de correlación entre los datos obtenidos para el árbol de cerezo negro, en el cual se podía ver como tanto el diámetro y el volumen del mismo tenían una alta correlación entre sí , esto se pudo observar debido a que hubo un coeficinte de correlación de 0.96 , lo cual tiene sentido , ya que a mayor diametro , mayor volumen aunque no es una ley que tenga que ser así, debido a que puede ser un árbol más ancho pero más bajo.
Para el caso de la prueba de Shapiro-Wilk, se logró observar que los residuales no son bastantemente significativos para considerar el modelo líneal propuesto como erroneo.