Probabilidad
Regresión lineal simple parte 2
La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la relación lineal existente entre dos variables.
Este ejemplo se hará con datos de árboles de cerezas negras “black cherry”
## Warning: package 'dplyr' was built under R version 3.6.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Girth Height Volume
## 1 8.3 70 10.3
## 2 8.6 65 10.3
## 3 8.8 63 10.2
## 4 10.5 72 16.4
## 5 10.7 81 18.8
## 6 10.8 83 19.7
Primer vistazo a los datos
## Rows: 31
## Columns: 3
## $ Girth <dbl> 8.3, 8.6, 8.8, 10.5, 10.7, 10.8, 11.0, 11.0, 11.1, 11.2, 11....
## $ Height <dbl> 70, 65, 63, 72, 81, 83, 66, 75, 80, 75, 79, 76, 76, 69, 75, ...
## $ Volume <dbl> 10.3, 10.3, 10.2, 16.4, 18.8, 19.7, 15.6, 18.2, 22.6, 19.9, ...
Resumen de posición central
## Girth Height Volume
## Min. : 8.30 Min. :63 Min. :10.20
## 1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
## Median :12.90 Median :76 Median :24.20
## Mean :13.25 Mean :76 Mean :30.17
## 3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
## Max. :20.60 Max. :87 Max. :77.00
Matriz de coeficientes de correlación lineal
## Girth Height Volume
## Girth 1.0000000 0.5192801 0.9671194
## Height 0.5192801 1.0000000 0.5982497
## Volume 0.9671194 0.5982497 1.0000000
Prueba de correlación de pearson
##
## Pearson's product-moment correlation
##
## data: trees$Girth and trees$Volume
## t = 20.478, df = 29, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.9322519 0.9841887
## sample estimates:
## cor
## 0.9671194
## Warning: package 'GGally' was built under R version 3.6.3
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 3.6.3
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
ggpairs(trees, lower = list( continuous = "smooth"), diag = list(continuous = "bar"), axisLabels = "none")## Warning in check_and_set_ggpairs_defaults("diag", diag, continuous =
## "densityDiag", : Changing diag$continuous from 'bar' to 'barDiag'
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Conclusiones
De lo hasta ahora analizado, podemos concluir que:
Observando los diagramas de dispersión notamos que: la variable de dámetro (girth) y volumen (volume) están relacionadas.
El coeficiente de correlación de pearson es bastante alto (r =0.9671194) y tenemos un valor de P significativo (p-value < 2.2e-16). Esto significa que hay una intensa correlación entre ambas variables.
¿La correlación implica causalidad?
Cálculo del modelo de regresión lineal simple
##
## Call:
## lm(formula = Volume ~ Girth, data = trees)
##
## Residuals:
## Min 1Q Median 3Q Max
## -8.065 -3.107 0.152 3.495 9.587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -36.9435 3.3651 -10.98 7.62e-12 ***
## Girth 5.0659 0.2474 20.48 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.252 on 29 degrees of freedom
## Multiple R-squared: 0.9353, Adjusted R-squared: 0.9331
## F-statistic: 419.4 on 1 and 29 DF, p-value: < 2.2e-16
Ecuación de la recta de mínimos cuadrados
\[ y = -36.9435 + 5.0659x\]
Tarea
Redacción del ejercicio
El ejercicio de correlacion y regresion lineal simple, fue la aplicacion de metodos estadísticos que estudia la realcion lineal existente entre dos variables.
La correlacion nos ayudo a cuantificar como se relacionan dos o mas variables, mientras que la regresion lineal, nos ayudo a generar una ecuacion, que nos permite predecir el valor de una variable a partir de la otra.
Investigación acerca de los siguientes conceptos
Prueba de Pearson
La función de la correlación de Pearson es determinar si existe una relación lineal entre dos variables a nivel intervalar y que esta relación no sea debida al azar; es decir, que la relación sea estadísticamente significativa.
- Ejemplo: Se desea saber si existe relación entre la autoestima y la depresión en estudiantes de preparatoria. Para ello, un investigador aplica una escala de depresión en la que los estudiantes con calificaciones más altas tienen mayor depresión; también utiliza una escala de autoestima en la que los puntajes mayores indican mayor autoestima.
Decisiones para seleccionar el coeficiente de correlación de Pearson
• Es un problema de Asociación
• V1: Depresión
• V2: Autoestima
2 variables medidas a nivel intervalar (puntaje de depresión y calificación de autoestima)
• Ho: No hay relación lineal entre el puntaje de depresión y el de autoestima en estudiantes de preparatoria (r = 0)
• Prueba estadística: coeficiente de correlación de Pearson
• Regla de decisión: Si p ≤ 0.05 se rechaza Ho
Nota: El nivel de significancia que se establece en ciencias sociales y en psicología normalmente es 0.05, este puede variar en la regla de decisión a 0.01 y 0.001 si se requiere mayor certeza en la prueba de hipótesis.
intervalos de confianza
En estadística, se llama intervalo de confianza a un par o varios pares de números entre los cuales se estima que estará cierto valor desconocido con un determinado nivel de confianza. Formalmente, estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional. El nivel de confianza representa el porcentaje de intervalos que tomados de 100 muestras independientes distintas contienen en realidad el valor desconocido.
Probabilidad
- Las líneas verticales representan 50 construcciones diferentes de intervalos de confianza para la estimación del valor μ.
valor de P.
Al probar hipótesis en las que la estadística de prueba es discreta, la región crítica se puede elegir de forma arbitraria y determinar su tamaño. Si α es demasiado grande, se puede reducir al hacer un ajuste en el valor crítico. Puede ser necesario aumentar el tamaño de la muestra para compensar la disminución que ocurre de manera automática en la potencia de la prueba (probabilidad de rechazar Ho dado que una alternativa específica es verdadera).
Por generaciones enteras de análisis estadístico, se ha hecho costumbre elegir un nivel de significancia de 0.05 ó 0.01 y seleccionar la región crítica en consecuencia. Entonces, por supuesto, el rechazo o no rechazo estricto de Ho dependerá de esa región crítica. En la estadística aplicada los usuarios han adoptado de forma extensa la aproximación del valor P. La aproximación se diseña para dar al usuario una alternativa a la simple conclusión de “rechazo” o “no rechazo”.
La aproximación del valor P como ayuda en la toma de decisiones es bastante natural pues casi todos los paquetes de computadora que proporcionan el cálculo de prueba de hipótesis entregan valores de P junto con valores de la estadística de la prueba apropiada.
Un valor P es el nivel (de significancia) más bajo en el que el valor observado de la estadística de prueba es significativo.
El valor P es el nivel de significancia más pequeño que conduce al rechazo de la hipótesis nula Ho.
El valor P es el mínimo nivel de significancia en el cual Ho sería rechazada cuando se utiliza un procedimiento de prueba especificado con un conjunto dado de información. Una vez que el valor de P se haya determinado, la conclusión en cualquier nivel α particular resulta de comparar el valor P con α
- Valor P ≤ α rechazar Ho al nivel α.
- Valor P > α No rechazar Ho al nivel α.
Ensayo Unilateral Derecho:
Probabilidad
Ensayo Unilateral Izquierdo:
Probabilidad
Ensayo Bilateral:
Probabilidad