Comparativa entre regresión linea simple y regresión logística
Caso de estudio: relación entre el pH y la temperatura de agua de posos
setwd("~/EstadisticaAplicada")
library(pacman)
p_load("readxl", "prettydoc", "DT")
pozos <- read_excel("pozos.xlsx", col_types = c("numeric",
"numeric", "numeric"))- visualizar datos en una tabla interactiva
Análisis de correlación
Matriz de coeficientes de correlación
## TEMP PHB PH
## TEMP 1.00000000 0.07826025 -0.02029087
## PHB 0.07826025 1.00000000 0.31999640
## PH -0.02029087 0.31999640 1.00000000
Ecuación de Recta de mínimos cuadrados
##
## Call:
## lm(formula = PH ~ TEMP, data = pozos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.78955 -0.09220 0.01089 0.11089 0.59587
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.017231 0.366448 19.149 <2e-16 ***
## TEMP -0.004418 0.012761 -0.346 0.729
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2219 on 291 degrees of freedom
## Multiple R-squared: 0.0004117, Adjusted R-squared: -0.003023
## F-statistic: 0.1199 on 1 and 291 DF, p-value: 0.7294
\[ y = 7.017231 -0.004418x\]
Regresión logística
- Se va a calcular la frecuencia con la cual se presentan los valores de 0 y de 1
##
## 0 1
## 263 30
- Una representación gráfica de los datos ALCALINOS/NEUTROS (0) Y ÁCIDOS (1)
colores <- NULL
colores[pozos$PHB==0] <- "red"
colores[pozos$PHB==1] <- "blue"
plot(pozos$TEMP, pozos$PHB, pch=21,bg=colores, xlab="Temperatura", ylab="pH" )- Asignación:
Terminar este análisis ajustando la curva de regresión logística
## TEMP PHB PH
## Min. :25.6 Min. :0.0000 Min. :6.10
## 1st Qu.:28.0 1st Qu.:0.0000 1st Qu.:6.80
## Median :28.7 Median :0.0000 Median :6.90
## Mean :28.7 Mean :0.1024 Mean :6.89
## 3rd Qu.:29.2 3rd Qu.:0.0000 3rd Qu.:7.00
## Max. :32.1 Max. :1.0000 Max. :7.50
datos <- data.frame(TEMP=seq(25.6,32.1,0.1))
probabilidades <- predict(regresion, datos, type = "response")
colores [pozos$PH<7] <- "red"
colores [pozos$PH>=7] <- "blue"
plot(pozos$TEMP, pozos$PH, pch = 21, bg = colores, xlab = 'Temperatura', ylab = 'Probabilidad de pH')
legend('bottomleft', c('ALCALINOS/NEUTROS', 'ÁCIDOS'), pch = 21, col = c('red', 'blue'))
lines(datos$TEMP, probabilidades, col= "green" , lwd = 3)Contestar la pregunta según estos datos: ¿Que tan relacionado está la temperatura con el pH del agua de estos pozos? La relación es que entre el agua mientras más fría se emcuentre mas alcalino es y mientras mas caliente mas ácida aunque tambien influyen la sal que esta contenga